Para qué sirven los exámenes

Multitud de estudios se han llevado a cabo para dar respuesta a esta y otras preguntas íntimamente relacionadas. A lo largo de varias entradas intentaré hacer un hilo conductor que lleve a comprender mejor cómo se produce el aprendizaje de los contenidos curriculares de una manera más eficiente.

Examinaremos, por un lado, estudios de laboratorio que revelan el potencial de las pruebas, exámenes o evaluaciones para mejorar la retención, y estudios que demuestran los efectos básicos en entornos educativos. Tendremos en consideración también los conceptos relacionados de las pruebas dinámicas y la evaluación formativa, además de los posibles efectos negativos de las evaluaciones, hasta llegar a las recomendaciones de la Psicología para mejorar la forma de estudiar:

La idea que tiene la mayoría sobre un examen se refiere a una prueba que se realiza al final de uno o varios temas explicados por el profesor, practicados en aula con una metodología u otra y teóricamente interiorizados por los alumnos. Aunque actualmente se valoran otras muchas cuestiones además de una puntuación única en un momento determinado, creo que es interesante ahondar en esta cuestión y dejar claro qué es lo que nos dice la investigación científica.

El llamado ‘Efecto de Prueba’

Este fenómeno ha sido estudiado por psicólogos experimentales a lo largo de los años, pero a partir de la década de los 80 hay poca literatura y rara vez se ha aplicado con la intención de extrapolar los resultados al ámbito educativo. ¿Son las pruebas eficaces o es un método de evaluación del alumnado obsoleto y en vías de extinción?. ¿Miden o infieren lo que un alumno ha aprendido realmente? ¿Sirven para algo más que para puntuar un supuesto conocimiento alcanzado?.

El mismo William James argumentó a finales del siglo XIX en su obra ‘Los Principios de la Psicología’ : «las cosas se impresionan mejor por la repetición activa que pasiva… al aprender cuando casi conocemos la pieza, es mejor esperar y recordar por un esfuerzo desde dentro que mirar el libro de nuevo».

De la misma opinión eran Abbott en 1909 y Thorndike en 1914 con sus respectivas investigaciones, mencionado este último como referente de la Psicología Educativa en la PRIMERA ENTRADA DE ESTE BLOG.

Analizaré este artículo que hace una revisión exhaustiva de la literatura a lo largo del siglo XX y llega a conclusiones interesantes y de no tan difícil aplicación en las aulas. En muchos de los experimentos que describen, un grupo de estudiantes debía aprender una serie de cuestiones que eran «evaluadas» con una prueba inicial e incluso con varias repetidas. La retención del material se determinó con una prueba de criterio final y el rendimiento del grupo que realizaba exámenes se comparó con uno o dos grupos de control.

  • En un tipo de control, los estudiantes estudiaron el material y tomaron la prueba final, pero no se les dio una prueba inicial como al otro grupo.
  • En un segundo tipo de control, los estudiantes estudiaron el material pero luego volvieron a reestudiarlo una segunda vez mientras el primer grupo recibía la prueba inicial; el tiempo total de exposición al material se equiparó para los grupos de ensayo y de control.

¿Superará el grupo de ensayo a ambos tipos de grupos de control en la prueba final? ¿Influye el hecho de que los estudiantes reciban retroalimentación por parte del profesor sobre los resultados de la prueba inicial?. En variaciones de este experimento se han investigado los efectos de otras variables como el tipo de material a aprender, el formato de las pruebas, el intervalo de retención antes de la prueba final, etc. La idea es ver si el resultado es robusto a través de una amplia variedad de contextos.

Los primeros estudios sobre el efecto de los exámenes

Gates (1917) y Spitzer (1939) publicaron dos estudios clásicos que muestran fuertes efectos positivos de las pruebas en la retención, siendo el primero quien llevó a cabo un estudio pionero a gran escala con niños de diversos grados y utilizando dos tipos diferentes de materiales: sílabas sin sentido y biografías breves.

Los niños estudiaron estos materiales durante un procedimiento de aprendizaje de dos fases:

  • En la primera fase se leen el contenido a sí mismos.
  • En la segunda fase el experimentador les instruyó para tratar de recordar la información (recitación encubierta) sin el material delante, aunque se les permitió echar un vistazo cuando necesitaban refrescar sus recuerdos. Aunque esta característica del diseño relajó el control experimental, probablemente capturó fielmente lo que los estudiantes hacen en una condición u otra a la hora de estudiar.

Gates manipuló la cantidad de tiempo que los niños pasaban recitando, haciendo que dejaran de leer y comenzaran a recuperar la información después de intervalos de tiempo distintos. Al final del período les hizo una prueba pidiéndoles que escribieran tantos artículos como pudieran en orden de aparición. Luego volvió a examinar a los niños de 3 a 4 horas más tarde.

En las sílabas sin sentido, todos los grupos excepto los de primer grado (a tener en cuenta que estos niños mostraban aún habilidades de lectura pobres), mostraron un fuerte efecto cuando debían recuperar la información y no sólo estudiarla. Cuando el material eran las biografías breves, todos los grupos mostraron también el mismo efecto, aunque no fue tan robusto en las pruebas iniciales como en las más dilatadas en el tiempo.

En dicho artículo concluyó que los intentos de recordar durante el aprendizaje son una buena manera de promover este. Argumentó, además, que los resultados tenían importantes implicaciones para la práctica educativa y describió formas de incorporar esa metodología en los ejercicios de clase.

Sin embargo, el trabajo de Gates también señaló las limitaciones referidas a los estudiantes de primer grado que no mostraron el efecto, lo que sugiere que puede ocurrir sólo después de un cierto punto de desarrollo. Otro punto que analizaremos más adelante es que, con los pasajes en prosa, el efecto de la autorrecuperación se estabilizó e incluso pareció disminuir cuando la cantidad de tiempo dedicado superó el 60%, y en consecuencia el tiempo de estudio fue inferior al 40%.

Por lo tanto, los datos sugieren que una cierta cantidad de estudio puede ser necesaria antes de una prueba para que influya sobre el aprendizaje de los contenidos.

En el estudio de Spitzer se utilizó a toda la población de estudiantes de sexto grado en 91 escuelas primarias en nueve ciudades de Iowa, un total de 3.605 estudiantes. El experimento consistió en que estudiaran artículos de 600 palabras que eran similares al material que podrían estudiar en la escuela y luego fueron evaluados de acuerdo a varios horarios durante los siguientes dos meses. Introdujo una de las variables antes mencionadas con respecto al tipo de formato de la prueba. Cada una de esas evaluaciones consistió en 25 artículos de opción múltiple con cinco alternativas de respuesta. Algunos estudiantes realizaron una sola prueba dos meses después, mientras que otros hicieron además varias pruebas anteriores para ver qué efecto tendrían en el examen final.

Se pudieron discernir varios patrones interesantes en los resultados:

  • Cuanto más tiempo se retrasó la primera prueba, peor fue el rendimiento en la misma.
  • El hecho de realizar una prueba, casi consiguió que no se produjese un efecto de olvido. Es decir, cuando a los estudiantes se les dio una primera prueba y luego se volvió a probar en un momento posterior, su rendimiento no sólo no cayó sino que en ocasiones incluso mejoró.
  • Cuanto antes se realice la prueba inicial después del estudio, mejores resultados tendrán los estudiantes en las pruebas posteriores.

La lección del estudio de Spitzer es que una primera prueba (sin retroalimentación siquiera) debe ser administrada relativamente poco después del estudio (cuando el estudiante todavía puede recordar o reconocer el material) con el fin de tener un efecto positivo en un momento posterior.

Los trabajos de Gates y Spitzer se encontraban entre los más extensos de su época, aunque hay otro también exhaustivo y del que se han hecho eco posteriormente numerosos autores para sus propias investigaciones.

Aunque algunas de las características de las técnicas experimentales de estos dos estudios no aguantarían los estándares de calidad de hoy, los puntos esenciales han sido replicados posteriormente en numerosas ocasiones. Como ejemplos y para finalizar esta entrada que tendrá su continuación, Forlano replicó, en 1936, el trabajo de Gates y demostró que las pruebas mejoran no sólo el aprendizaje sino también la ortografía de las palabras que forman parte del vocabulario de los niños; Sones y Stroud por su parte, en 1949, replicaron el estudio de Spitzer aunque a menor escala.

¿Se repetirán los resultados en estudios posteriores? ¿Qué otras variables pueden influir en la mayor o menor eficiencia en el aprendizaje de los contenidos? ¿Por qué a menudo se olvida lo estudiado una vez realizado el examen? ¿Es importante dar feedback a los estudiantes sobre los resultados de las pruebas? A estas y otras preguntas contesto en LAS SIGUIENTES ENTRADAS RELACIONADAS, siempre con el apoyo de la investigación.

J_Argüeso

Deja un comentario

Tu dirección de correo electrónico no será publicada.

error: Cuesta mucho trabajo formarse