Continuamos al hilo de la entrada anterior con un fenómeno por el que, a partir de los años 40, empezó a decaer la investigación con respecto a los efectos de las pruebas o «exámenes» en el aprendizaje.
Quizá la propuesta de varios autores como McGeoch, Melton & Irwin y Crowder sobre la llamada Teoría de la Interferencia, fue una de las causas. Con el fin de medir el olvido, consideraron que las pruebas repetidas eran un error que no debía cometerse pues una prueba inicial interrumpe el curso del olvido. Otros autores como Hilgard (1951, p.557) o Deese argumentaron también en contra del uso de diseños de pruebas repetidas. Este último describe en su obra cómo las medidas posteriores quedan contaminadas por la práctica que permite dicha prueba inicial, lo que efectivamente influye si el objeto de estudio es el olvido, pero no sobre el efecto que producen las pruebas en sí.
A finales de la década de los 50 estalló otra controversia sobre la naturaleza del aprendizaje, donde unos autores argumentaban que «el aprender» era una cuestión de todo o nada (Rock, 1957), mientras que otros señalaban que los elementos individuales se aprendían a través de un proceso ‘in crescendo‘ porque cada uno de ellos estaba representado por una traza que se iba fortaleciendo por cada repetición sucesiva y, una vez que se acumula suficiente fuerza, se cruza un determinado umbral por el que un elemento será recordado.
Lamentablemente, esta polémica no sirvió más que para frenar la investigación porque no llegaron a una conclusión concreta, aunque la suposición de la gradualidad sigue siendo incorporada en gran medida en las teorías de hoy en día. Hasta Tulving señaló que era una discusión irrelevante porque «cada elemento en un experimento de este tipo puede ser recordado perfectamente de forma inmediata a su presentación«.
Tanto las posiciones referidas al proceso ‘in crescendo’ como las del ‘todo o nada’, hacen suponer que el aprendizaje ocurre durante los ensayos de estudio, cuando los estudiantes están expuestos al material, y que los ensayos de prueba simplemente permiten a los estudiantes exhibir lo que han aprendido en ensayos de estudio anteriores. Esta premisa es la que llevó a considerar los exámenes como simples dispositivos de evaluación. Sin embargo, fue el propio Tulving quien puso en duda esta suposición y ayudó a iniciar una nueva ola de investigación sobre las pruebas.
Tulving, memoria y aprendizaje
Realizó un experimento consistente en que los sujetos aprendieran listas de 36 palabras presentadas en un orden aleatorio diferente en cada ensayo de estudio, y luego realizaran pruebas de memoria libre (los sujetos recordaron en voz alta tantos elementos como les fue posible, en cualquier orden, y el experimentador registró las respuestas):
- En la condición de aprendizaje estándar, los estudiantes vieron la lista, la recordaron, la vieron, la recordaron, y así sucesivamente durante 24 ensayos. Tulving consideró un ciclo cada 4 ensayos realizados.
- En la condición de estudio repetido, cada ciclo consistió en 3 ensayos de estudio y 1 ensayo de prueba, dando lugar a un total de 18 ensayos de estudio y 6 ensayos de prueba.
- En la condición de prueba repetida, cada ciclo contenía 1 ensayo de estudio seguido de 3 ensayos de pruebas consecutivos, dando lugar a un total de sólo 6 ensayos de estudio y 18 ensayos de prueba durante toda la fase de aprendizaje.
Si S representa un ensayo de estudio y T representa un ensayo de prueba, la condición estándar puede representarse como STST; la condición de estudio repetido sería SSST y la de prueba repetida STTT.
Por el supuesto común de que el aprendizaje se produce sólo durante los ensayos de estudio, los sujetos en la condición de prueba repetida deberían haber estado en una gran desventaja en comparación con los de las otras dos condiciones. La sorpresa en la investigación de Tulving fue que las curvas de aprendizaje de las tres condiciones parecían casi iguales. Al final del experimento, los sujetos recordaron cerca de 20 palabras tanto en condición estándar como en la de estudio repetido, a pesar de que habían estudiado las palabras seis veces más; mientras tanto, en la condición de prueba repetida recordaron un poco menos, aproximadamente 18’5 palabras. Esta ligera diferencia se explica probablemente en parte por el hecho que los sujetos en las condiciones de estudio repetido acababan de escuchar la lista antes del último ensayo de prueba, por lo que podían utilizar la memoria de trabajo para recordar los últimos elementos. Los sujetos en la condición de prueba repetida no podían hacer esto porque acababan de tener otras dos evaluaciones antes de su última prueba.
Aparentemente, dentro de límites bastante amplios (6, 12 o 18 ensayos), un ensayo de estudio puede ser reemplazado por un ensayo de prueba. En otras palabras, el aprendizaje ocurre tanto en un ensayo de prueba como en un ensayo de estudio. Como ya comenté en la entrada anterior según el trabajo de Gates, debe haber algunas oportunidades de estudio antes de que las pruebas puedan tener un efecto, pero la sorpresa es lo amplia que es la variabilidad.
En la propia investigación de los autores Karpicke & Roediger (2006b) que hicieron esta revisión histórica, realizaron un análisis con las tres mismas condiciones que Tulving pero utilizando 40 palabras a una tasa de presentación de tres segundos por palabra. Esto se hizo porque entendieron que si en estudios previos sólo habían recordado 20 palabras de 36 después de tantos ensayos de estudio y de prueba, seguramente era porque se dio muy poco tiempo a los sujetos para recordar todo lo que sabían. Eliminaron, a su vez, los efectos de la memoria de trabajo y proporcionaron una prueba diferida una semana después para examinar los efectos duraderos de los tres programas de estudio sobre la retención a largo plazo. Sus resultados durante la fase de aprendizaje indican que los sujetos en la condición de prueba repetida estaban en desventaja al principio del aprendizaje (en los ensayos 4 y 8), pero rápidamente se pusieron al día con la condición de estudio repetido, por lo que hubo poca diferencia entre estas dos condiciones más tarde (ensayos 12, 16, y 20).
Curiosamente, el grupo estándar tuvo mejores resultados que los otros dos grupos en las últimas cuatro pruebas, diferencia que fue estadísticamente significativa. La ventaja para la condición estándar probablemente surgió porque un ensayo de estudio justo después de un ensayo de prueba sirve como retroalimentación para lo que los estudiantes no saben (pueden reconocer palabras que no pudieron recordar y centrar sus esfuerzos de estudio en ellas), además que la condición estándar tenía más ensayos de prueba seguidos inmediatamente por ensayos de estudio que las otras condiciones.
Retención a largo plazo
Midieron también el rendimiento después de un retraso de una semana, donde los sujetos tenían 10 minutos para recordar y al final de cada minuto trazaban una línea bajo la última palabra recordada, lo que permitió medir cómo se acumula el recuerdo a través del tiempo. Desde el primer minuto del período de prueba final, los sujetos en la condición de estudio repetido tuvieron peor rendimiento que los de las otras dos condiciones.
Al final del período de recuperación, los sujetos en las condiciones estándar y de prueba repetida recordaron 68% y 64% de las 40 palabras, respectivamente, mientras que aquellos en la condición de estudio repetido recordaron sólo 57% de las palabras (diferencia que fue estadísticamente significativa con respecto a las otras dos condiciones, que no diferían). A pesar de que los sujetos en la condición de estudio repetido se habían aprendido la lista 15 veces una semana antes y aquellos en la condición de prueba repetida lo habían estudiado sólo 5 veces, la retención a largo plazo fue mayor para este último grupo.
Otros experimentos anteriores a los de los autores de la revisión, como los de Hogan y Kintsch (1971), mostraron también la ventaja de los ensayos de prueba sobre los ensayos de estudio en la promoción de la retención a largo plazo. En un experimento, un primer grupo de sujetos tuvo que estudiar una lista de 40 palabras cuatro veces, con sólo breves pausas entre las presentaciones de las listas. Un segundo grupo estudió la lista una vez y luego tomó tres pruebas de memoria libre consecutivas (similar a un solo ciclo en la condición de prueba repetida de Tulving).
Ambos grupos regresaron dos días después para una prueba final. El grupo de estudio puro recordó el 15% de las palabras, mientras que el grupo que recibió solo un ensayo de estudio pero tres pruebas recordó el 20%. Un solo ensayo de estudio y tres pruebas produjeron significativamente mejor recuerdo que el estudio del material cuatro veces.
Thompson, Wenger y Bartling (1978) replicaron los resultados de Hogan y Kintsch utilizando de nuevo 40 palabras pero con dos nuevas variables. Además de las condiciones con cuatro ensayos de estudio (condición de estudio repetido) y un ensayo de estudio y tres pruebas (condición de prueba repetido), incluyeron una condición de prueba más un recuerdo añadido en la que los sujetos estudiaron la lista una vez, la recordaron, estudiaron sólo las palabras no recordadas, rememoraron de nuevo la lista completa y así sucesivamente para tres episodios de prueba de estudio más, con las listas de estudio cada vez más cortas.
Además de añadir esta condición al diseño de Hogan y Kintsch, incluyeron pruebas finales 5 minutos después de la fase de aprendizaje y 2 días después. En la prueba final de cinco minutos, los resultados indican que la condición de prueba repetida tuvo el peor rendimiento seguida del grupo de estudio puro, siendo la condición de prueba más un recuerdo extra la que obtuvo mejores resultados. No obstante, en la prueba final dos días después, las cosas cambiaron: los sujetos en la condición de estudio repetido olvidaron el 56% de lo que originalmente podían recordar, mientras que los estudiantes en la condición de prueba más un recuerdo añadido olvidaron el 26%, siendo esta vez la condición de prueba repetida la que presentó el menor olvido con tan sólo un 13%.
En un experimento posterior de los propios Karpicke & Roediger, demostraron algo esencial sobre los resultados del estudio de Thompson et al., y es que habían requerido la recuperación de toda la lista durante cada prueba. Es decir, que las pruebas repetidas de todo el conjunto de material son fundamentales para mejorar la retención a largo plazo.
¿Se repetirá el mismo patrón cuando el material a aprender sea similar a los utilizados en entornos educativos? Echa un vistazo a LAS OTRAS ENTRADAS SOBRE ESTE TEMA.
J_Argüeso