02 March 2012

La puntuación de los revisores no es normal


En ningún campo una muestra de 2, 3 ó 4, se consideraría representativa ni suficiente para sacar ninguna conclusión o tomar ninguna decisión, pero así lo hacemos a la hora de puntuar un artículo de investigación: se pregunta a unos pocos revisores, dan su puntuación y sus opiniones y, en base a eso, se toma una decisión (aceptar o rechazar el artículo) o se emite un juicio (el artículo es bueno, mediocre o malo).

¿Por qué, como investigadores, aceptamos ese sistema, estadísticamente ridículo? En realidad por criterios prácticos, pero nos gusta escudarnos en criterios "científicos" arguyendo algo parecido a lo que ocurre con los representantes políticos. Se supone que los representantes políticos actúan en nombre de la opinión de sus votantes y que son expertos en su trabajo.

En nuestro caso, se supone que los revisores actúan como representantes del conocimiento y del estado del arte de un campo de investigación. Es decir, los revisores actúan como personas "representativas". Por tanto, no hace falta más que una pequeña muestra (porque es representativa) de sus puntuaciones para tomar una decisión "correcta".

La pregunta que surge es: ¿se sabe cuál es la distribución de población de la variable "puntuación otorgada por revisores en un artículo de investigación"? ¿Se tienen datos? ¿Hay algún estudio? Si algún lector tiene algo de información, le ruego deje un comentario.

Como digo, y en eso nos basamos, uno esperaría que los expertos coincidieran al menos razonablemente al emitir puntuaciones sobre artículos de investigación. Es decir, que siguiera una distribución normal con poca dispersión. ¿Ocurre así? Aquí he pintado dos box plots con cuatro puntuaciones cada uno (de 0 a 10) de sendos artículos de investigación enviados a una misma conferencia:





Si pudiéramos pintar muchos box plots como éstos y todos siguieran el patrón que siguen esos dos, nos encontraríamos ante una muestra con: (a) una gran dispersión, (b) una distribución en U o bimodal. O, en román paladino, que los revisores no se ponen de acuerdo y dan puntuaciones bastante alejadas entre sí, que tienden a agruparse en dos extremos opuestos.

Estadísticamente hablando, se suele decir que una muestra con una distribución bimodal es generalmente un fuerte indicador de que la distribución de la variable en la población no es normal.

Y eso es lo que yo siempre he sospechado: que la puntuación que dan los revisores no es normal.

Saludos.

No comments: