jueves, 8 de octubre de 2015

Bayes: la importancia de comprender la información

Por Adrián Paenza: 
La incidencia que puede tener un matemático en la toma de decisiones en la vida real es cada vez más notable. Quiero mostrar aquí algunos ejemplos (de los miles que hay) sobre los riesgos que se corre en la vida cotidiana si no hay un matemático para interpretar los datos: 
a) A una mujer de 40 años a la que se le hizo una mamografía le dio positivo. ¿Significa que tiene cáncer de mama? 
b) A un atleta le dio positivo un test por supuesto uso de esteroides. ¿Significa que efectivamente los estaba usando? 
c) Una prueba de ADN parece indicar que una persona fue el autor de un crimen. ¿Cuál es el grado de certeza de que eso sea cierto? 
Como se ve, el grado de sensibilidad de cada uno de estos casos merece una atención particular. Naturalmente, yo no soy un experto, ni mucho menos, sino que en este tema “toco de oído” (que, por cierto, no es muy bueno últimamente), y no tengo suficientes conocimientos como para poder revelar casos relevantes. 
Pero lo que sí tengo es suficiente experiencia como para poder alertar a quienes corresponda (o sea, a toda la población) sobre que es muy importante saber interpretar datos de la realidad, y que para eso hace falta gente experta (ciertamente no yo). 
De todos los ejemplos que conozco (y son muchos), elegí adaptar uno que me parece claro para entender la situación. Es una “versión libre” del que plantea el especialista en inteligencia artificial Eliezer Yudkowsky, investigador (entre otros lugares) en la Universidad de Stanford en Estados Unidos.

El planteo

Los datos que figuran a partir de acá son ficticios. Los inventé para poder exhibir el problema, pero no se corresponden con la realidad (esta aclaración me hace acordar a lo que aparece siempre en las películas: “Cualquier parecido o semejanza con la realidad es pura coincidencia”). 
Supongamos que su médico de cabecera sospecha que, de acuerdo con los síntomas que detecta, usted podría tener una rara variedad de cáncer. Y quiere someterla/lo a un determinado test para confirmarlo o descartarlo. 
El médico le explica que de acuerdo con los estudios que se han hecho y que son de dominio público y universal –es decir, en todo el mundo se aceptan como válidos al día del test–, esta enfermedad afecta sólo al 1 por ciento de la población. 
En resumen: se sabe que sólo una persona de cada cien tiene la enfermedad (la probabilidad de tenerla es 0,01). 
Por otro lado, se sabe que el único test que se conoce para detectar el problema no es infalible. Es decir: si una persona tiene la enfermedad, el resultado va a ser positivo sin ninguna duda. 
Pero podría pasar que usted no tenga esta variedad de cáncer y que, sin embargo, el test dé positivo igual. Es lo que se llama un falso positivo. 
Más aún: se sabe que el 20 por ciento de las veces el resultado es positivo aunque no haya cáncer. O sea, el 80 por ciento de las veces que da positivo, el paciente está enfermo. Pero en el restante 20 por ciento de los casos (que da positivo) no hay nada anómalo. 
Pregunta: cuando a usted le hacen el test, ¡y le da positivo!, ¿cuál es la probabilidad de que efectivamente tenga este cáncer? 
Acá, una pausa. ¿Entiende usted el planteo que estoy haciendo? No vale la pena que se pierda justo ahora. Relea lo anterior y convénzase de que siguió lo que dice.
Resumo yo los datos que se tienen sobre esta variedad de cáncer: 
a) Lo padece el 1 por ciento de la población. Es decir, sólo una de cada cien personas. 
b) Si una persona tiene este cáncer, el test lo detecta y el resultado es siempre positivo. En ese sentido, el test es perfecto.
c) Otro dato: en el 80 por ciento de los casos que da positivo, la persona tiene este cáncer. 
d) En el 20 por ciento de los casos, el test da positivo; pero, sin embargo, la persona no está enferma (un “falso positivo”). 
Obviamente, a una persona sospechada de tener la enfermedad (y a su médico) sólo le importa saber si la tiene o no. Para eso usa el test. Y quiere saber cuán confiable es. 
¿Qué quiere decir que dio positivo? ¿Qué probabilidad tiene de estar enfermo (de esa variedad de cáncer)? ¿Quién interpreta esos datos? 
Aquí lo dejo sola/o a usted. ¿Qué contestaría?

Reflexiones 
La tentación es decir que si a una persona le dio positivo el test, entonces tiene un 80 por ciento de posibilidades de tener ese cáncer. Y eso es lo que contestaría la mayoría de nosotros. 
Peor aún: varios estudios hechos en Estados Unidos, Francia e Italia (ver nota al pie de página) muestran que cuando los propios médicos son los que tuvieron que contestar la pregunta, sólo respondió correctamente el 15 por ciento (¡quince por ciento!). Y uno de esos exámenes se hizo (es cierto que en 1978) en uno de los hospitales de Harvard, nada menos. Pero hay otros posteriores que exhiben que el problema persiste aún ahora. 
Lo que quiero, entonces, es invitarla/o a pensar conmigo y ver cómo la matemática ayuda a resolver el problema. 
Supongamos que la ciudad en la que usted vive es de 10.000 personas (como sólo vamos a hablar de porcentajes, fijar el número en 10.000 no producirá ninguna variante en el resultado final). Esto quiere decir que como sabemos que una de cada 100 personas tiene este cáncer, tiene que haber 100 personas (el 1 por ciento de 10.000 es 100) que lo padecen. 
Dicho esto, de las restantes 9900 personas, si todas se hicieran el test, ¿a cuántas le daría positivo? (Recuerde que el test ofrecía un 20 por ciento de falsos positivos.) Luego, el 20 por ciento de 9900 personas implica que habría otros 1980 positivos más. 
En total, contando las 100 personas que dan positivo porque tendrían el cáncer, más las 1980 que darían positivo sólo por las fallas en el test, tendríamos 2080 personas que darían positivo. 
Usted es una de ellas. La pregunta era: ¿cuál es la probabilidad de que, siendo positivo, tenga el cáncer? 
Traducido en estos números quiere decir: ¿cuál es la probabilidad de que usted sea uno de los 100 que entre los 2080 tienen el cáncer? 
La respuesta es: 
100/2080 = (aprox.) 0,04876 
Luego, usted tiene un 4,87 por ciento de posibilidades de tener el cáncer (¡menos del 5 por ciento!), que ciertamente es un porcentaje importante, pero está bien lejos del 80 por ciento que parecía en principio. 
Como dice Yudkowsky, “cuando uno se tropieza por primera vez con problemas de este tipo, tiene la tentación de reemplazar el 1 por ciento de incidencia que había en la población (el dato original) por el del 80 por ciento que se sabe que da positivo en el caso en que alguien tenga esta variedad de cáncer”. Y concluye: “La probabilidad de que una persona a la que le da positivo el test tenga este cáncer no es la misma que la probabilidad de que a una persona que tenga este cáncer le dé positivo el test”.

Moraleja

Obviamente, los médicos no tienen por qué ser matemáticos, ni por qué saber interpretar estos datos. Para eso están los matemáticos. Pero los médicos no pueden ignorar que, si van a manejar estadísticas de este tipo, necesitan tener el conocimiento como para hacerlo y sacar conclusiones. La autoridad que socialmente tienen los médicos sobre nuestras vidas los obliga a tener que esforzarse en problemas de este tipo. 
De la misma forma, hay ejemplos de atletas (Mary Slaney, velocista norteamericana en los Juegos Olímpicos de 1996) que fueron suspendidos por el supuesto uso de esteroides y cuyos abogados probaron que había sido una mala lectura de la información recogida. 
Y también hay casos de jueces que encontraron paternidades donde no las había, o acusados y condenados por crímenes que no habían cometido. La lista es muy larga (y el espacio y mis conocimientos, muy cortos). 
Con todo, el aporte más importante para poder aprovechar de métodos (como el test de arriba), que si bien no son infalibles son mejores que no tener nada, lo hizo Thomas Bayes (1702-1761), un matemático y presbítero inglés, quien con el teorema que demostró (Teorema de Bayes, obvio) dejó con su famoso resultado un legado para siempre y una alternativa para poder mejorar la calidad de interpretación de los datos que se tienen. 

Lo notable de este ejemplo es que una vez que uno entendió el problema y leyó la solución, piensa: ¿cómo es posible que no se me haya ocurrido antes? Pero en el momento en que la vida de una o varias personas depende de algo tan sensible, como la interpretación de los datos, es cuando uno necesita la más alta calidad de ciencia. 
Behavioural Decision Theory, de E.C. Poulton (EE.UU.), Chances and Frequencies in Probabilistic Reasoning: Rejoinder to Hoffrage, Gigerenzer, Krauss and Martignon, de Vittorio Girotto (Italia) y Michel Gonzalez (Francia).

No hay comentarios:

Publicar un comentario