Ir al contenido principal

Validación: qué es y cómo se hace

Inauguramos el blog hablando sobre las técnicas utilizadas para detectar enfermedades. Cuando nos hacen unas analíticas (por ejemplo de sangre u orina) para confirmar o descartar patologías, ¿qué técnica es la mejor? ¿La queremos más sensible o más específica? Espera espera, ¿cómo que sensible y específico no es lo mismo? Pues no, vamos a ello.

Para que una técnica sea utilizada en sanidad necesito que sea validada. La validación es un conjunto de procesos mediante los cuales sabemos si una técnica es fiable y útil para detectar una enfermedad en concreto. ¿Y cómo hago esto?

Tenemos que comparar la prueba nueva con la que consideremos “perfecta”, la de referencia, conocida como gold standard. Estas pruebas son las que tienen la máxima fiabilidad a la hora de detectar una enfermedad. Con esta comparación vamos a construir una tabla de contingencia.

En estas se representan los resultados para ambas pruebas de la población que hemos analizado de forma desglosada. Vemos que existen cuatro posibilidades:

- Los positivos en ambas pruebas son verdaderos positivos. (VP)
- Los negativos en nuestra prueba y positivos en el gold standard son falsos negativos. (FN)
- Los positivos en nuestra prueba y negativos en el gold standard son falsos positivos. (FP)
- Los negativos en ambas pruebas son verdaderos negativos. (VN)

Sin embargo, tanto los falsos positivos como falsos negativos son errores en el diagnóstico, ya que en una prueba ideal todos los enfermos saldrían positivos y todos los sanos negativos. Estos fallos en la detección nos hacen introducir dos conceptos clave: sensibilidad y especificidad. Para que no se te haga bola tanto texto, te dejamos este vídeo que te los explica hasta mejor que nosotros:

En resumen, son características intrínsecas de la prueba, no están influidas por la prevalencia.

- Cuando una prueba es muy sensible (S) se minimizan los falsos negativos.

$$ \text{S} = \left(\frac{VP}{VP+FN}\right) $$

- Cuando una prueba es muy específica (E) se minimizan los falsos positivos.

$$ \text{E} = \left(\frac{VN}{VN+FP}\right) $$

El vídeo nos ha introducido también otro concepto: el valor predictivo. A la hora de hacer un diagnóstico, necesitamos saber, teniendo un resultado, la probabilidad de que se adecúe a la realidad. Es decir, si es positivo que sea enfermo y si es negativo que sea sano. A esto se le denomina valor predictivo positivo o negativo.

- La probabilidad de que un individuo positivo sea enfermo es el valor predictivo positivo.

$$ \text{VP}^+ = \left(\frac{VP}{VP+FP}\right) $$

- La probabilidad de que un individuo negativo sea sano es el valor predictivo negativo.

$$ \text{VP}^- = \left(\frac{VN}{VN+FN}\right) $$

Sin embargo, no es un parámetro intrínseco de la prueba, sino que está influido por la prevalencia, la proporción de enfermos en la población. Cuanto mayor sea la prevalencia, mayor será el VP+ y menor el VP-, ya que mayor credibilidad tiene un positivo. A menor prevalencia, menor VP+ y mayor VP-, un positivo tendrá menos credibilidad.

El parámetro que da la misma idea que el valor predictivo pero que es independiente de la prevalencia es la razón de verosimilitud.

- RV+: ¿Cuántas veces más probable es que el test sea positivo en los enfermos que en los sanos?

$$ \text{RV}^+ = \left(\frac{\text{%VP}}{\text{%FP}}\right) = \left(\frac{S}{1-E}\right) $$

- RV-: ¿Cuántas veces más probable es que el test sea negativo en los enfermos que en los sanos?

$$ \text{RV}^- = \left(\frac{\text{%VN}}{\text{%FN}}\right) = \left(\frac{1-S}{E}\right) $$

Lo mejor es tener un RV+ alto y un RV- bajo. En clínica se consideran válidos generalmente RV+ > 10 y RV- < 0’1.

De los valores de RV se puede obtener la probabilidad post-prueba. Estas se calculan con unas fórmulas que dan miedo solo de verlas, por lo que se utiliza el Nomograma de Fagan. Permite calcular la probabilidad post-prueba conociendo la probabilidad pre-prueba (prevalencia de la enfermedad) y la RV. Es un gráfico como el siguiente:

En la primera columna estarán los valores pre-prueba, en la del medio los RV y en la final los post-prueba. Para calcular la probabilidad post-prueba hay que trazar una línea que pase por mi probabilidad pre-prueba y el RV. El punto de la tercera columna en el que corte la recta será la probabilidad post-prueba.

Como hemos ido diciendo durante toda la entrada, el resultado de un diagnóstico sólo puede ser enfermo o sano. Esto a veces puede ser un problema porque la mayoría de las pruebas son variables continuas es decir, el resultado es numérico. Decidir un punto de corte a partir del cuál un individuo es enfermo será trabajo de los clínicos y clínicas. El ejemplo más fácil de esto podría ser la famosa “estrellita” de las analíticas, una vez se supera cierto valor, se considera enfermo.

Para seleccionar dónde poner el punto de corte que diferencie los sanos de los enfermos según una prueba diagnóstica, es común utilizar recursos gráficos como las curvas ROC, una representación gráfica que relaciona la sensibilidad y la especificidad.

En estas curvas se representa la sensibilidad frente a la diferencia entre la especificidad y (1-E), y se calcula el área bajo la curva. De esta manera una prueba ideal tendría un área de 1 (curva morada) mientras que una prueba sin validez diagnóstica tendría un área de 0,5 (recta naranja). La prueba es aceptable cuando supera un área de 0,8.

Otro parámetro es el índice de Youden (YI), que es un indicador de la validez de una prueba y medida resumen de una curva ROC. Relaciona la sensibilidad con la especificidad, es independiente de la prevalencia, así que permite comparar entre diferentes pruebas y diferentes puntos de corte. Toma valores entre 0 y 1, y cuanto más se acerque a 1, más válida será la prueba. Se calcula como:

$$ YI = S+(E-1) $$

De esta forma escoger el mejor punto de corte es sencillo: el que mayor YI dé.

Comentarios