Autor: Ochoa Sangrador C.
Reciba periódicamente por correo electrónico los últimos artículos publicados
SuscribirseCorrespondencia:
Introducción
El ejercicio de la medicina nos obliga habitualmente a tomar decisiones en presencia de incertidumbre, emitiendo juicios diagnósticos o pronósticos e incluso haciendo recomendaciones terapéuticas, en los que asumimos cierto grado de error. Se trata de un proceso dinámico que se inicia con la anamnesis, en el que el médico comienza a emitir hipótesis sobre lo que le pasa al enfermo, hipótesis que son contrastadas y aceptadas o rechazadas provisionalmente. Esta misma dinámica se repite a lo largo de la exploración física, cuando se analizan los resultados de las pruebas complementarias e, incluso, cuando ya se ha instaurado el tratamiento.
Aunque no lo hagamos de forma explícita, nuestra experiencia nos permite estimar la verosimilitud de los diagnósticos que emitimos y traducirlos en decisiones terapéuticas apropiadas. Sin embargo, no lo hacemos de una forma sistemática, por lo que perdemos la oportunidad de discriminar la información válida del resto, jerarquizar su validez y traducirla en estimaciones individualizadas de probabilidad, que hagan nuestras decisiones más adecuadas.
Comparemos dos aproximaciones diferentes a un mismo escenario clínico. Supongamos el caso de un niño de 6 años con un cuadro de síntomas urinarios y escapes miccionales de unos días de evolución, al que le encontramos una leucocituria en el perfil urinario. El abordaje habitual será sospechar una infección urinaria y, en función de ello, pedir un urocultivo e incluso iniciar un tratamiento antibiótico tentativo. En el abordaje sistemática alternativo haríamos un cálculo de probabilidades en el que tendríamos en cuenta la capacidad predictiva de cada variable: un niño varón de 6 años no circuncidado que presenta síntomas urinarios tiene una probabilidad aproximada de tener una infección urinaria del 8% (riesgo bajo), si además tiene escapes miccionales de nueva aparición el riesgo aumenta hasta un 30% (riesgo medio), si además encontramos leucocitos en su orina la probabilidad aumenta hasta un 60-70% (riesgo medio-alto)1. Aunque en ambos supuestos el diagnóstico seguro sólo puede basarse en la confirmación de un crecimiento significativo de un microorganismo en urocultivo, en el segundo abordaje el grado de incertidumbre es menor y nuestras decisiones diagnósticas o terapéuticas van a ser menos arbitrarias y más apropiadas.
Si consideramos de forma sistemática las variables disponibles en un escenario clínico concreto, analizamos la validez diagnóstica o pronóstica de cada una de ellas e integramos dicha información con los conocimientos clínico-epidemiológicos existentes en un cálculo de probabilidades, estamos diseñando y aplicando una regla de predicción clínica. Podemos definir la regla de predicción clínica (RPC) como una herramienta compuesta por un conjunto de variables de la historia clínica, exploración física y pruebas complementarias básicas, que nos estima la probabilidad de un evento, nos sugiere un diagnóstico o nos predice una respuesta concreta a un tratamiento2. Esta definición resulta igualmente aplicable para las denominadas “guías de predicción clínica” o “reglas de decisión clínica”. La “predicción” implica ayudar al médico a tomar la mejor decisión sobre un acontecimiento clínico futuro. La “decisión” implica dirigir al médico para que realice un tipo de acción específica, diagnóstica o terapéutica. La aplicación de las reglas de predicción clínica a veces deriva en una decisión y a veces en una predicción, pero a menudo también en una probabilidad o un cociente de probabilidades que el médico aplica al problema diagnóstico en cuestión. En este último caso, el término de “regla de diagnóstico clínico” o “guía de diagnóstico clínico” sería más preciso3. En la tabla 1 podemos ver un ejemplo de regla de predicción clínica4.
Tabla 1. RPC de apendicitis de Alvarado4 (MANTRELS) Mostrar/ocultar
Las RPC no pueden sustituir nuestra experiencia y conocimientos, sin embargo nos facilitan información estructurada sobre la capacidad predictiva de cada uno de los síntomas, signos y pruebas complementarias implicados en un determinado escenario clínico, y cómo combinarlos para cuantificar de forma precisa nuestras estimaciones diagnósticas y pronósticas.
Debemos ser conscientes que muchas de las decisiones clínicas se fundamentan en dogmas transmitidos de generación en generación, cuya validez no ha sido comprobada en estudios científicos. Esto no quiere decir que dichas decisiones no sean válidas, sin embargo no deberíamos basar nuestro ejercicio clínico exclusivamente en dogmas, apreciaciones y experiencias personales. Veamos un ejemplo: la presencia de exudado amigdalar en un niño con faringoamigdalitis desencadena habitualmente la prescripción de un antibiótico por sospecha de etiología estreptocócica, sin recurrir a la confirmación microbiológica, a pesar de ser un signo que ha mostrado una escasa validez diagnóstica5.
El proceso de desarrollo de una RPC requiere una serie de pasos, cuya correcta ejecución irán dotando a la misma de un mayor grado de validez y aplicabilidad. Cuanto más haya avanzado en este proceso, mayor será el nivel de evidencia que lo apoye (tabla 2).
Tabla 2. Pasos del diseño y evaluación de una RPC Mostrar/ocultar
Definición
El primer paso es la definición de la RPC. Supone describir la población, las variables potencialmente predictivas a considerar, el patrón de referencia que clasifica el diagnóstico o predicción de interés y el criterio de valoración del resultado. Estos elementos corresponden a los distintos componentes de una pregunta clínica estructurada, similar a la que definiríamos para una prueba diagnóstica, con la peculiaridad de que en este caso la prueba a valorar es la propia RPC (tabla 3).
Tabla 3. Pregunta clínica estructurada sobre RPC Mostrar/ocultar
En la selección de variables debemos considerar toda información de la historia clínica, exploración física y pruebas complementarias que sea clínicamente relevante, precisa y reproducible, y que esté fácilmente accesible en el momento de la toma de decisiones. El número de variables candidatas deberá ser establecido ponderando el coste y factibilidad de su recogida. También dependerá de la potencia del estudio en que diseñemos la RPC. Por requerimientos estadísticos, es conveniente que la muestra tenga al menos 10 eventos (diagnósticos confirmados o eventos predichos) por cada variable evaluada6. Las variables predictivas han de estar claramente definidas por anticipado, el uso de criterios objetivos, protocolos o formularios de recogida de datos facilitarán su precisión y reproducibilidad; no obstante, esta precisión conviene confirmarla en estudios de reproducibilidad intra-interobservador (índice kappa, coeficientes de correlación intraclase)7.
Asimismo resulta de gran importancia elegir un patrón de referencia que sea válido, una prueba diagnóstica que se comporte como “patrón oro”, o un conjunto de criterios operativos que definan claramente el diagnóstico o evento que se trata de predecir. Si el resultado de este patrón de referencia no es preciso, válido, accesible y exhaustivo en todos los pacientes, la valoración de la RPC quedará comprometida. Imaginemos un estudio en el que se evalúa un modelo predictivo de lesiones cerebrales secundarias a traumatismo craneal, en el que a un porcentaje importante de pacientes no se les realiza tomografía computerizada cerebral o no son sometidos a un seguimiento adecuado; estos pacientes no podrán ser correctamente clasificados y las estimaciones de validez de la RPC quedarán comprometidas.
Por último, los procedimientos de recogida, tanto de las variables predictivas como del resultado que se trata de predecir, deben diseñarse para garantizar su independencia. Interesa que quien recoja las variables predictivas desconozca el resultado del patrón de referencia y viceversa, ya que la ausencia de cegamiento podría sesgar la interpretación de los resultados. En ocasiones, algunas de las variables predictivas está incorporada a los criterios de clasificación del evento a predecir, por lo que resulta difícil que la recogida de datos sea independiente; esta circunstancia debe tratar de evitarse porque limitará la validez de la RPC.
Derivación o diseño (Métodos estadísticos)
En la fase de derivación o diseño muchas variables no mostrarán capacidad predictiva y sólo unas pocas serán incorporadas a la RPC. Existen diversos métodos estadísticos para el diseño de RPC. Por lo general, las técnicas estadísticas que se emplean en el proceso se basan en la regresión logística. Otras técnicas que los investigadores usan son el análisis discriminante y el análisis de supervivencia, que producen ecuaciones similares al análisis de regresión, o la partición reiterativa, que divide la población de pacientes en grupos cada vez más pequeños basándose en factores de riesgo discriminantes o redes neurales2,8.
Las técnicas de regresión logística son técnicas de análisis multivariante en la que el diagnóstico o evento que se trata de predecir es utilizado como variable dependiente dicotómica, frente al que se contrastan el conjunto de variables potencialmente predictivas, que frecuentemente son categorizadas para facilitar su interpretación. La regresión logística nos permite descartar las variables que no mejoran la predicción y a cada una de las variables restantes les asigna un coeficiente, que nos informa de su contribución individual al modelo predictivo. El peso de estos coeficientes puede ser fácilmente entendido si exponenciamos su valor al número “e”, ya que corresponde a la odds ratio (OR) ajustada, que relaciona la variable con el resultado de interés (similar a la que obtendríamos en un tabla de contingencia con el cociente de productos cruzados). Veamos un ejemplo en la (tabla 4) de un estudio sobre una RPC de apendicitis9.
Tabla 4. Regresión logística de las variables de una RPC de apendicitis aguda 9Mostrar/ocultar
A partir de estos coeficientes pueden asignarse pesos a cada variable que se traducen en puntuaciones de una escala. La suma total de puntos obtenidos para cada paciente permitirá clasificarle en un rango concreto al que le corresponde una recomendación o predicción determinada. En el ejemplo expuesto se consideró que una puntuación ≤5 puntos implicaba un bajo riesgo de apendicitis.
Otra opción disponible con las técnicas de regresión logística es aplicar los coeficientes en una fórmula de regresión:
P= [1+exp(-β0 -∑βiXi)]-1
donde β0 es el coeficiente de la constante (no presentado en la tabla 4), βi el coeficiente de cada variable, Xi el valor de cada variable (para variables dicotómicas que expresan presencia/ausencia adoptan los valores 1 o 0), “exp” indica que el contenido del paréntesis debe exponenciarse al número “e” (2,7182) y ∑ indica que debe sumarse el conjunto de productos de coeficientes y valores.
Esta opción tiene las ventajas de que ofrece una estimación individualizada de la probabilidad del diagnóstico o evento adaptada a un paciente concreto y de que permite introducir en el modelo variables cuantitativas sin necesidad de categorizarlas (ejemplo: recuento de leucocitos). Sin embargo, es una opción más compleja de aplicar ya que requiere la realización de cálculos matemáticos, para los que se necesita un ordenador o agenda electrónica programable.
Una técnica muy empleada en el diseño de RPC es la partición reiterativa. Este método se fundamenta en un proceso de clasificación sucesiva de los sujetos de la muestra en función de la presencia o ausencia de las distintas variables predictivas, de manera que, en cada paso, se maximice la discriminación entre la presencia/ausencia del diagnóstico o evento de interés. El resultado de esta técnica, además de indicarnos las variables con capacidad predictiva, nos permite su uso como algoritmo de decisión, aplicable en la práctica clínica, ofreciéndonos en cada paso una estimación de la probabilidad del evento9.
Sea cual sea la técnica empleada el objetivo de esta fase es categorizar a los pacientes en grupos con una probabilidad homogénea de tener el diagnóstico o evento a predecir (categorización). El siguiente paso será saber en qué manera la categorización obtenida anteriormente se ajusta a la realidad, o lo que es lo mismo, si la predicción de la RPC es lo suficientemente acertada o discriminativa (discriminación).
Para conocer la capacidad de discriminación o validez global de la RPC es preciso contrastar sus resultados con los del patrón de referencia o criterio de clasificación del diagnóstico o evento que se trata de predecir. Las técnicas que se emplean son similares a las utilizadas en la evaluación de las pruebas diagnósticas2,7. La forma más simple es construir una tabla de contingencia en la que los valores predichos se cruzan con los finalmente observados, calculando los recuentos de verdaderos y falsos positivos y negativos y, a partir de ellos, los estimadores de validez: sensibilidad, especificidad, cocientes de probabilidades y valores predictivos. Al igual que en otros tipos de estudios, la valoración de la validez de las RPC se hace sobre muestras, por lo que los resultados obtenidos son sólo estimaciones puntuales, sujetas a variabilidad aleatoria, y por lo tanto deben proporcionarse con sus intervalos de confianza. En la (tabla 5) presentamos los estimadores de validez calculados para el estudio anteriormente mencionado9.
Tabla 5. Tabla de contingencia de la apendicitis predicha (RPC >5) y confirmada en la muestra de derivación9. Características operativas con sus intervalos de confianza del 95% (IC 95%). Mostrar/ocultar
Es frecuente que el interés predictivo en algunos escenarios clínicos sea reducir al máximo el riesgo de falsos negativos. Por ejemplo, para el diagnóstico de apendicitis, nos interesa disminuir el riesgo de que un niño con apendicitis sea incorrectamente clasificado como de bajo riesgo, se demore el diagnóstico y la intervención, y esté expuesto a complicaciones. Al diseñar la RPC los autores tratan de minimizar los falsos negativos, desplazando el punto de corte de clasificación, lo que origina un aumento de la sensibilidad, a expensas de un importante descenso de especificidad. Esta estrategia es comprensible aunque afectará a la utilidad clínica de la RPC, ya que sólo será aplicable a un espectro reducido de pacientes, en los que tampoco nos ofrece una discriminación predictiva absoluta.
Debemos señalar el interés de calcular los cocientes de probabilidades. El cociente de probabilidades (CP) para un determinado resultado de una RPC se define como la probabilidad de dicho resultado en presencia del diagnóstico o evento a predecir dividida por la probabilidad de dicho resultado en su ausencia. Los CP resumen información de la sensibilidad y de la especificidad e indican la capacidad de la prueba para incrementar o disminuir la verosimilitud de un determinado diagnóstico o evento. Los CP adoptan valores entre 0 e infinito, siendo el valor nulo el 1 (no modifica la probabilidad). Cuanto más elevado sea el CP por encima de 1 más se incrementará la probabilidad, cuanto más bajo sea el CP por debajo de 1 más disminuirá la probabilidad. A partir de los CP se pueden calcular las probabilidades postprueba (valores predictivos) para cualquier prevalencia.
En ocasiones la RPC ofrece un resultado cuantitativo que puede ser clasificado en una serie de categorías sucesivas. En este caso nos interesa conocer los estimadores de validez en cada punto de corte, por lo que tendremos que construir una curva ROC (iniciales del término inglés original Receiver Operating Characteristic). Las curvas ROC son una representación gráfica de la relación existente entre sensibilidad y especificidad. Para confeccionarlas se deben calcular la sensibilidad y la especificidad para todos los posibles rangos de puntuación de la RPC. La curva se construye a partir de la representación de los distintos puntos de corte en una gráfica de dispersión, cuyos ejes de coordenadas vertical (y) y horizontal (x) corresponden a la sensibilidad y al complementario de la especificidad (proporción de falsos positivos)9.
El área bajo la curva representa la validez global de la prueba. Cuanto más se aproxima la curva a la esquina superior-izquierda del gráfico, mayor será esa área y mayor la validez de la RPC. Las curvas ROC nos permiten además contrastar la capacidad predictiva de dos o más RPC, comparando las áreas bajo las curvas de cada una de ellas.
Para completar la valoración de las predicciones de una RPC debemos explorar su comportamiento en todo el intervalo de resultados o categorías posibles (calibración). La calibración nos aporta información sobre el comportamiento global de la RPC, pudiendo detectar con ella alguna limitación, susceptible de corrección en la fase de categorización. Para calibrar la RPC emplearemos estimadores de la “bondad de ajuste” entre resultados predichos y observados, o métodos de representación tabulada o gráfica.
Validación
Una vez seleccionadas las variables de la RPC y elegido su formato de aplicación, debe ser validada en muestras de pacientes diferentes a los utilizados en la fase de diseño. Es preciso señalar que muchas RPC aparentemente bien diseñadas no se comportan igual cuando se intentan validar10. Ello se debe a que en la fase de diseño el modelo recoge la idiosincrasia de la muestra seleccionada, de manera que la peculiar asociación entre variables predictivas y resultados en determinados pacientes origina una asociación estadística no reproducible. Por ello, antes de juzgar la validez de una RPC es necesario su validación. Interesa probarla en nuevas muestras de características similares a la original para juzgar su reproducibilidad (validación limitada), pero también en muestras de entornos clínicos diferentes (temporales, geográficos, de emplazamiento, de espectro clínico) para conocer su validez externa y aplicabilidad (validación amplia).
En ocasiones se han empleado técnicas de validación de RPC, que no requieren la reproducción del estudio con una nueva muestra de pacientes. Para ello se han usado submuestras aleatorias de los pacientes de la muestra original, o técnicas más complejas como los métodos jacknife y bootstrap8. Estas últimas técnicas implican retirar a un paciente de la muestra, generar la regla empleando al resto de los pacientes y aplicarla en el paciente que se retiró. Este procedimiento se repite, de forma secuencial para cada paciente en estudio. Otras variantes consisten en la repetición de la validación en sucesivas submuestras aleatorias del mismo grupo de pacientes. Sin embargo, los resultados de los estudios validados con estas estrategias deben ser interpretados con cautela. Ninguno de ellos ofrece la misma evidencia que los realizados con nuevas muestras independientes de las empleadas para el diseño de la RPC.
En el análisis estadístico de los estudios de validación se emplean los mismos métodos que los usados en la fase de diseño de la RPC: sensibilidad, especificidad, cocientes de probabilidades, valores predictivos, curvas ROC y métodos de bondad de ajuste. Es habitual que los estimadores de validez obtenidos en los estudios de validación sean diferentes y habitualmente algo más discretos que los obtenidos en la fase de diseño. Una gran discordancia de resultados entre ambos estudios sugiere una escasa reproducibilidad del modelo predictivo. Para mejorar los resultados, algunos autores tratan de adaptar la RPC a la muestra de validación, utilizando las técnicas originales de derivación, lo que se traduce en una modificación de los coeficientes y pesos asignados a las variables. No debemos olvidar que con este recurso originamos una nueva versión de la regla, que debe ser igualmente validada.
Impacto Clínico
La última fase del diseño y evaluación, que superan muy pocas RPC11, es la evaluación de su rendimiento clínico. Para ello debe aplicarse la RPC en la práctica clínica y evaluar su impacto en medidas de resultados clínicos como: duración de la enfermedad, incidencia de complicaciones, supervivencia, costes, etc. En esta fase no es necesario volver a analizar la validez predictiva del modelo. Aunque una RPC sea válida y precisa si su uso no mejora los resultados que obteníamos con las decisiones basadas en el juicio clínico, esta RPC no resultará útil para el médico experimentado. La valoración del impacto clínico va a requerir una ponderación de los costes y beneficios del modelo predictivo, tanto desde la perspectiva del médico, como de la del paciente, el sistema sanitario o la sociedad.
Veamos algunos ejemplos. Si queremos evaluar el impacto clínico de una RPC de diagnóstico de faringitis estreptocócica basada en la anamnesis y exploración clínica podría interesarnos demostrar que con la aplicación del modelo se produce una reducción del uso de antibióticos (eficiencia), sin un aumento de complicaciones supuradas o no supuradas de la infección (seguridad). Si tratamos de valorar el rendimiento clínico de una RPC de diagnóstico de apendicitis aguda podría interesarnos demostrar una reducción de las exploraciones de imagen o de las estancias hospitalarias (eficiencia), sin un aumento de las apendicitis complicadas o peritonitis (seguridad). Lamentablemente, este nivel de evaluación es excepcional, a pesar de que es el más importante para el clínico. A menudo, el impacto clínico de una RPC tendrá que ser estimado de forma indirecta, teniendo en cuenta el grado de validez del modelo predictivo y nuestro conocimiento del escenario clínico donde se aplicará.
Debemos tener en cuenta que muchas RPC ofrecen estimaciones diagnósticas o pronósticas, pero no recomendaciones concretas sobre qué decisiones tomar; algunos autores asumen que la orientación diagnóstica o pronóstica influirá en la toma de decisiones, pero esto no siempre es asumible11. La escasez de RPC que dirigen explícitamente la toma de decisiones responde a que este paso implica una extensión del rango de error y a que estas reglas podrían ser vistas como un límite de la autonomía del médico.
Otro aspecto que también influye en el impacto clínico de una RPC es el espectro de pacientes a los que se aplicará. En el diseño e incluso validación de una RPC se emplean muestras que no siempre representan al paciente en el que más la necesitamos; al fin y al cabo, en los pacientes de muy bajo o muy alto riesgo es más fácil discriminar. Si la regla resulta menos eficiente en el grupo de pacientes que mayor incertidumbre generan, su rendimiento clínico se verá limitado. Finalmente, otra cuestión a considerar es que muchas RPC se diseñan para minimizar los falsos negativos, modificándose el nivel de clasificación hasta alcanzar cifras de sensibilidad del 100%. Esta cifra transmite la sensación de perfección. Sin embargo, al reproducir las RPC en la práctica clínica real, encontramos que la sensibilidad suele reducirse, aunque mantenga altas cifras (96-99%)12-14, lo que implica que no sean perfectas, por lo que determinados eventos, aunque muy poco probables, no puedan descartarse con absoluta seguridad.
El diseño ideal para analizar el impacto clínico de una RPC es el ensayo clínico, en el que se analizan dos grupos de pacientes manejados con o sin la RPC. Para evitar la contaminación entre pacientes, la asignación de la RPC suele aleatorizarse por conglomerados independientes (servicios u hospitales). Diseños alternativos “antes-después” en los que comparamos los resultados de cohortes antes y después de la implantación del modelo predictivo, son más débiles y sujetos a múltiples sesgos. Otra alternativa indirecta para explorar el impacto clínico, también sujeta a limitaciones, es la realización de encuestas a clínicos experimentados a los que se les ofrecen casos simulados que integran la información que proporciona la RPC y se les pregunta por las decisiones concretas que tomarían. Reilly et al, realizan una interesante revisión sobre el tema del análisis del impacto clínico11.
Una última reflexión relacionada con el impacto clínico de las RPC se refiere a su difusión e implementación real en la práctica clínica. Incluso reglas que han mostrado su validez y rendimiento clínico resultan insuficientemente conocidas o pobremente aplicadas10,15. Al fin y al cabo, el objetivo final del desarrollo de una RPC no es que sea válida sino que sea aplicada y que mejore nuestra práctica clínica. Algunos clínicos, al leer trabajos en los que se presentan RPC retienen la información sobre las variables con interés predictivo, teniéndolas en cuenta en su toma de decisiones, pero sin seguir los procedimientos reglados de aplicación de la RPC.
Conflicto de intereses de los autores del comentario: no existe.
Ochoa Sangrador C. Diseño y evaluación de Reglas de Predicción Clínica. Evid Pediatr. 2009;5:28.
Envío de comentarios a los autores