Inicio | Biografía | Publicaciones | Primvac | Estadística | Bibliografía | Descargas | Enlaces | Contacto


Texto de estadística básica

© Dr. Javier Cebrián Domènech

Introducción

Índice

Introducción

El método científico

Estadística descriptiva

Inferencia estadística

Error estándar (EE)

Hipótesis nula

Riesgos α y β

Comparación de medias

Análisis de la varianza

T de Student

Ji al cuadrado (x²)

Cálculo del x²

x² para tablas FxC

x² de Yates

Métodos no paramétricos

Prueba de Mood

Medidas repetidas

T emparejada

Test de Mc Nemar

Tablas

A lo largo de los años de mi formación en estadística en la Universidad Autonoma de Bellaterra, me apercibí de que, siendo esta materia muy importante en el trabajo medico-científico, no todo el mundo dispone de tiempo o motivación para estudiarla en profundidad. Concebí pues la idea de trabajar en un proyecto eminentemente divulgativo que finalmente concluyó en la publicación de la presente obra. Estadística Básica se editó en formato papel en el año 2008, se encuentra en la intranet del Hospital Universitario y Politécnico La Fe de Valencia, y a partir de este momento estará disponible para su descarga en esta página web. Igualmente estará disponible para ser descargado el programa de estadística básica StatbaS, igualmente obra del autor y complementario del texto Descargas.

Desde hace más de 20 años he compaginado mi labor asistencial como médico con la docencia de la estadística en el ámbito de la medicina. La presente obra no es más que una síntesis breve de estos años de trabajo tanto en el ámbito de los servicios públicos de salud como en el de la empresa privada. Se trata de comunicar los principios básicos de la estadística al público consumidor de la misma. Aunque el autor es médico de profesión, los principios más generales del texto, precisamente por su carácter básico, pueden aplicarse sin problema alguno a las más diversas áreas del conocimiento tales como la economía, sociología, psicología, etc.

La obra está estructurada en 7 capítulos que abordan los conceptos estadísticos básicos. En la medida de lo posible se ha ido desde lo más sencillo hacia lo más complejo, haciendo hincapié en los principios comunes que subyacen en las principales pruebas estadísticas. Tras un primer capítulo dedicado a la estadística descriptiva se abordan las bases de la inferencia estadística a través de la conocida analogía señal/ruido. Se ha prestado especial atención a los métodos generales de contraste de hipótesis huyendo de la habitual profusión de epónimos que pueblan los textos de estadística. En otras palabras, siempre que ha existido un método de contraste general se ha optado por éste en lugar de métodos para la resolución de casos particulares. Se ha tratado de evitar que “los árboles no nos dejen ver el bosque”. También se ha procurado, en lo posible, que la explicación de un determinado contraste se fundamente en otros conceptos previamente explicados.

La obra se distribuye junto a la aplicación informática StatbaS, diseñada por el autor como complemento y ayuda para el seguimiento del texto y resolución de los ejercicios. Se trata de un programa sencillo que utiliza algoritmos simplificados y pensado para trabajar, esencialmente, con datos tabulados.


El método científico

El avance del conocimiento humano se realiza progresivamente mediante el siguiente proceso:

Observación de la realidad ► inducción ► plasmación de principios generales ► comprobación en la práctica de los mismos ► comienzo de un nuevo proceso inductivo. Ello implica dos niveles claramente diferenciados, el nivel conceptual y el teórico (ver figura).

Nivel conceptualInvestigación
DiseñoProtocolo
Base de datos
AnálisisEstadística

Nivel conceptual o teórico

Antes de iniciar una investigación se ha de realizar un esfuerzo de documentación, lo más exhaustivo posible, sobre cuál es el estado de la cuestión que nos ocupa. Si no pasamos por esta etapa previa, podemos encontrarnos con sorpresas desagradables, tales como que nuestra hipótesis de trabajo ya haya sido investigada de forma parcial o total. Afortunadamente, en el medio en que nos movemos hoy, es relativamente fácil llegar a las fuentes de información, fundamentalmente gracias a la disponibilidad de repertorios y bases de datos que en pocos años han pasado del soporte en CD-ROM a Internet que facilitan las búsquedas bibliográficas. La base de datos más consultada es [PubMed]. Otro buscador especialmente recomendable por su sencillez es el [Tripdatabase]. Siempre es conveniente manejar más de una base de datos para que no pasen desapercibidas publicaciones relevantes para nuestra investigación.

Nivel metodológico o de diseño

Una vez establecida nuestra hipótesis de trabajo tenemos que plantearnos el problema del diseño del estudio y de la recogida de datos. Aunque los detalles más teóricos están fuera del alcance de esta obra,en esencia, se trata de recorrer consecutivamente una serie de pasos:

Elaboración de un protocolo de recogida de datos (Se puede realizar con un editor de texto normal). Estos datos deben incluir todos los aspectos que consideremos relevantes para la investigación. Los datos que representen variables cualitativas (estado vital, sexo, etc.) se deben recoger codificados. Aunque la codificación es arbitraria, recomendamos que las variables categóricas se codifiquen de forma alfanumérica o numérica. Es muy conveniente que los códigos estén visibles en la misma hoja de recogida de datos. Otro aspecto muy importante es que haya una casilla llamada CASO cuyo número remita de forma inequívoca a un episodio. No siempre el paciente coincide con el episodio (téngase en cuenta que un paciente, bajo determinados supuestos, puede entrar más de una vez en el estudio). Las variables cuantitativas, por ejemplo, la edad, se deben registrar con el nº de años (jamás recoger por ejemplo: edad "entre 10 y 20 años"). Esto, que para la edad parece muy claro, ocurre a veces con otras variables; imaginemos la variable nº de cigarrillos que un sujeto fuma diariamente. Cuesta exactamente lo mismo preguntar cuántos cigarrillos fuma que si es fumador o no. Sin embargo la información que aporta el n º de cigarrillos fumados diariamente es mucho más precisa y, como veremos más adelante, mucho más potente a la hora del análisis estadístico.

Una vez recogidos nuestros casos en el protocolo hemos de pasarlos a una base de datos u hoja de cálculo informatizada. En este paso es cuando se ve la importancia de una buena codificación previa. Aunque existen múltiples programas que pueden ser de utilidad, hay que tratar de utilizar programas con formatos muy extendidos. Así, Access y Excel son buenas opciones. Sin embargo mi elección personal es utilizar el programa [Epidata], gratuito y que está compuesto por dos módulos: uno dedicado a la entrada de datos "Epidata Entry" y otro al análisis de los mismos "Epidata Analysis". Este programa es "portable", es decir lo podemos llevar siempre en una memoria usb.

Es importante recoger en el encabezamiento de las columnas los nombres de las variables que se consideran en el estudio. Estos nombres deben ser suficientemente indicativos pero conviene que sean cortos (<9 caracteres siempre). Las filas deben corresponder a los casos (pacientes) y las columnas a las variables. Como ejemplo se muestra un fragmento de la matriz de datos "Shock":

Caso Tratamiento TA (mmHg)
1 1 100
2 1 87
3 1 125
4 1 80
5 1 89
6 1 120
7 1 123
8 1 120
9 1 114
10 1 180
11 1 150
12 1 127
13 1 130
14 1 98
15 1 100
16 2 89
17 2 100
18 2 109
19 2 90

Se observa que existe la variable caso, que los nombres de las variables encabezan las columnas y que cada fila corresponde a una observación. El tipo de tratamiento (variable categórica), ha sido codificado con números y los valores de tensión arterial (variable cuantitativa) se han recogido en mmHg.

Nivel estadístico

Finalmente, tenemos que exportar los datos a un programa estadístico. Los buenos paquetes estadísticos tienen utilidades de importación de archivos desde los formatos más comunes: (Acces, Dbase, Excel, Ascii , etc.). Así, Spss, Stata, S-Plus, etc. pertenecen a lo que podríamos llamar paquetes estadísticos potentes y ampliamente aceptados por las revistas más exigentes. No obstante, como contrapartida tienen un precio muy elevado y su aprendizaje es complejo. Otra posibilidad ya comentada es trabajar con el programa [Epidata], una especie de "navaja suiza" que cubre todas nuestras necesidades: edición de texto ► base de datos ► análisis estadístico.

La presente obra incluye un programa estadístico sencillo que trabaja con datos tabulados. Se trata de la aplicación StatbaS, desarrollada por los autor. En su concepción y desarrollo han primado los aspectos docentes sobre la formalización estadística. Así, se ha tratado de huir de complejos cuadros de diálogo e insistir en el proceso intuitivo del análisis. Aborda los principales conceptos de la estadística uní y bivariada de una forma sencilla. Introduce además la posibilidad de realizar análisis multivariados simples mediante estratificación. El programa se distribuye conjuntamente con el texto y se recomienda su utilización simultánea durante la fase de aprendizaje.

En la figura se muestra el menú principal de la aplicación y una sencilla barra de herramientas que permite las habituales operaciones de manejo de archivos y edición. Los resultados se obtienen en un editor de texto.

Una reflexión final: recordemos que si el diseño ha sido correctamente elaborado y la recogida de datos ha sido fiable, el análisis estadístico es relativamente fácil y, además, en caso de necesidad, siempre se puede recurrir a alguien con más experiencia. Sin embargo, si el diseño del estudio es incorrecto o la recogida de datos no es fiable, es de todo punto imposible dar solución satisfactoria al problema sin volver a empezar desde el principio.


Estadística descriptiva

La estadística descriptiva tiene por objeto sintetizar las características más importantes de una muestra (grupo o grupos de observaciones sobre las que vamos a tratar) y realmente no tiene ningún secreto. Es habitualmente el primer paso del análisis y sirve para resumir la matriz de datos. Únicamente vamos a comentar la mejor forma de preparar nuestros datos para el paso ulterior que supone la estadística inferencial.

Datos Cualitativos

Tambien denominados categóricos o nominales. Buenos ejemplos serían los tipos de tratamiento, el sexo, el estado vital, etc.) se suelen expresar como porcentajes dando siempre las cifras totales de la población para que el lector se haga una idea clara de nuestros datos. Vamos a verlo utilizando un ejemplo: Se presentan los datos obtenidos a partir de una prueba clínica con propanolol para el infarto de miocardio. El ensayo se realizó con dos grupos de pacientes afectados por la enfermedad. Un grupo recibió propanolol mientras que el otro no. Se observó si los pacientes estaban vivos o no a los 28 días de la admisión hospitalaria. Los datos se resumen en la siguiente tabla:

SupervivenciaMarginal
PropanololSiNo
Si38745
No291746
Marginal672491

Se trata de una tabla 2x2, forma muy conveniente para resumir los datos cualitativos en estadística y epidemiología. Este tipo de tabulación lo veremos más extensamente cuando tratemos del procedimiento Ji cuadrado. Baste ahora esta breve introducción. Es muy útil acostumbrarnos a construirla siempre de la misma forma, lo que nos dará una cierta disciplina en su lectura. Colocaremos la variable predictora, independiente o explicativa en el eje de ordenadas y la variable dependiente o efecto, en abscisas. Igualmente se aconseja que la presencia del factor de riesgo y del efecto se coloquen en el ángulo superior izquierdo de la tabla. En el momento de describir los datos de nuestra muestra diremos: "91 pacientes diagnosticados de infarto agudo de miocardio fueron incluidos en un ensayo clínico con propanolol: 46 pacientes recibieron el fármaco y 45 no lo recibieron”.

Así pues, la estadística descriptiva para variables categóricas es muy sencilla. Cuando únicamente queramos describir una variable, basta dar el número de efectivos totales y el porcentaje de cada categoría.

Variables cuantitativas

Son variables mensurables tales como la edad, la cifra de tensión arterial, etc. se presentan utilizando parámetros de centralización y parámetros de dispersión

Medidas de centralización. La más usada, sin duda, es la media aritmética (m). Se calcula sumando los valores de las observaciones y dividiendo el resultado por el número de las mismas. Se representa en la ecuación:

m = ∑ (x) / n

donde m = media aritmética, x = una observación numérica dada, n = nº de observaciones de la muestra,∑= Signo sumatorio.

Otra medida o parámetro de centralización menos usada es la mediana. La mediana es el valor que ocupa la posición media de una serie de observaciones cuando éstas se ordenan de menor a mayor. Aunque se use menos, retengamos el concepto puesto que la estadística no paramétrica se basa en estimaciones sobre medianas. Una medida de centralización todavía menos usada es la moda que tiene un significado estadístico similar al del lenguaje coloquial. Se trata de la observación más frecuente en una muestra.

Medidas de dispersión. Hablaremos sólo de la desviación típica o estándar (DE). Vale la pena dedicar un poco de tiempo para ver qué significado tiene la desviación estándar y cómo se calcula, aunque luego siempre la obtengamos mediante una calculadora o un programa informático. Intuitivamente, podríamos pensar que, para obtener la desviación promedio de las observaciones individuales (x) respecto de la media aritmética (m), sería preciso restar cada observación individual de la media (x-m); luego, habría que sumar estas desviaciones ∑(x-m) y dividir el total por el número de observaciones ∑(x-m)/n. Básicamente el razonamiento es correcto pero ocurre que si lo intentamos hacer, veremos que la suma de las desviaciones respecto de la media es inevitablemente igual a 0. Ello se debe a que hay observaciones mayores que la media y observaciones menores, las cuales, al sumarse se compensan y finalmente dan 0. Lógicamente 0/n=0. Así pues, necesitamos algún "truco" para soslayar este inconveniente. Si elevamos al cuadrado x-m obtendremos todos los valores positivos (x-m)2. Luego, procedemos como antes: ∑(x-m)2 /n.

Al operar así hemos obtenido la varianza (V) , concepto de interés primordial en estadística por la cantidad de pruebas que se basan en la misma. Como medida de dispersión descriptiva tiene el inconveniente de que sus unidades son el cuadrado de las medidas originales. Este hecho no representa un problema para su manipulación matemática pero sí para su comprensión. Es obvio que no existen en el mundo real los mmHg al cuadrado. Para evitar este problema se obtiene su raíz cuadrada √(∑(x-m)²/n) que no es otra cosa que la desviación estándar que representaremos como DE. Así hemos conseguido una medida de dispersión en unas unidades inteligibles (mmHg). En la tabla adjunta, y a partir de una serie de siete observaciones de la tensión arterial sistólica (TA) medida en mmHg hemos reconstruido de forma sintética los pasos anteriores

Obtención de la varianza (V) y desviación estándar (DE)
xx-m(x-m)²
121-15,86251,45
130-6,8647,02
1403,149,88
121-15,86251,45
16932,141033,16
107-29,86891,45
17033,141098,45
95803583
media = ∑ (x) /n 136,86--
V = ∑ (x-m)² /n --511,84
DE = √ V--22,62

Tenemos dos posibilidades de describir nuestros datos según la forma de su distribución:

Si pensamos que siguen una distribución normal (lo cual es bastante frecuente en biología) podemos simplemente indicar los tres parámetros que resumen la matriz de datos. Estos tres representantes son n (nº de efectivos), la media y la DE.

Desgraciadamente no siempre podemos asegurar que nos encontramos con una distribución normal o gausiana. En este caso deberíamos recurrir a otros parámetros distintos de los anteriores. Una solución simple es dar n, la mediana y los valores máximo y mínimo. Esto nos daría una idea aproximada de cómo es la matriz de datos. Sin embargo, la presencia de un solo valor extremadamente alto o bajo (valor extremo) distorsionaría esta información. Es pues, más elegante proporcionar n, mediana y percentiles 25 y 75. Los percentiles 25 y 75 prácticamente no se modifican por la existencia de valores extremos.

Veámoslo mediante un ejemplo ficticio en el que tres grupos de pacientes en shock recibieron tres tratamientos vasopresores distintos. Se midió su tensión arterial sistólica y se tabularon los datos:

Trat 1Trat 2Trat 3
10089121
87100130
125109140
8090121
8998169
120121107
12389170
12090
11490
18098
15099
127100
130108
9898
10099
110
89

Vamos a calcular los estadísticos descriptivos de las cifras de tensión arterial de los pacientes que recibieron el tratamiento 3 (TRAT 3).

Vamos a utilizar el programa StatbaS para resolverlo. Para ello seguiremos los siguientes pasos:

Abrir el programa ► Utilidades ► Descriptiva ► Introducimos el número de observaciones.

► Introducimos cada uno de los valores

hasta obtener nuestros resultados:

---------------------------------------------------------
Estadística descriptiva de una variable cuantitativa

Tamaño muestral:            7.000
Media:                    136.857
Desviación estándar:       24.437
Error estándar:             9.236
Mediana:                  130.000
Percentil 25:             121.000
Percentil 75:             149.500
Mínimo:                   107.000
Máximo:                   170.000
---------------------------------------------------------

Vemos que tenemos 7 casos que recibieron el tratamiento 3 en nuestra matriz de datos. La media aritmética es de 136,857 mmHg y la DE 24,437 mmHg. Por otra parte, se indica que la mediana (percentil 50) es de 130 mmHg. Los valores máximo y mínimo son respectivamente 170 y 107 mmHg. Si nos parece que 170 mmHg es un valor extremadamente alto podemos utilizar los percentiles 25 y 75 junto con la mediana. El programa nos proporciona toda esta información pero somos nosotros los que tenemos que decidir en última instancia qué tipo de estadísticos vamos a utilizar.

En la figura podemos ver las relaciones que hay, en una distribución normal, entre la media y la desviación estándar. Así, la media ± 1 DE debería abarcar el 68% de las observaciones. La media ± 2 DE abarcaría el 95% de las observaciones.

Un valor de la desviación estándar cercano a la media debe hacernos sospechar que no se trata de una distribución normal

Ejercicios: Calcular la estadística descriptiva de las cifras de TA de los pacientes que recibieron el tratamiento 1 (TRAT 1) y el tratamiento 2 (TRAT 2)


Inferencia estadística

Hasta ahora hemos hablado continuamente de "muestras", bien referidas a datos cualitativos, bien a datos cuantitativos. Estas muestras están obtenidas de una población que denominaremos "Población origen". Si las muestras han sido recogidas al azar y son suficientemente grandes podremos afirmar que son representativas de la población origen.

Concepto de error estándar (EE).

La inferencia estadística tiene por objeto, a partir de los datos de las muestras, sacar conclusiones extrapolables a la población origen. Este paso es el verdaderamente interesante en la ciencia estadística. Hasta ahora solo hemos hecho recuentos, porcentajes, hemos calculado medias, etc. En definitiva, solo hemos resumido nuestra matriz de datos, esto es, nuestra muestra. ¿Estamos seguros de que encontraremos los mismos resultados en otra muestra extraída de la misma población? O incluso ¿Si repetimos las mediciones en otro momento, obtendremos los mismos resultados? La respuesta intuitiva es “depende”. Si, pero ¿de qué?

Error estándar de una media: Para comprenderlo vamos a volver a nuestro estudio sobre el shock. Veamos de nuevo la estadística descriptiva de los valores de tensión arterial de los paciente que recibieron el tratamiento 3.

---------------------------------------------------------
Estadística descriptiva de una variable cuantitativa

Tamaño muestral:            7.000
Media:                    136.857
Desviación estándar:       24.437
Error estándar:             9.236
Mediana:                  130.000
Percentil 25:             121.000
Percentil 75:             149.500
Mínimo:                   107.000
Máximo:                   170.000
---------------------------------------------------------

Es evidente que, si volvemos a medir las cifras de tensión arterial al cabo de un tiempo, el resultado que obtendremos no será exactamente una media de 136,857 mmHg. Esto se explica por la variabilidad que acompaña a todos los fenómenos biológicos. Pero al menos, ¿el resultado será parecido? Retomamos aquí el concepto de error estándar que se incluye en los resultados de estadística descriptiva y cuya formulación adjuntamos:

EE = DE/√ n

Si nos fijamos, en el numerador tenemos una medida de variabilidad (DE) y en el denominador √ n. Es decir que, cuanto menos difieran las mediciones de tensión arterial entre sí y mayor sea el tamaño de la muestra, más fácil será que una nueva medición de la media aritmética se aproxime a la primera. El error estándar nos da una idea aproximada de la variabilidad, del ruido, en definitiva, de la imprecisión.

Podemos modelizar el concepto de error estándar con el símil de la diana. El centro de la diana representa el verdadero valor del parámetro en la población origen. Nosotros podemos sacar muestras de esta población para tratar de obtener este valor.

Sin embargo, los valores que obtengamos a partir de nuestra muestra tendrán un cierto grado de imprecisión, de error. Cuanto más error, más lejos del centro de la diana caerán nuestras observaciones. Si las muestras son suficientemente grandes y la variabilidad entre los individuos es pequeña, entonces nuestro error será pequeño y nuestras estimaciones buenas.

En estadística, cualquier medida se puede modelizar como una relación señal/ruido. Así, si tenemos una media aritmética de la tensión arterial de una muestra de pacientes, esta medida estará afectada de un cierto grado de variabilidad, imprecisión, ruido o error. La señal nos la da la propia medida y el ruido es equivalente al EE. Es evidente que si en vez de una muestra de 7 sujetos tuviésemos 500, el EE seria menor y la muestra sería más representativa de la población origen. Igualmente si en vez de una DE de 24,4 ésta fuese de 11, el EE también sería menor.

EE de una proporción Lo dicho acerca del EE de una media es perfectamente aplicable a una proporción. El razonamiento intuitivo es exactamente el mismo y su formulación matemática solo aparentemente distinta:

EE = √(p x (1-p)/n)

Veamos lo que hay en el numerador. Tenemos el producto de una proporción por su complementaria. Esto es una medida de dispersión que tiene su valor máximo cuando la proporción es del 50 % (Es cuando más variabilidad hay, puesto que la mitad de los sujetos son distintos a la otra mitad).

Esto no es claramente intuitivo. Representamos en la gráfica adjunta diversas proporciones (en tanto por uno) y su correspondiente producto p x (1-p). Como vemos, el valor máximo del producto se encuentra en el punto que corresponde a la proporción 0,5. En el denominador seguimos teniendo √n.

Intervalos de confianza. A partir de los EE se construyen los intervalos de confianza. La formulación aproximada del intervalo de confianza de una media se puede ver en la figura adjunta.

Así, si tomamos los valores de tensión arterial de los pacientes que recibieron el tratamiento 3 en nuestro estudio del shock, podremos calcular el intervalo de confianza de su media.

Utilizaremos la aplicación StatbaS para resolverlo. Para ello seguiremos los siguientes pasos:

Abrir el programa ► Estimar ► Media

Se nos abrirá una ventana en donde deberemos incluir el tamaño muestral, el valor de la media y su desviación estándar.

Haciendo clic en Si, obtendremos nuestros resultados:

----------------------------------------------------------------
Estimación de una media:

Tamaño muestral:                7
Media:                        136.86
DE                             24.44

EE de la Media:                 9.24
Grados de libertad:             6
Valor de t:                    2.45

Int. Confianza 95%:  114.22       a        159.49
----------------------------------------------------------------

Así podremos decir que: “con una confianza del 95% el valor de la tensión arterial sistólica media en pacientes en shock tratados con el tratamiento 3, es de 136,86 mmHg y oscilará entre 114,22 y 159,49 mmHg”

Ejercicio: Calcular los errores estándar y los intervalos de confianza del 95% de los paciente del estudio del shock que fueron tratados con el tratamiento 1 y con el tratamiento 2.

Veamos un ejemplo con una proporción. En un muestreo de 500 pacientes realizado en los pacientes reclutados en el registro PRIMVAC (Proyecto de Registro de Infartos agudos de Miocardio de Valencia, Alicante y Castellón), el 24,3% eran mujeres. ¿Cuál será el error estándar de esta proporción y cuál su intervalo de confianza del 95%?

Utilizaremos la aplicación StatbaS para resolverlo. Para ello seguiremos los siguientes pasos:

Abrir el programa ► Estimar ► Proporción

Se nos abrirá una ventana en donde deberemos incluir el tamaño muestral y el valor de la proporción en porcentaje.

Haciendo clic en Si, obtendremos nuestros resultados:

------------------------------------------------------------
Estimación de una Proporción

Tamaño muestral:              500
Proporción:                    24.30

EE de la Proporción:            0.019
Valor de Z:                     1.96

Int. Confianza 95%:   20.54       a         28.06
------------------------------------------------------------

Al igual que en el caso de las medias podemos decir que: “con una confianza del 95%, la proporción de mujeres en el registro PRIMVAC es de 24,3% con un margen de error de 20,54% a 28,06%”

Ejercicio: en el ejemplo anterior calcular el error estándar y el intervalo de confianza del 95% de la proporción de varones.

Contrastes entre grupos: Hasta ahora hemos hablado de descripción de una muestra y de estimación (cálculo del intervalo de confianza) de la misma. La mayor parte de veces estaremos interesados en comparar dos o más grupos (pacientes con uno u otro tratamiento o factor de riesgo). El método estadístico se basa pues en la comparación (comparación de medias o comparación de proporciones). Cuando se encuentra una diferencia hay que excluir que ella sea producto del azar. Para ello realizaremos un contraste estadístico.

Hipótesis nula e hipótesis alternativas:

Hipótesis nula. También llamada hipótesis de igualdad. Es la hipótesis que se somete a prueba mediante las distintas pruebas estadísticas. En principio, a la hora de plantear un determinado supuesto hay que establecer de forma inequívoca cuál es la hipótesis nula que vamos a someter al test. En el ejemplo del shock, la hipótesis nula será que los distintos tratamientos 1, 2 y 3 son igualmente efectivos en elevar la tensión arterial sistólica en pacientes con shock. Es por esto que también se llama hipótesis de igualdad. Se suele expresar como H0.

H0: Trat 1= Trat 2= Trat 3

Si, mediante el apropiado test estadístico, encontramos que sí hay diferencias hablaremos de que podemos rechazar la hipótesis nula.

Hipótesis alternativas. Al rechazar la hipótesis nula aparecerán como más probables una o varias hipótesis alternativas. La notación habitual es la siguiente: H1, H2, etc. En nuestro ejemplo caben varias hipótesis alternativas:

-------------------------------
H1; Trat 1<> Trat 2
H2; Trat 1<> Trat 3
H3; Trat 2<> Trat 3
--------------------------------

Pruebas unilaterales o bilaterales. Se ha escrito mucho sobre la conveniencia de utilizar pruebas de una o dos colas. Adelantemos ya que esta discusión solo tiene sentido cuando se comparan dos grupos. En el caso de que se comparen más de dos grupos, las pruebas son multilaterales (o de múltiples vías).

Veamos el caso de la comparación entre dos grupos que llamaremos Tratamiento y Control. La notación de una prueba bilateral seria H0: Tratamiento = Control. Esto es lo más frecuente y lo que este autor recomienda. Existirán dos posibles hipótesis alternativas que resultan claras e inequívocas:

-------------------------------
 H1: Tratamiento > Control 
 H2: Tratamiento < Control 
-------------------------------

Si solamente estamos interesados en analizar una dirección del efecto podemos ,en teoría, utilizar una prueba unilateral cuya notación sería

-------------------------------
H0: Tratamiento < Control. 
-------------------------------

Este tipo de pruebas son muy poco recomendables por lo que no las trataremos en esta obra. Tengamos en cuenta que si, mediante el apropiado test, conseguimos rechazar la hipótesis nula, tendremos nuestra hipótesis alternativa. H1: Tratamiento ≥ Control. Esto quiere decir que el tratamiento es igual o mejor que el control.

Concepto de riesgos α y β. Cuando planteamos una prueba estadística, y, excluyendo los posibles errores en las fases previas de la investigación asumimos la existencia de dos posibles errores:

Riesgo α: Es la probabilidad de rechazar la hipótesis nula siendo verdadera. Es un riesgo que siempre es deseable que se establezca "a priori". Hablando en términos de "P", convencionalmente se acepta un valor de P=0.05 que quiere decir que aceptamos una probabilidad del 5% de rechazar la hipótesis nula siendo verdadera. No obstante, si, por ejemplo, estamos evaluando un tratamiento para una enfermedad mortal de necesidad podríamos establecer un nivel de P=0.1 y así estaríamos asumiendo una probabilidad del 10% de rechazar la hipótesis nula. Si, por el contrario, estamos evaluando un tratamiento con muchos efectos secundarios, para una dolencia para la que ya existen otros tratamientos, cabría ser mucho más exigente y elevar el nivel de significación requerido a P=0.001.

Riesgo β. Es la probabilidad de aceptar la hipótesis nula siendo falsa. Está íntimamente relacionado con el tamaño de la muestra y no vamos a tratar aquí de su cálculo. En general se acepta un riesgo β de 0,20 o 0,10 Su complementario recibe el nombre de poder estadístico. StatbaS no realiza estos cálculos ¡Todavía! No obstante existen muchos programas para su cálculo.


Comparación de medias

Cuando la variable efecto es cuantitativa y la variable predictora categórica utilizaremos algún método para comparación de medias. El método universal, para k grupos, es el denominado análisis de la varianza de una vía (Anova) del cual el popular test de Student no es más que un caso particular. Para comprenderlo mejor partiremos de un ejemplo: Se trata de observar el efecto que tienen tres tratamientos (1, 2 y 3) sobre una determinada variable cuantitativa la tensión arterial sistólica (TA) de un grupo de 39 pacientes en situación de shock e inferir, a partir de los datos, si existe o no alguna diferencia entre los mismos. Veamos un fragmento de la matriz de datos:

Caso Tratamiento TA (mmHg)
1 1 100
2 1 87
3 1 125
4 1 80
5 1 89
6 1 120
7 1 123
8 1 120
9 1 114
10 1 180
11 1 150
12 1 127
13 1 130
14 1 98
15 1 100
16 2 89
17 2 100
18 2 109
19 2 90

Lo primero que salta a la vista es que la lectura de una matriz de datos , aunque fácil para las máquinas, es incómoda para el ojo humano. Es por ello que preferiríamos disponer los datos de esta otra manera:

Trat 1Trat 2Trat 3
10089121
87100130
125109140
8090121
8998169
120121107
12389170
12090-
11490-
18098-
15099-
127100-
130108-
9898-
10099-
-110-
-89-
N15177
Media116,299,12136,86
DE25,968,8524,44

Efectivamente, si disponemos así los datos, de un vistazo sabemos que 15 pacientes recibieron el tratamiento 1, 17 el tratamiento 2 y 7 el tratamiento 3. Si además recuperamos los estadísticos descriptivos que calculamos en el capitulo anterior, podemos completar la tabla con los mismos y tener una idea, al menos intuitiva del comportamiento de los tres tratamientos.

Pues bien, al transformar nuestra primitiva matriz de datos en la tabla anterior estamos intentando, de forma intuitiva, separar la variabilidad total en dos componentes. El primero sería atribuible al posible efecto de los tratamientos y el segundo debido a la variabilidad propia de los individuos. Si la variabilidad debida a los tratamientos es mayor que la variabilidad entre los individuos (señal > ruido), el test será significativo.

Para resolver analíticamente este problema disponemos del análisis de la varianza de una vía (ANOVA). El estadístico F nos mide la razón entre la variabilidad atribuible a los tratamientos (numerador) y la atribuible a los sujetos (denominador).

F = V entre tratamientos / V entre individuos

En otras palabras la razón señal/ruido. Podemos imaginar que estamos intentando escuchar una melodía musical (la diferencia de efectos entre los tratamientos) que se encuentra perturbada por un ruido exterior (el error o imprecisión debido a la variabilidad entre sujetos). Si la melodía es más fuerte que el ruido la oiremos nítidamente, si ocurre lo contrario, no.

Queda pues, claro el fundamento del análisis de la varianza (y en general de todos los contrastes estadísticos) como una razón señal/ruido. El método de cálculo de los distintos componentes de la varianza se encuentran fuera del alcance de los objetivos de esta obra.

Vamos a resolver este ejercicio utilizando la aplicación StatbaS.

Abrir el programa ► Comparar ► Comparar Medias

Se nos abrirá una ventana para poder introducir los datos de cada uno de los grupos:

► Haciendo clic en "Si" obtendremos nuestros resultados:

---------------------------------------------------
Análisis de la Varianza

             N     Media    DE
Grupo 1     15   116.200    25.960
Grupo 2     17    99.120     8.850
Grupo 3      7   136.860    29.440

Fuente de variación

                  SC      GL   Varianza

Entre grupos:   7402.579   2   3701.289
              --------------------------
Residual:      15888.344  36    441.343

Estadístico F:   8.386  Valor de P:   0.001
---------------------------------------------------

Veamos ahora la interpretación de estos resultados. En primer lugar el programa nos muestra una estadística descriptiva de los grupos que se están comparando (nada nuevo para nosotros). A continuación, bajo el epígrafe “Fuente de variación” nos muestra el estadístico F como una razón entre varianzas (Entre grupos / Residual). Ya sabemos que cuanto mayor sea F, esto es, cuanto mayor sea la razón señal/ruido más significación estadística tendrá. El programa nos muestra el valor de P en las condiciones del estudio (Tres tratamientos y 39 sujetos). Observamos que P=0.001 o sea que “Con una probabilidad de equivocarnos del uno por mil podemos rechazar la hipótesis de igualdad entre los tres tratamientos”.

Pues bien, sabemos que cuanto mayor sea F, más significativo será. pero, ¿cuánto es suficientemente grande? Si se trata de un estudio con pocos tratamientos y muchos sujetos (pocos grados de libertad en el numerador y muchos en el denominador) nos hará falta solo un valor de F moderadamente grande. Si, por contra, disponemos de pocos sujetos, necesitaremos un valor de F mayor.

En el anexo tablas podemos consultar la tabla de ANOVA para distintos grados de libertad en el numerador y en el denominador.

¡Así pues, para obtener significación estadística procuremos no comparar demasiados grupos y tener suficientes sujetos!

Por esta y otras razones que veremos a continuación StatbaS limita la comparación entre grupos a 5 ¡más que suficiente!

La corrección de Bonferroni

Lo que el análisis de la varianza no nos dice es cuál, o cuáles de los grupos, son significativamente distintos unos de otros. En otras palabras y siguiendo con nuestro anterior ejemplo podemos rechazar la hipótesis nula de igualdad entre los tres tratamientos pero tenemos tres posibles comparaciones para saber qué grupos son distintos entre sí:

--------------------------------------
Tratam 1 vs Tratam 2
Tratam 2 vs Tratam 3
Tratam 1 vs Tratam 3
--------------------------------------

Estas comparaciones son llamadas contrastes “a posteriori”. Para realizarlas hay que tener la siguiente precaución. Comoquiera que hemos establecido nuestro riesgo alfa en 0,05, si realizamos comparaciones adicionales debemos efectuar algún tipo de restricción que disminuya ese riesgo. La corrección más común (y más fácil de entender) es la llamada corrección de Bonferroni que consiste en establecer un nuevo riesgo alfa que resultará de dividir 0,05 por el número de comparaciones “a posteriori”. Siguiendo con nuestro ejemplo anterior 0,05/3= 0,017. Es decir que cuando realicemos las comparaciones hay que exigir que la P sea menor a 0,017 para ser significativa.

Sabiendo esto, procedamos a comparar Tratam. 1 vs. Tratam. 2.

Vamos a resolver este ejercicio utilizando la aplicación StatbaS.

Abrir el programa ► Comparar ► Comparar Medias

Se nos abrirá una ventana para poder introducir los datos de cada uno de los grupos:

► Haciendo clic en “Si” obtendremos nuestros resultados:

--------------------------------------------
Análisis de la Varianza

             N     Media    DE
Grupo 1     15   116.200    25.960
Grupo 2     17    99.120     8.850

Fuente de variación

                  SC      GL   Varianza
Entre grupos:   2324.695   1   2324.695
              --------------------------
Residual:      10688.062  30    356.269

Estadístico F:   6.525  Valor de P:   0.015
T de Student:    2.554  Valor de P:   0.015
--------------------------------------------

O sea que al encontrar P< 0,017 podemos decir que el grupo que recibió el TRAT 1 es significativamente distinto del que recibió el Tratam 2

Procedamos ahora a comparar Tratam. 1 vs. Tratam. 3

Abrir el programa ► Comparar ► Comparar Medias

Se nos abrirá una ventana para poder introducir los datos de cada uno de los grupos:

► Haciendo clic en “Si” obtendremos nuestros resultados:

--------------------------------------------
Análisis de la Varianza

             N     Media    DE
Grupo 1     15   116.200    25.960
Grupo 2      7   136.860    29.440

Fuente de variación

                  SC      GL   Varianza

Entre grupos:   2037.170   1   2037.170
              --------------------------
Residual:      14635.184  20    731.759

Estadístico F:   2.784  Valor de P:   0.107
T de Student:    1.669  Valor de P:   0.107
--------------------------------------------

¡Ojo, el programa por defecto siempre habla de grupo 1,2,3, etc. Es muy conveniente cuando obtengamos los resultados etiquetarlos adecuadamente para no confundirnos más tarde!

Así, en los resultados anteriores deberíamos escribir Tratam. 1 en donde pone grupo 1 y Tratam. 3 en donde pone grupo 2.

Procediendo de la misma forma obtendríamos los resultados correspondientes al contraste Tratam. 2 vs. Tratam. 3

--------------------------------------------
Análisis de la Varianza
              N    Media     DE
Tratam 2     17    99.120     8.850
Tratam 3      7   136.860    29.440
Fuente de variación
                  SC      GL   Varianza
Entre grupos:   7062.192   1   7062.192
              --------------------------
Residual:       6453.442  22    293.338
Estadístico F:  24.075  Valor de P:   0.000
T de Student:    4.907  Valor de P:   0.000
--------------------------------------------

¡Nótese que hemos etiquetado nuestros resultados!

Así pues diríamos que, utilizando el análisis de la varianza de una vía, con la corrección de Bonferroni, el Tratam. 1 difiere estadísticamente del Tratam. 2 y este del Tratam. 3. No se encontraron diferencias entre Tratam. 1 y Tratam. 3.

Además de haber aprendido algo nuevo sobre Bonferroni, al comparar únicamente dos grupos observamos que el programa nos ha calculado también el estadístico T y su P asociada. La “T de Student” es un caso particular del análisis de la varianza cuando únicamente se comparan dos grupos. En realidad lo que propone Bonferroni es realizar una serie de comparaciones entre dos grupos, utilizando la T de Student y rebajando el valor del riesgo alfa en función del número total de contrastes.

La demostración de que el estadístico T de Student es un caso particular del ANOVA excede las características de esta obra. No obstante con una simple calculadora podemos ver que F=T² o sea que alguna relación debe existir entre ambos estadísticos.

Conviene reflexionar algo sobre las lineas precedentes. Es muy conveniente pensar, como siempre en estadística, la estrategia “a priori”. Por ejemplo, podríamos estar interesados en contrastar únicamente el Tratam. 1 frente al 2 y frente al 3. Ello implicaría únicamente dos comparaciones ¿Cambiaría esto nuestros resultados?

Ejercicio: Realizad el problema bajo este supuesto


Ji al Cuadrado

En el caso de que, tanto la variable independiente como la dependiente, sean cualitativas, utilizaremos la prueba de Ji al cuadrado, ampliamente difundida en la literatura. Se trata de un test de validez universal, tanto para la comparación de dos como de k grupos. Sus fundamentos se explican a continuación.

Estableciendo la hipótesis nula. Supongamos que hemos diseñado un ensayo clínico durante el cual 50 pacientes han sido tratados con un nuevo agente quimioterápico (A) y otros 50 con un quimioterápico convencional (B). Sabemos, porque ya se ha realizado el estudio, que 50 pacientes tuvieron remisión completa y otros 50 no. Así pues, podemos construir la siguiente tabla de la cual conocemos los marginales:

-Remisión + Remisión - Marginal
Agente AAB50
Agente BCD50
Marginal5050100

La pregunta que debemos hacernos es: ¿cuáles serian los valores de A, B, C y D si la hipótesis nula fuese cierta? La respuesta la podemos ver en la siguiente tabla:

-Remisión + Remisión - Marginal
Agente A(25)(25)50
Agente B(25)(25)50
Marginal5050100

Es decir, que si el tratamiento A fuese igualmente eficaz que el B, el valor de las celdas sería 25. Estos son los valores que llamaremos esperados (los que se esperan si la hipótesis nula es cierta) y los representaremos, por convención, entre paréntesis.

Veamos ahora, junto a los resultados esperados, los obtenidos realmente en el experimento:

-Remisión + Remisión - Marginal
Agente A37-(25)13-(25)50
Agente B13-(25)37-(25)50
Marginal5050100

Es decir, parece que el tratamiento A es mejor que el B puesto que obtenemos 37 remisiones frente a 25 esperadas. Por contra, con el tratamiento B solo obtenemos 13 remisiones frente a 25 esperadas.

Cuanto más se aparten los valores realmente obtenidos de los esperados, con mayor seguridad se podrá rechazar la hipótesis nula. La prueba de Ji cuadrado nos permite cuantificar esta distancia. El cálculo de los valores esperados se obtiene multiplicando el total de la fila por el total de la columna y luego dividiendo por el total de la tabla.

La formulación matemática del Ji cuadrado sería como sigue:

Ji cuadrado = ∑(Observado-Esperado)²/Esperado

Es decir que habrá que calcular, celda por celda, la expresión; luego sumar todos los valores de las celdas y así tendremos el valor de Ji cuadrado. Es evidente que, cuanto más se separen los valores observados de los esperados, mayor será el valor de Ji cuadrado. Pero, ¿cómo de grande?. Para contestar a esta pregunta hay que valorar las dimensiones de la tabla. No es lo mismo un valor de Ji cuadrado “grande” con una tabla “pequeña”(con pocas celdas) que al contrario.

Lo que llamamos grados de libertad (gl) nos permite cuantificar este concepto. Se calculan mediante la expresión:

gl = (nº de filas - 1) x (nº de columnas -1)

En última instancia, los grados de libertad nos aproximan a la magnitud de la tabla. Con el valor de Ji cuadrado y los gl entramos en la tabla (ver anexo) y tenemos la significación estadística en forma de P.

¡Si el valor de Ji cuadrado es igual o superior al número de celdas, la P será significativa!

Cálculo del Ji Cuadrado. Se presentan los datos obtenidos a partir de una prueba clínica con propanolol para el infarto de miocardio. Esta prueba se realizó con dos grupos de pacientes afectados por la enfermedad. Un grupo recibió propanolol mientras que el otro no. Se observó si los pacientes estaban vivos o no a los 28 días del ingreso. Se obtuvo la siguiente tabla de contingencia:

SupervivenciaMarginal
PropanololSiNo
Si38745
No291746
Marginal672491

Vamos a utilizar el programa StatbaS para resolverlo. Para ello seguiremos los siguientes pasos:

Abrir el programa ► Comparar ► Ji Cuadrado

► Introducir los datos en la tabla.

► Haciendo clic en “Si” obtendremos nuestros resultados:

----------------------------------------------------
Procedimiento Ji Cuadrado

Tabla de contingencia

     38      7
     29     17

Grados de libertad= 1
Ji Cuadrado de Pearson:   5.365 ; Valor de P: 0.021
Con corrección de Yates:  4.320 ; Valor de P: 0.038

----------------------------------------------------

Observamos que, tras mostrar la tabla de contingencia y los gl, el programa nos calcula el Ji Cuadrado que llamamos de Pearson y su probabilidad asociada. En este caso el valor de Ji Cuadrado es de 5.365 con un valor de P=0.021. También se muestra el Ji Cuadrado de Yates que comentaremos más adelante, con su correspondiente valor de P. Así pues, el tratamiento con Propanolol mejora significativamente la supervivencia.

El Ji Cuadrado es un método universal. No solo sirve para el cálculo de tablas 2 x 2 sino para tablas k x k. Veámoslo mediante un ejemplo. González et al. demostraron, mediante un estudio de características ecológicas, que los ingresos por infarto agudo de miocardio en las unidades de cuidados intensivos son más frecuentes en invierno entre los pacientes con edad superior a los 64 años. Sus datos crudos se muestran en la siguiente tabla:

EdadPrimaveraVeranoOtoñoInviernoTotal
<659158738298553472
65-747406796757492843
>745204275315362014

Si resolvemos el problema con nuestra aplicación informática encontraremos los siguientes resultados:

----------------------------------------------------
Procedimiento Ji Cuadrado

Tabla de contingencia

    915    873    829    855
    740    679    675    749
    520    427    531    536

Grados de libertad= 6
Ji Cuadrado de Pearson:  15.264 ; Valor de P: 0.018
----------------------------------------------------

Lo único que se podría concluir es que el rango de edad de los pacientes influye significativamente en el número de ingresos por estaciones. Nos encontramos aquí con un problema similar al del análisis de la varianza de una vía para k categorías. Es decir, de nuevo el problema de las comparaciones múltiples. Es necesario establecer la estrategia. Probablemente nos interese más comparar los menores de 65 años frente a los demás. Si agrupásemos la tabla “a posteriori” tendríamos que utilizar una corrección de Bonferroni y establecer nuestro riesgo alfa en 0.025. Resolvamos el problema con la tabla agrupada:

EdadPrimaveraVeranoOtoñoInviernoTotal
<659158738298553472
>= 6512601106120612854857

El valor de P, aunque es inferior a 0.05, no es inferior a 0.025 por lo que, "sensu stricto", no se podría hablar de significativo. Probablemente la corrección de Bonferroni es excesivamente conservadora pero el ejemplo ilustra sobre los riesgos de la excesiva compartimentación de las tablas y del “dragado de datos”. Quizá hubiese sido mejor perfilar la hipótesis nula “a priori”. En general es claramente desaconsejable trabajar con tablas mayores de 5x5 (salvo que, por las características del estudio, no quede más remedio)

Restricciones del procedimiento Ji cuadrado. La corrección de Yates. La principal limitación para el uso de este procedimiento es la escasez de observaciones en la tabla. Introduciremos el problema con un ejemplo clásico en la bibliografía: las observaciones de Lind sobre el escorbuto en La Marina. Lind fue un médico militar inglés que investigó diversos tratamientos para el escorbuto que afectaba a un gran número de marinos durante los viajes transoceánicos. Sus observaciones se resumen en la tabla adjunta:

FallecimientoMarginal
Vitamina CSiNo-
Si022
No10010
Marginal10212

Es esta una de las situaciones más extremas que podemos encontrar ya que, efectivamente, el número total de sujetos (marinos) es muy pequeño. Como se puede observar, ninguno de los marinos tratados con vitamina C fallecieron; por contra, ninguno de los que no recibieron vitamina C sobrevivió. Ahora bien, ¿es esto estadísticamente significativo?

Cuando utilizamos el programa StatbaS para resolverlo obtendremos los siguientes resultados:

----------------------------------------------------
¡Atención! Valores esperados <5 E(1,1)= 1.67
¡Atención! Valores esperados <5 E(1,2)= 0.33
¡Atención! Valores esperados <5 E(2,2)= 1.67

Procedimiento Ji Cuadrado

Tabla de contingencia

      0      2
     10      0

Grados de libertad= 1
Ji Cuadrado de Pearson:  12.000 ; Valor de P: 0.001
Con corrección de Yates:  5.880 ; Valor de P: 0.015
----------------------------------------------------

Observemos que, lo primero que nos indica el programa, es que existen menos de 5 efectivos esperados en algunas celdas (en este caso tres celdas). En este caso, una posible solución es utilizar el llamado Ji cuadrado de Yates. Como regla general, si existe más de un 25% de celdas con menos de 5 efectivos esperados, se debe aplicar la corrección de Yates. Su formulación matemática es:

El Ji cuadrado de Yates es una corrección conservadora del Ji cuadrado de Pearson y se utiliza, únicamente en tablas de 2x2. Una tabla general FxC podemos agruparla en ocasiones para convertirla en una tabla 2x2.

Existe otra solución más correcta que sería la utilización de la prueba exacta de Fisher cuyos fundamentos quedan fuera del alcance de esta obra.

Hay que hacer notar aquí que existen muchos profesionales de la estadística cuyo criterio es la utilización sistemática de la corrección de Yates en las tablas de 2x2. No obstante, el lector debe decidir este aspecto “a priori”.¡Como casi todo en estadística!

¡Recuerde que la corrección de Yates solo se puede utilizar en tablas 2 x 2!


Métodos no paramétricos

En el capítulo del análisis de la varianza, supusimos que nuestras variables cuantitativas seguían una distribución normal (también llamada gaussiana). Sin embargo, esto no siempre es así. Podemos tener dudas acerca de si nuestra distribución es, o no, paramétrica.

¡Un valor de la desviación estándar cercano a la media debe hacernos sospechar que no se trata de una distribución normal!

Tomemos por ejemplo los valores de tensión arterial de nuestros pacientes del estudio shock que recibieron el tratamiento 3.

-----------------------------------------------------
Estadística descriptiva de una variable cuantitativa

Tamaño muestral:     7.000
Media:             136.857
Desviación estándar:24.437
Error estándar:      9.236
Mediana:           130.000
Percentil 25:      121.000
Percentil 75:      149.500
Mínimo:            107.000
Máximo:            170.000
------------------------------------------------------

Para empezar, se trata de un grupo con pocos efectivos. Únicamente 7 pacientes recibieron este tratamiento. Con muestras pequeñas es más fácil que se vulneren los supuestos de normalidad. La media no coincide con la mediana y, además, observamos una desviación estándar relativamente grande (aunque no extremadamente grande) con respecto a la media. Por tanto, ¡Sospechemos de ella!

Existen varios modos de abordar la transformación de variables. Un método es realizar una transformación matemática que “normalice” la distribución. La transformación logarítmica es, probablemente, el método más popular. Es muy frecuente que consigamos que una transformación logarítmica de los datos originales nos permita trabajar con métodos paramétricos, siempre preferibles por su mayor poder estadístico. Gráficamente:

Una servidumbre de la transformación de datos es el hecho de que las nuevas unidades son poco inteligibles y no existen en la realidad (imaginemos qué son los Logaritmos de los mmHg). Por lo tanto, aunque trabajemos con datos transformados para hacer el contraste de hipótesis, debemos dar los estadísticos descriptivos de los datos originales.

Realmente, la transformación, en este caso, no será espectacular y, probablemente, no valga la pena. Sin embargo continuaremos trabajando con este ejemplo.

Otra posible solución es asignar a los datos originales una transformación de tipo ordinal. Así, el valor mínimo se transformaría en 1 y el máximo en 7 tal y como se muestra en la siguiente gráfica:

Así, los datos originales en mmHg han sido transformados en números de orden. Los métodos que trabajan con este tipo de transformación se llaman no paramétricos o de libre distribución. El equivalente al análisis de la varianza entre los métodos no paramétricos es el llamado test de Kruskal Wallis (También llamado análisis no paramétrico de la varianza). Un caso particular, para comparación entre dos grupos es la prueba de Mann Whitney (Equivalente a la T de Student). No vamos aquí a describir cómo se realizan estas pruebas. Únicamente podemos decir que se basan en la asignación de rangos a las observaciones originales.

¡Para trabajar con pruebas no paramétricas hace falta poder acceder a todos los datos originales, esto es a la matriz de datos!

Un contraste estadístico que pertenece a estos métodos no paramétricos es la prueba de la mediana o test de Mood. Aunque algo relegado en los textos tiene, en mi opinión, un doble valor: En primer lugar, desde el punto de vista docente, nos sirve para compr

r cómo se pueden analizar datos cuantitativos mediante una prueba de Ji

cuadrado En segundo lugar, desde un punto de vista meramente utilitarista, puede ayudarnos a analizar una base de datos de mala calidad. (Imaginemos una base de datos en que se hayan cometido muchos errores en la introducción de datos de tipo TA= 700 mmHg en lugar de 70 mmHg) Veamos cómo opera el método utilizando nuestra matriz de datos del estudio “Shock”:

Veamos cómo opera el método utilizando nuestra matriz de datos del estudio “Shock”:

Veamos cómo opera el método utilizando nuestra matriz de datos del estudio “Shock”:

En primer lugar calculamos la mediana de todas las observaciones, es decir, de las 39 observaciones. Podemos hacerlo con StatbaS usando la utilidad descriptiva. Procediendo de esta forma obtenemos el valor de la mediana que resulta ser de 107 mmHg.

En segundo lugar construimos una tabla de 2x3 tal y como se muestra en la figura. Se clasifican las observaciones en función el tratamiento recibido y de si están por encima o por debajo de la mediana.

Veamos cómo opera el método utilizando nuestra matriz de datos del estudio “Shock”:

En primer lugar calculamos la mediana de todas las observaciones, es decir, de las 39 observaciones. Podemos hacerlo con StatbaS usando la utilidad Descriptiva

Procediendo de esta forma obtenemos el valor de la mediana que resulta ser de 107 mmHg.

En segundo lugar construimos una tabla de 2x3 tal y como se muestra en la figura. Se clasifican las observaciones en función del tratamiento recibido y de si están por encima o por debajo de la mediana.

Tratamiento
123
>Mediana946
<= Mediana6131

En tercer lugar resolvemos la tabla mediante el procedimiento Ji cuadrado de StatbaS

-------------------------------------------------------
¡Atención! Valores esperados <5 E(1,3)= 3.41
¡Atenión!  Valores esperados <5 E(2,3)= 3.59

Procedimiento Ji Cuadrado 

Tabla de contingencia
  
9      4      6
6     13      1

Grados de libertad= 2
Ji Cuadrado de Pearson:   8.916 ; Valor de P: 0.012
------------------------------------------------------

Así pues, la prueba de Mood se basa en una transformación ordinal extrema de nuestros datos. Únicamente los clasificamos en función de si están por arriba o por debajo de la mediana. Una vez clasificadas las observaciones se resuelven por el método de Ji al cuadrado. Cumplimos así nuestro propósito de que cada prueba estadística nueva se fundamente en otra ya conocida. Pero, veamos estos resultados con detenimiento: El valor de P es de 0,012 el cual contrasta con el valor de P = 0,000 cuando utilizábamos el análisis de la varianza normal. Esto ocurre porque, al realizar una transformación ordinal de datos, y máxime, si esta transformación es extrema, se pierde poder estadístico. Tengamos en cuenta que cuando se usa el método paramétrico del análisis de la varianza importa ¡y mucho! la diferencia de cada observación con respecto a la media. Así, el valor 170 mmHg se encuentra alejado del valor de la media. Por contra, al utilizar el método de Mood, la observación 170 mmHg vale, para el cálculo, exactamente igual que 109 mmHg pues ambas observaciones se encuentran por encima de la mediana (107 mmHg). En cierto sentido podemos decir que hemos “cualificado” nuestras observaciones inicialmente cuantitativas. En la figura adjunta se resumen todos estos conceptos.

¡Conclusión: siempre que podamos trabajaremos con métodos paramétricos!

En los resultados anteriores el programa nos avisa de que hay pocos efectivos esperados en las casillas 1,2 y 1,3. Una posible solución es agrupar la tabla de 3x2 y convertirla en una de 2x2.

Ejercicio: Averiguar, utilizando la prueba de la mediana, si el grupo que recibió el TRAT. 1 es significativamente distinto del resto.


Medidas repetidas

Hasta ahora hemos considerado que un grupo de sujetos recibía una intervención y otro grupo distinto otra. Recordemos nuestro estudio del shock. Vamos a considerar aquí un problema estadístico ligeramente distinto. Ocurre cuando, en un grupo de sujetos, se mide el valor de una variable y más tarde, en el mismo grupo de sujetos, se toma una nueva medición. Es este un procedimiento muy frecuente en la literatura y los denominaremos estudios de de medidas repetidas. Lo introduciremos mediante un ejemplo:

Se pensaba que al aplicar CPAP (un método de ventilación artificial que no precisa de intubación endotraqueal) a los pacientes con insuficiencia respiratoria aguda e hipercápnia, los valores de la presión parcial de anhídrido carbónico en la sangre (PaCO2) aumentarían. Para resolver este problema se realizó un estudio de medidas repetidas en el que a 7 pacientes que cumplían los criterios de inclusión se les midió la PaCO2 en sangre arterial antes y 24 horas después de aplicar CPAP. Veamos los datos obtenidos:

Si observamos los datos, veremos que parece que las cifras de PaCO2, en líneas generales parecen disminuir o, al menos no aumentan. Pero esta observación aparente ¿es estadísticamente significativa?

Lo más importante es darnos cuenta de que estamos haciendo dos mediciones en el mismo sujeto. Así, no sería correcto, sin más consideraciones, comparar los datos de la primera columna con los de la segunda mediante una prueba de ANOVA o su equivalente T de Student. Si procediésemos así estaríamos suponiendo que tenemos 14 sujetos y, realmente, solo tenemos 7 sujetos. Es este un motivo de error muy frecuente.

¡Preguntémonos siempre cuantos sujetos tenemos!

Si volvemos al problema de la PaCO2 veremos que, en realidad, nosotros estamos interesados en conocer la variación de la cifra de PaCO2 entre la primera y la segunda observación. Así podríamos presentar nuestros datos como sigue:

PaCO2 0hPaCO2 24hDiferencia
885038
49481
764729
7477-3
503911
47434
564016

La columna diferencia se obtiene restando los valores de las dos columnas (0 y 24 horas).

Preguntémonos ahora sobre cuál es nuestra hipótesis nula. Si la CPAP no tuviese ningún efecto cabría esperar que los valores de la primera y segunda columna no variarían. Por lo tanto, la media de las diferencias sería 0. ¿Es esto así? Veamos

Vamos a utilizar el programa StatbaS para resolverlo. Para ello seguiremos los siguientes pasos:

Abrir el programa ► Utilidades ► Descriptiva

► Introducir el número de observaciones:

► Introducir los datos sucesivamente:

Hasta obtener nuestros resultados

----------------------------------------------------
Estadística descriptiva de una variable cuantitativa

Tamaño muestral:            7.000
Media:                     13.714
Desviación estándar:       15.119
Error estándar:             5.714
Mediana:                   11.000
Percentil 25:               1.000
Percentil 75:              20.000
Mínimo:                    -3.000
Máximo:                    38.000
----------------------------------------------------

El siguiente paso nos lleva a un concepto ya visto con anterioridad: la estimación de una media. Se trata de averiguar si con estos datos el valor 0 (hipótesis nula), queda fuera o dentro del intervalo de confianza de esta muestra. Calculemos pues el intervalo de confianza del 95% tal y como ya conocemos

----------------------------------------------------
Estimación de una Media

Tamaño muestral:                7
Media:                         15.71
DE                             15.12

EE de la Media:                 5.71
Grados de libertad:             6
Valor de t:                     2.45

Int. Confianza 95%:    1.71     a       29.72
----------------------------------------------------

Como podemos ver el intervalo de confianza del 95% no incluye el valor 0 (hipótesis nula). Ello quiere decir que con una probabilidad de error < 0,05 podemos rechazar la hipótesis nula.

Una vez más cumplimos nuestro propósito de fundamentar una nueva prueba estadística en otra que ya conocíamos previamente.

Podríamos pues decir que “al aplicar la CPAP se produce una disminución de la PaCO2 media de 16,37 mmHg, con un intervalo de confianza del 95% que oscilaría entre 1,71 y 29,72 mmHg”. Podríamos añadir que “estos resultados son significativos para una P<0,05”.

Ji cuadrado de Mc Nemar

Los diseños de medidas repetidas no son aplicables únicamente a las variables cuantitativas sino que son extensibles a las variables categóricas. Así, es perfectamente entendible que de un grupo de 20 pacientes con diagnóstico de neumonía, 14 presentaran fiebre antes del tratamiento antibiótico y finalmente, tras el mismo, solo 4 permaneciesen febriles. ¿Es este resultado significativo? Para responder a esta cuestión tenemos la llamada prueba de Mc Nemar. Veamos los datos de este ejemplo convenientemente tabulados:

Fiebre al final +Fiebre al final -Total
Fiebre al inicio +113
Fiebre al inicio -15
20

Veamos el significado de la tabla. Se presentaron inicialmente 14 pacientes diagnosticados de neumonía y que presentaban fiebre al inicio. Tras el tratamiento, de estos 14 pacientes, 13 quedaron apiréticos y solo uno permanecía febril. Por otro lado ¿qué pasó con los 6 pacientes inicialmente apiréticos? Uno desarrolló fiebre y 5 permanecieron afebriles.

¡Lo más difícil es tabular correctamente los datos!

Utilizemos el programa StatbaS para resolverlo. Para ello seguiremos los siguientes pasos:

Abrir el programa ► Diseños ► Tabla 2x2 Simple

► Introducimos nuestros datos:

► A la pregunta de si estamos de acuerdo con los datos responderemos que sí y, a continuación, marcaremos el Tipo de Diseño de Medidas Repetidas y obtendremos nuestros resultados:

----------------------------------------------------
Procedimiento Ji Cuadrado de Mc Nemar

Tabla de contingencia

      1     13
      1      5

Grados de libertad= 1
Ji Cuadrado de Mc Nemar:  10.286 ; Valor de P: 0.001
Con corrección de Yates:   8.643 ; Valor de P: 0.003
----------------------------------------------------

En este caso no tiene sentido utilizar los conceptos de variable exposición y variable efecto. Se utiliza la tabla solo como “Layout” de introducción de datos


Tablas

Tabla para el análisis de la varianza

-----------------------------------------
							
	  Gl numerador						
	1	2	3	
Gl
denomi-
nador
						
1	161	200	216		
2	18,51	19,0	19,2	
3	10,13	9,55	9,28	
4	7,71	6,94	6,59	
5	6,61	5,79	5,41	
6	5,99	5,14	4,76	
7	5,59	4,74	4,35	
8	5,32	4,46	4,07	
9	5,12	4,26	3,86	
10	4,96	4,10	3,71	
11	4,84	3,98	3,59	
12	4,75	3,88	3,49	
13	4,67	3,80	3,41	
14	4,60	3,74	3,34	
15	4,54	3,68	3,29	
16	4,49	3,63	3,24				
17	4,45	3,59	3,20				
18	4,41	3,55	3,16				
19	4,38	3,52	3,13				
20	4,35	3,49	3,10
21	4,32	3,47	3,07
22	4,30	3,44	3,05
22	4,30	3,44	3,05
23	4,28	3,42	3,03
24	4,26	3,40	3,01
25	4,24	3,38	2,99
26	4,22	3,37	2,98
27	4,21	3,35	2,96
28	4,20	3,34	2,95
29	4,18	3,33	2,93
30	4,17	3,32	2,92
32	4,15	3,30	2,90
34	4,13	3,28	2,88
36	4,11	3,26	2,86
38	4,10	3,25	2,85
40	4,08	3,23	2,84				
------------------------------------------

Para usar la tabla y encontrar el valor crítico de F debemos entrar con los grados de libertad del numerado y con los del denominador. El valor de F que encontremos en la intersección será el valor por encima del cual la prueba es significativa.

Tabla para el análisis del Ji Cuadrado

---------------------------------------------------------------------------------
Gl	0,5  	0,25 	0,1  	0,05 	0,025	0,01  	0,005	0,001
								
1	0,455	1,323	2,706	3,841	5,024	6,635	7,879	10,828
2	1,386	2,773	4,605	5,991	7,378	9,210	10,597	13,816
3	2,366	4,108	6,251	7,815	9,348	11,345	12,838	16,266
4	3,357	5,385	7,779	9,488	11,143	13,277	14,860	18,467
								
5	4,351	6,626	9,236	11,070	12,833	15,086	16,750	20,515
6	5,348	7,841	10,645	12,592	14,449	16,812	18,548	22,458
7	6,346	9,037	12,017	14,067	16,013	18,475	20,278	24,322
8	7,344	10,219	13,362	15,507	17,535	20,090	21,955	26,124
				
---------------------------------------------------------------------------------

Para usar la tabla hay que entrar en la fila correspondiente a los grados de libertad (gl) y buscar en ella el valor de Ji cuadrado. Siguiendo la columna hacia arriba encontraremos el valor de P.