4.5.4. Otras pruebas: Anderson-Darling,prueba g, otras
¿Qué es el estadístico de Anderson-Darling?
El estadístico Anderson-Darling mide qué tan bien siguen los datos una distribución específica. Para un conjunto de datos y distribución en particular, mientras mejor se ajuste la distribución a los datos, menor será este estadístico. Por ejemplo, usted puede utlizar el estadístico de Anderson-Darling para determinar si los datos cumplen el supuesto de normalidad para una prueba t.
Las hipótesis para la prueba de Anderson-Darling son:
- H0: Los datos siguen una distribución especificada
- H1: Los datos no siguen una distribución especificada
Utilice el valor p correspondiente (si está disponible) para probar si los datos provienen de la distribución elegida. Si el valor p es menor que un nivel de significancia elegido (por lo general 0.05 o 0.10), entonces rechace la hipótesis nula de que los datos provienen de esa distribución. Minitab no siempre muestra un valor p para la prueba de Anderson-Darling, porque este no existe matemáticamente para ciertos casos.
También puede utilizar el estadístico de Anderson-Darling para comparar el ajuste de varias distribuciones con el fin de determinar cuál es la mejor. Sin embargo, para concluir que una distribución es la mejor, el estadístico de Anderson-Darling debe ser sustancialmente menor que los demás. Cuando los estadísticos están cercanos entre sí, se deben usar criterios adicionales, como las gráficas de probabilidad, para elegir entre ellos.
Distribución | Anderson-Darling | Valor p |
---|---|---|
Exponencial | 9.599 | p < 0.003 |
Normal | 0.641 | p < 0.089 |
Weibull de 3 parámetros | 0.376 | p < 0.432 |
Exponencial
Normal
Weibull de 3 parámetros
Ejemplo de comparación de distribuciones
Estas gráficas de probabilidad son para los mismos datos. Tanto la distribución normal como la distribución de Weibull de 3 parámetros ofrecen un ajuste adecuado a los datos.
Minitab calcula el estadístico de Anderson-Darling usando la distancia al cuadrado ponderada entre la línea ajustada de la gráfica de probabilidad (con base en la distribución elegida y usando el método de estimación de máxima verosimilitud o las estimaciones de mínimos cuadrados) y la función de paso no paramétrica. El cálculo tiene mayor ponderación en las colas de la distribución.
Mostrar el estadístico de Anderson-Darling en una gráfica de probabilidad normal
Para ver una leyenda que muestre el estadístico de la prueba de Anderson-Darling y el valor p cada vez que usted cree una gráfica de probabilidad normal de los residuos:
- Choose and
- Marque Incluir prueba de Anderson-Darling con gráfica normal. Haga clic en Aceptar. Minitab no muestra la prueba cuando hay menos de 3 grados de libertad para el error.
Hace unos días recibí una consulta de una vieja amiga lingüista. Ella trabaja en algo que creo que se llama cocolocación: el estudio de palabras que aparecen o que tiendan a aparecer juntas en textos. Digamos que es algo así como una correlación o una regla de asociación.
Los lingüistas están muy interesados en ese tipo de fenómenos. Tradicionalmente (cada gremio tiene su librillo) usan la información mutua. Pero, al final, lo que tienen es una tabla de contingencia: situaciones en que aparece una, la otra, ambas o ninguna de las palabras.
Y claro, tablas de contingencia 2×2 llevan a pensar en el test de la chi-cuadrado. ¿Podría utilizarse este?
Pues sí, claro. Solo que, según esto, la información mutua es proporcional al estadístico del g-test (o de razón de las verosimilitudes), del que el de la chi-cuadrado es no más una aproximación de la época precomputacional.
A propósito, el g-test puede aplicarse en R así (¿habrá alguna manera más?).
Confieso que no había oído hablar del g-test hasta el otro día. Y me consuela saber que lo mismo le pasaba a una serie de estadísticos con los que he tenido ocasión de compartir unos tinticos (cafés en Colombia) estos días pasados.
Comentarios
Publicar un comentario