4.4.3. Intervalos de confianza
Intervalos de confianza
La estimación puntual aproxima mediante un número el valor de una característica poblacional o parámetro desconocido (la altura media de los españoles, la intención de voto a un partido en las próximas elecciones generales, el tiempo medio de ejecución de un algoritmo, el número de taxis…) pero no nos indica el error que se comete en dicha estimación.
Lo razonable, en la práctica, es adjuntar, junto a la estimación puntual del parámetro, un intervalo que mida el margen de error de la estimación. La construcción de dicho intervalo es el objetivo de la estimación por intervalos de confianza.
Un intervalo de confianza para un parámetro con un nivel de confianza (), es un intervalo de extremos aleatorios que, con probabilidad , contiene al parámetro en cuestión.
Los valores más habituales del nivel de confianza son o (la confianza es del o ). En ocasiones también se emplea la terminología nivel de significación para el valor .
En la estimación por intervalos de confianza partimos de una muestra . A partir de estos valores obtenemos un intervalo numérico. Por ejemplo, podríamos hablar de que, con una confianza del por ciento, la proporción de voto al partido político “Unidas Ciudadanas” está entre el y el por ciento. O que, con una confianza del por ciento, la estatura media está entre y .
7.4.1 Interpretación
Igual que vimos antes con las encuestas de las estaturas, o de la proporción de gente que cree en los extraterrestres, con cada muestra obteníamos datos diferentes, y valores diferentes (de la media muestral o de la proporción muestral).
De cada muestra también puede obtenerse un intervalo de confianza. Entonces, con cada muestra diferente, obtendremos un intervalo también diferente. A medida que aumenta la cantidad de intervalos que hemos construido, el porcentaje de intervalos que contienen el verdadero valor del parámetro se aproximará al .
Así, por ejemplo, un intervalo de confianza al garantiza que, si tomamos muestras, el verdadero valor del parámetro estará dentro del intervalo en aproximadamente el de los intervalos construidos.
Veamos un ejemplo mediante simulación. Vamos a simular que realizamos encuestas, en este caso preguntando a personas (de nuevo si creen en los extraterrestres). De cada muestra podemos obtener una estimación puntual (calculada mediante la proporción en la muestra), y también un intervalo de confianza (que más adelante veremos cómo se calcula). Haremos este proceso veces.
set.seed(1)
n<-12
B<-20
muestras <- as.data.frame(matrix(rbinom(n*B,
1, 0.61), ncol=n))
rownames(muestras) <- paste("muestra", 1:B, sep="")
colnames(muestras) <- paste(" obs ", 1:n , sep="")
#muestras
pander(muestras)
obs 1 | obs 2 | obs 3 | obs 4 | obs 5 | obs 6 | obs 7 | obs 8 | |
---|---|---|---|---|---|---|---|---|
muestra1 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
muestra2 | 1 | 1 | 0 | 1 | 0 | 1 | 1 | 1 |
muestra3 | 1 | 0 | 0 | 1 | 1 | 1 | 1 | 1 |
muestra4 | 0 | 1 | 1 | 1 | 1 | 0 | 1 | 1 |
muestra5 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 |
muestra6 | 0 | 1 | 0 | 1 | 1 | 1 | 1 | 1 |
muestra7 | 0 | 1 | 1 | 1 | 0 | 1 | 1 | 1 |
muestra8 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0 |
muestra9 | 0 | 0 | 0 | 1 | 1 | 0 | 1 | 1 |
muestra10 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 0 |
muestra11 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 0 |
muestra12 | 1 | 1 | 0 | 0 | 1 | 0 | 1 | 1 |
muestra13 | 0 | 1 | 1 | 1 | 0 | 1 | 1 | 1 |
muestra14 | 1 | 1 | 1 | 1 | 0 | 1 | 0 | 1 |
muestra15 | 0 | 0 | 1 | 1 | 0 | 1 | 0 | 1 |
muestra16 | 1 | 0 | 1 | 0 | 0 | 1 | 1 | 1 |
muestra17 | 0 | 0 | 1 | 0 | 1 | 0 | 1 | 1 |
muestra18 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
muestra19 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 1 |
muestra20 | 0 | 1 | 1 | 0 | 1 | 0 | 1 | 1 |
obs 9 | obs 10 | obs 11 | obs 12 | |
---|---|---|---|---|
muestra1 | 1 | 1 | 1 | 1 |
muestra2 | 0 | 1 | 1 | 1 |
muestra3 | 1 | 0 | 1 | 1 |
muestra4 | 0 | 1 | 1 | 1 |
muestra5 | 0 | 0 | 1 | 0 |
muestra6 | 1 | 1 | 1 | 1 |
muestra7 | 1 | 0 | 1 | 1 |
muestra8 | 1 | 0 | 1 | 1 |
muestra9 | 0 | 0 | 1 | 1 |
muestra10 | 1 | 1 | 0 | 0 |
muestra11 | 0 | 0 | 0 | 1 |
muestra12 | 0 | 1 | 1 | 1 |
muestra13 | 0 | 1 | 0 | 1 |
muestra14 | 1 | 0 | 0 | 0 |
muestra15 | 1 | 1 | 0 | 1 |
muestra16 | 0 | 1 | 1 | 0 |
muestra17 | 0 | 1 | 0 | 0 |
muestra18 | 0 | 0 | 0 | 1 |
muestra19 | 1 | 1 | 0 | 1 |
muestra20 | 0 | 0 | 1 | 1 |
muestras$mean <- rowMeans(muestras[,1:n])
alfa <- 0.05
z <- qnorm(1 - alfa/2)
p <-muestras$mean
muestras$ici <- p - z*sqrt(p*(1-p)/n)
muestras$ics <- p + z*sqrt(p*(1-p)/n)
esta<-0
b=ifelse(0.61<=muestras$ics & 0.61 >= muestras$ici,
"SI", "NO")
Resultado<-data.frame(muestras$mean, muestras$ici ,
muestras$ics, b)
colnames(Resultado)<-c("ptilde", "L", "U",
" 0.61 está o no?")
pander(Resultado)
ptilde | L | U | 0.61 está o no? |
---|---|---|---|
0.5 | 0.2171 | 0.7829 | SI |
0.75 | 0.505 | 0.995 | SI |
0.75 | 0.505 | 0.995 | SI |
0.75 | 0.505 | 0.995 | SI |
0.3333 | 0.06662 | 0.6001 | NO |
0.8333 | 0.6225 | 1.044 | NO |
0.75 | 0.505 | 0.995 | SI |
0.6667 | 0.3999 | 0.9334 | SI |
0.5 | 0.2171 | 0.7829 | SI |
0.5833 | 0.3044 | 0.8623 | SI |
0.5833 | 0.3044 | 0.8623 | SI |
0.6667 | 0.3999 | 0.9334 | SI |
0.6667 | 0.3999 | 0.9334 | SI |
0.5833 | 0.3044 | 0.8623 | SI |
0.5833 | 0.3044 | 0.8623 | SI |
0.5833 | 0.3044 | 0.8623 | SI |
0.4167 | 0.1377 | 0.6956 | SI |
0.6667 | 0.3999 | 0.9334 | SI |
0.5 | 0.2171 | 0.7829 | SI |
0.5833 | 0.3044 | 0.8623 | SI |
Vemos que, en la mayoria de las ocasiones, el intervalo de confianza contiene al verdadero valor del parámetro ( en este caso), pero en otras (las menos) no. En este ejemplo hemos utilizado un tamaño de muestra pequeño y hemos repetido el proceso pocas veces, pero ahí está el código para replicar el procedimiento con otros valores. Se puede comprobar que, con tamaños de muestra un poco más grandes y repetido el proceso un número grande de veces, de cada veces (aquí hemos usado un nivel de confianza del ) los intervalos contendrán el valor , y aproximadamente de cada veces no lo contendrán.
Observemos el mismo proceso, ahora para muestras de tamaño , de estaturas (de hombres mayores de años en España). Simulamos que seleccionamos aleatoriamente a hombres, les medimos la estatura, calculamos la estatura media de la muestra y el intervalo de confianza para dicha estatura media, con confianza del . Realizamos este proceso veces.
Ahora, además, hacemos un dibujo de los 50 primeros intervalos, para comprobar cuáles contienen al verdadero valor buscado (la estatura media real o teórica, en este caso, que es ).
set.seed(54321)
nsim <- 500
nx <- 10
# Valores teóricos:
mux <- 177.7
sdx <- 5.9
#
# Simulación de las muestras
muestras <- as.data.frame(matrix(rnorm(nsim*nx,
mean=mux, sd=sdx), ncol=nx))
rownames(muestras) <- paste("muestra", 1:nsim, sep="")
colnames(muestras) <- paste("obs", 1:nx, sep="")
# Estimaciones
muestras$mean <- rowMeans(muestras[,1:nx])
muestras$sd <- apply(muestras[,1:nx], 1, sd)
alfa <- 0.05
z <- qnorm(1 - alfa/2)
muestras$ici <- muestras$mean - z*sdx/sqrt(nx)
muestras$ics <- muestras$mean + z*sdx/sqrt(nx)
# Cobertura de las estimaciones por IC:
muestras$cob <- (muestras$ici < mux) & (mux < muestras$ics)
ncob <- sum(muestras$cob)
# Nº de intervalos que contienen la verdadera media
ncob
[1] 480
# Proporción de intervalos
100*ncob/nsim
[1] 96
Como vemos, de los intervalos calculados, el 96 por ciento de los mismos contiene el verdadero valor . Este valor es casi el , que es el nivel utilizado.
Hacemos ahora el gráfico de los primeros 50 intervalos (Figura 7.9:). Los intervalos de color rojo no contienen al verdadero valor del parámetro; los otros sí.
m <- 100
tmp <- muestras[1:m,]
attach(tmp)
color <- ifelse(cob,"blue","red")
plot(1:m, mean, col = color,
ylim = c(min(ici),max(ics)),
main = "Cobertura de las estimaciones por IC",
xlab = "Muestra", ylab = "IC")
arrows(1:m, ici, 1:m, ics, angle = 90,
length = 0.05, code = 3, col = color)
abline(h = mux, lty = 3)
Comentarios
Publicar un comentario