Las autoridades de educación básica de la alcaldía de Iztapalapa desean implementar un programa educativo para las personas mayores de 15 años con primaria incompleta con el fin de que puedan obtener su certificado de primaria. Para ello necesitan estimar el número aproximado de personas mayores de 15 años sin primaria terminada en la alcaldía.
Se hará una encuesta en las AGEBs de Iztapalapa para recabar la información que se necesita para el diseño del programa.

<ol type="a">
<li>Para poder conocer el tamaño de la muestra se realiza una prueba piloto de tamaño 12.</li>
<li>Determinar el tamaño de muestra para un nivel de confianza del 95% y una precisión de 15 habitantes.</li>
<li>Calcular un intervalo de confianza para el promedio de personas mayores de 15 años con primaria incompleta para la muestra definitiva.</li>
<li>Calcular un intervalo de confianza para el total estimado de personas mayores de 15 años con primaria incompleta</li>

Debido a cuestiones de presupuesto, el programa se centrará en aquellos AGEBs con al menos 200 habitantes.
<li>A partir de la muestra definitiva, estimar el total de AGEB mayores de 200 habitantes con primaria incompleta (personas mayores de 15 años)</li>
<li>¿Cuál es el número máximo de AGEBs donde se podría establecer el programa?</li>
<li>Comparar los resultados de su muestra con los valores parametrales.</li>
</ol>

In [11]:
from Funciones import Estadisticas
import pandas as pd

In [12]:
## Leer el archivo de datos
data = pd.read_excel('AGEBIZTAPALAPA.xlsx')

# Ajustar el índice para que comience en 1
data.index = pd.Index(range(1, len(data) + 1))

# Mostrar las primeras filas
data.head()

Unnamed: 0,No,Clave Alcaldía,Alcaldía,AGEB,Población 15 años y más sin primaria
1,1,7,Iztapalapa,4151,77
2,2,7,Iztapalapa,134A,283
3,3,7,Iztapalapa,4698,133
4,4,7,Iztapalapa,3562,50
5,5,7,Iztapalapa,3647,72


In [13]:
# Eliminar la primera columna
data = data.drop(data.columns[0], axis=1)
data.head()


Unnamed: 0,Clave Alcaldía,Alcaldía,AGEB,Población 15 años y más sin primaria
1,7,Iztapalapa,4151,77
2,7,Iztapalapa,134A,283
3,7,Iztapalapa,4698,133
4,7,Iztapalapa,3562,50
5,7,Iztapalapa,3647,72


In [14]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 458 entries, 1 to 458
Data columns (total 4 columns):
 #   Column                                Non-Null Count  Dtype 
---  ------                                --------------  ----- 
 0   Clave Alcaldía                        458 non-null    int64 
 1   Alcaldía                              458 non-null    object
 2   AGEB                                  458 non-null    object
 3   Población 15 años y más sin primaria  458 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 14.4+ KB


<ol type="a">
<li> Se determina el tamaño de muestra mediante una prueba piloto de tamaño 12.</li>
</ol>

In [15]:
## Instanciar la clase
funcion = Estadisticas(data)

In [16]:
## Aleotorizar los datos de tamaño 12

tamano_muestra = 12
muestra_piloto = funcion.aleatorio_simple(data, tamano_muestra)
print(muestra_piloto)



     Clave Alcaldía    Alcaldía  AGEB  Población 15 años y más sin primaria
10                7  Iztapalapa  3844                                    51
212               7  Iztapalapa  2884                                   138
363               7  Iztapalapa  0676                                    39
87                7  Iztapalapa  4310                                   104
4                 7  Iztapalapa  3562                                    50
36                7  Iztapalapa  1087                                   212
31                7  Iztapalapa  3401                                   356
141               7  Iztapalapa  0854                                   237
104               7  Iztapalapa  5906                                    89
83                7  Iztapalapa  4359                                   104
49                7  Iztapalapa  5200                                   265
22                7  Iztapalapa  4560                                    39


<ol type="a" start="2">
    <li>Determinar el tamaño de muestra para un nivel de confianza del 95% y una precisión de 15 habitantes. </li>
</ol>

Se calcula en primer lugar el tamaño de muestra para la media sin correción por finitud mediante la siguiente fórmula: 

$$ n_0 = \frac{z^2 s^2}{d^2} $$

Donde: 
* $z^2$ es el nivel de confianza al cuadrado. 
* $d^2$ es la precisión al cuadrado
* $s^2$ es la varianza al cuadrado de la muestra para media sin correción. 

Y una vez obtenido lo anterior, se obtiene el tamaño de muestra para la media con correción mediane la siguiente fórmula:

$$ n =\frac{n_0}{1+\frac{n_0}{N}} $$

Donde: 
* $n_0$ es la media sin correcion. 
* $N$ el tamaño de la muestra original


In [17]:
## Calcular el tamaño de muestra mediante una prueba piloto de tamaño 12 con la media sin corrección
z = 1.96
tamano_muestra_sin_correcion = funcion.media_sin_correcion(datos=muestra_piloto, columna='Población 15 años y más sin primaria', z=z, presicion=15)
print('Tamaño de muestra de la media sin corrección:', tamano_muestra_sin_correcion)

Tamaño de muestra de la media sin corrección: 183.92


In [18]:
## Calcular el tamaño de muestra con la media con corrección

tamano_muestra_con_correccion = funcion.media_con_correcion(datos = data, n0=tamano_muestra_sin_correcion)
print('Tamaño de muestra con la media con corrección:', tamano_muestra_con_correccion)

Tamaño de muestra con la media con corrección: 131.22


<ol type="a" start="3"> 
<li>Calcular un intervalo de confianza para el promedio de personas mayores de 15 años con primaria incompleta para la muestra definitiva. </li>
<ol>

Una vez calculado el tamaño de muestra final, se procecede a tomar una muestra aletoria de 136 datos, y luego se obtiene el intervalo de confianza dada por la siguiente fórmula:

$$ \bar{y} \pm Z\sqrt{\left( 1- \frac{n}{N} \right)\frac{s^2}{n}} $$

Donde:
* $ \bar{y} $ es la media de la muestra final.
* $ s^2 $ es la varianza de la muestra final.
* $ n $ es el tamño de la muestra final. 
* $ N $ es el tamño total de la población, en este caso el tamaño de los datos originales.  

In [19]:
## Calcular el tamaño de muestra con la media con corrección
n = int(tamano_muestra_con_correccion)
muestra_final = funcion.aleatorio_simple(data, n)
print(muestra_final)

     Clave Alcaldía    Alcaldía  AGEB  Población 15 años y más sin primaria
80                7  Iztapalapa  4147                                    19
422               7  Iztapalapa  0479                                   210
398               7  Iztapalapa  2102                                    98
235               7  Iztapalapa  5431                                    52
331               7  Iztapalapa  1763                                   263
..              ...         ...   ...                                   ...
140               7  Iztapalapa  4448                                    37
310               7  Iztapalapa  006A                                   156
275               7  Iztapalapa  4645                                    47
66                7  Iztapalapa  5291                                   193
50                7  Iztapalapa  2206                                    76

[131 rows x 4 columns]


In [20]:
## Calcular el intervalo de confianza

# Tamaño de muestra con corrección
n = int(tamano_muestra_con_correccion)

# Seleccionar la columna de la población
columna_poblacion = muestra_final['Población 15 años y más sin primaria']

# Calcular intervalos de confianza
Limite_Inferior, Limite_Superior = funcion.intervalo_confianza(data, n, col_numerica = columna_poblacion, z = z)
print(f'Limiite Inferior: {Limite_Inferior} y Limite Superior: {Limite_Superior}')


Limiite Inferior: 148.39 y Limite Superior: 181.74


<ol type="a" start="4" >
<li>Calcular un intervalo de confianza para el total estimado de personas mayores de 15 años con primaria incompleta</li>
</ol>

Se obtiena el total estimado que está dado por:

$$ \bar{Y} = N\bar{y} $$

Donde:
* $N$ es el tamaño de la población.
* $\bar{y}$ es la media de la muestra final.

In [21]:
## Calculando el total estimado 

# Calcula la media de la muestra final
total_estimado = funcion.total_estimado(datos=data, col_numerica=columna_poblacion)
print(f'Total estimado: {total_estimado}')

Total estimado: 75601.466


Calculamos el intervalo de confianza del total estimado, la cual está dada por:

$$ \bar{Y} \pm NZ\sqrt{\left( 1- \frac{n}{N} \right)\frac{s^2}{n}}$$

Donde: 
* $N$ es el tamaño de la población.
* $Z$ es el nivel de confianza. 
* $n$ es el tamaño de la muestra final.
* $s^2$ es la varianza de la muestra final.

In [23]:
# Calculo de intervalo de confianza para el total estimado
Limite_Inferior_total, Limite_Superior_total = funcion.intervalo_de_confianza_total(data, 
                                                                                 total_estimado=total_estimado,
                                                                                 col_numerica = columna_poblacion, 
                                                                                 z=z)

print(f'Limiite Inferior: {Limite_Inferior_total} y Limite Superior: {Limite_Superior_total}')

Limiite Inferior: -27841.93 y Limite Superior: 179044.86


<ol type= "a" start="5">
    <li>A partir de la muestra definitiva, estimar el total de AGEB mayores de 200 habitantes con primaria incompleta (personas mayores de 15 años)
    </li>
</ol>

Sobre la muestra final, es de particular interés los valores mayores a 200 habitantes por AGEB que tienen la primaria incompleta.

In [24]:
## Agregar columna con la condición de ser mayor a 200
muestra_final['Mayor a 200'] = muestra_final['Población 15 años y más sin primaria'] > 200
# Cambiar el tipo de dato a entero
muestra_final['Mayor a 200'] = muestra_final['Mayor a 200'].astype(int)
muestra_final.sample(20)


Unnamed: 0,Clave Alcaldía,Alcaldía,AGEB,Población 15 años y más sin primaria,Mayor a 200
259,7,Iztapalapa,750,355,1
248,7,Iztapalapa,2117,120,0
133,7,Iztapalapa,5817,21,0
425,7,Iztapalapa,21,217,1
12,7,Iztapalapa,1706,282,1
300,7,Iztapalapa,5751,78,0
423,7,Iztapalapa,2649,258,1
6,7,Iztapalapa,4240,276,1
59,7,Iztapalapa,5658,483,1
285,7,Iztapalapa,5319,203,1


Se obtiene la proporción de la población de 15 años y más sin primara mayores 200 habitantes. 

In [26]:
## Proporción de la población con primaria incompleta y mayor a 200

# Poblacion con primaria incompleta y mayor a 200
a = sum([i for i in muestra_final['Mayor a 200'] if i == 1])

proporcion = funcion.proporcion_poblacion(a = a, n = n)
print(f'Proporción de la población con primaria incompleta y mayor a 200: {proporcion}')


Proporción de la población con primaria incompleta y mayor a 200: 0.34


Calculamos el total estimado de la proporción mediente la siguiente expresión:

$$ \bar{A} = Np $$

Donde:

* $N$ es el tamaño de la población
* $p$ es la proporción de la población


In [27]:
## Calcular el total estimado de la proporción 

total_estimado_proporcion = funcion.total_estimado_proporcion(datos=data, p =proporcion)
print(f'Total estimado de la proporción: {total_estimado_proporcion}')

Total estimado de la proporción: 155.72


<ol type="a" start="6">
<li> ¿Cuál es el número máximo de AGEBs donde se podría establecer el programa?</li>
</ol>

Para calcular el máximo de AGEBs donde se podría establecer el programa, calculamos el intervalo de confianza de la proporción total, la que se expresa como:

$$ P\left(\bar{P}-Z \sqrt{1-\frac{n}{N}} \sqrt{\frac{pq}{n-1}}<P<\bar{P}+Z \sqrt{1-\frac{n}{N}} \sqrt{\frac{pq}{n-1}}\right)=1-\alpha $$

Donde: 
* $P$ es el total estimado de la proporción.
* $N$ es el tamaño de la población.
* $p$ es la proporción de la población.
* $q$ es el complemento de $p$, esto es, $1-p$.
* $Z$ el nivel de confianza.

In [29]:
## Calcular el intervalo de confianza para la proporción total estimado
Limite_inferior_prop, Limite_superior_prop = funcion.intervalo_de_confianza_prop(datos= data, p = proporcion, n = n, z = z, total_esti_propor = total_estimado_proporcion)
print(f'Limiite Inferior: {Limite_inferior_prop} y Limite Superior: {Limite_superior_prop}')

print(f'El número máximo de AGEBs donde se podría establecer el programa: {Limite_superior_prop}')

Limiite Inferior: 187.234 y Limite Superior: 124.206
El número máximo de AGEBs donde se podría establecer el programa: 124.206


<ol type="a" start="7">
<li>Comparar los resultados de su muestra con los valores parametrales.</li>
</ol>

In [30]:
## Agregar columna  con la condición de ser mayor a 200
data['Mayor a 200'] = data['Población 15 años y más sin primaria'] > 200
# Cambiar el tipo de dato a entero
data['Mayor a 200'] = data['Mayor a 200'].astype(int)

In [31]:
# Cálculo de valores parametrales y muestrales

# Media de la población y de la muestra final
Media_pob = data['Población 15 años y más sin primaria'].mean()
Media_muestra = muestra_final['Población 15 años y más sin primaria'].mean()

# Suma de la población con el parámetro de interés
Suma_pob = data['Población 15 años y más sin primaria'].sum()
# Suma de las aAGEBs que cumplen la condición de ser mayor a 200 
Suma_Agebs_mayor_200 = sum([i for i in data['Mayor a 200'] if i == 1])



In [52]:
# Tabla de resultados
resultados = pd.DataFrame({'Estimador': ['Media', 'Total', 'Proporción'],
                           'Población': [Media_pob, Suma_pob, Suma_Agebs_mayor_200],
                           'Muestra': [Media_muestra, total_estimado, total_estimado_proporcion],
                           'Error Parametra': [1-(Media_muestra/Media_pob), 1-(total_estimado/Suma_pob), 1-(total_estimado_proporcion/Suma_Agebs_mayor_200)]})
resultados

Unnamed: 0,Estimador,Población,Muestra,Error Parametra
0,Media,152.017467,165.068702,-0.085854
1,Total,69624.0,75601.466,-0.085854
2,Proporción,133.0,155.72,-0.170827
