# Introducción a Python aplicado a las Ciencias Sociales

### Talleres Introductorios Q-Lab 2024-II
### Encargadas: Lucía Díaz y Brisa Cruz

## Objetivos de esta sesión 🐼

1.   Aprender a unir bases de datos en Python 🤝
2.   Utilizar Python para realizar análisis estadísticos simples 🔍
3.   Generar descriptivos e inferencias básicas de los datos 😸


## [Recordatorio] Evaluación

***Asistencia***

- Es necesario asistir al 75% de las sesiones.

**Tarea**

- Dejaremos 1 tarea al finalizar las 5 sesiones, que será realizada en grupo. Será elegir una base de datos y hacer un análisis descriptivo de 5 variables (estadísticos básicos con descripción breve y gráficos). Se tendrá plazo hasta el miércoles 21 (11:59pm).
  - No es necesario esperar hasta la última sesión para empezar la tarea, tods las sesiones aprenderan algo útil para el proyecto.
  - Se realizará en grupo de 3-5 personas. Pueden apuntarse aquí: https://docs.google.com/spreadsheets/d/1zwuFgFiNCTY5yzwr-3mW09dh15K2aoUtePKQNsY9oTw/edit?usp=sharing


**Por favor no se apunten ahora y miren la clase.**

## ¿Qué es Python?


Python es un lenguaje de programación, el cual tiene muchas aplicaciones: análisis de datos, desarrollo web, creación de aplicaciones...

Pero, desde las Ciencias Sociales, nos interesa para el **análisis de datos**.


Funciones para leer archivos de la librería pandas

- csv: read_csv
- xlsx: read_excel
- spss: read_spss (terminación .sav)
- sql: read_sql
- y más!


# **Sección 1: Importar y unir bases de datos (*dataframes*)**

## 1. Importando los datos

Empezamos importando las dos bases de datos (Enaho01a-2023-500 and Enaho01A-2023-300) desde sus respectivos archivos CSV. Una tiene información sobre temas educativos del encuestado y otra sobre temas de empleo.

- En este caso, estamos uniendo dos secciones o módulos diferentes de una misma fuente (la ENAHO).

- Sin embargo, el proceso es el mismo para unir bases de diferentes fuentes. Por ejemplo, Censo + ENAHO o ENAHO + datos RENIEC o ENAHO + datos MEF. Esto se hace a partir de una columna común en algún nivel de análisis, por lo general, un código que previene la variación en la redacción (id, ubigeo, etc.).

In [1]:
import os
from google.colab import drive

In [2]:
drive.mount("/content/drive", force_remount=True)

Mounted at /content/drive


In [3]:
os.chdir("/content/drive/MyDrive/datos_python") # configuramos directorio, según el nombre de nuestra carpeta

In [4]:
import pandas as pd # librería necesaria para importar dfs

# Importar conjuntos de datos
enaho_educa = pd.read_csv('Enaho01A-2023-300.csv', encoding='ISO-8859-10') # módulo educación
enaho_trabajo = pd.read_csv('Enaho01a-2023-500.csv', encoding='ISO-8859-10') # módulo trabajo

# Ojeamos las primeras filas para asegurarnos de que todo cargó O.K.
print(enaho_trabajo.head())
print(enaho_educa.head())

  enaho_educa = pd.read_csv('Enaho01A-2023-300.csv', encoding='ISO-8859-10') # módulo educación
  enaho_trabajo = pd.read_csv('Enaho01a-2023-500.csv', encoding='ISO-8859-10') # módulo trabajo


    AŅO  MES  CONGLOME  VIVIENDA  HOGAR  CODPERSO  UBIGEO  DOMINIO  ESTRATO  \
0  2023    1      5030         2     11         1   10201        7        4   
1  2023    1      5030         2     11         2   10201        7        4   
2  2023    1      5030        11     11         1   10201        7        4   
3  2023    1      5030        11     11         2   10201        7        4   
4  2023    1      5030        11     11         3   10201        7        4   

   CODINFOR  ...  I538E1  I5294B  I5404B  I541A  OCU500  OCUPINF  EMPLPSEC  \
0         1  ...                                      1        2             
1         2  ...                                      1        2             
2         1  ...                                      1        1         1   
3         2  ...                                      1        1         1   
4         3  ...                                      1        1         1   

      FAC500A  NCONGLOME SUB_CONGLOME  
0  165.623856   

## 2. Explorando los datos

Antes de hacer la unión, es importante entender la estructura de ambas bases, para identificar las columnas que usaremos para juntarlas (aquella(s) que tengan en común)

In [5]:
# Checkeamos las estructura de cada base o df
print(enaho_trabajo.info())
print(enaho_educa.info())

# Buscamos columnas en común para juntar (como, household IDs, individual IDs)
common_columns = set(enaho_trabajo.columns).intersection(set(enaho_educa.columns))
print("Common columns:", common_columns)

# cuando estamos seguros de esta información, podemos obviar este paso


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 86654 entries, 0 to 86653
Columns: 1414 entries, AŅO to SUB_CONGLOME
dtypes: float64(1), int64(28), object(1385)
memory usage: 934.8+ MB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 108354 entries, 0 to 108353
Columns: 511 entries, AŅO to SUB_CONGLOME
dtypes: float64(2), int64(21), object(488)
memory usage: 422.4+ MB
None
Common columns: {'TICUEST01A', 'CODPERSO', 'P207', 'SUB_CONGLOME', 'CONGLOME', 'NCONGLOME', 'AŅO', 'P206', 'MES', 'P205', 'P209', 'UBIGEO', 'P301A', 'CODINFOR', 'VIVIENDA', 'P203', 'IMPUTADO', 'P208A', 'DOMINIO', 'HOGAR', 'P204', 'ESTRATO'}


La parte final del código, "Common columns" (columnas en común), nos indica lo que queremos saber: aquellas variables que comparten nuestras bases de datos o *dataframes*. Sin embargo, es preciso indicar que no es igual de válido hacer la unión de las bases a partir de cualquier columna común, sino a partir de aquellas que representen un identificador único para cada caso (encuestado/a). En el caso de la Enaho, este identificador es un código compuesto por 5 variables: 'MES', 'CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO'.

Ahora sí, vamos con la unión de dataframes.

## 3. Uniendo las bases de datos

In [6]:
# Hacemos el merge a partir de la columna en común

columnas_comunes = ['MES', 'CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO']
enaho_unido = pd.merge(enaho_educa, enaho_trabajo, on=columnas_comunes, how='inner')

# Mostramos las primeras filas del dataframe (df) unido
print(enaho_unido.head())

# ahora tenemos 1921 columnas

   AŅO_x  MES  CONGLOME  VIVIENDA  HOGAR  CODPERSO  UBIGEO_x  DOMINIO_x  \
0   2023    1      5030         2     11         1     10201          7   
1   2023    1      5030         2     11         2     10201          7   
2   2023    1      5030        11     11         1     10201          7   
3   2023    1      5030        11     11         2     10201          7   
4   2023    1      5030        11     11         3     10201          7   

   ESTRATO_x  CODINFOR_x  ...  I538E1  I5294B  I5404B  I541A OCU500 OCUPINF  \
0          4           1  ...                                     1       2   
1          4           2  ...                                     1       2   
2          4           1  ...                                     1       1   
3          4           2  ...                                     1       1   
4          4           3  ...                                     1       1   

  EMPLPSEC     FAC500A NCONGLOME_y SUB_CONGLOME_y  
0           165.623856

Ahora pasamos a confirmar que las variables que nos interesa analizar están en el df unido.

In [7]:
# imprimos el resultado de:
print(enaho_unido['P301A'])
# llamar la variable 'P301A'
# del dataframe enaho_unido

KeyError: 'P301A'

In [8]:
print(enaho_educa['P301A'])

0          8
1         10
2          3
3          3
4          4
          ..
108349     1
108350     5
108351     3
108352     4
108353     6
Name: P301A, Length: 108354, dtype: int64


Al parecer P301A no está en enaho_unido, pero sí en la versión original, enaho_educa

In [9]:
print(enaho_unido['P302'])

0         
1         
2         
3         
4         
        ..
86649    2
86650     
86651    1
86652     
86653     
Name: P302, Length: 86654, dtype: object


In [10]:
print(enaho_unido['P300A'])

0        4
1        4
2        4
3        4
4        4
        ..
86649    4
86650    4
86651    4
86652    4
86653    4
Name: P300A, Length: 86654, dtype: int64


In [11]:
print(enaho_unido['P524A1'])

0        1800
1            
2            
3            
4            
         ... 
86649        
86650        
86651        
86652        
86653     120
Name: P524A1, Length: 86654, dtype: object


In [12]:
print(enaho_unido['P523'])

0        4
1         
2         
3         
4         
        ..
86649     
86650     
86651     
86652     
86653    2
Name: P523, Length: 86654, dtype: object


# **Sección 2: Generación de estadísticos descriptivos: tablas de frecuencia y análisis de distribución de datos**

Trabajaremos con 3 variables categóricas y una variable numérica que crearemos a partir de otras dos:

1.   El último año o grado de estudios y nivel que aprobó la persona (P301A)
2.   Si la persona sabe leer y escribir (P302A)
3.   El idioma o lengua materna que aprendió la persona en su niñez (P300)
4.   Ingreso diario promedio en soles de la persona (P523 y P524A1)

Las **variables categóricas** contienen un número finito de categorías o grupos distintos. Los datos categóricos pueden no tener un orden lógico. Por ejemplo, los predictores categóricos incluyen sexo, tipo de material y método de pago.

*Fuente: Minitab*

Primero veamos la distribución de nuestra muestra en cada categoría, en términos absolutos y porcentuales, por separado en cada variable. El análisis de una variable categórica (ordinal o nominal) puede incluir elementos como:

• los **niveles** que tiene la variable

• si los datos se distribuyen **uniformemente** o no

• la **proporción** sobre el total que representa cada nivel

### 1. Último grado de estudios que aprobó la persona(P301A)

In [13]:
# analizar la distribución en este caso es tan sencillo como contar los valores en cada categoría
enaho_educa.value_counts('P301A',
                         sort = False) # sort es ordenar. cuando especificamos que es falso, Python ordena en función a nuestras categorías

# cuando decimos que es verdadero, ordena en función la distribución de valores

Unnamed: 0_level_0,count
P301A,Unnamed: 1_level_1
1,6520
2,5039
3,21480
4,11748
5,16691
6,22576
7,3991
8,6916
9,5203
10,6674


Ahora veamos una manera más **pro** de hacer esto. Para hacer más amigable la interpretación:
1. Recodificamos las variables con los valores del dicionario ENAHO

2. Aplicamos distribución porcentual

In [14]:
# antes de recodificar, comprobemos la estructura de los datos
enaho_educa['P301A'].unique()
# 99 representa missing values

array([ 8, 10,  3,  4,  5,  6,  2,  9,  1,  7, 11, 12, 99])

In [15]:
# con la función "replace" reemplazamos valores. Para esto, creamos un diccionario con nuestros valores.

# vamos a guardar el resultado en enaho_unido con el mismo nombre

enaho_unido['P301A'] = enaho_educa['P301A'].replace({1: 'Sin nivel',
    2: 'Educación inicial',
    3: 'Primaria incompleta',
    4: 'Primaria completa',
    5: 'Secundaria incompleta',
    6: 'Secundaria completa',
    7: 'Superior no universitaria incompleta',
    8: 'Superior no universitaria completa',
    9: 'Superior universitaria incompleta',
    10: 'Superior universitaria completa',
    11: 'Maestría/Doctorado',
    12: 'Básica especial',
    99: 'Missing value'})

# el objetivo de guardarla en enaho_unido es luego hacer un análisis cruzado con una variable de educación y otra de trabajo

In [16]:
# Ahora vemos la distribución porcentual (normalizamos distribución del 0 al 1 y luego multiplicamos por 100)

enaho_unido.value_counts('P301A', normalize=True)*100

# Antes de agregar esos parámetros, podemos hacer un conteo
# Como se puede ver, hemos perdido casos, debido a que enaho_unido tiene más casos que enaho_trabajo

Unnamed: 0_level_0,proportion
P301A,Unnamed: 1_level_1
Secundaria completa,20.806887
Primaria incompleta,19.737115
Secundaria incompleta,15.316085
Primaria completa,10.854663
Superior no universitaria completa,6.447481
Superior universitaria completa,6.278995
Sin nivel,5.885476
Superior universitaria incompleta,4.956494
Educación inicial,4.599903
Superior no universitaria incompleta,3.696309


### 2. La persona sabe leer y escribir (P302)

Esta variable la analizaremos y recodificaremos dentro del mismo enaho_educa, pues no planeamos usarla para análisis cruzado más adelante.

In [17]:
# analizar la distribución en este caso es tan sencillo como contar los valores en cada categoría
enaho_educa.value_counts('P302', normalize = False, # le agregamos esto para que deje de normalizar, a veces se le queda y lo hace automático
                         sort = False) # sort es ordenar. cuando especificamos que es falso, Python ordena en función a nuestras categorías
# cuando decimos que es verdadero, ordena en función la distribución de valores

Unnamed: 0_level_0,count
P302,Unnamed: 1_level_1
,75103
1.0,19509
2.0,13637
9.0,105


In [18]:
enaho_educa['P302'].unique() # Comprobamos que hay una clase de valores sueltos (sin etiquetas) en P302.

array([' ', '1', '2', '9'], dtype=object)

In [19]:
enaho_educa['P302'].info() # Comprobamos que P302 y P301A tienen la misma estructura (objetos)

<class 'pandas.core.series.Series'>
RangeIndex: 108354 entries, 0 to 108353
Series name: P302
Non-Null Count   Dtype 
--------------   ----- 
108354 non-null  object
dtypes: object(1)
memory usage: 846.6+ KB


In [20]:
#  con la función "replace" reemplazamos valores. Para esto, creamos un diccionario con nuestros valores.
enaho_educa['recode_P302'] = enaho_educa['P302'].replace({'1': 'Sabe leer y escribir',
    '2': 'No sabe',
    '9': 'Missing value'})

In [21]:
# ahora hacemos el conteo. Comprobamos que la distribución es la misma que con la variable original
enaho_educa.value_counts('recode_P302', normalize = False)

Unnamed: 0_level_0,count
recode_P302,Unnamed: 1_level_1
,75103
Sabe leer y escribir,19509
No sabe,13637
Missing value,105


Ahora vamos a asumir que la **ENAHO se equivocó**; es un poco imposible que tan pocas personas sepan leer y escribir. Por ejemplo, INEI reporta que según la ENAHO "se encuentra alfabetizada el 96,3% de la población del área urbana del país y 85,4% del área rural".

Fuente: https://m.inei.gob.pe/prensa/noticias/cobertura-de-alfabetizacion-en-el-peru-llega-al-941-de-los-peruanos-de-15-a-mas-anos-de-edad-9949/

Así que vamos a recodificar el valor sin etiqueta como "Sabe leer y escribir", y los 1s y 2s como "No sabe".

In [22]:
enaho_educa['recode_P302'] = enaho_educa['P302'].replace({'1': 'Sabe leer y escribir',
    '2': 'No sabe',
    ' ': 'Sabe leer y escribir', # Más arriba vimos que hay una etiqueta que es literalmente un espacio ' '
    '9': 'Missing value'})

In [23]:
enaho_educa.value_counts('recode_P302', normalize = False)

Unnamed: 0_level_0,count
recode_P302,Unnamed: 1_level_1
Sabe leer y escribir,94612
No sabe,13637
Missing value,105


In [24]:
enaho_educa.value_counts('recode_P302', normalize = True)*100

Unnamed: 0_level_0,proportion
recode_P302,Unnamed: 1_level_1
Sabe leer y escribir,87.317496
No sabe,12.585599
Missing value,0.096905


Esta proporción (87.3%) tiene mucho más sentido 😃.

### 3. El idioma o lengua materna que aprendió la persona en su niñez (P300A)

Esta pregunta nos sirve para identificar el idioma o lengua materna que aprendió la persona encuestada en su niñez.

In [25]:
# analizar la distribución en este caso es tan sencillo como contar los valores en cada categoría
enaho_unido.value_counts('P300A',
                         sort = False) # sort es ordenar. cuando especificamos que es falso, Python ordena en función a nuestras categorías

# cuando decimos que es verdadero, ordena en función la distribución de valores

Unnamed: 0_level_0,count
P300A,Unnamed: 1_level_1
1,15128
2,2087
3,377
4,67659
6,101
7,32
8,157
9,42
10,353
11,382


Ya sabemos que el siguiente paso es hacer más amigable la interpretación:

1. Recodificamos las variables con los valores del dicionario ENAHO

2. Aplicamos distribución porcentual

In [26]:
# antes de recodificar, comprobemos la estructura de los datos
enaho_unido['P300A'].unique()
# 99 representa missing values

array([ 4,  1, 14,  8, 10,  2,  7, 11,  9,  6,  3, 12, 13, 15, 99])

In [27]:
# Como en los casos previos, recodificamos
enaho_unido['P300A'] = enaho_educa['P300A'].replace({
    1: 'Quechua',
    2: 'Aimara',
    3: 'Otra lengua nativa',
    4: 'Castellano',
    5: 'Lengua extranjera', # por alguna razón esta no sale en el diccionario, pero inferimos que toca agregarla
    6: 'Portugués',
    7: 'Otra lengua extranjera',
    8: 'No escucha/no habla',
    9: 'Lengua de señas peruanas',
    10: 'Ashaninka',
    11: 'Awajún/Aguarun',
    12: 'Shipibo – Konibo',
    13: 'Shawi / Chayahuita',
    14: 'Matsigenka / Machiguenga',
    15: 'Achuar',
    99: 'Missing value'
})

In [28]:
# Ahora vemos la distribución porcentual (normalizamos distribución del 0 al 1 y luego multiplicamos por 100)

enaho_unido.value_counts('P300A', normalize=True)*100

# Antes de agregar esos parámetros, podemos hacer un conteo

Unnamed: 0_level_0,proportion
P300A,Unnamed: 1_level_1
Castellano,80.485609
Quechua,15.184527
Aimara,1.881044
Awajún/Aguarun,0.604704
Otra lengua nativa,0.516999
Ashaninka,0.492764
No escucha/no habla,0.184642
Shipibo – Konibo,0.180026
Portugués,0.118864
Achuar,0.084243


### 4. Ingreso diario en soles (en la ocupación principal de) la persona (P523 y P524A1)

Crearemos esta nueva variable combinando dos preguntas de la ENAHO:
1. Frecuencia de pago en la ocupación principal del encuestado: Diario, semanal, quincenal o mensual (*En su ocupación principal, ¿A ud. le pagan: Diario/Semanal/Quincenal/Mensual?*).

2. Ingreso total en el periodo anterior: Incluye horas extras, bonificaciones, pagos por refrigerio, movilidad, comisiones, etc (*Cuánto fue su ingreso total en el(la) ... anterior, incluyendo las horas extras, bonificaciones, pago por concepto de refrigerio, movilidad, comisiones, etc.? - Monto S/. - Ingreso Total*).

La variable final será **cuantitativa**, pero para construirla necesitamos primero la variable categórica de frecuencia de pago. Esto se debe a que la variable **'P524A1' no tiene una unidad de medida uniforme**: almacena ingresos en diferentes plazos temporales dentro de la misma columna.

Si no realizamos una transformación adecuada, las **comparaciones entre casos serían inválidas**. Por ejemplo, una persona podría haber reportado un ingreso de 500 soles diarios, mientras que otra podría haber registrado 500 soles mensuales, y no tendríamos manera de saberlo a menos que usemos la información de 'P523'.

Para estandarizar los ingresos, **convertiremos todos los valores de P524A1 a una misma unidad temporal (diaria)**. Para ello, utilizaremos la variable'P523' para identificar la frecuencia de pago y aplicar el factor de conversión correspondiente (ej., dividir entre 30 si es mensual, entre 7 si es semanal, entre 15 si es quincenal, etc.). Cabe señalar que este cálculo es aproximado, ya que no contamos con información sobre la cantidad exacta de días trabajados por cada persona. Por ello, esta variable refleja más una **estimación de capacidad de gasto diario** que un ingreso exacto por día laborado.

Primero, vamos a unos descriptivos simples.

In [29]:
enaho_trabajo.value_counts('P523',
                         sort = False)

# Esta variable nos habla de los plazos de pagos
# Como podemos ver, tiene un gran númeor de NAs, la gran mayoría

Unnamed: 0_level_0,count
P523,Unnamed: 1_level_1
,61410
1.0,320
2.0,7033
3.0,1554
4.0,16337


In [33]:
import numpy as np

enaho_trabajo["P524A1"] = enaho_trabajo["P524A1"].replace(999999, np.nan) # esto es para que los missing values no sea lean como números
enaho_trabajo["P524A1"] = pd.to_numeric(enaho_trabajo["P524A1"], errors="coerce") # nos aseguramos que esté como número
enaho_trabajo["P524A1"].describe(percentiles=[0.25, 0.5, 0.75])


Unnamed: 0,P524A1
count,24880.0
mean,1329.497146
std,1504.975598
min,5.0
25%,300.0
50%,1000.0
75%,1800.0
max,28000.0


Tenemos 24 800 casos, que, como recordamos, están en diferentes unidades (soles al día/semana/quincena y mes). Por ende, esta primera tabla no es informativa ni confiable (comparable).

Ahora sí, vamos a la acción. 😎🤯

In [39]:
# Creamos una copia de la variable de ingresos para no modificar la original
enaho_unido["ingreso_diario"] = enaho_trabajo["P524A1"]

# Aplicamos factores de conversión según la frecuencia de pago (P523) para que todos estén en diario

enaho_unido['P523'] = enaho_trabajo['P523'].replace({
    1: 1,    # Pago diario, por ende, lo dejamos como está
    2: 7,    # Pago semanal
    3: 15,   # Pago quincenal
    4: 30    # Pago mensual
})

# Nos aseguramos que este resultado sea numérico
enaho_unido["P523"] = pd.to_numeric(enaho_unido["P523"], errors="coerce")

# Y reemplazamos valores usando la conversión (división para obtener ingreso diario)
enaho_unido["ingreso_diario"] = enaho_unido["ingreso_diario"] / enaho_unido["P523"]

Veamos qué tenemos ahora:

In [40]:
enaho_unido["ingreso_diario"].describe(percentiles=[0.25, 0.5, 0.75])

Unnamed: 0,ingreso_diario
count,24880.0
mean,353.774665
std,365.514937
min,2.5
25%,125.0
50%,256.25
75%,450.0
max,7000.0


Estas cifras de ingreso diario son bastante más fáciles de entender! Además, podemos comprobar que el conteo de casos válidos (24 880) es similar al conteo de casos válidos en P523 (32 244). Si fuera mayor, tendríamos que preocuparnos.

Y, aunque no podemos interpretarlos como datos oficiales -porque el cálculo oficial de la ENAHO es más complejo aún (por ejemplo, nosotros **solo** consideramos ingresos en la ocupación principal)- podemos confiar en la lógica de nuestro procedimiento. Esto sí, el sueldo diario promedio en el Perú está muy lejos de nuestro promedio obtenido, e incluso de la mediana (menos influencida por valores extremos).

Sueldo promedio en el Perú 2023: https://elcomercio.pe/respuestas/tramites/cuanto-es-el-sueldo-promedio-en-el-peru-y-en-que-ciudad-se-gana-mas-segun-el-inei-salario-minimo-vital-tdpe-noticia/

# **Sección 3: Análisis de distribución con cruce de variables**

En esta sección, filtraremos las variables relevantes para nuestro análisis y construiremos un nuevo dataframe con ellas, el cual llamaremos "Capital Humano" (porque contiene variables de educación y trabajo). A partir de esta muestra, exploraremos la distribución de las variables clave y su relación con otras dimensiones de interés. Esto nos permitirá obtener una visión más clara (con propósitos pedagógicos) sobre el capital humano en Perú en 2023.

In [41]:
# paso 1: creamos un df que contenga solo la gente que trabaja o ha trabajado
enaho_unido.value_counts('P501') # esta información (el nombre de la variable) la encontramos en el Diccionario

Unnamed: 0_level_0,count
P501,Unnamed: 1_level_1
1,57119
2,29407
9,128


In [42]:
df_capital_humano = enaho_unido[enaho_unido['P501'] == 1] # comprobamos que nuestro nuevo df tenga el mismo número de casos que el conteo del "1"

# Y, por motivos prácticos, seleccionamos solo las columnas que nos interesan
df_capital_humano = df_capital_humano[['P501', 'ingreso_diario', 'P301A', 'P300A']]


In [43]:
df_capital_humano.info()

<class 'pandas.core.frame.DataFrame'>
Index: 57119 entries, 0 to 86653
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   P501            57119 non-null  int64  
 1   ingreso_diario  23909 non-null  float64
 2   P301A           57119 non-null  object 
 3   P300A           57119 non-null  object 
dtypes: float64(1), int64(1), object(2)
memory usage: 2.2+ MB


In [44]:
df_capital_humano.value_counts('P301A', normalize=True)*100

Unnamed: 0_level_0,proportion
P301A,Unnamed: 1_level_1
Secundaria completa,20.754915
Primaria incompleta,19.848037
Secundaria incompleta,15.336403
Primaria completa,10.936816
Superior no universitaria completa,6.426933
Superior universitaria completa,6.222098
Sin nivel,5.847441
Superior universitaria incompleta,4.951067
Educación inicial,4.572909
Superior no universitaria incompleta,3.646773


In [45]:
df_capital_humano.value_counts('P300A', normalize=True)*100

Unnamed: 0_level_0,proportion
P300A,Unnamed: 1_level_1
Castellano,80.52662
Quechua,15.075544
Aimara,1.967822
Awajún/Aguarun,0.553231
Otra lengua nativa,0.544477
Ashaninka,0.490205
Shipibo – Konibo,0.19258
No escucha/no habla,0.183827
Portugués,0.110296
Achuar,0.080534


La información que tenemos está a un alto nivel de detalle. Sin embargo, no será muy práctico o visualmente amigable tener tantas categorías cuando hagamos el cruce de información. Además, es posible notar que varias categorías tienen una porción muy bajar de la muestra (como menos del 1%, en el caso de los idiomas maternos).

Entonces, vamos a simplificar las categorías en ambas variables para reagrupar la muestra en categorías más amplias aunque suficientemente informativas.

In [49]:
# Simplificar categorías

# Lengua materna

df_capital_humano['P300A'] = df_capital_humano['P300A'].replace({
    'Quechua': 'Quechua',
    'Aimara': 'Aimara',
    'Otra lengua nativa': 'Otra lengua nativa',  # Agrupamos varias lenguas indígenas
    'Ashaninka': 'Otra lengua nativa',
    'Awajún/Aguarun': 'Otra lengua nativa',
    'Shipibo – Konibo': 'Otra lengua nativa',
    'Shawi / Chayahuita': 'Otra lengua nativa',
    'Matsigenka / Machiguenga': 'Otra lengua nativa',
    'Achuar': 'Otra lengua nativa',
    'Castellano': 'Castellano',
    'Otra lengua extranjera': 'Lengua extranjera',
    'Lengua extranjera': 'Lengua extranjera',  # Agrupamos lenguas extranjeras
    'Portugués': 'Lengua extranjera',
    'Lengua de señas peruanas': 'Missing value', # esto es por propósitos pedagógicos/prácticos
    'No escucha/no habla': 'Missing value', # esto también
    'Missing value': 'Missing value'
})

# Último nivel educativo concluido (ustedes pueden pensar y justificar mejores categorías, solo es un ejemplo)

df_capital_humano['nivel_educativo'] = df_capital_humano['P301A'].replace({
    'Sin nivel': 'Sin nivel',
    'Educación inicial': 'Sin nivel',
    'Primaria incompleta': 'Sin nivel',
    'Primaria completa': 'Primaria',
    'Secundaria incompleta': 'Primaria',
    'Secundaria completa': 'Secundaria',
    'Superior no universitaria incompleta': 'Secundaria',
    'Superior no universitaria completa': 'Superior',
    'Superior universitaria incompleta': 'Secundaria',
    'Superior universitaria completa': 'Superior',
    'Maestría/Doctorado': 'Maestría/Doctorado',
    'Básica especial': 'Básica especial'
})


In [47]:
# y quitamos los casos con valores perdidos o no útiles
df_capital_humano = df_capital_humano[df_capital_humano['P300A'] != 'Missing value']
df_capital_humano = df_capital_humano[df_capital_humano['nivel_educativo'] != 'Missing value']

In [50]:
# probamos

df_capital_humano.value_counts('P300A', normalize=True)*100

Unnamed: 0_level_0,proportion
P300A,Unnamed: 1_level_1
Castellano,80.782606
Quechua,15.123468
Aimara,1.974077
Otra lengua nativa,1.970564
Lengua extranjera,0.149285


Listo! Ahora tenemos una versión más general de las variables, que agrupa a nuestra muestra en grupos más grandes, y va a ser más sencilla de interpretar.

In [51]:
# Paso 2: vemos la distribución con valores absolutos, entre P sin_contrato
pd.crosstab(df_capital_humano['nivel_educativo'], df_capital_humano['P300A'], normalize= "all")*100 # cuando este parámetro toma el valor "all" hacemos que nuestra distribución se normalice respecto al total de nuestra muestra
            # es lo mismo si probamos con TRUE

P300A,Aimara,Castellano,Lengua extranjera,Otra lengua nativa,Quechua
nivel_educativo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Básica especial,0.001756,0.098353,0.0,0.0,0.003513
Maestría/Doctorado,0.01405,1.164424,0.001756,0.007025,0.066739
Primaria,0.612947,20.638238,0.031613,0.684956,4.366153
Secundaria,0.58309,25.209877,0.031613,0.265201,3.343988
Sin nivel,0.611191,22.118796,0.045664,0.960694,6.459658
Superior,0.151041,11.552917,0.038639,0.052689,0.883417


**A este punto lo deseable sería interpretar preliminarmente nuestros resultados, sin embargo...**

Al analizar la tabla cruzada entre nivel educativo y lengua materna, es importante considerar ciertas **limitaciones en la interpretación** de los resultados. La principal limitación es la distribución altamente desproporcionada de la variable lengua materna, donde aproximadamente el 80% de los encuestados reporta el castellano como su primera lengua.

Esta asimetría en la distribución puede generar dos problemas principales:

1. **Dificultad para comparar grupos minoritarios:** Los valores correspondientes a lenguas maternas distintas del castellano son significativamente menores, lo que limita la posibilidad de obtener inferencias sólidas para estos grupos.

2. **Impacto en la representatividad de los patrones observados:** Debido a la baja frecuencia de algunas categorías, las tendencias dentro de estos subgrupos pueden no ser estadísticamente robustas y estar sujetas a mayor variabilidad.

Por estas razones, cualquier interpretación de la relación entre nivel educativo y lengua materna debe considerar este sesgo en la distribución de los datos.

Pero no hay problema, vamos con nuestro siguiente cruce!

Ahora queremos analizar el cruce del nivel educativo de un encuestado y su ingreso diario aproximado en soles.

In [52]:
df_capital_humano.groupby('nivel_educativo')['ingreso_diario'].mean()

Unnamed: 0_level_0,ingreso_diario
nivel_educativo,Unnamed: 1_level_1
Básica especial,326.836207
Maestría/Doctorado,346.514438
Primaria,355.88195
Secundaria,348.513987
Sin nivel,349.720683
Superior,344.738324


**¡Qué extraño!** 🤔🤯

Los resultados que obtuvimos presentan una distribución contraintuitiva del ingreso diario según nivel educativo, donde personas con menor educación parecen ganar montos similares o incluso mayores que aquellas con estudios superiores. Esta inconsistencia puede explicarse por problemas en la medición, como el subreporte de ingresos, diferencias en la estructura ocupacional de cada grupo o incluso sesgos en la forma en que se recogen y autodeclaran los datos en encuestas. En otras palabras, más que una relación real entre educación e ingresos, estos valores reflejan las limitaciones de los datos disponibles (y de nuestro sencillo y humilde procedimiento, que además carece de un **balanceo muestral**).


**Sin embargo...** 💡🐱☝👓

La lección clave aquí no es solo el resultado, sino el proceso. Aprendimos a construir y analizar una tabla cruzada entre una variable categórica y una numérica, pero también a ser críticos con nuestros hallazgos. Siempre debemos comparar, contextualizar y cuestionar nuestros resultados antes de interpretarlos como verdades absolutas. Aunque en este caso los datos presentan inconsistencias, el método sigue siendo útil y aplicable a una infinidad de variables en distintos análisis.

### ¿Cómo sé la codificación de la base de datos que estoy usando?

Usaremos la función chardet.detect

In [None]:
!pip install cchardet
import cchardet as chardet

Collecting cchardet
  Downloading cchardet-2.1.7.tar.gz (653 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/653.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m653.6/653.6 kB[0m [31m22.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: cchardet
  Building wheel for cchardet (setup.py) ... [?25l[?25hdone
  Created wheel for cchardet: filename=cchardet-2.1.7-cp310-cp310-linux_x86_64.whl size=289384 sha256=7ffe6050aa42043ecc336ae4b74b1f562f1981d1980d0598d41f2d28b8ec2560
  Stored in directory: /root/.cache/pip/wheels/ee/e0/ab/e01326f15c59438d080b1496dbab8091e952ec72f35e3c437e
Successfully built cchardet
Installing collected packages: cchardet
Successfully installed cchardet-2.1.7


In [None]:
# Detectar la codificación del archivo
def detect_encoding(file_path):
    with open(file_path, 'rb') as file:
        return chardet.detect(file.read())['encoding']

# Usar la función
encoding = detect_encoding('Enaho01A-2023-300.csv')
print(encoding)

ISO-8859-10


In [None]:
enaho_unido.columns

Index(['AŅO_x', 'MES', 'CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO', 'UBIGEO_x',
       'DOMINIO_x', 'ESTRATO_x', 'CODINFOR_x',
       ...
       'I538E1', 'I5294B', 'I5404B', 'I541A', 'OCU500', 'OCUPINF', 'EMPLPSEC',
       'FAC500A', 'NCONGLOME_y', 'SUB_CONGLOME_y'],
      dtype='object', length=1920)

In [None]:
# Convertir las columnas a una lista y luego imprimir la lista
column_list = enaho_unido.columns.tolist()
print(column_list)

['AŅO_x', 'MES', 'CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO', 'UBIGEO_x', 'DOMINIO_x', 'ESTRATO_x', 'CODINFOR_x', 'P300N', 'P300I', 'P300A', 'P301A_x', 'P301B', 'P301C', 'P301D', 'P301A0', 'P301A1', 'P301B0', 'P301B1', 'P301B3', 'P302', 'P302X', 'P302A', 'P302B', 'P303', 'P304A', 'P304B', 'P304C', 'P304D', 'P305', 'P306', 'P307', 'P307A1', 'P307A2', 'P307A3', 'P307A4', 'P307A4_5', 'P307A4_6', 'P307A4_7', 'P307B1', 'P307B2', 'P307B3', 'P307B4', 'P307B4_5', 'P307B4_6', 'P307B4_7', 'P307C', 'P308A', 'P308B', 'P308C', 'P308D', 'P308B1', 'P308B2', 'P308B3', 'P308B4', 'P308B5', 'P308C1', 'P308C2', 'P310', 'P310B1', 'P310C0', 'P310C1', 'P310D1', 'P310D2', 'P310E0', 'P310E1', 'P310E3', 'P311N$1', 'P311N$2', 'P311N$3', 'P311N$4', 'P311N$5', 'P311N$6', 'P311N$7', 'P311N$8', 'P311N$9', 'P311$1', 'P311$2', 'P311$3', 'P311$4', 'P311$5', 'P311$6', 'P311$7', 'P311$8', 'P311$9', 'P311A1$1', 'P311A1$2', 'P311A1$3', 'P311A1$4', 'P311A1$5', 'P311A1$6', 'P311A1$7', 'P311A1$8', 'P311A1$9', 'P311A2$1', 'P31

## Lista de funciones y paquetes vistos hoy

Para conectar drive:

import os
from google.colab import drive

drive.mount("/content/drive", force_remount=True)


Funciones para leer archivos de la librería pandas

import pandas as pd

- csv: pd.read_csv
- xlsx: pd.read_excel
- spss: pd.read_spss (terminación .sav)
- sql: pd.read_sql

Atributos:

.columns: Devuelve las etiquetas de las columnas del DataFrame.

.index: Devuelve las etiquetas de las filas del DataFrame.

.dtypes: Devuelve los tipos de datos de cada columna en el DataFrame.

.shape: Devuelve una tupla que representa la dimensionalidad del DataFrame, es decir, (número de filas, número de columnas).

.size: Devuelve el número total de elementos en el DataFrame.

Próx clase: **Creación de gráficos y visualización de datos**
- Introducción a las librerías Matplotlib y Seaborn para visualización de datos
- Creación de gráficos de barras, histogramas, gráficos de líneas y gráficos de dispersión
- Personalización de gráficos: títulos, etiquetas y leyendas
- Interpretación de gráficos en el contexto de análisis social

In [None]:
print("Gracias por atender! :)")

Gracias por atender! :)
