<a href="https://colab.research.google.com/github/SimonGsponer/Introduciendo_Python_Para_Ciencias_Sociales/blob/main/Analysis_de_Datos_Para_Ciencias_Sociales_Clase_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Análisis de Datos Para Ciencias Sociales

En esta clase vamos a aprender los primeros pasos para analisar un conjunto de datos con el módulo `pandas`

**Enlaces Importantes**:
* [Documentación Pandas](https://pandas.pydata.org/pandas-docs/version/1.5/reference/api/pandas.Series.values.html) -> asegúrese de que uses la versión correcta de la documentación
* [Guía del usario oficial de Pandas](https://pandas.pydata.org/docs/user_guide/index.html)

# 1.0 Primeros Pasitos

## Trabajando con nuestro primer DataFrame

In [None]:
import pandas as pd

In [None]:
# para nuestros primeros pasitos con pandas, vamos a usar un conjunto de datos artificial que definimos más abajo

filas = [
    (35, 'M', 5_000_000, False),
    (18, 'F', 10_000_000, True),
    (25, 'F', 7_000_000, True),
    (40, 'M', 3_000_000, False),
    (22, 'F', 10_000_000, False),
    (21, 'F', 2_000_000, False)
]

columnas = ['edad', 'sexo', 'sueldo_anual', 'habla_inglés']

df = pd.DataFrame(data=filas, columns=columnas)

print(df)

   edad sexo  sueldo_anual  habla_inglés
0    35    M       5000000         False
1    18    F      10000000          True
2    25    F       7000000          True
3    40    M       3000000         False
4    22    F      10000000         False
5    21    F       2000000         False


Ahora, necesitamos familiarizarnos con 3 conceptos importantes:
* **Índice:** Son los números de 0 a 5 al lado izquierdo. En este ejemplo tenemos un índice numérico, pero un índice también puede ser un número de identificación, una marca de tiempo o cualquier información que identifique solamente una (!) fila.
* **Serie:** Una columna sola se llama `serie` en pandas. `edad` es una serie, y por supuesto `sexo`, `sueldo_anual` y `habla_inglés` también.
* **DataFrame:** El dataframe es el índice y todas las series juntos, constituyendo el conjunto de datos.

En general, estos objetos (`Índice`, `Serie`, `DataFrame`) tienen 'herramientas' (término correcto será métodos) y informaciones de si mismo (atributos) diferentes, así es muy importante saber cuando usted está trabajando con cual.

## DataFrame Slicing

DataFrame slicing es el proceso de seleccionar ciertas filas y columnas de un DataFrame. Para la selección se puede usar dos métodos del DataFrame: `loc` (seleccionando filas/columnas por valores) y `iloc` (seleccionando filas/columnas por su posición). 

Los métodos .loc y .iloc se invocan usando corchetes y necesitan dos informaciones: la selección deseada de las filas y la selección deseade de columnas.

**`.loc`**

In [None]:
sub_df = df.loc[:,:] # : significa "todo", o sea sub_df contiene todas filas y todas columnas
print(sub_df)

   edad sexo  sueldo_anual  habla_inglés
0    35    M       5000000         False
1    18    F      10000000          True
2    25    F       7000000          True
3    40    M       3000000         False
4    22    F      10000000         False
5    21    F       2000000         False


In [None]:
sub_df = df.loc[[2,3], :] # selecciona las filas que tienen el valor de índice 2 y 3, y todas columnas
print(sub_df)

   edad sexo  sueldo_anual  habla_inglés
2    25    F       7000000          True
3    40    M       3000000         False


In [None]:
sub_df = df.loc[:, ['edad', 'sueldo_anual']] # selecciona todas filas pero solamente las columnas 'edad' y 'sueldo_anual'
print(sub_df)

   edad  sueldo_anual
0    35       5000000
1    18      10000000
2    25       7000000
3    40       3000000
4    22      10000000
5    21       2000000


In [None]:
sub_df = df.loc[~df.index.isin([2,3]), ['edad']] # selecciona todas filas aparte de aquellas que tienen el valor de índice 2 & 3; selecciona la columna edad
print(sub_df)

   edad
0    35
1    18
4    22
5    21


In [None]:
sub_df = df.loc[df['edad'].gt(35), :] # selecciona todas filas donde la persona tiene más de 35 años
print(sub_df)

   edad sexo  sueldo_anual  habla_inglés
0    35    M       5000000         False
1    18    F      10000000          True
2    25    F       7000000          True
4    22    F      10000000         False
5    21    F       2000000         False


In [None]:
sub_df = df.loc[
    (
        (df['edad'].gt(24))
        & (df['sueldo_anual'].ge(5_000_000))
    ), :] # selecciona todas filas donde la persona tiene más de 24 años y gana 5,000,000 colones o más
print(sub_df)

   edad sexo  sueldo_anual  habla_inglés
2    25    F       7000000          True
0    35    M       5000000         False


**`.iloc`**

Para entender mejor la diferencia entre el valor del índice y la posición de la fila, vamos a mezclar nuestro DataFrame.

In [None]:
df = df.sample(frac=1) # hacemos una muestra del conjunto de datos y usamos 100% del conjunto como muestra
print(df)

   edad sexo  sueldo_anual  habla_inglés
1    18    F      10000000          True
0    35    M       5000000         False
4    22    F      10000000         False
2    25    F       7000000          True
5    21    F       2000000         False
3    40    M       3000000         False


In [None]:
sub_df = df.iloc[[1],[1]] # selecciona la segunda fila y la segunda columna; IMPORTANTE: los índices en python empiezan a 0!
print(sub_df)

  sexo
0    M


In [None]:
sub_df = df.iloc[1:4, 1:2] # nota: especificando rangos (selecciona segunda fila hasta la cuarta) no require corchetes dentro las corchetes principales
print(sub_df)


  sexo
0    M
4    F
2    F


## Agregaciones y Agrupaciones

Sin análisis adicional, solamente filtrar datos no sirve mucho. Por eso, vamos a ver como se puede aggregar datos para obtener la media, suma, etc.

In [None]:
edad_promedio = df.loc[df['sexo']=='F',['edad']].mean() # la edad promedio de las mujeres en nuestro conjunto de datos
print(edad_promedio)

edad    21.5
dtype: float64


In [None]:
agg_df = df.loc[df['sexo']=='F', :].agg({'edad': 'mean', 'sueldo_anual': 'sum'}) # con agg podemos especificar más aggregaciones a la vez
print(agg_df)

edad                  21.5
sueldo_anual    29000000.0
dtype: float64


In [None]:
agg_df = (
    df
    .groupby(['sexo'])
    .agg(
          {
            'edad': 'mean',
            'sueldo_anual': ['sum', 'max', 'min']
           }
         )
    ) # usamos 'groupby' para obtener las mismas agregaciones para chicos también

print(agg_df)

      edad sueldo_anual                   
      mean          sum       max      min
sexo                                      
F     21.5     29000000  10000000  2000000
M     37.5      8000000   5000000  3000000


## Práctica de Capítulo 1.0

Para la práctica, use el dataframe `practica_df` que se define más abajo

In [None]:
import numpy as np

In [None]:
# para nuestros primeros pasitos con pandas, vamos a usar un conjunto de datos artificial que definimos más abajo

filas = [
    (1980, 'M', 500_000, 200, np.NaN),
    (2001, 'F', 400_000, 180, 7),
    (1995, 'F', 300_000, np.NaN, 6),
    (2004, 'M', 700_000, 150, 5),
    (1992, 'F', 1_000_000, 250, 12),
    (1985, 'F', np.NaN, np.NaN, 8),
    (1998, 'M', 350_000, 7, 10),
    (1997, 'F', 800_000, 9, 9)
]

columnas = ['fecha_de_nacimiento', 'sexo', 'sueldo_mensual', 'n_dias_de_trabajo_anual', 'n_horas_por_dia']

practica_df = pd.DataFrame(data=filas, columns=columnas)

In [None]:
print(practica_df)

   fecha_de_nacimiento sexo  sueldo_mensual  n_dias_de_trabajo_anual  \
0                 1980    M   500000.000000                    200.0   
1                 2001    F   400000.000000                    180.0   
2                 1995    F   300000.000000                      NaN   
3                 2004    M   700000.000000                    150.0   
4                 1992    F  1000000.000000                    250.0   
5                 1985    F   578571.428571                      NaN   
6                 1998    M   350000.000000                      7.0   
7                 1997    F   800000.000000                      9.0   

   n_horas_por_dia  sueldo_anual  edad  n_horas_por_año  
0              NaN  6.000000e+06    42              NaN  
1              7.0  4.800000e+06    21           1260.0  
2              6.0  3.600000e+06    27              NaN  
3              5.0  8.400000e+06    18            750.0  
4             12.0  1.200000e+07    30           3000.0  
5  

In [None]:
# 1.1 Cree una columna nueva que contiene el salario anual con el nombre `salario_anual`.
# Truco: acuérdese de las operaciones matemáticas básicas

practica_df['sueldo_anual'] = practica_df['sueldo_mensual'] * 12

In [None]:
# 1.2 Cree una columna nueva que contiene el edad de las personas encuestadas.
# Supongamos que estos datos hayan sido coleccionado en el año 2022.

practica_df['edad'] = 2022 - practica_df['fecha_de_nacimiento']

In [None]:
# 1.3 El conjuncto de datos lleva la información del total de los dias que las personas trabajan
# por año y el número de horas que trabajan en promedio. Use esta información para calcular el número de horas
# que trabajan en total por año.

practica_df['n_horas_por_año'] = practica_df['n_dias_de_trabajo_anual'] * practica_df['n_horas_por_dia']

578571.4285714285

In [None]:
# 1.4 Calcule el sueldo promedio de las personas en el conjunto de datos

agg_df = (
    practica_df
    .agg(
          {
            'sueldo_anual': 'mean',
            'sueldo_mensual': 'mean'
           }
         )
    ) # usamos 'groupby' para obtener las mismas agregaciones para chicos también

print(agg_df)

sueldo_anual      6.942857e+06
sueldo_mensual    5.785714e+05
dtype: float64


In [None]:
# 1.5 Use el promedio sueldo para remplazar las observaciones que faltan (los np.NaN).
# Hágalo para las dos columnas conteniendo información del sueldo

promedio_sueldo_mensual = practica_df['sueldo_mensual'].mean()
promedio_sueldo_anual = practica_df['sueldo_anual'].mean()

practica_df['sueldo_mensual'].fillna(
    value=promedio_sueldo_mensual,
    inplace=True
)

practica_df['sueldo_anual'] = practica_df['sueldo_anual'].fillna(
    value=promedio_sueldo_anual,
    inplace=False
)

In [None]:
# 1.6 ¿Qué hace la palabra clave `inplace` en el ejercicio 1.5?



In [None]:
# 1.7 ¿En promedio cuántas horas trabajan los hombres y las muyeres encuestados por año?
# Calcule los dos promedios.

agg_df = (
    practica_df
    .groupby('sexo')
    .agg(
          {
            'n_horas_por_año': ['mean', 'max', 'min'],
           }
         )
    ) # usamos 'groupby' para obtener las mismas agregaciones para chicos también

print(agg_df)

     n_horas_por_año              
                mean     max   min
sexo                              
F             1447.0  3000.0  81.0
M              410.0   750.0  70.0


In [None]:
practica_df.loc[:, ['sexo', 'n_horas_por_año']].groupby('sexo').mean()

Unnamed: 0_level_0,n_horas_por_año
sexo,Unnamed: 1_level_1
F,1447.0
M,410.0


In [None]:
# 1.8 Cree un conjunto de datos que se llama `sub_df` y que contiene todas las personas que
# tengan más de 25 años y que tengan un sueldo anual de más de 1'000'000 colones.
sub_df = practica_df.loc[
    (
        (practica_df['edad'] > 25)
        & (practica_df['sueldo_anual'] > 1_000_000)
     ), :
]

In [None]:
print(sub_df)

   fecha_de_nacimiento sexo  sueldo_mensual  n_dias_de_trabajo_anual  \
0                 1980    M   500000.000000                    200.0   
2                 1995    F   300000.000000                      NaN   
4                 1992    F  1000000.000000                    250.0   
5                 1985    F   578571.428571                      NaN   

   n_horas_por_dia  sueldo_anual  edad  n_horas_por_año  
0              NaN  6.000000e+06    42              NaN  
2              6.0  3.600000e+06    27              NaN  
4             12.0  1.200000e+07    30           3000.0  
5              8.0  6.942857e+06    37              NaN  


In [None]:
# 1.9 ¿Cúal es la diferencia entre los siguientes objetos? ¿Por qué importa la diferencia?

objeto_a = practica_df.loc[:, 'sueldo_mensual']
objeto_b = practica_df.loc[:, ['sueldo_mensual']]

In [None]:
print(type(objeto_a))
print(type(objeto_b))

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


# 2.0 Exploración de un conjunto de datos

En este capitulo, vamos a usar un conjunto de datos real para entender que hay que hacer para obtener perspicacias valiosas, concretamente la [Encuesta Continua de Empleo del INEC](http://sistemas.inec.cr/pad5/index.php/catalog/302).

In [None]:
# instalación de un paquete (no librería)
%pip install pyreadstat>=1.1.5

In [None]:
# cargar los módulos que necesitamos
import pandas as pd
import numpy as np

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# ruta al archivo en Google Drive
# enlace: https://drive.google.com/uc?export=download&id=1rOyivdPD1t5KQII7lLQpLPCwHPVVTIN6
ruta_spss = '/content/drive/My Drive/analisis_datos_ciencias_sociales/III Trimestre 2022.sav'

In [None]:
# cargar el conjunto de datos
df_principal = pd.read_spss(ruta_spss)

### `df.head()`, `df.shape` y `df.columns` nos dan una primera impresión de los datos que acabamos de cargar

`df_principal.head(n)` imprime las primeras n filas. Se usa `df_principal.tail(n)` para ver las últimas n filas.

In [None]:
print(df_principal.head(n=5))  # ya sabemos que hay un montón de columnas porque python no muestre todos

   ID_AMO  ID_TRIMESTRE  ID_VIVIENDA  ID_HOGAR  ID_LINEA    Sexo  Edad  \
0  2022.0           3.0          1.0       1.0       1.0   Mujer  92.0   
1  2022.0           3.0          1.0       1.0       2.0   Mujer  54.0   
2  2022.0           3.0          4.0       1.0       1.0   Mujer  80.0   
3  2022.0           3.0          5.0       1.0       1.0  Hombre  59.0   
4  2022.0           3.0          7.0       1.0       1.0  Hombre  44.0   

   Estado_conyugal      Lugar_nacimiento Permanencia_pais  ...  \
0     ...viudo(a)?        En otro cantón              NaN  ...   
1   ...soltero(a)?        En otro cantón              NaN  ...   
2  ...separado(a)?  En este mismo cantón              NaN  ...   
3   ...soltero(a)?  En este mismo cantón              NaN  ...   
4   ...soltero(a)?          En otro país     Un año o más  ...   

                       Asalariado_TeletrabajoCOVID19  \
0                                                NaN   
1                             No realiza telet

Para obtener información básica tanto del el conjunto de datos como el número de filas y columnas, use el atributo `.shape`

In [None]:
print(df_principal.shape)  # tenemos más de 23 mil filas y 388 columnas!

(23484, 388)


La propiedad `df_principal.columns` contiene los nombres de todas las columnas

In [None]:
print(df_principal.columns)  # para tantos columnas python no va a imprimir todas las columnas!

Index(['ID_AMO', 'ID_TRIMESTRE', 'ID_VIVIENDA', 'ID_HOGAR', 'ID_LINEA', 'Sexo',
       'Edad', 'Estado_conyugal', 'Lugar_nacimiento', 'Permanencia_pais',
       ...
       'Asalariado_TeletrabajoCOVID19', 'Ocupados_con_Conectividad',
       'Consecutivo', 'N_hogar', 'Grupo_edad', 'Ingreso_principal_nomonetario',
       'Poblacion_joven', 'Poblacion_adulto', 'Joven_nini', 'Tipo_seguro'],
      dtype='object', length=388)


Para ver todas las columnas vamos a recorrer `df.columns`. Este enfoque está bastante brutal porque vamos a imprimir más de 300 filas de nombres; empero, no hay otra opción aparte de dirigirse a la documentación oficial, lo cual haremos en un rato. 

In [None]:
for columna in df_principal.columns:
  print(columna)

ID_AMO
ID_TRIMESTRE
ID_VIVIENDA
ID_HOGAR
ID_LINEA
Sexo
Edad
Estado_conyugal
Lugar_nacimiento
Permanencia_pais
Permanencia_intension
Permanencia_motivo
Seguro
Regimen_pension
Plan_voluntario
Educacion_asiste
Educacion_nivel_grado
Educacion_codigotitulo
EducacionNoregular_asiste
EducacionNoregular_codigo
EducacionNoregular_institucion
Idioma
Idioma_cual
Trabajo
Trabajo_marginal
Actividad_sinpaga
Ausente
Motivo_ausente
Desea_trabajar
Busca_trabajo
Motivo_nobusco
Cod_empresa
Lugar_trabajo
Cod_rama
Cod_rama_5digitos
Herramientas
Cod_ocupacion
Horas_normales_principal
Horas_extras_principal
Horas_menos_principal
Horas_efectivas_principal
Cantidad_personas
Lugar_tareas
Empresa_paga
Cod_empresa_paga
Cod_rama_paga
Cod_rama_paga_5digitos
D1
D2
D3
D4
D5
D5A
D6A
D6B
D6C
D6D
D7
D8
D9
D10
D12A
D13
D14_1
D14_2
D14A_1
D15A
D15B
D15C
D15D
D15E
D16
D17
D18
D18_1
D18A
D20
D22
D22A
D23
D23A
D24
D24_1
D24A
D25A
D26A
D27
E1
E2
E3
E3A
E4
E5_1
E5_2
E5A
E6A
E6B
E6C
E6D
E6E
E7
E8
E8A
E9A
E9B
E9C
E9D
E9E
E10A
E1

## Exploración de Columnas Numéricas, Categóricas y Booleanos

Ahora, vamos a explorar si costarricenses con conocimientos de una lengua extranjera ganan más dinero, comprobando segun su nivel de educación. Según la documentación oficial, vamos a usar las siguientes columnas para nuestra análisis:

* `Idioma`: ¿Habla, lee y escribe fluidamente algún otro idioma a parte de su lengua materna?
* `Ingreso_total`: Definida como: "*Ingreso mensual neto de las personas ocupadas  (asalariada, cuenta propia o empleador) en todos los empleos (principal, secundario u otro).*"
* `Nivel_educativo`: Definida como: "Corresponde al año más avanzado de estudios aprobados dentro del ciclo de educación regular, que va a depender del último grado o año aprobado (Educacion_nivel_grado) y la tenencia/tipo de título (Educacion_titulo). Aplica para las personas de 15 años y más." Vamos a usar esta variable para asegurarnos de que el efecto de `conocimientos de una lengua extranjera` no esté influido por el nível educativo (es más probable que un estudiante hable inglés)
* `País_nacimiento`: No todas las personas de la encuesta son ticas, de manera que, necesitamos filtrar a las personas que no tienen la nacionalidad costarricense. Ya que el cuestionario no contiene una pregunta sobre la nacionalidad de las personas, necesitamos aprovechar de la variable `país de nacimiento` para asegurarnos de que todas las personas consideradas sean ticas.
* `Mayor_15`: En Costa Rica, personas a partir de 15 años están consideradas parte de la población trabajadora. Ya que nuestra investigación trata de aquella parte de sociedad, vamos a ignorar menores de 15 años.
* `Ocupado`: Similar a la variable anterior, solamente queremos analizar personas de la población trabajadora que actualmente trabaja.

Una parte imprescindible de cada análisis es asegurarse de la integridad de los datos. Para nuestro análisis, necesitamos evaluar los siguientes aspectos:
* ¿Fueron todas personas con una edad de más de 15 años consultadas por sus conocimientos de una lengua extranjera?
* ¿Contestaron todas las personas la pregunta de su país de nacimiento?
* ¿Todas las personas que trabajan tienen un valor en la columna `Ingreso_total`?
* ¿Todas las personas con más de 15 años contestaron la pregunta sobre su nivel eudcativo?

Por primero, vamos a crear una copia de nuestro conjunto de datos antes de modificarlo. Personalmente a mí me gusta tener un conjunto de datos dedicado para cada análisis mayor que hago, ya que cada análisis necesita algunas transformaciones o filtraciones que no apliquan para los otros análisis.

In [None]:
df = df_principal.copy(deep=True)

Por primero, vamos a ver que tipo de datos nuestras columnas de interés llevan:

In [None]:
print(df['Idioma'].dtype)
print(df['Ingreso_total'].dtype)
print(df['Nivel_educativo'].dtype)
print(df['Pais_nacimiento'].dtype)
print(df['Mayor_15'].dtype)
print(df['Ocupado'].dtype)

category
category
category
category
float64
float64


Hay algunas sopresas aquí: ¿Cómo que `Mayor_15` y `Ocupado` no son variables booleanas, y por qué están los ingresos guardados como variables categóricas?

#### **Convertir `Mayor_15` en una columna booleana**

In [None]:
df['Mayor_15'].value_counts(dropna=False)

1.0    18275
NaN     5209
Name: Mayor_15, dtype: int64

¡Ojo! Por defecto `value_counts` no incluye filas con el valor `np.NaN` ('NaN' significa 'not a number', o sea, 'no es un número'). Aunque tenga filosóficamente sentido que esta función no cuenta un valor que no es un número segun su definición propia, para nosotros es imprescindible saber todos los valores de la columna, ya que estos números representan códigos y no números literales.

Transformar esta columna es muy fácil, solamente necesitamos `df['Mayor_15'] == 1` para relacionar la lógica.

In [None]:
df['Mayor_15'] = df['Mayor_15'] == 1

#### **Convertir `Ocupado` en una columna booleana**

In [None]:
df['Ocupado'].value_counts(dropna=False)

NaN    14531
1.0     8953
Name: Ocupado, dtype: int64

In [None]:
df['Ocupado'] = df['Ocupado'] == 1.0

#### **Convertir `Ingreso_total` en una variable numérica**

In [None]:
df['Ingreso_total'] = df['Ingreso_total'].astype(float)

#### **Primer Filtración y Comprobación**

Ahora aplicamos la primera filtración en nuestro conjunto de datos. Además, vamos a verificar que la filtración fue exitosa.

In [None]:
df = df.loc[
    (
        (df['Mayor_15'])
        & (df['Ocupado']) # filtramos personas que son menores de 15 años y no tienen ocupación
    ), :]

In [None]:
# ya que solamente queremos analisar la población ocupada, nadie debe estar desempleado
assert df['Desempleado'].sum() == 0

In [None]:
# además, queríamos eleminar todas las personas fuera de la población trabajadora
# por eso necesitamos verificar que no hay personas menor de 15 años en nuestro nuevo conjunto de datos
print(df['Edad'].dtype)
# ya que la variable `Edad` es categórica y no numérica - necesitamos obtener todos los valores de la columna
# para entender como esta información fue grabada
print(df['Edad'].cat.categories)

category
Index([                                 1.0,
                                        2.0,
                                        3.0,
                                        4.0,
                                        5.0,
                                        6.0,
                                        7.0,
                                        8.0,
                                        9.0,
                                       10.0,
                                       11.0,
                                       12.0,
                                       13.0,
                                       14.0,
                                       15.0,
                                       16.0,
                                       17.0,
                                       18.0,
                                       19.0,
                                       20.0,
                                       21.0,
                                       22.0,
 

In [None]:
# con la perspicacia anterior, construyamos una lista de valors que no deben aparecer en nuestro conjunto de datos
edad_no_deseada = list()
edad_no_deseada.extend([x for x in range(0, 15)])
edad_no_deseada.append('Menor de un año 0')

In [None]:
# aquí usamos la propiedad de variables booleanas - correcto (True) tiene el valor 1 y falso el valor 0
# ya que todos las filas no deben tener una edad no deseada, la suma debe ser 0
assert df['Edad'].isin(edad_no_deseada).sum() == 0  # assert asegura que la siguiente expresión está correcta

#### **Comprobaciónes de Integridad**

In [None]:
# todas personas tienen un país de nacimiento
df['Pais_nacimiento'].value_counts(dropna=False)

Costa Rica        8059
Nicaragua          770
Otro país           38
Panama              29
El Salvador         19
Colombia            16
Honduras             8
Venezuela            6
Estados Unidos       5
México               3
Name: Pais_nacimiento, dtype: int64

In [None]:
# todas personas aparte de 8 tienen información sobre su nivel educativo
df['Nivel_educativo'].value_counts(dropna=False)

Primaria completa           2326
Secundaria incompleta       1935
Universitario con título    1692
Secundaria completa         1627
Primaria incompleta          729
Universitario sin título     466
Ninguno                      170
No especificado                8
Name: Nivel_educativo, dtype: int64

In [None]:
# todas personas contestaron la pregunta sobre su conocimiento de una lengua extranjera
df['Idioma'].value_counts(dropna=False)

No    8284
Sí     669
Name: Idioma, dtype: int64

In [None]:
# hay un número considerable de personas que trabajan pero no reportaron sus ingresos en la encuesta!
df.loc[df['Ingreso_total'].isnull(), :].shape[0]

886

In [None]:
# ya que hay personas trabajadoras sin declaración de sus ingresos en ambos grupos
# de monolingües y bilingües, la eliminación de estas personas no representa un problema
df.loc[df['Ingreso_total'].isnull(), 'Idioma'].value_counts()

No    842
Sí     44
Name: Idioma, dtype: int64

#### **Filtración Final & Análisis**

In [None]:
df = df.loc[
    (
        (df['Pais_nacimiento']=='Costa Rica')
        & (df['Nivel_educativo']!='No especificado')
        & (~df['Ingreso_total'].isnull())  # `~` invierte valores booleanos; True (False) se convierte en False (True)
    ),
    :
]

In [None]:
# aseguremonos que los filtros funcionaron
assert (df['Pais_nacimiento']=='Costa Rica').all()
assert (df['Pais_nacimiento']!='No especificado').all()
assert (~df['Pais_nacimiento'].isnull()).all()

In [None]:
agg_df = (
    df
    .groupby(['Nivel_educativo', 'Idioma'])  # agrupaciones
    .agg(
          {
              'Ingreso_total': ['mean', 'count']  # agregación de la variable que nos interesa
          }
    )
)

In [None]:
print(agg_df)

                                 Ingreso_total      
                                          mean count
Nivel_educativo          Idioma                     
Ninguno                  No      185232.150407    82
                         Sí                NaN     0
No especificado          No                NaN     0
                         Sí                NaN     0
Primaria completa        No      276601.003792  1846
                         Sí      351981.611111    12
Primaria incompleta      No      236482.502572   486
                         Sí                NaN     0
Secundaria completa      No      361958.409992  1261
                         Sí      524612.316817   111
Secundaria incompleta    No      312495.903812  1517
                         Sí      305469.256410    39
Universitario con título No      811075.840051  1166
                         Sí      872776.215100   351
Universitario sin título No      391873.429387   321
                         Sí      614928.881250

Esta tabla tiene la información que buscabamos, pero las filas no están ordenadas en una manera que permite leer los resultados fácilmente; por lo tanto, lo que queremos es un orden del nivel educativo más bajo al más alto. Además, no queremos ver la categoría `No especificado` porque la eliminamos antes. Vamos a hacer esta ordenación ahora:

In [None]:
# borrar categoría No especificado
df['Nivel_educativo'] = df['Nivel_educativo'].cat.remove_categories('No especificado')

In [None]:
# nuevos nombres para las categorías
df['Nivel_educativo'] = df['Nivel_educativo'].cat.rename_categories(
    {
        'Ninguno': '1) Ninguno',
        'Primaria incompleta': '2) Primaria incompleta',
        'Primaria completa': '3) Primaria completa',
        'Secundaria incompleta': '4) Secundaria incompleta',
        'Secundaria completa': '5) Secundaria completa',
        'Universitario sin título': '6) Universitario sin título',
        'Universitario con título': '7) Universitario con título'
    }
)

In [None]:
# definición del orden
df['Nivel_educativo'] = df['Nivel_educativo'].cat.reorder_categories(
    [
        '1) Ninguno',
        '2) Primaria incompleta',
        '3) Primaria completa',
        '4) Secundaria incompleta',
        '5) Secundaria completa',
        '6) Universitario sin título',
        '7) Universitario con título'
    ]
)

In [None]:
# hacemos la agregación otra vez
agg_df = (
    df
    .groupby(['Nivel_educativo', 'Idioma'])
    .agg(
          {
              'Ingreso_total': ['mean', 'count']
          }
    )
)

In [None]:
agg_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Ingreso_total,Ingreso_total
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,count
Nivel_educativo,Idioma,Unnamed: 2_level_2,Unnamed: 3_level_2
1) Ninguno,No,185232.150407,82
1) Ninguno,Sí,,0
2) Primaria incompleta,No,236482.502572,486
2) Primaria incompleta,Sí,,0
3) Primaria completa,No,276601.003792,1846
3) Primaria completa,Sí,351981.611111,12
4) Secundaria incompleta,No,312495.903812,1517
4) Secundaria incompleta,Sí,305469.25641,39
5) Secundaria completa,No,361958.409992,1261
5) Secundaria completa,Sí,524612.316817,111


De esta tabla, es posible ver dos efectos. Primero, individuos con niveles de educación más altos, suelen ganar más dinero. Segundo, para el mismo nivel de educación, personas con conocimientos de una lengua extranjera suelen tener ingresos más elevados también. Solamente en el grupo `4) Secundaria incompleta` el efecto es contrario, pero, también puede ser por el número bajo de personas en el grupo de bilingües. 

Aunque tenemos nuestros primeras perspicacias sobre nuestra pregunta investigadora, falta una prueba muy importante: la evaluación de la significancia estadística. Esta vamos a llevar a cabo en el próximo capítulo, juntos con visualisaciones de las perspicacias.

## Práctica Capítulo 2.0

In [None]:
# Repita el análisis, pero incluye a la población Nicaragüense, es decir repita el análisis usando todas
# las personas encuestadas que viven en Costa Rica y nacieron en Costa Rica o Nicaragua

# ⚠️ Área de Construcción ⚠️

In [None]:
# regresión lineal
Y = U + I + U x I
