In [1]:
# %run "../../../common/0_notebooks_base_setup.py"

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


## Dataset

En la práctica de la clase de hoy usaremos una versión muy resumida de datos de la Encuesta Permanentes de Hogares (relevamiento llevado adelante por el INDEC). Se trata de una encuesta continua que tiene como objetivo fundamental generar información sobre el funcionamiento del mercado de trabajo.

Solamente utilizaremos algunas variables (edad, nivel educativo, cantidad de horas trabajadas, calificación de la tarea e ingreso laboral) y algunos casos (los ocupados, es decir, aquellos que han trabajado al menos una hora en la semana anterior al relevamiento).


Importamos la biblioteca pandas y asignamos pd como alias:

In [2]:
import pandas as pd

## Ejercicio 1

Vamos a leer los datos del archivo /M1/CLASE_04/Data/data_filt.csv en un `DataFrame` de pandas con el método `read_csv`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html


Este archivo tiene algunos datos numéricos y otros de tipo cadena de caracteres. 

Las columnas son:

"ch06","nivel_ed","htot","calif","p47t"

* ch06: int, edad

* nivel_ed: string, nivel educativo

* htot: int, cantidad de horas totales trabajadas en el período

* calif: string, calificación de la tarea

* p47t: int, ingreso



In [3]:
# local:
data_location = "../Data/data_filt.csv"

data = pd.read_csv(data_location, sep=",", encoding="latin1")

## Ejercicio 2

Miremos ahora los primeros tres registros del `DataFrame` data, y los ultimos cinco registros.

¿Cuántas filas tiene data? ¿Y cuántas columnas?

Ayudas:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html?highlight=head#pandas.DataFrame.head

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html?highlight=tail#pandas.DataFrame.tail

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html?highlight=shape#pandas.DataFrame.shape

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html?highlight=info


In [10]:
data.head(3)

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0


## Ejercicio 3

¿Cuáles son los nombres de las columnas del `DataFrame` data?

¿Cuál es el índice del `DataFrame` data?

Ayudas:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html?highlight=columns#pandas.DataFrame.columns

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.index.html?highlight=index#pandas.DataFrame.index


In [13]:
data.columns
data.index
data

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
3,52,1_H/Sec inc,90,2_Op./No calif.,11000.0
4,45,1_H/Sec inc,44,2_Op./No calif.,9500.0
...,...,...,...,...,...
23443,45,2_Sec. comp y más,50,2_Op./No calif.,4000.0
23444,58,1_H/Sec inc,30,2_Op./No calif.,5000.0
23445,36,2_Sec. comp y más,40,2_Op./No calif.,13000.0
23446,49,1_H/Sec inc,40,2_Op./No calif.,4000.0


Renombremos ahora los columnas para que queden con estos valores:

['edad', 'nivel_educativo', 'hs_trabajados', 'calif_ocupacional', 'ingreso_ult_mes']

In [16]:
data = data.rename(columns={'ch06': 'edad', 'nivel_ed': 'nivel_educativo', 'htot': 'hs_trabajas', 'calif': 'calif_ocupacional', 'p47t': 'ingreso_ult_mes'})
data

Unnamed: 0,edad,nivel_educativo,hs_trabajas,calif_ocupacional,ingreso_ult_mes
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
3,52,1_H/Sec inc,90,2_Op./No calif.,11000.0
4,45,1_H/Sec inc,44,2_Op./No calif.,9500.0
...,...,...,...,...,...
23443,45,2_Sec. comp y más,50,2_Op./No calif.,4000.0
23444,58,1_H/Sec inc,30,2_Op./No calif.,5000.0
23445,36,2_Sec. comp y más,40,2_Op./No calif.,13000.0
23446,49,1_H/Sec inc,40,2_Op./No calif.,4000.0


## Ejercicio 4 

¿Cuál es el tipo de datos de la cuarta columna de data?

In [19]:
data.iloc[:, 3]

0        2_Op./No calif.
1        2_Op./No calif.
2        2_Op./No calif.
3        2_Op./No calif.
4        2_Op./No calif.
              ...       
23443    2_Op./No calif.
23444    2_Op./No calif.
23445    2_Op./No calif.
23446    2_Op./No calif.
23447    2_Op./No calif.
Name: calif_ocupacional, Length: 23448, dtype: object

## Ejercicio 5 

¿Cómo están distribuidos los niveles educativos? ¿Cuál es el más común?

Ayuda:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html?highlight=value_counts#pandas.Series.value_counts


In [27]:
data.nivel_educativo.value_counts()
data.nivel_educativo.mode()

2_Sec. comp y más    14634
1_H/Sec inc           8814
Name: nivel_educativo, dtype: int64

## Ejercicio 6

¿Cuál es el ingreso medio de la población? 

In [30]:
data.ingreso_ult_mes.mean().round(2)

8107.91

## Ejercicio 7

Construyamos un objeto `DataFrame` con las columnas nivel_educativo e ingreso_ult_mes de data

Seleccionemos las primeras 20 filas de este objeto `DataFrame`

Seleccionemos una muestra aleatoria de 500 filas de este objeto `DataFrame`

Ayuda:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html?highlight=sample#pandas.DataFrame.sample

In [40]:
data.loc[:20, ["nivel_educativo", "ingreso_ult_mes"]]
data.loc[:, ["nivel_educativo", "ingreso_ult_mes"]].sample(n=500, random_state=1)

Unnamed: 0,nivel_educativo,ingreso_ult_mes
14513,1_H/Sec inc,2500.0
15803,2_Sec. comp y más,13000.0
8670,2_Sec. comp y más,11000.0
13826,2_Sec. comp y más,8000.0
9374,2_Sec. comp y más,1500.0
...,...,...
3847,2_Sec. comp y más,5300.0
20651,1_H/Sec inc,2000.0
7593,2_Sec. comp y más,13600.0
20556,2_Sec. comp y más,9000.0


## Ejercicio 8

Construyamos un objeto `DataFrame` con todas las columnas de data excluyendo nivel_educativo.

Ayuda: 

Construir una máscara booleana de los nombres de las columnas.


In [51]:
columns = data.columns
mask_columns = columns != "nivel_educativo"
mask_columns
data.loc[:, columns[mask_columns]]

# o mas facil

data.drop('nivel_educativo', axis=1)

Unnamed: 0,edad,hs_trabajas,calif_ocupacional,ingreso_ult_mes
0,46,45,2_Op./No calif.,6000.0
1,26,25,2_Op./No calif.,5000.0
2,47,25,2_Op./No calif.,5000.0
3,52,90,2_Op./No calif.,11000.0
4,45,44,2_Op./No calif.,9500.0
...,...,...,...,...
23443,45,50,2_Op./No calif.,4000.0
23444,58,30,2_Op./No calif.,5000.0
23445,36,40,2_Op./No calif.,13000.0
23446,49,40,2_Op./No calif.,4000.0


## Ejercicio 9

Ordenar data según la columna edad en forma decreciente.

Ayuda: 

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html?highlight=sort_values#pandas.DataFrame.sort_values


In [55]:
data.sort_values("edad", ascending=False)

Unnamed: 0,edad,nivel_educativo,hs_trabajas,calif_ocupacional,ingreso_ult_mes
22574,93,1_H/Sec inc,20,2_Op./No calif.,8000.0
16461,85,2_Sec. comp y más,40,1_Prof./Tecn.,20700.0
16954,85,2_Sec. comp y más,36,2_Op./No calif.,8250.0
23317,84,1_H/Sec inc,25,2_Op./No calif.,9900.0
4340,84,1_H/Sec inc,36,2_Op./No calif.,7500.0
...,...,...,...,...,...
15198,13,1_H/Sec inc,6,2_Op./No calif.,800.0
5698,12,1_H/Sec inc,5,2_Op./No calif.,250.0
15308,12,1_H/Sec inc,7,2_Op./No calif.,250.0
19856,12,1_H/Sec inc,15,2_Op./No calif.,1200.0


## Ejercicio 10

¿Cuál es el promedio de horas trabajadas de los jóvenes entre 14 y 25 años y poco calificados?

Ayuda:
    
Combina varias máscaras booleanas

In [61]:
filter = data[(data.edad > 14)&(data.edad < 25)&(data.calif_ocupacional == "2_Op./No calif.")]
filter

Unnamed: 0,edad,nivel_educativo,hs_trabajas,calif_ocupacional,ingreso_ult_mes
8,24,1_H/Sec inc,55,2_Op./No calif.,3800.0
23,19,2_Sec. comp y más,25,2_Op./No calif.,2000.0
40,21,2_Sec. comp y más,40,2_Op./No calif.,8000.0
51,22,2_Sec. comp y más,20,2_Op./No calif.,4000.0
85,23,2_Sec. comp y más,45,2_Op./No calif.,16000.0
...,...,...,...,...,...
23391,20,1_H/Sec inc,45,2_Op./No calif.,2200.0
23396,18,1_H/Sec inc,25,2_Op./No calif.,6000.0
23405,22,2_Sec. comp y más,56,2_Op./No calif.,13000.0
23439,17,1_H/Sec inc,56,2_Op./No calif.,3500.0


## Ejercicio 11

Generemos un nuevo dataframe con los trabajadores que ganan más del promedio de ingresos general y están por debajo de la cantidad media de horas trabajadas. ¿Cuántos trabajadores se encuentran en esta condición? ¿Cuál es su edad mediana?

Ayuda:

Calcular el promedio de ingresos y la media de horas trabajadas

Construir máscaras booleanas con estos valores

Indexar data con la combinación de las máscaras construidas


In [64]:
prom_ingresos = data.ingreso_ult_mes.mean().round(2)
media_hs = data.hs_trabajas.mean().round(2)
print(f"Ingresos promedios: {prom_ingresos} - media hs: {media_hs}")
data[(data.ingreso_ult_mes > prom_ingresos)&(data.hs_trabajas < media_hs)]

Ingresos promedios: 8107.91 - media hs: 39.68


Unnamed: 0,edad,nivel_educativo,hs_trabajas,calif_ocupacional,ingreso_ult_mes
10,72,1_H/Sec inc,15,1_Prof./Tecn.,8300.0
12,43,2_Sec. comp y más,15,1_Prof./Tecn.,11000.0
47,33,2_Sec. comp y más,39,1_Prof./Tecn.,9500.0
48,55,1_H/Sec inc,30,2_Op./No calif.,13000.0
88,46,1_H/Sec inc,36,1_Prof./Tecn.,10000.0
...,...,...,...,...,...
23393,30,2_Sec. comp y más,30,2_Op./No calif.,10000.0
23397,46,2_Sec. comp y más,36,2_Op./No calif.,10100.0
23398,38,2_Sec. comp y más,35,2_Op./No calif.,8500.0
23430,62,2_Sec. comp y más,30,1_Prof./Tecn.,8500.0
