## Dataset

En la práctica de la clase de hoy usaremos una versión muy resumida de datos de la Encuesta Permanentes de Hogares (relevamiento llevado adelante por el INDEC). Se trata de una encuesta continua que tiene como objetivo fundamental generar información sobre el funcionamiento del mercado de trabajo.

Solamente utilizaremos algunas variables (edad, nivel educativo, cantidad de horas trabajadas, calificación de la tarea e ingreso laboral) y algunos casos (los ocupados, es decir, aquellos que han trabajado al menos una hora en la semana anterior al relevamiento).


Importamos la biblioteca pandas y asignamos pd como alias:

In [1]:
import pandas as pd
import numpy as np

## Ejercicio 1

Vamos a leer los datos del archivo /M1/CLASE_04/Data/data_filt.csv en un `DataFrame` de pandas con el método `read_csv`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html


Este archivo tiene algunos datos numéricos y otros de tipo cadena de caracteres. 

Las columnas son:

"ch06","nivel_ed","htot","calif","p47t"

* ch06: int, edad

* nivel_ed: string, nivel educativo

* htot: int, cantidad de horas totales trabajadas en el período

* calif: string, calificación de la tarea

* p47t: int, ingreso



In [2]:
# local:
data_location = "../Data/data_filt.csv"

data = pd.read_csv(data_location, sep=",", encoding="latin1")

## Ejercicio 2

Miremos ahora los primeros tres registros del `DataFrame` data, y los ultimos cinco registros.

¿Cuántas filas tiene data? ¿Y cuántas columnas?

Ayudas:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html?highlight=head#pandas.DataFrame.head

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html?highlight=tail#pandas.DataFrame.tail

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html?highlight=shape#pandas.DataFrame.shape

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html?highlight=info


In [3]:
data.head(3)

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0


In [4]:
data.iloc[(data.index<10) | (data.index>23420)]

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
3,52,1_H/Sec inc,90,2_Op./No calif.,11000.0
4,45,1_H/Sec inc,44,2_Op./No calif.,9500.0
5,38,2_Sec. comp y más,72,1_Prof./Tecn.,6000.0
6,40,2_Sec. comp y más,44,2_Op./No calif.,9000.0
7,53,1_H/Sec inc,72,2_Op./No calif.,4260.0
8,24,1_H/Sec inc,55,2_Op./No calif.,3800.0
9,44,2_Sec. comp y más,60,2_Op./No calif.,10517.0


In [5]:
data.index<10

array([ True,  True,  True, ..., False, False, False])

In [6]:
data.tail()

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
23443,45,2_Sec. comp y más,50,2_Op./No calif.,4000.0
23444,58,1_H/Sec inc,30,2_Op./No calif.,5000.0
23445,36,2_Sec. comp y más,40,2_Op./No calif.,13000.0
23446,49,1_H/Sec inc,40,2_Op./No calif.,4000.0
23447,36,1_H/Sec inc,54,2_Op./No calif.,8000.0


In [7]:
# Pruebo un par de formas de generar un df con indexado de varios slice
display(data.iloc[np.r_[data.head(3).index, data.tail().index],])
display(pd.concat([data.iloc[0:3], data.iloc[-5:]]))

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
23443,45,2_Sec. comp y más,50,2_Op./No calif.,4000.0
23444,58,1_H/Sec inc,30,2_Op./No calif.,5000.0
23445,36,2_Sec. comp y más,40,2_Op./No calif.,13000.0
23446,49,1_H/Sec inc,40,2_Op./No calif.,4000.0
23447,36,1_H/Sec inc,54,2_Op./No calif.,8000.0


Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
23443,45,2_Sec. comp y más,50,2_Op./No calif.,4000.0
23444,58,1_H/Sec inc,30,2_Op./No calif.,5000.0
23445,36,2_Sec. comp y más,40,2_Op./No calif.,13000.0
23446,49,1_H/Sec inc,40,2_Op./No calif.,4000.0
23447,36,1_H/Sec inc,54,2_Op./No calif.,8000.0


funciona, pero no logré que `data.iloc[np.r_[0:3, -5:],]` funcione, no reconoce el segundo slice si no le doy un final

## Ejercicio 3

¿Cuáles son los nombres de las columnas del `DataFrame` data?

¿Cuál es el índice del `DataFrame` data?

Ayudas:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html?highlight=columns#pandas.DataFrame.columns

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.index.html?highlight=index#pandas.DataFrame.index


In [9]:
display(data.columns)
display(data.index)

Index(['ch06', 'nivel_ed', 'htot', 'calif', 'p47t'], dtype='object')

RangeIndex(start=0, stop=23448, step=1)

Renombremos ahora los columnas para que queden con estos valores:

['edad', 'nivel_educativo', 'hs_trabajados', 'calif_ocupacional', 'ingreso_ult_mes']

In [28]:
nombres_col = ['edad', 'nivel_educativo', 'hs_trabajados', 'calif_ocupacional', 'ingreso_ult_mes']
for columna, nombre in zip(data.columns, nombres_col):
    data = data.rename({columna: nombre}, axis=1)
data.head()

Unnamed: 0,edad,nivel_educativo,hs_trabajados,calif_ocupacional,ingreso_ult_mes
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
3,52,1_H/Sec inc,90,2_Op./No calif.,11000.0
4,45,1_H/Sec inc,44,2_Op./No calif.,9500.0


## Ejercicio 4 

¿Cuál es el tipo de datos de la cuarta columna de data?

In [31]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23448 entries, 0 to 23447
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   edad               23448 non-null  int64  
 1   nivel_educativo    23448 non-null  object 
 2   hs_trabajados      23448 non-null  int64  
 3   calif_ocupacional  23448 non-null  object 
 4   ingreso_ult_mes    23448 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 916.1+ KB


In [29]:
data.iloc[:,3].dtype

dtype('O')

El tipo de dato es Object

## Ejercicio 5 

¿Cómo están distribuidos los niveles educativos? ¿Cuál es el más común?

Ayuda:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html?highlight=value_counts#pandas.Series.value_counts


In [32]:
data['nivel_educativo'].value_counts()

2_Sec. comp y más    14634
1_H/Sec inc           8814
Name: nivel_educativo, dtype: int64

## Ejercicio 6

¿Cuál es el ingreso medio de la población? 

In [33]:
data['ingreso_ult_mes'].mean()

8107.905834186285

## Ejercicio 7

Construyamos un objeto `DataFrame` con las columnas nivel_educativo e ingreso_ult_mes de data

Seleccionemos las primeras 20 filas de este objeto `DataFrame`

Seleccionemos una muestra aleatoria de 500 filas de este objeto `DataFrame`

Ayuda:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html?highlight=sample#pandas.DataFrame.sample

In [47]:
data2 = data.loc[:,('nivel_educativo','ingreso_ult_mes')]
display(data2.head(20))
display(data2.sample(500))

Unnamed: 0,nivel_educativo,ingreso_ult_mes
0,1_H/Sec inc,6000.0
1,2_Sec. comp y más,5000.0
2,2_Sec. comp y más,5000.0
3,1_H/Sec inc,11000.0
4,1_H/Sec inc,9500.0
5,2_Sec. comp y más,6000.0
6,2_Sec. comp y más,9000.0
7,1_H/Sec inc,4260.0
8,1_H/Sec inc,3800.0
9,2_Sec. comp y más,10517.0


Unnamed: 0,nivel_educativo,ingreso_ult_mes
21194,1_H/Sec inc,9000.0
15057,2_Sec. comp y más,12000.0
8095,2_Sec. comp y más,3000.0
628,2_Sec. comp y más,5000.0
6053,2_Sec. comp y más,20000.0
...,...,...
929,2_Sec. comp y más,8000.0
13736,2_Sec. comp y más,6200.0
11270,2_Sec. comp y más,1400.0
22529,1_H/Sec inc,2600.0


## Ejercicio 8

Construyamos un objeto `DataFrame` con todas las columnas de data excluyendo nivel_educativo.

Ayuda: 

Construir una máscara booleana de los nombres de las columnas.


In [54]:
data.loc[:, data.columns != 'nivel_educativo']

Unnamed: 0,edad,hs_trabajados,calif_ocupacional,ingreso_ult_mes
0,46,45,2_Op./No calif.,6000.0
1,26,25,2_Op./No calif.,5000.0
2,47,25,2_Op./No calif.,5000.0
3,52,90,2_Op./No calif.,11000.0
4,45,44,2_Op./No calif.,9500.0
...,...,...,...,...
23443,45,50,2_Op./No calif.,4000.0
23444,58,30,2_Op./No calif.,5000.0
23445,36,40,2_Op./No calif.,13000.0
23446,49,40,2_Op./No calif.,4000.0


## Ejercicio 9

Ordenar data según la columna edad en forma decreciente.

Ayuda: 

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html?highlight=sort_values#pandas.DataFrame.sort_values


In [57]:
data.sort_values('edad', ascending=False)

Unnamed: 0,edad,nivel_educativo,hs_trabajados,calif_ocupacional,ingreso_ult_mes
22574,93,1_H/Sec inc,20,2_Op./No calif.,8000.0
16461,85,2_Sec. comp y más,40,1_Prof./Tecn.,20700.0
16954,85,2_Sec. comp y más,36,2_Op./No calif.,8250.0
23317,84,1_H/Sec inc,25,2_Op./No calif.,9900.0
4340,84,1_H/Sec inc,36,2_Op./No calif.,7500.0
...,...,...,...,...,...
15198,13,1_H/Sec inc,6,2_Op./No calif.,800.0
5698,12,1_H/Sec inc,5,2_Op./No calif.,250.0
15308,12,1_H/Sec inc,7,2_Op./No calif.,250.0
19856,12,1_H/Sec inc,15,2_Op./No calif.,1200.0


## Ejercicio 10

¿Cuál es el promedio de horas trabajadas de los jóvenes entre 14 y 25 años y poco calificados?

Ayuda:
    
Combina varias máscaras booleanas

In [69]:
data['calif_ocupacional'].value_counts()
data[(data['calif_ocupacional']=='2_Op./No calif.') & (data['edad']>=14) & (data['edad']<=25)]['hs_trabajados'].mean()

37.57085900688655

## Ejercicio 11

Generemos un nuevo dataframe con los trabajadores que ganan más del promedio de ingresos general y están por debajo de la cantidad media de horas trabajadas. ¿Cuántos trabajadores se encuentran en esta condición? ¿Cuál es su edad mediana?

Ayuda:

Calcular el promedio de ingresos y la media de horas trabajadas

Construir máscaras booleanas con estos valores

Indexar data con la combinación de las máscaras construidas


In [87]:
prom_ingresos = data['ingreso_ult_mes'].mean()
prom_hs = data['hs_trabajados'].mean()
mayor_ingreso_hs = data[(data['ingreso_ult_mes']>prom_ingresos) & (data['hs_trabajados']<prom_hs)]
print(f'Trabajadores con ingreso superior y hs inferiores a la media: {len(mayor_ingreso_hs)}')
print(f'Edad promedio: {mayor_ingreso_hs["edad"].median()}')
mayor_ingreso_hs

Trabajadores con ingreso superior y hs inferiores a la media: 2132
Edad promedio: 44.0


Unnamed: 0,edad,nivel_educativo,hs_trabajados,calif_ocupacional,ingreso_ult_mes
10,72,1_H/Sec inc,15,1_Prof./Tecn.,8300.0
12,43,2_Sec. comp y más,15,1_Prof./Tecn.,11000.0
47,33,2_Sec. comp y más,39,1_Prof./Tecn.,9500.0
48,55,1_H/Sec inc,30,2_Op./No calif.,13000.0
88,46,1_H/Sec inc,36,1_Prof./Tecn.,10000.0
...,...,...,...,...,...
23393,30,2_Sec. comp y más,30,2_Op./No calif.,10000.0
23397,46,2_Sec. comp y más,36,2_Op./No calif.,10100.0
23398,38,2_Sec. comp y más,35,2_Op./No calif.,8500.0
23430,62,2_Sec. comp y más,30,1_Prof./Tecn.,8500.0
