In [1]:
# %run "../../../common/0_notebooks_base_setup.py"

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


## Documentación pandas

https://pandas.pydata.org/pandas-docs/stable/index.html

 

## Dataset

El dataset que usaremos es una versión muy resumida de datos de la Encuesta Permanentes de Hogares (relevamiento llevado adelante por el INDEC). Se trata de una encuesta continua que tiene como objetivo fundamental generar información sobre el funcionamiento del mercado de trabajo.

Solamente utilizaremos algunas variables (edad, nivel educativo, cantidad de horas trabajadas, calificación de la tarea e ingreso laboral) y algunos casos (los ocupados, es decir, aquellos que han trabajado al menos una hora en la semana anterior al relevamiento).

Este dataset es el mismo que emplearemos en la clase presencial, y en estos ejercicios buscamos  familiarizarnos con él y revisar algunos temas.


Importamos la biblioteca pandas y asignamos pd como alias:

In [5]:
import pandas as pd

## Ejercicio 1

Busquemos en la documentación de pandas la sintaxis del método `read_csv` y leamos en un `DataFrame` llamado data los datos del archivo /M1/CLASE_04/Data/data_filt.csv 

Este archivo tiene algunos datos numéricos y otros de tipo cadena de caracteres. 

Las columnas son:

* ch06: int, edad

* nivel_ed: string, nivel educativo

* htot: int, cantidad de horas totales trabajadas en el período

* calif: string, calificación de la tarea

* p47t: int, ingreso



In [10]:
import pandas as pd
data_location = '../Data/data_filt.csv'
data = pd.read_csv(data_location, sep=",", encoding="latin1").rename(columns={'ch06': 'edad', 'nivel_ed': 'niveleducativo','p47t': 'ingreso'})
data

Unnamed: 0,edad,niveleducativo,htot,calif,ingreso
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
3,52,1_H/Sec inc,90,2_Op./No calif.,11000.0
4,45,1_H/Sec inc,44,2_Op./No calif.,9500.0
...,...,...,...,...,...
23443,45,2_Sec. comp y más,50,2_Op./No calif.,4000.0
23444,58,1_H/Sec inc,30,2_Op./No calif.,5000.0
23445,36,2_Sec. comp y más,40,2_Op./No calif.,13000.0
23446,49,1_H/Sec inc,40,2_Op./No calif.,4000.0


## Ejercicio 2

Repasemos el concepto de índice y columnas de un `DataFrame`

Accedamos al índice (nombres de las filas) del `DataFrame` data

Accedamos a los nombres de columnas del `DataFrame` data


In [11]:
data.index


RangeIndex(start=0, stop=23448, step=1)

In [13]:
data.columns

Index(['edad', 'niveleducativo', 'htot', 'calif', 'ingreso'], dtype='object')

Vamos a modificar ahora el índice de data, así el valor del índice no coincide con la posición y podemos notar diferencias en los ejercicios que siguen.

In [12]:
data.index = data.index + 7
print(data.index)
data.head(5)

RangeIndex(start=7, stop=23455, step=1)


Unnamed: 0,edad,niveleducativo,htot,calif,ingreso
7,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
8,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
9,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
10,52,1_H/Sec inc,90,2_Op./No calif.,11000.0
11,45,1_H/Sec inc,44,2_Op./No calif.,9500.0


## Ejercicio 3

Repasemos el uso de `loc` e `iloc`

* `loc` nos permite acceder a un elemento por su índice

* `iloc` nos permite acceder a un elemento por su posición

Leamos con `loc` y con `iloc` la cuarta fila de data

¿Cómo accedemos al valor del índice en la cuarta fila?

In [16]:
data.iloc[3]
data.loc[10]

edad                           52
niveleducativo        1_H/Sec inc
htot                           90
calif             2_Op./No calif.
ingreso                     11000
Name: 10, dtype: object

## Ejercicio 4

Repasemos el uso de `loc` combinado con máscaras booleanas.

Queremos construir un objeto `DataFrame` con los registros de edad menor a 15 o mayor igual a 70.


In [38]:
filter = data.loc[(data.edad < 15)|(data.edad >= 70)]
filter.head(3)

Unnamed: 0,edad,niveleducativo,htot,calif,ingreso
17,72,1_H/Sec inc,15,1_Prof./Tecn.,8300.0
251,71,2_Sec. comp y más,8,1_Prof./Tecn.,7102.0
416,71,1_H/Sec inc,63,2_Op./No calif.,11800.0


## Ejercicio 5

Calculemos algunas métricas sobre un objeto `DataFrame`

* Promedio de edad

* Máximo de horas trabajadas

* Mediana de ingreso

In [40]:
data.loc[:,"edad"].mean()

40.455689184578645

In [41]:
data.loc[:,"htot"].max()

168

In [43]:
data.loc[:,"ingreso"].mean()

8107.905834186285