## Documentación pandas

https://pandas.pydata.org/pandas-docs/stable/index.html

 

## Dataset

El dataset que usaremos es una versión muy resumida de datos de la Encuesta Permanentes de Hogares (relevamiento llevado adelante por el INDEC). Se trata de una encuesta continua que tiene como objetivo fundamental generar información sobre el funcionamiento del mercado de trabajo.

Solamente utilizaremos algunas variables (edad, nivel educativo, cantidad de horas trabajadas, calificación de la tarea e ingreso laboral) y algunos casos (los ocupados, es decir, aquellos que han trabajado al menos una hora en la semana anterior al relevamiento).

Este dataset es el mismo que emplearemos en la clase presencial, y en estos ejercicios buscamos  familiarizarnos con él y revisar algunos temas.


Importamos la biblioteca pandas y asignamos pd como alias:

In [1]:
import pandas as pd

## Ejercicio 1

Busquemos en la documentación de pandas la sintaxis del método `read_csv` y leamos en un `DataFrame` llamado data los datos del archivo /M1/CLASE_04/Data/data_filt.csv 

Este archivo tiene algunos datos numéricos y otros de tipo cadena de caracteres. 

Las columnas son:

* ch06: int, edad

* nivel_ed: string, nivel educativo

* htot: int, cantidad de horas totales trabajadas en el período

* calif: string, calificación de la tarea

* p47t: int, ingreso



In [15]:
location = '../Data/data_filt.csv'

data = pd.read_csv(location, encoding='latin1')
data

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
3,52,1_H/Sec inc,90,2_Op./No calif.,11000.0
4,45,1_H/Sec inc,44,2_Op./No calif.,9500.0
...,...,...,...,...,...
23443,45,2_Sec. comp y más,50,2_Op./No calif.,4000.0
23444,58,1_H/Sec inc,30,2_Op./No calif.,5000.0
23445,36,2_Sec. comp y más,40,2_Op./No calif.,13000.0
23446,49,1_H/Sec inc,40,2_Op./No calif.,4000.0


## Ejercicio 2

Repasemos el concepto de índice y columnas de un `DataFrame`

Accedamos al índice (nombres de las filas) del `DataFrame` data

Accedamos a los nombres de columnas del `DataFrame` data


In [3]:
print(data.index)
print(data.columns)

RangeIndex(start=0, stop=23448, step=1)
Index(['ch06', 'nivel_ed', 'htot', 'calif', 'p47t'], dtype='object')


Vamos a modificar ahora el índice de data, así el valor del índice no coincide con la posición y podemos notar diferencias en los ejercicios que siguen.

In [4]:
data.index = data.index + 7
print(data.index)
data.head(5)

RangeIndex(start=7, stop=23455, step=1)


Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
7,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
8,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
9,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
10,52,1_H/Sec inc,90,2_Op./No calif.,11000.0
11,45,1_H/Sec inc,44,2_Op./No calif.,9500.0


## Ejercicio 3

Repasemos el uso de `loc` e `iloc`

* `loc` nos permite acceder a un elemento por su índice

* `iloc` nos permite acceder a un elemento por su posición

Leamos con `loc` y con `iloc` la cuarta fila de data

¿Cómo accedemos al valor del índice en la cuarta fila?

In [9]:
print(data.loc[10])
print('----------')
print(data.iloc[3])

ch06                     52
nivel_ed        1_H/Sec inc
htot                     90
calif       2_Op./No calif.
p47t                  11000
Name: 10, dtype: object
----------
ch06                     52
nivel_ed        1_H/Sec inc
htot                     90
calif       2_Op./No calif.
p47t                  11000
Name: 10, dtype: object


## Ejercicio 4

Repasemos el uso de `loc` combinado con máscaras booleanas.

Queremos construir un objeto `DataFrame` con los registros de edad menor a 15 o mayor igual a 70.


In [12]:
data.describe()

Unnamed: 0,ch06,htot,p47t
count,23448.0,23448.0,23448.0
mean,40.455689,39.684536,8107.905834
std,12.93487,16.172226,6396.801309
min,12.0,1.0,80.0
25%,30.0,30.0,4000.0
50%,39.0,40.0,7000.0
75%,50.0,48.0,10000.0
max,93.0,168.0,130000.0


In [27]:
edades_extremas = data[(data['ch06'] < 15) | (data['ch06'] > 70)]
edades_extremas.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 234 entries, 10 to 23332
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   ch06      234 non-null    int64  
 1   nivel_ed  234 non-null    object 
 2   htot      234 non-null    int64  
 3   calif     234 non-null    object 
 4   p47t      234 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 11.0+ KB


## Ejercicio 5

Calculemos algunas métricas sobre un objeto `DataFrame`

* Promedio de edad

* Máximo de horas trabajadas

* Mediana de ingreso

Todos estos datos los pude ver directamente con `data.describe()` de forma más acotado y completa, pero paso a detallarlo con métodos específicos

In [22]:
print('Promedio de edad:')
round(data['ch06'].mean(), 2)

Promedio de edad:


40.46

In [23]:
print('Máximo de horas trabajadas:')
data['htot'].max()

Máximo de horas trabajadas:


168

In [25]:
print('Mediana de ingresos:')
data['p47t'].median()

Mediana de ingresos:


7000.0