---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


## Dataset

En la práctica de la clase de hoy usaremos una versión muy resumida de datos de la Encuesta Permanentes de Hogares (relevamiento llevado adelante por el INDEC). Se trata de una encuesta continua que tiene como objetivo fundamental generar información sobre el funcionamiento del mercado de trabajo.

Solamente utilizaremos algunas variables (edad, nivel educativo, cantidad de horas trabajadas, calificación de la tarea e ingreso laboral) y algunos casos (los ocupados, es decir, aquellos que han trabajado al menos una hora en la semana anterior al relevamiento).


Importamos la biblioteca pandas y asignamos pd como alias:

In [1]:
import pandas as pd

## Ejercicio 1

Vamos a leer los datos del archivo /M1/CLASE_04/Data/data_filt.csv en un `DataFrame` de pandas con el método `read_csv`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html


Este archivo tiene algunos datos numéricos y otros de tipo cadena de caracteres. 

Las columnas son:

"ch06","nivel_ed","htot","calif","p47t"

* ch06: int, edad

* nivel_ed: string, nivel educativo

* htot: int, cantidad de horas totales trabajadas en el período

* calif: string, calificación de la tarea

* p47t: int, ingreso



In [2]:
# local:
data_location = "data_filt.csv"
#abrimos el archivo
data = pd.read_csv(data_location, sep=",", encoding="latin1")

## Ejercicio 2

Miremos ahora los primeros tres registros del `DataFrame` data, y los ultimos cinco registros.

¿Cuántas filas tiene data? ¿Y cuántas columnas?

Ayudas:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html?highlight=head#pandas.DataFrame.head

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html?highlight=tail#pandas.DataFrame.tail

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html?highlight=shape#pandas.DataFrame.shape

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html?highlight=info


In [3]:
#miramos los primeros tres registros
display(data.head(3))
#miramos los ultimos cinco registros
display(data.tail(5))

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0


Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
23443,45,2_Sec. comp y más,50,2_Op./No calif.,4000.0
23444,58,1_H/Sec inc,30,2_Op./No calif.,5000.0
23445,36,2_Sec. comp y más,40,2_Op./No calif.,13000.0
23446,49,1_H/Sec inc,40,2_Op./No calif.,4000.0
23447,36,1_H/Sec inc,54,2_Op./No calif.,8000.0


## Ejercicio 3

¿Cuáles son los nombres de las columnas del `DataFrame` data?

¿Cuál es el índice del `DataFrame` data?

Ayudas:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html?highlight=columns#pandas.DataFrame.columns

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.index.html?highlight=index#pandas.DataFrame.index


In [4]:
data.head(0)

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t


In [5]:
#miramos el indice
data.index

RangeIndex(start=0, stop=23448, step=1)

Renombremos ahora los columnas para que queden con estos valores:

['edad', 'nivel_educativo', 'hs_trabajados', 'calif_ocupacional', 'ingreso_ult_mes']

In [6]:
#hacemos el rename
data = data.rename(columns={'ch06':'edad','nivel_ed': 'nivel_educativo', 'htot': 'hs_trabajados', 'calif':'calif_ocupacional', 'p47t': 'ingreso_ult_mes'})

#checamos que todo este OK
data.head(0)

Unnamed: 0,edad,nivel_educativo,hs_trabajados,calif_ocupacional,ingreso_ult_mes


## Ejercicio 4 

¿Cuál es el tipo de datos de la cuarta columna de data?

In [7]:
#consultamos que tipo de dato es la columna calif_ocupacional, es un object
data.calif_ocupacional.dtypes

dtype('O')

## Ejercicio 5 

¿Cómo están distribuidos los niveles educativos? ¿Cuál es el más común?

Ayuda:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html?highlight=value_counts#pandas.Series.value_counts


In [8]:
#niveles educativos
nivel_educativo_mas_comun = data.nivel_educativo.value_counts(normalize=True)
nivel_educativo_mas_comun

2_Sec. comp y más    0.624104
1_H/Sec inc          0.375896
Name: nivel_educativo, dtype: float64

## Ejercicio 6

¿Cuál es el ingreso medio de la población? 

In [9]:
#ingreso medio
ingreso_medio_poblacion = data.ingreso_ult_mes.mean()
#print
ingreso_medio_poblacion

8107.905834186285

## Ejercicio 7

Construyamos un objeto `DataFrame` con las columnas nivel_educativo e 'calif_ocupacional' de data

Seleccionemos las primeras 20 filas de este objeto `DataFrame`

Seleccionemos una muestra aleatoria de 500 filas de este objeto `DataFrame`

Ayuda:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html?highlight=sample#pandas.DataFrame.sample

In [10]:
#armamos un nuevo data frame sin nivel_educativo
data2 = data[['nivel_educativo','calif_ocupacional']]
#print
display(data2)

Unnamed: 0,nivel_educativo,calif_ocupacional
0,1_H/Sec inc,2_Op./No calif.
1,2_Sec. comp y más,2_Op./No calif.
2,2_Sec. comp y más,2_Op./No calif.
3,1_H/Sec inc,2_Op./No calif.
4,1_H/Sec inc,2_Op./No calif.
...,...,...
23443,2_Sec. comp y más,2_Op./No calif.
23444,1_H/Sec inc,2_Op./No calif.
23445,2_Sec. comp y más,2_Op./No calif.
23446,1_H/Sec inc,2_Op./No calif.


In [11]:
data2.head(20)

Unnamed: 0,nivel_educativo,calif_ocupacional
0,1_H/Sec inc,2_Op./No calif.
1,2_Sec. comp y más,2_Op./No calif.
2,2_Sec. comp y más,2_Op./No calif.
3,1_H/Sec inc,2_Op./No calif.
4,1_H/Sec inc,2_Op./No calif.
5,2_Sec. comp y más,1_Prof./Tecn.
6,2_Sec. comp y más,2_Op./No calif.
7,1_H/Sec inc,2_Op./No calif.
8,1_H/Sec inc,2_Op./No calif.
9,2_Sec. comp y más,2_Op./No calif.


In [12]:
data2.sample(500)

Unnamed: 0,nivel_educativo,calif_ocupacional
6548,1_H/Sec inc,2_Op./No calif.
21537,1_H/Sec inc,2_Op./No calif.
20843,2_Sec. comp y más,2_Op./No calif.
3182,2_Sec. comp y más,2_Op./No calif.
19857,1_H/Sec inc,2_Op./No calif.
...,...,...
21103,2_Sec. comp y más,1_Prof./Tecn.
21277,2_Sec. comp y más,2_Op./No calif.
3596,1_H/Sec inc,2_Op./No calif.
2684,2_Sec. comp y más,1_Prof./Tecn.


## Ejercicio 8

Construyamos un objeto `DataFrame` con todas las columnas de data excluyendo nivel_educativo.

Ayuda: 

Construir una máscara booleana de los nombres de las columnas.


In [13]:
#mascara diferente a nivel educativo
columna_mask = data.columns != 'nivel_educativo'
#indexamos
data3 = data[data.columns[columna_mask]]
#print
data3

Unnamed: 0,edad,hs_trabajados,calif_ocupacional,ingreso_ult_mes
0,46,45,2_Op./No calif.,6000.0
1,26,25,2_Op./No calif.,5000.0
2,47,25,2_Op./No calif.,5000.0
3,52,90,2_Op./No calif.,11000.0
4,45,44,2_Op./No calif.,9500.0
...,...,...,...,...
23443,45,50,2_Op./No calif.,4000.0
23444,58,30,2_Op./No calif.,5000.0
23445,36,40,2_Op./No calif.,13000.0
23446,49,40,2_Op./No calif.,4000.0


## Ejercicio 9

Ordenar data según la columna edad en forma decreciente.

Ayuda: 

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html?highlight=sort_values#pandas.DataFrame.sort_values


In [14]:
#Ordenamos la info
data_forma_decreciente = data.sort_values('edad')
data_forma_decreciente

Unnamed: 0,edad,nivel_educativo,hs_trabajados,calif_ocupacional,ingreso_ult_mes
15308,12,1_H/Sec inc,7,2_Op./No calif.,250.0
19856,12,1_H/Sec inc,15,2_Op./No calif.,1200.0
20050,12,1_H/Sec inc,20,2_Op./No calif.,1600.0
5698,12,1_H/Sec inc,5,2_Op./No calif.,250.0
14556,13,1_H/Sec inc,14,2_Op./No calif.,800.0
...,...,...,...,...,...
4340,84,1_H/Sec inc,36,2_Op./No calif.,7500.0
23317,84,1_H/Sec inc,25,2_Op./No calif.,9900.0
16461,85,2_Sec. comp y más,40,1_Prof./Tecn.,20700.0
16954,85,2_Sec. comp y más,36,2_Op./No calif.,8250.0


## Ejercicio 10

¿Cuál es el promedio de horas trabajadas de los jóvenes entre 14 y 25 años y poco calificados?

Ayuda:
    
Combina varias máscaras booleanas

In [15]:
data.head(0)

Unnamed: 0,edad,nivel_educativo,hs_trabajados,calif_ocupacional,ingreso_ult_mes


In [16]:
data.calif_ocupacional.unique()

array(['2_Op./No calif.', '1_Prof./Tecn.'], dtype=object)

In [17]:
#Mascaras

#nivel de calificacion
poco_calificados_mask = data.calif_ocupacional == '2_Op./No calif.'

#Edad min
edad_min_mask = data.edad >= 14

#Edad max
edad_max_mask = data.edad <= 25

#indexing
data_no_calificados = data[edad_max_mask&edad_max_mask&poco_calificados_mask]

#lo que nos piden
data_no_calificados.hs_trabajados.mean()



37.52169197396963

## Ejercicio 11

Generemos un nuevo dataframe con los trabajadores que ganan más del promedio de ingresos general y están por debajo de la cantidad media de horas trabajadas. ¿Cuántos trabajadores se encuentran en esta condición? ¿Cuál es su edad mediana?

Ayuda:

Calcular el promedio de ingresos y la media de horas trabajadas

Construir máscaras booleanas con estos valores

Indexar data con la combinación de las máscaras construidas


In [18]:
#Mascaras

#Mascara sueldo

sueldo_mayor_promedio_mask = data.ingreso_ult_mes > ingreso_medio_poblacion
#Mascara edad

horas_promedio_mask = data.hs_trabajados < data.hs_trabajados.mean()
#indexing

data4 = data[sueldo_mayor_promedio_mask&horas_promedio_mask]

#Print

display(data4.head())

Unnamed: 0,edad,nivel_educativo,hs_trabajados,calif_ocupacional,ingreso_ult_mes
10,72,1_H/Sec inc,15,1_Prof./Tecn.,8300.0
12,43,2_Sec. comp y más,15,1_Prof./Tecn.,11000.0
47,33,2_Sec. comp y más,39,1_Prof./Tecn.,9500.0
48,55,1_H/Sec inc,30,2_Op./No calif.,13000.0
88,46,1_H/Sec inc,36,1_Prof./Tecn.,10000.0


In [19]:
#cantidad de trabajadores
data4.size

10660

In [22]:
ingreso_medio_poblacion

8107.905834186285

In [21]:
#promedio horas
data.hs_trabajados.mean()

39.684535994541115