# LAB: Introducción a Pandas 1

## 1. Introducción

Usaremos en este caso una versión muy resumida de datos de la Encuesta Permanentes de Hogares (relevamiento llevado adelante por el INDEC). Se trata de una encuesta continua que tiene como objetivo fundamental generar información sobre el funcionamiento del mercado de trabajo.

Solamente utilizaremos algunas variables (edad, nivel educativo, cantidad de horas trabajadas, calificación de la tarea e ingreso laboral) y algunos casos (los ocupados, es decir, aquellos que han trabajado al menos una hora en la semana anterior al relevamiento).

#### Para resolver el LAB: 
    Investigar los métodos value_counts() y sort_values() de la clase DataFrame

### 1.1 Importamos los paquetes a usar

In [1]:
import pandas as pd

### 1.2 Importamos los datos a usar

In [2]:
df = pd.read_csv("../Data/data_filt.csv"
           , encoding = 'latin1')

## 2. Explorando el dataset

### 2.1. ¿Cuántas filas y cuántas columnas tiene el dataset?

In [3]:
print("Columns: ",len(df.columns), " Rows: ",df.ch06.count())

Columns:  5  Rows:  23448


### 2.2 ¿Qué información tiene el dataset? Imprimir el nombre de las columnas

In [4]:
df.columns

Index(['ch06', 'nivel_ed', 'htot', 'calif', 'p47t'], dtype='object')

Los nombres de columna no son muy descriptivos de la información que contienen las mismas. Probemos cambiarlos por la siguiente lista: 

['edad', 'nivel_educativo', 'hs_trabajadas', 'calif_ocupacional', 'ingreso_ult_mes']

### 2.3 ¿Cómo está indexado el dataset?

In [5]:
df.index

RangeIndex(start=0, stop=23448, step=1)

### 2.4 ¿Cuál es el tipo de la cuarta columna?

In [6]:
df.dtypes

ch06          int64
nivel_ed     object
htot          int64
calif        object
p47t        float64
dtype: object

### 2.4 ¿Cuál es el nivel educativo más común?

In [7]:
from scipy import stats
df.nivel_ed.notna()
nivel_educativo = df[df.nivel_ed.notna()].nivel_ed
m = stats.mode(nivel_educativo)
m
#nivel_educativo



ModeResult(mode=array(['2_Sec. comp y más'], dtype=object), count=array([14634]))

### 2.5 ¿Y cómo se distribuye la población según calificación? 

In [8]:
df.groupby('calif').count()

Unnamed: 0_level_0,ch06,nivel_ed,htot,p47t
calif,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1_Prof./Tecn.,6076,6076,6076,6076
2_Op./No calif.,17372,17372,17372,17372


### 2.6 ¿Cuál es el ingreso total de la población? 

In [72]:
df.p47t.sum()

190114176.0

### 2.4 ¿Cuál es el ingreso medio de la población? 

In [75]:
df.p47t.mean()

8107.905834186285

## 3. Indexando y ordenando los datos

### 3.1 Seleccionar la columna `nivel_educativo` e `ingreso_ult_mes` y asignarlas a un objeto nuevo llamado `df2`

In [9]:
df2 = df[['nivel_ed','p47t']]
df2

Unnamed: 0,nivel_ed,p47t
0,1_H/Sec inc,6000.0
1,2_Sec. comp y más,5000.0
2,2_Sec. comp y más,5000.0
3,1_H/Sec inc,11000.0
4,1_H/Sec inc,9500.0
5,2_Sec. comp y más,6000.0
6,2_Sec. comp y más,9000.0
7,1_H/Sec inc,4260.0
8,1_H/Sec inc,3800.0
9,2_Sec. comp y más,10517.0


### 3.2 Seleccionar de df2 las primeras 20 filas

In [79]:
df2[:20]

Unnamed: 0,nivel_ed,p47t
0,1_H/Sec inc,6000.0
1,2_Sec. comp y más,5000.0
2,2_Sec. comp y más,5000.0
3,1_H/Sec inc,11000.0
4,1_H/Sec inc,9500.0
5,2_Sec. comp y más,6000.0
6,2_Sec. comp y más,9000.0
7,1_H/Sec inc,4260.0
8,1_H/Sec inc,3800.0
9,2_Sec. comp y más,10517.0


### 3.2 Seleccionar de df una muestra aleatoria de 500 filas

In [12]:
df2.sample(500)

Unnamed: 0,nivel_ed,p47t
9569,2_Sec. comp y más,15000.0
9705,2_Sec. comp y más,5000.0
5714,2_Sec. comp y más,4500.0
10805,2_Sec. comp y más,7000.0
16415,2_Sec. comp y más,20000.0
21489,1_H/Sec inc,5000.0
19594,2_Sec. comp y más,9000.0
23098,1_H/Sec inc,6000.0
21909,2_Sec. comp y más,10000.0
21467,2_Sec. comp y más,500.0


### 3.4 Elegir todas las columnas, con excepción de nivel_educativo. Tip: Utilizar la propiedad columns para filtrar en la dimensión de las columnas.

In [25]:
columns = df.columns
without_nivel_ed = columns.drop('nivel_ed')
df[without_nivel_ed]

Unnamed: 0,ch06,htot,calif,p47t
0,46,45,2_Op./No calif.,6000.0
1,26,25,2_Op./No calif.,5000.0
2,47,25,2_Op./No calif.,5000.0
3,52,90,2_Op./No calif.,11000.0
4,45,44,2_Op./No calif.,9500.0
5,38,72,1_Prof./Tecn.,6000.0
6,40,44,2_Op./No calif.,9000.0
7,53,72,2_Op./No calif.,4260.0
8,24,55,2_Op./No calif.,3800.0
9,44,60,2_Op./No calif.,10517.0


### 3.5 Ordenar el dataset según la edad

In [29]:
df.sort_values(['ch06'],ascending=[1])

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
15308,12,1_H/Sec inc,7,2_Op./No calif.,250.0
19856,12,1_H/Sec inc,15,2_Op./No calif.,1200.0
20050,12,1_H/Sec inc,20,2_Op./No calif.,1600.0
5698,12,1_H/Sec inc,5,2_Op./No calif.,250.0
14556,13,1_H/Sec inc,14,2_Op./No calif.,800.0
15198,13,1_H/Sec inc,6,2_Op./No calif.,800.0
16659,13,1_H/Sec inc,60,2_Op./No calif.,3000.0
3776,14,1_H/Sec inc,20,2_Op./No calif.,1000.0
6027,14,1_H/Sec inc,6,2_Op./No calif.,2316.0
6462,14,1_H/Sec inc,3,2_Op./No calif.,250.0


### 3.6 ¿Cuál es el promedio de horas trabajadas de los jóvenes entre 14 y 25 años y poco calificados?

### 3.7 Generar un dataframe nuevo con los trabajadores que ganan más del promedio de ingresos general y están por debajo de la cantidad media de horas trabajadas. ¿Cuántos trabajadores se encuentran en esta condición? ¿Cuál es su edad mediana?