# LAB: Introducción a Pandas 1

## 1. Introducción

Usaremos en este caso una versión muy resumida de datos de la Encuesta Permanentes de Hogares (relevamiento llevado adelante por el INDEC). Se trata de una encuesta continua que tiene como objetivo fundamental generar información sobre el funcionamiento del mercado de trabajo.

Solamente utilizaremos algunas variables (edad, nivel educativo, cantidad de horas trabajadas, calificación de la tarea e ingreso laboral) y algunos casos (los ocupados, es decir, aquellos que han trabajado al menos una hora en la semana anterior al relevamiento).

#### Para resolver el LAB: 
    Investigar los métodos value_counts() y sort_values() de la clase DataFrame

### 1.1 Importamos los paquetes a usar

In [21]:
import pandas as pd

### 1.2 Importamos los datos a usar

In [22]:
df = pd.read_csv("data_filt.csv"
           , encoding = 'latin1')

## 2. Explorando el dataset

### 2.1. ¿Cuántas filas y cuántas columnas tiene el dataset?

In [24]:
df.index

RangeIndex(start=0, stop=23448, step=1)

In [25]:
df.columns

Index(['ch06', 'nivel_ed', 'htot', 'calif', 'p47t'], dtype='object')

In [26]:
len(df)

23448

In [27]:
df.shape

(23448, 5)

In [30]:
df

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
3,52,1_H/Sec inc,90,2_Op./No calif.,11000.0
4,45,1_H/Sec inc,44,2_Op./No calif.,9500.0
5,38,2_Sec. comp y más,72,1_Prof./Tecn.,6000.0
6,40,2_Sec. comp y más,44,2_Op./No calif.,9000.0
7,53,1_H/Sec inc,72,2_Op./No calif.,4260.0
8,24,1_H/Sec inc,55,2_Op./No calif.,3800.0
9,44,2_Sec. comp y más,60,2_Op./No calif.,10517.0


### 2.2 ¿Qué información tiene el dataset? Imprimir el nombre de las columnas

In [28]:
df.columns

Index(['ch06', 'nivel_ed', 'htot', 'calif', 'p47t'], dtype='object')

Los nombres de columna no son muy descriptivos de la información que contienen las mismas. Probemos cambiarlos por la siguiente lista: 

['edad', 'nivel_educativo', 'hs_trabajadas', 'calif_ocupacional', 'ingreso_ult_mes']

### 2.3 ¿Cómo está indexado el dataset?

In [90]:
df.index

RangeIndex(start=0, stop=23448, step=1)

### 2.4 ¿Cuál es el tipo de la cuarta columna?

In [36]:
print (df.dtypes)

ch06          int64
nivel_ed     object
htot          int64
calif        object
p47t        float64
dtype: object


In [38]:
df['calif'].dtype

dtype('O')

### 2.4 ¿Cuál es el nivel educativo más común?

In [39]:
df.mode()['nivel_ed']

0    2_Sec. comp y más
Name: nivel_ed, dtype: object

### 2.5 ¿Y cómo se distribuye la población según calificación? 

In [None]:
value counts

### 2.6 ¿Cuál es el ingreso total de la población? 

In [40]:
df.sum()['p47t']

190114176.0

### 2.4 ¿Cuál es el ingreso medio de la población? 

In [91]:
df.mean()['p47t']

8107.905834186285

###3. Indexando y ordenando los datos

### 3.1 Seleccionar la columna `nivel_educativo` e `ingreso_ult_mes` y asignarlas a un objeto nuevo llamado `df2`

In [46]:
ned = pd.Series(df['nivel_ed'])

In [47]:
ingreso = pd.Series(df['p47t'])

In [48]:
df2 = pd.DataFrame({'nivel': ned,
                       'ingreso': ingreso})
df2

Unnamed: 0,nivel,ingreso
0,1_H/Sec inc,6000.0
1,2_Sec. comp y más,5000.0
2,2_Sec. comp y más,5000.0
3,1_H/Sec inc,11000.0
4,1_H/Sec inc,9500.0
5,2_Sec. comp y más,6000.0
6,2_Sec. comp y más,9000.0
7,1_H/Sec inc,4260.0
8,1_H/Sec inc,3800.0
9,2_Sec. comp y más,10517.0


### 3.2 Seleccionar de df2 las primeras 20 filas

In [49]:
df2.head(20)

Unnamed: 0,nivel,ingreso
0,1_H/Sec inc,6000.0
1,2_Sec. comp y más,5000.0
2,2_Sec. comp y más,5000.0
3,1_H/Sec inc,11000.0
4,1_H/Sec inc,9500.0
5,2_Sec. comp y más,6000.0
6,2_Sec. comp y más,9000.0
7,1_H/Sec inc,4260.0
8,1_H/Sec inc,3800.0
9,2_Sec. comp y más,10517.0


### 3.2 Seleccionar de df una muestra aleatoria de 500 filas

In [None]:
df.sample(500)

### 3.4 Elegir todas las columnas, con excepción de nivel_educativo. Tip: Utilizar la propiedad columns para filtrar en la dimensión de las columnas.

In [86]:
df.loc[:, df.columns != 'nivel_ed']

Unnamed: 0,ch06,htot,calif,p47t
0,46,45,2_Op./No calif.,6000.0
1,26,25,2_Op./No calif.,5000.0
2,47,25,2_Op./No calif.,5000.0
3,52,90,2_Op./No calif.,11000.0
4,45,44,2_Op./No calif.,9500.0
5,38,72,1_Prof./Tecn.,6000.0
6,40,44,2_Op./No calif.,9000.0
7,53,72,2_Op./No calif.,4260.0
8,24,55,2_Op./No calif.,3800.0
9,44,60,2_Op./No calif.,10517.0


### 3.5 Ordenar el dataset según la edad

In [56]:
df.sort_values(by=['ch06'])

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
15308,12,1_H/Sec inc,7,2_Op./No calif.,250.0
19856,12,1_H/Sec inc,15,2_Op./No calif.,1200.0
20050,12,1_H/Sec inc,20,2_Op./No calif.,1600.0
5698,12,1_H/Sec inc,5,2_Op./No calif.,250.0
14556,13,1_H/Sec inc,14,2_Op./No calif.,800.0
15198,13,1_H/Sec inc,6,2_Op./No calif.,800.0
16659,13,1_H/Sec inc,60,2_Op./No calif.,3000.0
3776,14,1_H/Sec inc,20,2_Op./No calif.,1000.0
6027,14,1_H/Sec inc,6,2_Op./No calif.,2316.0
6462,14,1_H/Sec inc,3,2_Op./No calif.,250.0


### 3.6 ¿Cuál es el promedio de horas trabajadas de los jóvenes entre 14 y 25 años y poco calificados?

In [89]:


def Promedio(lista):
    return [p.mode()['htot'] for p in lista if p['ch06'] >= 14 and  p['ch06'] <= 25]

Promedio(df)

TypeError: string indices must be integers

In [None]:
la variable [y las condiciones con &] y con la mean

### 3.7 Generar un dataframe nuevo con los trabajadores que ganan más del promedio de ingresos general y están por debajo de la cantidad media de horas trabajadas. ¿Cuántos trabajadores se encuentran en esta condición? ¿Cuál es su edad mediana?