# LAB: Introducción a Pandas 1

## 1. Introducción

Usaremos en este caso una versión muy resumida de datos de la [Encuesta Permanentes de Hogares (relevamiento llevado adelante por el INDEC)](http://www.indec.gov.ar/bases-de-datos.asp). Se trata de una encuesta continua que tiene como objetivo fundamental generar información sobre el funcionamiento del mercado de trabajo.

Solamente utilizaremos algunas variables (edad, nivel educativo, cantidad de horas trabajadas, calificación de la tarea e ingreso laboral) y algunos casos (los ocupados, es decir, aquellos que han trabajado al menos una hora en la semana anterior al relevamiento).

### 1.1 Importamos los paquetes a usar

In [4]:
import pandas as pd

### 1.2 Importamos los datos a usar

In [5]:
df = pd.read_csv("data_filt.csv", encoding = 'latin1')

## 2. Explorando el dataset

### 2.1. ¿Cuántas filas y cuántas columnas tiene el dataset?

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23448 entries, 0 to 23447
Data columns (total 5 columns):
ch06        23448 non-null int64
nivel_ed    23448 non-null object
htot        23448 non-null int64
calif       23448 non-null object
p47t        23448 non-null float64
dtypes: float64(1), int64(2), object(2)
memory usage: 916.0+ KB


### 2.2 ¿Qué información tiene el dataset? Imprimir el nombre de las columnas

In [7]:
df.columns

Index(['ch06', 'nivel_ed', 'htot', 'calif', 'p47t'], dtype='object')

Los nombres de columna no son muy descriptivos de la información que contienen las mismas. Probemos cambiarlos por la siguiente lista: 

['edad', 'nivel_educativo', 'hs_trabajados', 'calif_ocupacional', 'ingreso_ult_mes']

In [8]:
df.columns = ['edad', 'nivel_educativo', 'hs_trabajadas', 'calif_ocupacional', 'ingreso_ult_mes']

### 2.3 ¿Cómo está indexado el dataset?

In [9]:
df.index

RangeIndex(start=0, stop=23448, step=1)

### 2.4 ¿Cuál es el tipo de la cuarta columna?

In [10]:
df.iloc[:,3].dtype

dtype('O')

### 2.4 ¿Cuál es el nivel educativo más común?

In [11]:
df["nivel_educativo"].value_counts().head(1)

2_Sec. comp y más    14634
Name: nivel_educativo, dtype: int64

### 2.5 ¿Y cómo se distribuye la población según calificación? 

In [12]:
df["calif_ocupacional"].value_counts()

2_Op./No calif.    17372
1_Prof./Tecn.       6076
Name: calif_ocupacional, dtype: int64

### 2.6 ¿Cuál es el ingreso total de la población? 

In [13]:
df['ingreso_ult_mes'].sum()

190114176.0

### 2.4 ¿Cuál es el ingreso medio de la población? 

In [14]:
df['ingreso_ult_mes'].mean()

8107.905834186285

## 3. Indexando y ordenando los datos

### 3.1 Seleccionar la columna `nivel_educativo` e `ingreso_ult_mes` y asignarlas a un objeto nuevo llamado `df2`

In [15]:
df2 = df[['nivel_educativo','ingreso_ult_mes']]

### 3.2 Seleccionar de df2 las primeras 20 filas

In [16]:
df2[0:20]

Unnamed: 0,nivel_educativo,ingreso_ult_mes
0,1_H/Sec inc,6000.0
1,2_Sec. comp y más,5000.0
2,2_Sec. comp y más,5000.0
3,1_H/Sec inc,11000.0
4,1_H/Sec inc,9500.0
5,2_Sec. comp y más,6000.0
6,2_Sec. comp y más,9000.0
7,1_H/Sec inc,4260.0
8,1_H/Sec inc,3800.0
9,2_Sec. comp y más,10517.0


### 3.2 Seleccionar de df una muestra aleatoria de 500 filas

In [17]:
df.sample(500)

Unnamed: 0,edad,nivel_educativo,hs_trabajadas,calif_ocupacional,ingreso_ult_mes
6449,59,2_Sec. comp y más,37,1_Prof./Tecn.,30000.0
1782,48,1_H/Sec inc,25,2_Op./No calif.,6000.0
9715,65,1_H/Sec inc,44,2_Op./No calif.,10000.0
11444,53,1_H/Sec inc,35,2_Op./No calif.,1800.0
21425,52,1_H/Sec inc,55,2_Op./No calif.,9500.0
16216,26,1_H/Sec inc,35,2_Op./No calif.,7000.0
15021,37,2_Sec. comp y más,30,2_Op./No calif.,7000.0
21272,33,2_Sec. comp y más,40,1_Prof./Tecn.,9800.0
3694,52,1_H/Sec inc,54,2_Op./No calif.,10000.0
10513,23,1_H/Sec inc,40,2_Op./No calif.,8000.0


### 3.4 Elegir todas las columnas, con excepción de nivel_educativo. Tip: Utilizar la propiedad columns para filtrar en la dimensión de las columnas.

In [18]:
df.columns != 'nivel_educativo'

array([ True, False,  True,  True,  True])

In [19]:
df.loc[:,df.columns != 'nivel_educativo']

Unnamed: 0,edad,hs_trabajadas,calif_ocupacional,ingreso_ult_mes
0,46,45,2_Op./No calif.,6000.0
1,26,25,2_Op./No calif.,5000.0
2,47,25,2_Op./No calif.,5000.0
3,52,90,2_Op./No calif.,11000.0
4,45,44,2_Op./No calif.,9500.0
5,38,72,1_Prof./Tecn.,6000.0
6,40,44,2_Op./No calif.,9000.0
7,53,72,2_Op./No calif.,4260.0
8,24,55,2_Op./No calif.,3800.0
9,44,60,2_Op./No calif.,10517.0


### 3.5 Ordenar el dataset según la edad

In [20]:
df.sort_values(['edad'], ascending = True)

Unnamed: 0,edad,nivel_educativo,hs_trabajadas,calif_ocupacional,ingreso_ult_mes
15308,12,1_H/Sec inc,7,2_Op./No calif.,250.0
19856,12,1_H/Sec inc,15,2_Op./No calif.,1200.0
20050,12,1_H/Sec inc,20,2_Op./No calif.,1600.0
5698,12,1_H/Sec inc,5,2_Op./No calif.,250.0
14556,13,1_H/Sec inc,14,2_Op./No calif.,800.0
15198,13,1_H/Sec inc,6,2_Op./No calif.,800.0
16659,13,1_H/Sec inc,60,2_Op./No calif.,3000.0
3776,14,1_H/Sec inc,20,2_Op./No calif.,1000.0
6027,14,1_H/Sec inc,6,2_Op./No calif.,2316.0
6462,14,1_H/Sec inc,3,2_Op./No calif.,250.0


### 3.6 ¿Cuál es el promedio de horas trabajadas de los jóvenes entre 14 y 25 años y poco calificados?

In [21]:
df['hs_trabajadas'][(df['edad'] >= 14) & (df['edad'] <= 25) & (df['calif_ocupacional'] == '2_Op./No calif.')].mean()

37.57085900688655

### 3.7 Generar un dataframe nuevo con los trabajadores que ganan más del promedio de ingresos general y están por debajo de la cantidad media de horas trabajadas. ¿Cuántos trabajadores se encuentran en esta condición? ¿Cuál es su edad mediana?

In [22]:
df3 = df.loc[(df['ingreso_ult_mes'] > df.ingreso_ult_mes.mean()) & (df['hs_trabajadas'] < df.hs_trabajadas.mean())]

In [23]:
df3.shape

(2132, 5)

In [24]:
df3.edad.median()

44.0