# **Ciencia de Datos e Inteligencia Artificial para la industria del software**

## **Edición 2023**

---
## 1.1.1. Análisis Exploratorio de Datos

* Bibliotecas: Pandas

---
# ***Pandas***
---


## Dataset

En la práctica de la clase de hoy usaremos una versión muy resumida de datos de la Encuesta Permanentes de Hogares (relevamiento llevado adelante por el INDEC). Se trata de una encuesta continua que tiene como objetivo fundamental generar información sobre el funcionamiento del mercado de trabajo.

Solamente utilizaremos algunas variables (edad, nivel educativo, cantidad de horas trabajadas, calificación de la tarea e ingreso laboral) y algunos casos (los ocupados, es decir, aquellos que han trabajado al menos una hora en la semana anterior al relevamiento).


Importamos la biblioteca pandas y asignamos pd como alias.
Montamos nuestra unidad de Drive:

In [None]:
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')
pathCurso = '/content/drive/MyDrive/CCDAA/Data/'


Mounted at /content/drive


## Ejercicio 1

Vamos a leer los datos del archivo` data_filt.csv` en un `DataFrame` de pandas con el método `read_csv`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html


Este archivo tiene algunos datos numéricos y otros de tipo cadena de caracteres.

Las columnas son:

"ch06","nivel_ed","htot","calif","p47t"

* ch06: int, edad

* nivel_ed: string, nivel educativo

* htot: int, cantidad de horas totales trabajadas en el período

* calif: string, calificación de la tarea

* p47t: int, ingreso



In [None]:
ruta_archivo = pathCurso + 'data_filt.csv'
data = pd.read_csv(ruta_archivo)

UnicodeDecodeError: ignored

Como vemos, este archivo no está en codificación UTF-8 por defecto, utilizaremos codificación `latin-1`

In [None]:
data = pd.read_csv(ruta_archivo, encoding='latin-1')
data

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
3,52,1_H/Sec inc,90,2_Op./No calif.,11000.0
4,45,1_H/Sec inc,44,2_Op./No calif.,9500.0
...,...,...,...,...,...
23443,45,2_Sec. comp y más,50,2_Op./No calif.,4000.0
23444,58,1_H/Sec inc,30,2_Op./No calif.,5000.0
23445,36,2_Sec. comp y más,40,2_Op./No calif.,13000.0
23446,49,1_H/Sec inc,40,2_Op./No calif.,4000.0


## Ejercicio 2

Miremos ahora los primeros tres registros del `DataFrame` data, y los ultimos cinco registros.

¿Cuántas filas tiene data? ¿Y cuántas columnas?

Ayudas:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html?highlight=head#pandas.DataFrame.head

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html?highlight=tail#pandas.DataFrame.tail

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html?highlight=shape#pandas.DataFrame.shape

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html?highlight=info


In [None]:
data.head(3)

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0


In [None]:
data.tail(5)

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
23443,45,2_Sec. comp y más,50,2_Op./No calif.,4000.0
23444,58,1_H/Sec inc,30,2_Op./No calif.,5000.0
23445,36,2_Sec. comp y más,40,2_Op./No calif.,13000.0
23446,49,1_H/Sec inc,40,2_Op./No calif.,4000.0
23447,36,1_H/Sec inc,54,2_Op./No calif.,8000.0


In [None]:
data.shape

(23448, 5)

In [None]:
print("filas: " + str(data.shape[0]))
print("columnas: " + str(data.shape[1]))

filas: 23448
columnas: 5


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23448 entries, 0 to 23447
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   ch06      23448 non-null  int64  
 1   nivel_ed  23448 non-null  object 
 2   htot      23448 non-null  int64  
 3   calif     23448 non-null  object 
 4   p47t      23448 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 916.1+ KB


## Ejercicio 3

¿Cuáles son los nombres de las columnas del `DataFrame` data?

¿Cuál es el índice del `DataFrame` data?

Ayudas:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html?highlight=columns#pandas.DataFrame.columns

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.index.html?highlight=index#pandas.DataFrame.index


In [None]:
data.columns

Index(['ch06', 'nivel_ed', 'htot', 'calif', 'p47t'], dtype='object')

In [None]:
data.index

RangeIndex(start=0, stop=23448, step=1)

Renombremos ahora los columnas para que queden con estos valores:

['edad', 'nivel_educativo', 'hs_trabajados', 'calif_ocupacional', 'ingreso_ult_mes']

In [None]:
data.columns = ['edad', 'nivel_educativo', 'hs_trabajados', 'calif_ocupacional', 'ingreso_ult_mes']

In [None]:
data.columns

Index(['edad', 'nivel_educativo', 'hs_trabajados', 'calif_ocupacional',
       'ingreso_ult_mes'],
      dtype='object')

## Ejercicio 4

¿Cuál es el tipo de datos de la cuarta columna de data?

In [None]:
cuarta_columna = data.iloc[:,3]
cuarta_columna.dtype

dtype('O')

o en una sóla linea:

In [None]:
data.iloc[:,3].dtype

dtype('O')

## Ejercicio 5

¿Cómo están distribuidos los niveles educativos? ¿Cuál es el más común?

Ayuda:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html?highlight=value_counts#pandas.Series.value_counts


In [None]:
serie_nivel_educativo = data["nivel_educativo"]
serie_nivel_educativo.value_counts()

2_Sec. comp y más    14634
1_H/Sec inc           8814
Name: nivel_educativo, dtype: int64

En la documentación vemos que

"The resulting object will be in descending order so that the first element is the most frequently-occurring element. Excludes NA values by default."

Entonces, el valor más frecuente es el primer elemento de la serie resultado del método `value_counts`, y el menos frecuente es el último.

In [None]:
serie_counts = serie_nivel_educativo.value_counts()
serie_counts.iloc[0]

14634

## Ejercicio 6

¿Cuál es el ingreso medio de la población?

In [None]:
serie_ingreso = data['ingreso_ult_mes']
serie_ingreso.mean()

8107.905834186285

## Ejercicio 7

Construyamos un objeto `DataFrame` con las columnas nivel_educativo e ingreso_ult_mes de data

Seleccionemos las primeras 20 filas de este objeto `DataFrame`

Seleccionemos una muestra aleatoria de 500 filas de este objeto `DataFrame`

Ayuda:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html?highlight=sample#pandas.DataFrame.sample

In [None]:
col_names_list = ['nivel_educativo', 'ingreso_ult_mes']
data_2 = data[col_names_list]
data_2.head(7)

Unnamed: 0,nivel_educativo,ingreso_ult_mes
0,1_H/Sec inc,6000.0
1,2_Sec. comp y más,5000.0
2,2_Sec. comp y más,5000.0
3,1_H/Sec inc,11000.0
4,1_H/Sec inc,9500.0
5,2_Sec. comp y más,6000.0
6,2_Sec. comp y más,9000.0


**Primeras 20 filas**

Observemos que el valor del índice en las filas que devuelve está entre 0 y 19:

In [None]:
data_2[0:20]

Unnamed: 0,nivel_educativo,ingreso_ult_mes
0,1_H/Sec inc,6000.0
1,2_Sec. comp y más,5000.0
2,2_Sec. comp y más,5000.0
3,1_H/Sec inc,11000.0
4,1_H/Sec inc,9500.0
5,2_Sec. comp y más,6000.0
6,2_Sec. comp y más,9000.0
7,1_H/Sec inc,4260.0
8,1_H/Sec inc,3800.0
9,2_Sec. comp y más,10517.0


**Muestra aleatoria**

In [None]:
sample_data = data_2.sample(500)
print(sample_data.shape)
print(sample_data.head(5))

(500, 2)
         nivel_educativo  ingreso_ult_mes
9160   2_Sec. comp y más           1900.0
21135  2_Sec. comp y más           6000.0
22514        1_H/Sec inc           1600.0
2295   2_Sec. comp y más           9000.0
20230        1_H/Sec inc           5860.0


## Ejercicio 8

Construyamos un objeto `DataFrame` con todas las columnas de data excluyendo nivel_educativo.

Ayuda:

Construir una máscara booleana de los nombres de las columnas.


In [None]:
mask_columns = data.columns != 'nivel_educativo'
mask_columns

array([ True, False,  True,  True,  True])

Vemos que la segunda columna es 'nivel_educativo' porque es la única con valor False en la mácara que construimos

Ahora usamos esa máscara para seleccionar las comumnas que queremos

In [None]:
data_sin_nivel_educativo = data.loc[:, mask_columns]
data_sin_nivel_educativo.head(3)

Unnamed: 0,edad,hs_trabajados,calif_ocupacional,ingreso_ult_mes
0,46,45,2_Op./No calif.,6000.0
1,26,25,2_Op./No calif.,5000.0
2,47,25,2_Op./No calif.,5000.0


## Ejercicio 9

Ordenar data según la columna edad en forma decreciente.

Ayuda:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html?highlight=sort_values#pandas.DataFrame.sort_values


In [None]:
data_sort = data.sort_values(by=['edad'], axis=0, ascending=False)
data_sort.head(10)

Unnamed: 0,edad,nivel_educativo,hs_trabajados,calif_ocupacional,ingreso_ult_mes
22574,93,1_H/Sec inc,20,2_Op./No calif.,8000.0
16461,85,2_Sec. comp y más,40,1_Prof./Tecn.,20700.0
16954,85,2_Sec. comp y más,36,2_Op./No calif.,8250.0
23317,84,1_H/Sec inc,25,2_Op./No calif.,9900.0
4340,84,1_H/Sec inc,36,2_Op./No calif.,7500.0
766,84,2_Sec. comp y más,30,1_Prof./Tecn.,7800.0
10087,84,1_H/Sec inc,48,1_Prof./Tecn.,8000.0
20745,83,2_Sec. comp y más,40,1_Prof./Tecn.,8000.0
18209,83,1_H/Sec inc,56,2_Op./No calif.,26700.0
5343,82,2_Sec. comp y más,33,1_Prof./Tecn.,12300.0


## Ejercicio 10

¿Cuál es el promedio de horas trabajadas de los jóvenes entre 14 y 25 años y poco calificados?

Ayuda:
    
Combina varias máscaras booleanas

In [None]:
serie_edad = data['edad']
mask_edad = (serie_edad >= 14) & (serie_edad <= 25)

serie_calificacion = data['calif_ocupacional']
mask_poco_calificado = (serie_calificacion == '2_Op./No calif.')

mask_edad_poco_calificado = mask_edad & mask_poco_calificado

hs_trabajadas_condiciones = data.loc[mask_edad_poco_calificado, "hs_trabajados"]

resultado = hs_trabajadas_condiciones.mean()

resultado

37.57085900688655

También podemos escribir ésto en una sóla linea:

In [None]:
data['hs_trabajados'][(data['edad'] >= 14) & (data['edad'] <= 25) & (data['calif_ocupacional'] == '2_Op./No calif.')].mean()

37.57085900688655

## Ejercicio 11

Generemos un nuevo dataframe con los trabajadores que ganan más del promedio de ingresos general y están por debajo de la cantidad media de horas trabajadas. ¿Cuántos trabajadores se encuentran en esta condición? ¿Cuál es su edad mediana?

Ayuda:

Calcular el promedio de ingresos y la media de horas trabajadas

Construir máscaras booleanas con estos valores

Indexar data con la combinación de las máscaras construidas


In [None]:
promedio_ingresos = data['ingreso_ult_mes'].mean()
promedio_horas = data['hs_trabajados'].mean()

serie_ingresos = data['ingreso_ult_mes']
mask_ingresos = serie_ingresos > promedio_ingresos

serie_horas = data['hs_trabajados']
mask_horas = serie_horas < promedio_horas

mask_ingresos_horas = mask_ingresos & mask_horas

data_ej11 = data.loc[mask_ingresos_horas, :]
data_ej11.head(3)

Unnamed: 0,edad,nivel_educativo,hs_trabajados,calif_ocupacional,ingreso_ult_mes
10,72,1_H/Sec inc,15,1_Prof./Tecn.,8300.0
12,43,2_Sec. comp y más,15,1_Prof./Tecn.,11000.0
47,33,2_Sec. comp y más,39,1_Prof./Tecn.,9500.0


In [None]:
data_ej11.shape

(2132, 5)

In [None]:
data_ej11.edad.median()

44.0

También podemos construir el dataframe en una única linea:

In [None]:
data_ej11 = data.loc[(data['ingreso_ult_mes'] > data.ingreso_ult_mes.mean()) & (data['hs_trabajados'] < data.hs_trabajados.mean())]
data_ej11.head(3)

Unnamed: 0,edad,nivel_educativo,hs_trabajados,calif_ocupacional,ingreso_ult_mes
10,72,1_H/Sec inc,15,1_Prof./Tecn.,8300.0
12,43,2_Sec. comp y más,15,1_Prof./Tecn.,11000.0
47,33,2_Sec. comp y más,39,1_Prof./Tecn.,9500.0


In [None]:
data_ej11.shape

(2132, 5)

In [None]:
data_ej11.edad.median()

44.0