In [7]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [8]:
# Opción para ver todas las columnas del dataset en el notebook
pd.set_option('display.max_columns', 50)

# Práctico 02: Análisis Exploratorio y Curación

Para poder continuar trabajando con nuestros datos, haremos la limpieza de los mismos, verificando cardinalidad, nulos, dispersiones, etc. Si es necesario, realizaremos agrupaciones y transformaciones.

## Objetivo del práctico

### Verificar variable por variable
- Distribución
- Valores nulos
- Cardinalidad y distribución
- Outliers
- Fechas
- Correlaciones
- Otros aspectos...

### Modificar el dataset aplicando transformaciones

Una vez verificadas las variables tenemos que realizar transformaciones para que podamos utilizarlas en el futuro.
- ¿Existen valores nulos? ¿Qué alternativas podrían realizarse?
- ¿Existen outliers? ¿Qué podemos hacer con los outliers?
- Debemos encodear los valores nulos correctamente, no deberíamos tener observaciones con valores como -99.
- No cambiemos el nombre de las variables, pero sí podríamos cambiar los atributos si es necesario.
- ¿Todas las variables son necesarias? ¿Deberíamos eliminar alguna columna?
- ¿Existen variable correlacionadas? ¿Qué podemos hacer con éstas variables?


### Presentación

Al final del práctico, es necesario hacer 1 o 2 slides que irán incluidos en la presentación final.  
Los slides deberán contener las principales transformaciones que realizamos en el dataset.  
Además será necesario realizar el primer video con la explicación de los prácticos 1 y 2.

### Librerías recomendadas

Sólo usaremos la librería "pandas". Recomiendo el siguiente material:  
- https://jakevdp.github.io/PythonDataScienceHandbook/ -> Muy buen libro con explicaciones claras de cómo funciona lo básico de pandas (cap. 3)
- https://pandas.pydata.org/docs/index.html -> Referencia de pandas, para buscar funciones, ejemplos, etc.

## Práctico 02: Análisis Exploratorio y Curación - Resolución

### Leer el dataset

In [21]:
# Leemos el dataset con la función de pandas "read_csv"
df = pd.read_csv("data/bank-additional-full.csv", sep=";")

In [10]:
df

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,149,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,151,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,307,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
41183,73,retired,married,professional.course,no,yes,no,cellular,nov,fri,334,1,999,0,nonexistent,-1.1,94.767,-50.8,1.028,4963.6,yes
41184,46,blue-collar,married,professional.course,no,no,no,cellular,nov,fri,383,1,999,0,nonexistent,-1.1,94.767,-50.8,1.028,4963.6,no
41185,56,retired,married,university.degree,no,yes,no,cellular,nov,fri,189,2,999,0,nonexistent,-1.1,94.767,-50.8,1.028,4963.6,no
41186,44,technician,married,professional.course,no,no,no,cellular,nov,fri,442,1,999,0,nonexistent,-1.1,94.767,-50.8,1.028,4963.6,yes


### Análisis de las variables

#### Valores nulos

#### Outliers

#### Distribuciones de las variables numéricas

#### Cardinalidad de las variables categóricas

#### Correlación entre variables

In [26]:
# Recomiendo usar el heatmap de seaborn: https://seaborn.pydata.org/examples/many_pairwise_correlations.html

#### Otros análisis

### Tratamiento y modificación de las variables

#### Valores nulos

#### Outliers

#### Distribuciones de las variables numéricas

#### Cardinalidad de las variables categóricas

#### Correlación entre variables

In [None]:
# Vamos a eliminar variables correlacionadas?

#### Otras transformaciones

In [None]:
# Verificar los tipos por ejemplo (str, int). Es necesario cambiar algún tipo?

#### Codificación del target

In [13]:
# Nuestro target o variable dependiente tiene valores "yes" y "no".
df.y.value_counts()

no     36548
yes     4640
Name: y, dtype: int64

In [None]:
# Para poder ser utilizado en el futuro debemos codificar esta columna en valores numéricos (1 y 0 por ejemplo)
# Utilizar la función de pandas "replace"

### Guardar el dataset final

In [25]:
# Deberemos guardar el dataset final para ser utilizado en los próximos prácticos
# Utilizar la función de pandas "to_csv"