# Programación para *Data Science*

## Unidad 6: Preprocesamiento de datos en Python
Ejercicios para practicar


# Introducción

En este Notebook encontraréisun primer conjunto de **ejercicios para practicar**, éstos no puntúan para la PEC, pero os recomendamos que los intentéis resolver como parte del proceso de aprendizaje. Encontraréis ejemplos de posibles soluciones a los ejercicios al propio notebook, pero es importante que intentéis resolverlos vosotros antes de consultar las soluciones. Las soluciones os permitirán validar vuestras respuestas, así como ver alternativas de resolución de las actividades. También os animamos a preguntar cualquier duda que surja sobre la resolución de los **ejercicios para practicar** en el foro del aula.



## Ejercicios para practicar

**Los siguientes 3 ejercicios no puntúan para la PEC**, pero os recomendamos que los intentéis resolver antes de pasar a los ejercicios propios de la PEC. También encontraréis las soluciones a estos ejercicios al final del Notebook.

## Ejercicio 1

Cargue los datos del fichero `bank_edited.csv` en un dataframe. Este conjunto de datos recoge información respecto a una campaña de marketing de un banco portugués. El conjunto original se puede encontrar en el [repositorio de datos de Machine Learning de la UC Irvine] (http://archive.ics.uci.edu/ml/datasets/Bank+Marketing), pero el conjunto que utilizaremos tiene alguna modificación .

Observación: revise la documentación de la función [ `read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) para ver qué parámetro disponemos para ajustar el proceso de cargar de datos.

Los valores del estado civil (atributo `marital`) contienen errores tipográficos y incluyen el uso de diferentes nomenclaturas. En este ejercicio unificaremos la nomenclatura de los valores de esta variables.<span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 3px; ">NM</span> 

a) ¿Cuantos valors diferentes tiene el atributo `marital` en el conjunto de datos? Mostrad estos valores.


In [10]:
# Respuesta

 b) Unificad los atributos `marital` en los valores: "single", "married" o "divorced".

In [11]:
# Respuesta

c) ¿Qué columnas contienen valores perdidos? 

In [12]:
# Respuesta

d) Calculad el primer y el tercer cuartil del atributo "balance".

In [13]:
# Respuesta

## Ejercicio 2

El atributo `poutcome` contiene información sobre si el cliente del banco contractó un deposito. Calula la correlacióm entre el atributo `poutcome` y el resto de atributos (usa la función ['corr'](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.corr.html)). ¿Qué variable presenta mayor correlación con `poutcome`?<span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 3px; ">NM</span> 


In [14]:
# Respuesta

## Ejercicio 3

El módulo sklearn incluye varios datasets de ejemplo, dentro del módulo `sklearn.datasets`. Estos datasets se almacenan en formato `Bunch`, propio de sklearn. Un `Bunch` es un objeto tipo diccionario, los atributos interesantes son: `data`, con los datos en crudo, `target`, con generalmente las etiquetas de clasificación o etiquetas objetivo, `target_names`, el significado de las etiquetas, `feature_names`, el significado de las características o atributos, `DESCR` , la descripción completa del conjunto de datos.

Importa el dataset `iris` de `sklearn`. Almacena los datos este dataset como un objeto `pandas`, con los correpondientres nombres de variables. Añade la variable `target` en el dataframe con el nombre de atributo `Species` y los valors con el tipo de especie de cada muestra.<span style="font-family: Courier New; background-color: #ffcc5c; color: #000000; padding: 3px; ">EG</span>

In [15]:
# Respuesta

A continuación, los **ejercicios y preguntas teóricas que debe completar en esta PEC** y que forman parte de la evaluación de esta unidad.

## Soluciones a los ejercicios para practicar

## Ejercicio 1

a) ¿Cuantos valores diferentes tiene el atributo `marital` en el conjunto de datos? Mostrad estos valores.

In [30]:
import pandas as pd
import numpy as np

data = pd.read_csv("data/bank_edited.csv", sep=";", dtype={"balance":np.float})

import numpy as np

# Con unique podemos encotrar los valors únicos

v = data.marital.unique()

print("There are {} different values in marital:\n{}".format(len(v), v))


There are 11 different values in marital:
['married' 'single' 'marrid' 'divorced' 'maried' 'sing' 'Married'
 'MARRIED' 'DIVORCED' 'Single' 'SINGLE']


 b) Unificad los atributos `marital` en los valores: "single", "married" o "divorced".

In [31]:
data.loc[(data.marital == "Married") | (data.marital == "maried") | (data.marital == "MARRIED") | 
         (data.marital == "marrid"), "marital"] = "married"
data.loc[(data.marital == "Single") | (data.marital == "SINGLE") | (data.marital == "sing"), "marital"] = "single"
data.loc[(data.marital == "DIVORCED"), "marital"] = "divorced"

# Comprobación

v = data.marital.unique()
print("There are {} different values in marital:\n{}".format(len(v), v))


There are 3 different values in marital:
['married' 'single' 'divorced']


c) Qué columnas contienen valores perdidos? 

In [32]:
# Para esto usamos la función  any_isna a cada columna del dataframe 
print(data.isna().any())


age          False
job          False
marital      False
education    False
default      False
balance       True
housing      False
loan         False
contact      False
day           True
month        False
duration      True
campaign     False
pdays        False
previous     False
poutcome     False
y            False
dtype: bool


d) Calculad el primer y el tercer cuartil del atributo `balance`.

In [33]:
print((data['balance'].quantile(0.25)))
print(data['balance'].quantile(0.75))

68.0
1476.0


## Ejercicio 2

El atributo `poutcome` contiene información sobre si el cliente del banco contractó un deposito. Calula la correlacióm entre el atributo `poutcome` y el resto de atributos (usa la función `corr'). Qué variable presenta mayor correlación con 'poutcome'?

In [34]:
# Visualizamos los valores de la columna poutcome
import pandas as pd
import numpy as np
import warnings

warnings.filterwarnings('ignore')

data.poutcome.unique()

array(['unknown', 'failure', 'other', 'success'], dtype=object)

In [35]:
# Seleccionamos únicamente la muestras que contienen  informacióno precisa sobre el ciente contrató o no el depósito

data_pout = data[data.poutcome.isin(("failure","success"))]

# Discretizamos la columna poutcome para poder calcular la correlación 

data_pout['poutcome_cat'] = data_pout.poutcome.astype("category").cat.codes

# Calculamos la correlación con el resto de columnas 

data_pout.corr()["poutcome_cat"]

age             0.090540
balance         0.039791
day             0.009252
duration        0.142385
campaign       -0.059986
pdays          -0.276853
previous        0.023411
poutcome_cat    1.000000
Name: poutcome_cat, dtype: float64

Observad que la columna `pdays` muestra tenir mayor correlació en valor absoluto con  poutcome_cat.  Tened en cuenta que hemos asignado un 0/1 a "failure"/"succes" de manera arbitraria, así que el signo no es significtivo en este caso.

## Ejercicio 3

El módulo sklearn incluye varios datasets de ejemplo, dentro del módulo `sklearn.datasets`. Estos datasets se almacenan en formato `Bunch`, propio de sklearn. Un `Bunch` es un objeto tipo diccionario, los atributos interesantes son: `data`, con los datos en crudo, `target`, con generalmente las etiquetas de clasificación o etiquetas objetivo, `target_names`, el significado de las etiquetas, `feature_names`, el significado de las características o atributos, `DESCR` , la descripción completa del conjunto de datos.

Importa el dataset `iris` de `sklearn`. Almacena los datos este dataset como un objeto `pandas`, con los correpondientres nombres de variables. Añade la variable `target` en el dataframe con el nombre de atributo `Species` y los valors con el tipo de especie de cada muestra.


In [36]:
from sklearn import datasets
import pandas as pd
iris_bunch = datasets.load_iris()
iris_pandas = pd.DataFrame(iris_bunch['data'],columns=iris_bunch['feature_names'])
iris_pandas['Species'] = iris_bunch['target_names'][iris_bunch['target']]


In [37]:
iris_pandas.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [38]:
iris_pandas.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [39]:
iris_pandas.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5
