# Programación para *Data Science*

## Unidad 6: Preprocesamiento de datos en Python


# Introducció

En este Notebook encontraréis dos conjuntos de ejercicios: un primer conjunto de **ejercicios para practicar** y un segundo conjunto de **actividades evaluables** como PEC de la asignatura.

En cuanto al conjunto de ejercicios para practicar, éstos no puntúan para la PEC, pero os recomendamos que los intentéis resolver como parte del proceso de aprendizaje. Encontraréis ejemplos de posibles soluciones a los ejercicios al propio notebook, pero es importante que intentéis resolverlos vosotros antes de consultar las soluciones. Las soluciones os permitirán validar vuestras respuestas, así como ver alternativas de resolución de las actividades. También os animamos a preguntar cualquier duda que surja sobre la resolución de los **ejercicios para practicar** en el foro del aula.

En relación a las actividades evaluables, veréis que cada una de ellas tiene asociada una puntuación que indica el peso que tiene la actividad sobre la nota de la PEC. Adicionalmente, hay un ejercicio opcional, que no tiene puntuación dentro de la PEC, pero que se valora al final del semestre de cara a conceder las matrículas de honor y redondear las notas finales. Podéis sacar la máxima nota de la PEC sin necesidad de hacer este ejercicio! El objetivo de este ejercicio es que sirva como pequeño reto para los estudiantes que quieran profundizar en el contenido de la asignatura.

Además, veréis que todas las actividades tienen una etiqueta que indica los recursos necesarios para llevarla a cabo. Hay tres posibles etiquetas:

* <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 3px; ">NM</span> **Sólo materiales**: las herramientas necesarias para realizar la actividad se pueden encontrar en los materiales de la asignatura. 

* <span style="font-family: Courier New; background-color: #ffcc5c; color: #000000; padding: 3px; ">EG</span> **Consulta externa guiada**: la actividad puede requerir hacer uso de herramientas que no se encuentran en los materiales de la asignatura, pero el enunciado contiene indicaciones de dónde o cómo encontrar la información adicional necesaria para resolver la actividad.

* <span style="font-family: Courier New; background-color: #f2ae72; color: #000000; padding: 3px; ">EI</span> **Consulta externa independente**: la actividad puede requerir hacer uso de herramientas que no se encuentran en los materiales de la asignatura, y el enunciado puede no incluir la descripción de dónde o cómo encontrar esta información adicional. Será necesario que el estudiante busque esta información utilizando los recursos que se han explicado en la asignatura.

Es importante notar que estas etiquetas no indican el nivel de dificultad del ejercicio, sino únicamente la necesidad de consulta de documentación externa para su resolución. Además, recordad que las **etiquetas son informativas**, pero podréis consultar referencias externas en cualquier momento (aunque no se indique explícitamente) o puede ser que podáis hacer una actividad sin consultar ningún tipo de documentación. Por ejemplo, para resolver una actividad que sólo requiera los materiales de la asignatura, puedéis consultar referencias externas si queréis, ya sea tanto para ayudaros en la resolución como para ampliar el conocimiento!

En cuanto a la consulta de documentación externa en la resolución de los ejercicios, recordad **citar siempre la bibliografía utilizada** para resolver cada actividad.

## Ejercicios para practicar

**Los siguientes 3 ejercicios no puntúan para la PEC**, pero os recomendamos que los intentéis resolver antes de pasar a los ejercicios propios de la PEC. También encontraréis las soluciones a estos ejercicios al final del Notebook.

## Ejercicio 1

Cargue los datos del fichero `bank_edited.csv` en un dataframe. Este conjunto de datos recoge información respecto a una campaña de marketing de un banco portugués. El conjunto original se puede encontrar en el [repositorio de datos de Machine Learning de la UC Irvine] (http://archive.ics.uci.edu/ml/datasets/Bank+Marketing), pero el conjunto que utilizaremos tiene alguna modificación .

Observación: revise la documentación de la función [ `read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) para ver qué parámetro disponemos para ajustar el proceso de cargar de datos.

Los valores del estado civil (atributo `marital`) contienen errores tipográficos y incluyen el uso de diferentes nomenclaturas. En este ejercicio unificaremos la nomenclatura de los valores de esta variables.<span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 3px; ">NM</span> 

a) ¿Cuantos valors diferentes tiene el atributo `marital` en el conjunto de datos? Mostrad estos valores.


In [58]:
# Respuesta
import pandas as pd

data = pd.read_csv("data/bank_edited.csv", sep= ";")
data.head(n=5)
#vals = set(data["marital"])
#print("Hay {} Valores distintos:\n{}\n".format (len(vals),vals))

vals2 = data.marital.unique()
print("Hay {} Valores distintos:\n{}".format (len(vals2),vals2))
                    


Hay 11 Valores distintos:
['married' 'single' 'marrid' 'divorced' 'maried' 'sing' 'Married'
 'MARRIED' 'DIVORCED' 'Single' 'SINGLE']


 b) Unificad los atributos `marital` en los valores: "single", "married" o "divorced".

In [121]:
# Respuesta

data.loc[(data.marital == "SINGLE") | (data.marital == "Single") | (data.marital == "sing"), ["marital"]] = "single"

data.loc[(data.marital == "MARRIED") | (data.marital == "Married") | (data.marital == "maried") 
         | (data.marital == "marrid"), ["marital"]] = "married"

data.loc[(data.marital == "DIVORCED"), ["marital"]] = "divorced"

#set(data["marital"])
print(data.marital.unique())

['married' 'single' 'divorced']


c) ¿Qué columnas contienen valores perdidos? 

In [60]:
# Respuesta
#def is_null(x):
#    return any(pd.isnull(x))
#print(data.apply(is_null))
print(data.isna().any())


age          False
job          False
marital      False
education    False
default      False
balance       True
housing      False
loan         False
contact      False
day           True
month        False
duration      True
campaign     False
pdays        False
previous     False
poutcome     False
y            False
dtype: bool


d) Calculad el primer y el tercer cuartil del atributo "balance".

In [106]:
# Respuesta

print((data['balance'].quantile(0.25)))
print(data['balance'].quantile(0.75))

68.0
1476.0


## Ejercicio 2

El atributo `poutcome` contiene información sobre si el cliente del banco contractó un deposito. Calula la correlacióm entre el atributo `poutcome` y el resto de atributos (usa la función ['corr'](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.corr.html)). ¿Qué variable presenta mayor correlación con `poutcome`?<span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 3px; ">NM</span> 


In [135]:
# Respuesta

import pandas as pd
import numpy as np
#import warnings

#Mi método, binarizando todas las columnas con valores categóricos
datatrans = pd.get_dummies(data, columns = ["job", "marital", "education", "default", "housing", 
                                            "loan", "contact", "month", "poutcome", "y"], dummy_na = True)
print(list(datatrans))
print(datatrans.corr()["poutcome_success"])

#Método 2
# Seleccionamos únicamente la muestras que contienen  información no precisa sobre el ciente contrató o no el depósito

data_pout = data[data.poutcome.isin(("failure","success"))]


# Discretizamos la columna poutcome para poder calcular la correlación 

data_pout['poutcome_cat'] = data_pout.poutcome.astype("category").cat.codes

# Calculamos la correlación con el resto de columnas 

data_pout.corr()["poutcome_cat"]


['age', 'balance', 'day', 'duration', 'campaign', 'pdays', 'previous', 'job_admin.', 'job_blue-collar', 'job_entrepreneur', 'job_housemaid', 'job_management', 'job_retired', 'job_self-employed', 'job_services', 'job_student', 'job_technician', 'job_unemployed', 'job_unknown', 'job_nan', 'marital_divorced', 'marital_married', 'marital_single', 'marital_nan', 'education_primary', 'education_secondary', 'education_tertiary', 'education_unknown', 'education_nan', 'default_no', 'default_yes', 'default_nan', 'housing_no', 'housing_yes', 'housing_nan', 'loan_no', 'loan_yes', 'loan_nan', 'contact_cellular', 'contact_telephone', 'contact_unknown', 'contact_nan', 'month_apr', 'month_aug', 'month_dec', 'month_feb', 'month_jan', 'month_jul', 'month_jun', 'month_mar', 'month_may', 'month_nov', 'month_oct', 'month_sep', 'month_nan', 'poutcome_failure', 'poutcome_other', 'poutcome_success', 'poutcome_unknown', 'poutcome_nan', 'y_no', 'y_yes', 'y_nan']
age                 0.048626
balance             

age             0.090540
balance         0.039791
day             0.009252
duration        0.142385
campaign       -0.059986
pdays          -0.276853
previous        0.023411
poutcome_cat    1.000000
Name: poutcome_cat, dtype: float64

## Ejercicio 3

El módulo sklearn incluye varios datasets de ejemplo, dentro del módulo `sklearn.datasets`. Estos datasets se almacenan en formato `Bunch`, propio de sklearn. Un `Bunch` es un objeto tipo diccionario, los atributos interesantes son: `data`, con los datos en crudo, `target`, con generalmente las etiquetas de clasificación o etiquetas objetivo, `target_names`, el significado de las etiquetas, `feature_names`, el significado de las características o atributos, `DESCR` , la descripción completa del conjunto de datos.

Importa el dataset `iris` de `sklearn`. Almacena los datos este dataset como un objeto `pandas`, con los correpondientres nombres de variables. Añade la variable `target` en el dataframe con el nombre de atributo `Species` y los valors con el tipo de especie de cada muestra.<span style="font-family: Courier New; background-color: #ffcc5c; color: #000000; padding: 3px; ">EG</span>

In [270]:
# Respuesta

#Importamos librerias
from sklearn import datasets
import pandas as pd

iris_bunch = datasets.load_iris()
#print(iris_bunch)
iris_pandas = pd.DataFrame(iris_bunch['data'],columns=iris_bunch['feature_names'])
#print(iris_pandas.tail())
iris_pandas['Species'] = iris_bunch['target_names'][iris_bunch['target']]
#print(iris_pandas.tail())
#print((iris_bunch['target_names']).shape)
#print((iris_bunch['target']).shape)
#print(iris_bunch['target_names'][iris_bunch['target']])

# Ejercicios para la PEC

A continuación, los **ejercicios y preguntas teóricas que debe completar en esta PEC** y que forman parte de la evaluación de esta unidad.

# Ejercicio 1

Importa el fichero `siri.csv` de la carpeta de datos. En ella encontrarás notas (en un rango de 0 a 10) correspondientes a estudiantes de tres escuelas diferentes para cuatro asignaturas. Una vez importados los datos, realiza las siguientes operaciones:

a) Muestra por pantalla una lista de las diferentes escuelas en los datos. En caso no observar tres escuelas por errores tipográficos, mayúsculas y otros, corrige la nomenclatura para homogeneizar una columna con las tres escuelas. 


**(1 punto)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>



In [3]:
# Respuesta

#Importamos libreria
import pandas as pd

#Cargo los datos
dfsiri = pd.read_csv("data/siri.csv")

#Observo los primeros ejemplos con sus campos
dfsiri.head()

#Unifico los campos
dfsiri.loc[(dfsiri.school == "Summer") | (dfsiri.school == "sumer") | (dfsiri.school == "ummer") 
           | (dfsiri.school == "Sumer"), ["school"]] = "summer"
dfsiri.loc[(dfsiri.school) == "Winter", ["school"]] = "winter"
dfsiri.loc[(dfsiri.school == "Spring") | (dfsiri.school == "Sprng"), ["school"]] = "spring"

#Muestro la lista por pantalla
print("Listado de las diferentes escuelas:\n\n{}".format(list(dfsiri.school.unique())))

Listado de las diferentes escuelas:

['summer', 'winter', 'spring']



b) Buscar notas claramente anómalas. En caso de encontrar notas anómalas sustitúyelas por NaN.


**(1 punto)**  <span style="font-family: Courier New; background-color: #f2ae72; color: #000000; padding: 3px; ">EI</span> 


In [4]:
# Respuesta
#https://living-sun.com/es/python/706511-how-to-make-complex-data-cleaning-in-pandas-python-pandas-dataframe.html
#https://www.geeksforgeeks.org/python-pandas-dataframe-round/
#https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html

#Importamos librerias
import pandas as pd
import numpy as np

#Miro los atributos
print("Miro las cabeceras: {}".format(list(dfsiri)))


#Miro valores unicos de cada atributo
print('\n\nValores iniciales de maths\n\n', dfsiri.maths.unique())
print('\n\nValores iniciales de literature\n\n', dfsiri.literature.unique())
print('\n\nValores iniciales de physics\n\n', dfsiri.physics.unique())
print('\n\nValores iniciales de history\n\n', dfsiri.history.unique(), '\n\n')


#Miro estadísticas y veo que hay dos valores máximos que no deberían estar ahí (50.4 y 101.4). Se puede ver que 
#las desviaciones estándar son del 50% y 100% respecto a sus medias 
print("Miro las estadísticas iniciales\n\n{}\n\n".format(dfsiri.describe()))

#Aplico el condicionante para encontrarlos y su sustitución por NaN, a la vez:
dfsiri.loc[(dfsiri.maths) > 10, "maths"] = np.nan
dfsiri.loc[(dfsiri.literature > 10), "literature"] = np.nan
dfsiri.loc[(dfsiri.physics > 10), "physics"] = np.nan
dfsiri.loc[(dfsiri.history > 10), "history"] = np.nan


#Visualizo
print('\n\nValores finales de maths\n\n', dfsiri.maths.unique())
print('\n\nValores finales de literature\n\n', dfsiri.literature.unique())
print('\n\nValores finales de physics\n\n', dfsiri.physics.unique())
print('\n\nValores finales de history\n\n', dfsiri.history.unique(), '\n\n')
print("Miro las estadísticas finales\n\n{}".format(dfsiri.describe()))

Miro las cabeceras: ['maths', 'literature', 'physics', 'history', 'school']


Valores iniciales de maths

 [ 5.1  4.9  4.7  4.6  5.  50.4  4.4  5.4  4.8  4.3  5.8  5.7  5.2  5.5
  4.5  5.3  7.   6.4  6.9  6.5  6.3  6.6  5.9  6.   6.1  5.6  6.7  6.2
  6.8  7.1  7.6  7.3  7.2  nan  7.7  7.4  7.9]


Valores iniciales de literature

 [3.5 3.  3.2 3.1 3.6 3.9 3.4 2.9 3.7 4.  4.4 3.8 3.3 4.1 4.2 nan 2.3 2.8
 2.4 2.7 2.  2.2 2.5 2.6]


Valores iniciales de physics

 [  1.4   1.3   1.5   nan   1.6   1.1   1.2   1.7   1.    1.9 101.4   4.7
   4.5   4.9   4.    4.6   3.3   3.9   3.5   4.2   3.6   4.4   4.1   4.8
   4.3   5.    3.8   3.7   5.1   3.    6.    5.9   5.6   5.8   6.6   6.3
   6.1   5.3   5.5   6.7   6.9   5.7   5.4   5.2]


Valores iniciales de history

 [0.2 0.4 0.3 0.1 0.5 0.6 1.4 1.5 1.3 1.6 1.  1.1 1.8 nan 1.2 1.7 2.5 1.9
 2.1 2.2 2.  2.4 2.3] 


Miro las estadísticas iniciales

            maths  literature     physics     history
count  148.000000  144.000000  145.000000  148.00


c) Encuentra los valores perdidos. Imputa los valores perdidos por la media de los datos por columna 


**(0.5 puntos)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>



In [5]:
# Respuesta

#Importamos librerias
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer

# Sustituiremos los valores perdidos por la media de la columna 
imp = SimpleImputer(strategy='mean')

#Buscamos las columnas con na
print("Columnas iniciales con nan\n\n{}".format(dfsiri.isna().any()))

# Aplicamos la transformación a las columnas afectadas
dfsiri["maths"] = imp.fit_transform(dfsiri[["maths"]]).ravel()
dfsiri["literature"] = imp.fit_transform(dfsiri[["literature"]]).ravel()
dfsiri["physics"] = imp.fit_transform(dfsiri[["physics"]]).ravel()
dfsiri["history"] = imp.fit_transform(dfsiri[["history"]]).ravel()

Columnas iniciales con nan

maths          True
literature     True
physics        True
history        True
school        False
dtype: bool


d) Comprueba que ya no hay valores perdidos en el objeto pandas. 

**(0.5 puntos)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>


In [664]:
# Respuesta

print("Columnas finales con nan\n\n{}".format(dfsiri.isna().any()))

Columnas finales con nan

maths         False
literature    False
physics       False
history       False
school        False
dtype: bool


## Ejercicio 2


En este ejercicio trabajaremos un conjunto de datos que se derivó del censo estadounidense de 1990, utilizando una fila por censo
dentro de un grupo de viviendas o bloques. Un grupo de bloques es la unidad geográfica más pequeña para la que La Oficina del Censo de  EE.UU.
publica datos de muestra (un grupo de bloques generalmente tiene una población
de 600 a 3,000 personas).


  - Pace, R. Kelley and Ronald Barry, Sparse Spatial Autoregressions,
      Statistics and Probability Letters, 33 (1997) 291-297





a) Generar un objeto `pandas` de nombre `housings` con los datos que genera la función `datasets.fetch_california_housing()` dentro de `sklearn`. El objeto debe contener todas las variables del conjunto de datos incluida una columna con los valores de  `Prices` (target). 


**(1 punto)**  <span style="font-family: Courier New; background-color: #ffcc5c; color: #000000; padding: 3px; ">EG</span>

In [7]:
# Respuesta
#https://stackoverflow.com/questions/38105539/how-to-convert-a-scikit-learn-dataset-to-a-pandas-dataset

#Importamos librerias
import pandas as pd
import numpy as np
from sklearn import datasets

#Cargamos fichero
cali_house_bunch = datasets.fetch_california_housing()
#print(cali_house_bunch)

#Creamos dataframe
housings = pd.DataFrame(cali_house_bunch.data, columns=cali_house_bunch.feature_names)
#print(housings.head())

#Añadimos la columna prices con las "labels", en este caso los precios de las viviendas
housings['Prices'] = cali_house_bunch['target']
housings.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,Prices
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


b) Obtener, los nombres de las variables, el número total de filas y columnas, y comprobar la posible existencia de valores perdidos en los datasets. Obtener la media, desviación típica, valores máximos y mínimos de todas las variables del data frame.


**(0.5 puntos)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>

In [8]:
# Respuesta

#Directamente imprimimos todo lo que nos piden
print("Las variables son\n\n{}\n\n".format(list(housings)))
print("Hay {} filas y {} columnas\n\n".format(len(housings),len(housings.columns)))
print("Posibles valores faltantes (no hay): \n\n{}\n\n". format(housings.isna().any()))
print("Visualizamos una tabla con las estadísticas:\n\n{}".format(housings.describe()))

Las variables son

['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude', 'Prices']


Hay 20640 filas y 9 columnas


Posibles valores faltantes (no hay): 

MedInc        False
HouseAge      False
AveRooms      False
AveBedrms     False
Population    False
AveOccup      False
Latitude      False
Longitude     False
Prices        False
dtype: bool


Visualizamos una tabla con las estadísticas:

             MedInc      HouseAge      AveRooms     AveBedrms    Population  \
count  20640.000000  20640.000000  20640.000000  20640.000000  20640.000000   
mean       3.870671     28.639486      5.429000      1.096675   1425.476744   
std        1.899822     12.585558      2.474173      0.473911   1132.462122   
min        0.499900      1.000000      0.846154      0.333333      3.000000   
25%        2.563400     18.000000      4.440716      1.006079    787.000000   
50%        3.534800     29.000000      5.229129      1.048780   1166.000000   
75%    

c) Calcula la correlación de la variable `Prices` con el resto de variables. Ordena el vector de correlaciones de mayor a menor en valor absoluto. ¿Qué variable aparece con más correlación con los precios? Interpreta los resultados.


**(0.5 puntos)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>

In [9]:
# Respuesta

#Importamos libreria
import pandas as pd

#En este caso no hay atributos con valores categóricos, así que no realizamos ninguna transformación adicional
housings.corr()["Prices"].abs().sort_values(ascending=False) 

#El precio de la vivienda tiene una correlación alta respecto a MedInc. El resto de atributos influyen menos
#MedInc representa los ingresos medios de la vivienda en un bloque de viviendas -->
#https://www.kaggle.com/camnugent/california-housing-prices


Prices        1.000000
MedInc        0.688075
AveRooms      0.151948
Latitude      0.144160
HouseAge      0.105623
AveBedrms     0.046701
Longitude     0.045967
Population    0.024650
AveOccup      0.023737
Name: Prices, dtype: float64

## Ejercicio 3

Con la mismo dataset anterior:




a) Con cada una de las variables `Latitude` y `Longitude`, crea dos variables discretizadas con 10 segmentos, de forma que:

- en las primeras cada intervalo contenga el mísmo número de muestras (equidensidad por segmento) en (`qLat`, `qLon`) 
- en las segundas cada intervalo tengan la misma longitud de intervalo (equidistancia por segmento) en (`sLat`,`sLon`) 


**(1 punto)**  <span style="font-family: Courier New; background-color: #f2ae72; color: #000000; padding: 3px; ">EI</span>

In [10]:
# Respuesta
#https://pbpython.com/pandas-qcut-cut.html

#Importamos librerias
import pandas as pd

housings["qLat"] = pd.qcut(housings["Latitude"], q=10)
housings["qLon"] = pd.qcut(housings["Longitude"], q=10)
housings["sLat"] = pd.cut(housings["Latitude"], 10)
housings["sLon"] = pd.cut(housings["Longitude"], 10)

b) Observa la distribución en las variables discretizadas calculando el número de muestras dentro de cada intérvalo. Podéis mirar el método de pandas .value_counts() para contar valores de cada grupo. 

**(0.5 puntos)** <span style="font-family: Courier New; background-color: #ffcc5c; color: #000000; padding: 3px; ">EG</span> 

In [11]:
# Respuesta
#https://www.w3resource.com/pandas/series/series-value_counts.php

#Importamos librerias
import pandas as pd

#No hay contenedores con tamaños exactos de muestras en qLat y qLon, aunque son similares 
#me imagino que es porque hay valores de coordenadas duplicados y se tienen que atribuir a un "bin" o a otro
#Los intervalos son equidistantes entre segmentos para sLat y sLon
print("El número de muestras para qLat es:\n\n{}\n\n".format(housings.qLat.value_counts()))
print("El número de muestras para qLon es:\n\n{}\n\n".format(housings.qLon.value_counts()))
print("El número de muestras para sLat son:\n\n{}\n\n".format(housings.sLat.value_counts()))
print("El número de muestras para sLon son:\n\n{}".format(housings.sLon.value_counts()))


El número de muestras para qLat es:

(33.63, 33.87]     2160
(34.0, 34.1]       2138
(37.48, 37.81]     2112
(32.539, 33.63]    2092
(36.66, 37.48]     2073
(38.48, 41.95]     2061
(33.87, 34.0]      2058
(37.81, 38.48]     2005
(34.26, 36.66]     2000
(34.1, 34.26]      1941
Name: qLat, dtype: int64


El número de muestras para qLon es:

(-119.91, -118.49]     2106
(-122.29, -121.98]     2093
(-124.351, -122.29]    2075
(-118.13, -117.89]     2070
(-118.49, -118.3]      2066
(-121.37, -119.91]     2059
(-117.89, -117.25]     2054
(-117.25, -114.31]     2044
(-118.3, -118.13]      2043
(-121.98, -121.37]     2030
Name: qLon, dtype: int64


El número de muestras para sLat son:

(33.481, 34.422]    8987
(37.245, 38.186]    4712
(32.531, 33.481]    1796
(38.186, 39.127]    1740
(36.304, 37.245]    1292
(34.422, 35.363]     747
(39.127, 40.068]     490
(35.363, 36.304]     474
(40.068, 41.009]     324
(41.009, 41.95]       78
Name: sLat, dtype: int64


El número de muestras para sLon son:


c) Muestra

- los precios promedio por cada segmento de Latitud (sLat)

- los precios promedio por cada segmento de Longitud (sLon)


**(1 punto)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>

In [14]:
# Respuesta
#https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html
#https://stackoverflow.com/questions/32751229/pandas-sum-by-groupby-but-exclude-certain-columns

#importamos librerias
import pandas as pd

#Agrupo
group = housings.groupby(['sLat','sLon'])

#Calculo las medias de los precios
print("Promedio de precios para (sLat,sLon):\n\n{}\n\n".format(group[['Prices']].mean().dropna()))


Promedio de precios para (sLat,sLon):

                                         Prices
sLat             sLon                          
(32.531, 33.481] (-119.33, -118.326]   3.511000
                 (-118.326, -117.322]  2.732589
                 (-117.322, -116.318]  1.965858
                 (-116.318, -115.314]  0.756287
                 (-115.314, -114.31]   0.478000
(33.481, 34.422] (-120.334, -119.33]   3.104987
                 (-119.33, -118.326]   3.034012
                 (-118.326, -117.322]  2.109366
                 (-117.322, -116.318]  1.271735
                 (-116.318, -115.314]  0.943333
                 (-115.314, -114.31]   0.787105
(34.422, 35.363] (-121.338, -120.334]  1.841825
                 (-120.334, -119.33]   3.077077
                 (-119.33, -118.326]   1.238817
                 (-118.326, -117.322]  1.319486
                 (-117.322, -116.318]  0.979061
                 (-116.318, -115.314]  0.841667
                 (-115.314, -114.31]   0.602143
(

d) Calcula y muestra la media y la desviación típica para todas las variables para cada combinación de Latitud y Longitud en ambos casos (equidensidad por segmento, equidistancia por segmento). 
Observación: quita las filas que contengan algún NaN del dataframe resultante. 

**(1 punto)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>

In [671]:
# Respuesta
#importamos librerias
import pandas as pd

#Agrupamos. La claúsula groupby excluye nans por defecto
sgroup = housings.groupby(['sLat','sLon'])
qgroup = housings.groupby(['qLat','qLon'])

#Hago print directamente
print("Medias para las combinaciones sLat,sLon:\n\n{}\n\n".format(sgroup.aggregate(np.mean).dropna()))
print("Desviaciones para las combinaciones sLat,sLon:\n\n{}\n\n".format(sgroup.aggregate(np.std).dropna()))
print("Medias para las combinaciones qLat,qLon:\n\n{}\n\n".format(qgroup.aggregate(np.mean).dropna()))
print("Desviaciones para las combinaciones qLat,qLon:\n\n{}".format(qgroup.aggregate(np.std).dropna()))

Medias para las combinaciones sLat,sLon:

                                         MedInc   HouseAge   AveRooms  \
sLat             sLon                                                   
(32.531, 33.481] (-119.33, -118.326]   2.718750  40.500000   4.806023   
                 (-118.326, -117.322]  4.076581  20.578947   5.556501   
                 (-117.322, -116.318]  3.808752  23.618345   5.294258   
                 (-116.318, -115.314]  2.573830  22.382609   5.407458   
                 (-115.314, -114.31]   1.375433  19.000000   5.010392   
(33.481, 34.422] (-120.334, -119.33]   3.685874  30.371429   4.820485   
                 (-119.33, -118.326]   4.704980  31.586966   5.184441   
                 (-118.326, -117.322]  3.903039  30.708291   4.995189   
                 (-117.322, -116.318]  3.197374  20.814145   6.850075   
                 (-116.318, -115.314]  2.789075  19.063492   5.983722   
                 (-115.314, -114.31]   2.089495  20.736842   9.765687   
(34.422, 

Medias para las combinaciones qLat,qLon:

                                       MedInc   HouseAge   AveRooms  \
qLat            qLon                                                  
(32.539, 33.63] (-118.49, -118.3]    2.744420  42.400000   5.656577   
                (-118.13, -117.89]   5.882535  30.557692   5.920610   
                (-117.89, -117.25]   5.039886  18.984252   5.886267   
                (-117.25, -114.31]   3.596781  23.563851   5.278766   
(33.63, 33.87]  (-118.49, -118.3]    5.469732  30.471545   5.411688   
                (-118.3, -118.13]    3.403173  34.924812   4.436297   
                (-118.13, -117.89]   4.494720  26.284382   5.281510   
                (-117.89, -117.25]   5.110573  19.108932   5.729497   
                (-117.25, -114.31]   3.076170  15.777778   6.851792   
(33.87, 34.0]   (-119.91, -118.49]   3.750171  38.000000   3.657667   
                (-118.49, -118.3]    4.016103  36.275797   4.843512   
                (-118.3, -118.13]  

## Ejercicio 4

### Estandarización de variables.

Importa el dataset `iris` de `sklearn`. Almacena este dataset como un objeto `pandas`, con los correpondientres nombres de variables. 

Llamamos tipificar una variable al proceso de convertirla en una Normal Estándar $N(\mu=0,\sigma =1)$.
Busca en `sklearn.preprocessing` un método que te permita tipificar cada variable numérica del objeto pandas de `iris` de forma que:

- El valor medio de cada columna sea 0
- La desviación típica de cada columna sea 1

a) Aplica el método para crear un nuevo dataframne `iris_typ` que cumpla esas condiciones.  Comprueba que la tipificación es correcta.

**(1 punto)** <span style="font-family: Courier New; background-color: #ffcc5c; color: #000000; padding: 3px; ">EG</span>

In [3]:
# Respuesta
#El StandardScaler está en el material también

#Importamos librerias
import pandas as pd
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

#Cargamos el dataframe
iris_bunch = datasets.load_iris()
#print(iris_bunch.keys())
dfiris = pd.DataFrame(iris_bunch.data, columns=iris_bunch.feature_names)
dfiris['Species'] = iris_bunch["target_names"][iris_bunch["target"]]
print("Las estadísticas iniciales son:\n\n{}\n\n".format(dfiris.describe()))

#Hago copia del dataframe :) y uso el StandardScaler
iris_typ = dfiris.copy()
iris_typ.loc[:, ["sepal length (cm)","sepal width (cm)", "petal length (cm)", 
                 "petal width (cm)"]] = StandardScaler().fit_transform(dfiris.loc[:, ["sepal length (cm)",
                                                                                      "sepal width (cm)", 
                                                                                      "petal length (cm)", 
                                                                                    "petal width (cm)"]])
#La media tiende a 0 (-1.46 x10⁻15) y la desviación tiende a 1
print("Las estadísticas finales son:\n\n{}".format(iris_typ.describe()))

Las estadísticas iniciales son:

       sepal length (cm)  sepal width (cm)  petal length (cm)  \
count         150.000000        150.000000         150.000000   
mean            5.843333          3.057333           3.758000   
std             0.828066          0.435866           1.765298   
min             4.300000          2.000000           1.000000   
25%             5.100000          2.800000           1.600000   
50%             5.800000          3.000000           4.350000   
75%             6.400000          3.300000           5.100000   
max             7.900000          4.400000           6.900000   

       petal width (cm)  
count        150.000000  
mean           1.199333  
std            0.762238  
min            0.100000  
25%            0.300000  
50%            1.300000  
75%            1.800000  
max            2.500000  


Las estadísticas finales son:

       sepal length (cm)  sepal width (cm)  petal length (cm)  \
count       1.500000e+02      1.500000e+02       

b) Busca y aplica un segundo mecanismo de normalización de forma que:

- el mínimo de la variable sea 0, y 
- el máximo de cada variable sea 1 

Comprueba que la normalizacion es correcta

**(0.5 puntos)** <span style="font-family: Courier New; background-color: #ffcc5c; color: #000000; padding: 3px; ">EG</span>

In [673]:
# Respuesta

#Importamos librerias
import pandas as pd
import sklearn as sk
from sklearn.preprocessing import MinMaxScaler

#Para cada atributo calcula la diferencia entre un valor y el mín. y divide entre la diferencia entre el max. y el min.
#Hago copia del dataframe y uso el MinMaxScaler
iris_typ2 = dfiris.copy()
iris_typ2.loc[:, ["sepal length (cm)","sepal width (cm)", "petal length (cm)", 
                 "petal width (cm)"]] = MinMaxScaler().fit_transform(dfiris.loc[:, ["sepal length (cm)",
                                                                                      "sepal width (cm)", 
                                                                                      "petal length (cm)", 
                                                                                    "petal width (cm)"]])


print("Las estadísticas iniciales son:\n\n{}\n\n".format(dfiris.describe()))
#Vemos que el mínimo es 0 y el mínimo 1
print("Las estadísticas finales son:\n\n{}".format(iris_typ2.describe()))

Las estadísticas iniciales son:

       sepal length (cm)  sepal width (cm)  petal length (cm)  \
count         150.000000        150.000000         150.000000   
mean            5.843333          3.057333           3.758000   
std             0.828066          0.435866           1.765298   
min             4.300000          2.000000           1.000000   
25%             5.100000          2.800000           1.600000   
50%             5.800000          3.000000           4.350000   
75%             6.400000          3.300000           5.100000   
max             7.900000          4.400000           6.900000   

       petal width (cm)  
count        150.000000  
mean           1.199333  
std            0.762238  
min            0.100000  
25%            0.300000  
50%            1.300000  
75%            1.800000  
max            2.500000  


Las estadísticas finales son:

       sepal length (cm)  sepal width (cm)  petal length (cm)  \
count         150.000000        150.000000       

### Ejercicio Opcional


La Oficina de Estadísticas de Transporte del Departamento de Transporte de los Estados Unidos (DOT) rastrea el rendimiento en término de puntualidad de los vuelos en EE.UU. operados por grandes compañías aéreas. 

La información resumida sobre el número de vuelos puntuales, retrasados, cancelados y desviados se publica en el Informe mensual del consumidor de viajes aéreos del DOT y en este conjunto de datos de retrasos y cancelaciones de vuelos de 2015. Encontrarás una muestra de estos datos en el fichero `vuelos.csv` en la carpeta de datos. 

Importa el fichero de vuelos. Imputa los valores perdidos con el método KNNImputer con los valores por defecto.

Calcula y muestra la matriz de correlación de las siguientes variables a partir de la matriz imputada. 

- `ARRIVAL_DELAY`
- `DIVERTED`
- `CANCELLED`	
- `AIR_SYSTEM_DELAY`
- `SECURITY_DELAY`
- `AIRLINE_DELAY`
- `LATE_AIRCRAFT_DELAY`
- `WEATHER_DELAY`

Interpreta el resultado


 <span style="font-family: Courier New; background-color: #f2ae72; color: #000000; padding: 3px; ">EI</span>

In [674]:
# Respuesta
#https://stackoverflow.com/questions/36518027/pandas-creating-new-data-frame-from-only-certain-columns

#Importamos librerias
import pandas as pd
from sklearn.impute import SimpleImputer

#Decimal tiene que ser "," para que SimpleImputer pueda hacer la media de los valores
df = pd.read_csv("data/vuelos.csv", sep=";", decimal=',')

# Sustituiremos los valores perdidos por la media de la columna 
imp = SimpleImputer(strategy='mean')
#print(df.head())

#Identificamos manualmente qué tipo de datos hay en las columnas que nos interesan, con head() o tail()
#No hay que binarizar ninguna, ya que no hay columnas con valores categóricos
#print(df.tail())

#Sustituyo los NaNs
df["ARRIVAL_DELAY"]= imp.fit_transform(df[["ARRIVAL_DELAY"]]).ravel().round(1)
df["DIVERTED"] = imp.fit_transform(df[["DIVERTED"]]).ravel().round(1)
df["CANCELLED"] = imp.fit_transform(df[["CANCELLED"]]).ravel().round(1)
df["AIR_SYSTEM_DELAY"] = imp.fit_transform(df[["AIR_SYSTEM_DELAY"]]).ravel().round(1)
df["SECURITY_DELAY"] = imp.fit_transform(df[["SECURITY_DELAY"]]).ravel().round(1)
df["AIRLINE_DELAY"] = imp.fit_transform(df[["AIRLINE_DELAY"]]).ravel().round(1)
df["LATE_AIRCRAFT_DELAY"] = imp.fit_transform(df[["LATE_AIRCRAFT_DELAY"]]).ravel().round(1)
df["WEATHER_DELAY"] = imp.fit_transform(df[["WEATHER_DELAY"]]).ravel().round(1)

#Creamos una matriz con las columnas que nos interesan
dfsmall = df[["ARRIVAL_DELAY","DIVERTED","CANCELLED","AIR_SYSTEM_DELAY",
              "SECURITY_DELAY","AIRLINE_DELAY","LATE_AIRCRAFT_DELAY","WEATHER_DELAY"]].copy()

#Creo la matriz correlacion
print("Matriz correlacion:\n\n{}".format(dfsmall.corr()))

Matriz correlacion:

                     ARRIVAL_DELAY      DIVERTED  CANCELLED  AIR_SYSTEM_DELAY  \
ARRIVAL_DELAY             1.000000 -1.649431e-05  -0.000158         -0.029125   
DIVERTED                 -0.000016  1.000000e+00  -0.009581          0.000027   
CANCELLED                -0.000158 -9.580963e-03   1.000000          0.000258   
AIR_SYSTEM_DELAY         -0.029125  2.696601e-05   0.000258          1.000000   
SECURITY_DELAY            0.112820 -8.738411e-06  -0.000084         -0.072857   
AIRLINE_DELAY             0.370123  6.203747e-06   0.000059         -0.231906   
LATE_AIRCRAFT_DELAY       0.262079  1.639126e-05   0.000157         -0.097807   
WEATHER_DELAY             0.282422  4.927761e-07   0.000005         -0.159545   

                     SECURITY_DELAY  AIRLINE_DELAY  LATE_AIRCRAFT_DELAY  \
ARRIVAL_DELAY              0.112820       0.370123             0.262079   
DIVERTED                  -0.000009       0.000006             0.000016   
CANCELLED               

## Soluciones a los ejercicios para practicar

## Ejercicio 1

a) ¿Cuantos valores diferentes tiene el atributo `marital` en el conjunto de datos? Mostrad estos valores.

In [30]:
import pandas as pd
import numpy as np

data = pd.read_csv("data/bank_edited.csv", sep=";", dtype={"balance":np.float})

import numpy as np

# Con unique podemos encotrar los valors únicos

v = data.marital.unique()

print("There are {} different values in marital:\n{}".format(len(v), v))


There are 11 different values in marital:
['married' 'single' 'marrid' 'divorced' 'maried' 'sing' 'Married'
 'MARRIED' 'DIVORCED' 'Single' 'SINGLE']


 b) Unificad los atributos `marital` en los valores: "single", "married" o "divorced".

In [31]:
data.loc[(data.marital == "Married") | (data.marital == "maried") | (data.marital == "MARRIED") | 
         (data.marital == "marrid"), "marital"] = "married"
data.loc[(data.marital == "Single") | (data.marital == "SINGLE") | (data.marital == "sing"), "marital"] = "single"
data.loc[(data.marital == "DIVORCED"), "marital"] = "divorced"

# Comprobación

v = data.marital.unique()
print("There are {} different values in marital:\n{}".format(len(v), v))


There are 3 different values in marital:
['married' 'single' 'divorced']


c) Qué columnas contienen valores perdidos? 

In [32]:
# Para esto usamos la función  any_isna a cada columna del dataframe 
print(data.isna().any())


age          False
job          False
marital      False
education    False
default      False
balance       True
housing      False
loan         False
contact      False
day           True
month        False
duration      True
campaign     False
pdays        False
previous     False
poutcome     False
y            False
dtype: bool


d) Calculad el primer y el tercer cuartil del atributo `balance`.

In [33]:
print((data['balance'].quantile(0.25)))
print(data['balance'].quantile(0.75))

68.0
1476.0


## Ejercicio 2

El atributo `poutcome` contiene información sobre si el cliente del banco contractó un deposito. Calula la correlacióm entre el atributo `poutcome` y el resto de atributos (usa la función `corr'). Qué variable presenta mayor correlación con 'poutcome'?

In [104]:
# Visualizamos los valores de la columna poutcome
import pandas as pd
import numpy as np
import warnings

warnings.filterwarnings('ignore')

data.poutcome.unique()

array(['unknown', 'failure', 'other', 'success'], dtype=object)

In [105]:
# Seleccionamos únicamente la muestras que contienen  informacióno precisa sobre el ciente contrató o no el depósito

data_pout = data[data.poutcome.isin(("failure","success"))]

# Discretizamos la columna poutcome para poder calcular la correlación 

data_pout['poutcome_cat'] = data_pout.poutcome.astype("category").cat.codes

# Calculamos la correlación con el resto de columnas 

data_pout.corr()["poutcome_cat"]

age             0.090540
balance         0.039791
day             0.009252
duration        0.142385
campaign       -0.059986
pdays          -0.276853
previous        0.023411
poutcome_cat    1.000000
Name: poutcome_cat, dtype: float64

Observad que la columna `pdays` muestra tenir mayor correlació en valor absoluto con  poutcome_cat.  Tened en cuenta que hemos asignado un 0/1 a "failure"/"succes" de manera arbitraria, así que el signo no es significtivo en este caso.

## Ejercicio 3

El módulo sklearn incluye varios datasets de ejemplo, dentro del módulo `sklearn.datasets`. Estos datasets se almacenan en formato `Bunch`, propio de sklearn. Un `Bunch` es un objeto tipo diccionario, los atributos interesantes son: `data`, con los datos en crudo, `target`, con generalmente las etiquetas de clasificación o etiquetas objetivo, `target_names`, el significado de las etiquetas, `feature_names`, el significado de las características o atributos, `DESCR` , la descripción completa del conjunto de datos.

Importa el dataset `iris` de `sklearn`. Almacena los datos este dataset como un objeto `pandas`, con los correpondientres nombres de variables. Añade la variable `target` en el dataframe con el nombre de atributo `Species` y los valors con el tipo de especie de cada muestra.


In [36]:
from sklearn import datasets
import pandas as pd
iris_bunch = datasets.load_iris()
iris_pandas = pd.DataFrame(iris_bunch['data'],columns=iris_bunch['feature_names'])
iris_pandas['Species'] = iris_bunch['target_names'][iris_bunch['target']]


In [37]:
iris_pandas.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [38]:
iris_pandas.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [39]:
iris_pandas.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5
