### DIPLOMATURA EN CIENCIA DE DATOS 2019

#### CORACIÓN DE DATOS

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats
import numpy as np

import warnings
warnings.filterwarnings('ignore')

**Usaremos la bliblioteca Pandas para leer los datos a partir del archivo dataset.csv que los contiene y mostramos un ejemplo de 5 registros.**

In [None]:
np.random.seed(0)
data = pd.read_csv('dataset.csv')
data.sample(5)

**Veamos cuales son las features con valores faltantes y que porcentaje de valores nulos tiene cada feature.**

In [None]:
total = data.isnull().sum().sort_values(ascending=False)
percent = (data.isnull().sum() / data.shape[0]).sort_values(ascending=False)
missing_data = pd.concat([total, percent * 100], axis=1, keys=['Total', 'Percent'])
missing_data[missing_data['Total'] != 0] 

### EJERCICIOS

**EL objetivo de este práctico es dejar los datos listos para que sean tomados para el entrenamiento de un metodo supervisado o para aplicar modelos no supervisados. Si observamos los datos vemos que tenemos que hacer un poco de trabajo en este practico ya que existe gran cantidad de valores nulos y valores atipicos. Tambien deberiamos de separar las variables categoricas de las numericas.**

**A continuación se muestran 3 tareas a realizar en el conjunto de datos:**

**1 - Elimine los valores nulos de conjunto de datos, los modelos de machine learning fallaran si les llega algún dato nulo. Consejos:**
   
    a - Es preferible eliminar las columnas con muchos valores faltantes a las filas. Si eliminamos las filas perderemos
        una gran cantidad de registros y eso no es bueno, ya que perderemos datos para el entrenamiento de nuetro modelo.
    b - En los casos en los que el porcentaje de valores nulos sea bajo, vean si esas variables se correlacionan con 
        otras y las eliminan. 
    c - En el caso en el que sea minimos los valores nulos, eliminen el registro, este podria ser el caso de Electrical.
    
**2 - En el conjunto de datos existen dos tipos de features, unas son numéricas y otras categóricas. Separe estos dos subconjuntos, ya que serán usados en modelos distintos. Unas observación importantes:**

    a - Es importante hacer una transformación de las variables, categóricas a tipo categórico, como se vio en las
        clases teóricas.
    b - Tambien deberian de normalizar las features numéricas para que sus valores oscilen entre 0 y 1. Esto puede ser
        de vital importancia para el funcionamiento correcto de algunos modelos.


**3 - Después de sacar los valores nulos y detectar las features numéricas debemos de sacarles los outliers, a estas. Los outliers son aquellos puntos que estan muy alejados de la mediana. Estos influirán en los resultados de nuestro modelo, introduciendo una desviación al mismo. Esta desviación es consecuencia de que el modelo minimiza la distancia con el valor atípico a la vez que aumenta la distancia con los puntos correctos. Pistas para eliminarlos:**
    
    a - Los valores atípicos estarán relacionados a las variables numéricas, es decir aquellas features que no son
        categóricas. Debemos de localizar las variables numericas.
    b - Los valóres atípicos son aquellos que se encuentras más allá del rango intercualtir Q3 + 1,5*[Q3 - Q1] o 
        Q1 - 1,5*[Q3 - Q1]

### INFORME

**Una vez respondidos los puntos anteriores se entregará un informe en el que y muestren la conclusiones obtenidas del caso de estudio. El informe deberá de contener los gráficos, estadísticos y tablas necesarias para el mejor entendimiento de los resultados obtenidos. Este podrá ser entregado en html, markdown o pdf y deben de redactarlo como si fuese dirigido a un cliente que no sabe de análisis de datos.**

----

### AYUDA

**Veamos como se eliminan los valores atípicos de LotArea. Esto mismo lo tienen que hacer para todas las variables numericas. Pueden crear alguna función que vaya recorriendo las columnas numericas y sacando los valores atipicos.**

**Tengan en cuenta que para eliminar los outliers deben de haber limpiado antes el dataset de valores nulos y aplicar solo a las variables no categóricas.**

In [None]:
# Representacion de los valóres atípicos para LotArea
plt.figure(figsize=(5, 5))
sns.boxplot(x='LotArea', data=data)

In [None]:
# https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51
Q1 = np.percentile(data['LotArea'], 25)
Q3 = np.percentile(data['LotArea'], 75)
iqr = Q3 - Q1
lower_limit = Q1 - 1.5 * iqr
higher_limit = Q3 + 1.5 * iqr

In [None]:
# Obtenemos los indices de los outliers para lotArea y los agrupamos en una lista
lower_outliers = data[data['LotArea'] < lower_limit].index
higher_outliers = data[data['LotArea'] > higher_limit].index
outliers = np.concatenate([lower_outliers, higher_outliers], axis=0)

In [None]:
outliers

In [None]:
# Eliminamos los registros que son outliers
data_not_outliers = data['LotArea'].drop(data.index[outliers])

In [None]:
print("total datos: {0}".format(data.shape[0]))
print("datos sin outliers: {0}".format(data_not_outliers.shape[0]))
print("outliers: {0}".format(len(outliers)))

In [None]:
# Representacion de los valóres atípicos para LotArea
plt.figure(figsize=(5, 5))
sns.boxplot(x=data_not_outliers)