# Importación de datos y preparación

## Diccionario de datos

|  Atributo  |        Descripción         |
|------------|----------------------------|
|precio|Valor de la propiedad en miles de US$|
|tasa_crimen|Proporción de crimenes en el vecindario|
|area_resid|Proporcion del área residencial en la localidad|
|cal_aire|Calidad del aire en el vecindario|
|num_hab|Promedio de habitaciones en las propiedades de la localidad|
|edad|Antiguedad de la casa en años|
|dist1|Distancia al centro de empleo 1|
|dist2|Distancia al centro de empleo 2|
|dist3|Distancia al centro de empleo 3|
|dist4|Distancia al centro de empleo 4|
|prof_mil|Cantidad de profesores por cada 1.000 habitantes de la localidad|
|p_pobreza|Proporción de pobreza en la localidad|
|aeropuerto|Existencia de aropuerto en la localidad (SI/NO)|
|n_cam_hos|Número de camas en los hospitales de la localidad por cada 1.000 habitantes|
|n_hab_hotel|Número de habitaciones de hotel en la localidad por cada 1.000 habitantes|
|cuerpo_agua|Cuerpo natural de agua más cercano|
|lluvia_ano|Promedio anual de centimetros de agua lluvia en la localidad|
|ter_bus|Existencia de terminal de buses en la localidad (SI/NO)|
|parque|Proporción de tierra asignada en la localidad para parques|

In [None]:
# Modulo que permite que Python pueda tener acceso a las operaciones del sistema operativo
# no se usa en el caso de trabajar en Google Collab o Notebooks en Kaggle
import os

In [None]:
# Muestra el directorio de trabajo actual
os.getcwd()

In [None]:
# Cambiar la ubicación del directorio de trabajo
os.chdir('C:/Users/jacos/Documents/Modulo 2')

In [None]:
os.getcwd()

In [None]:
import numpy as np # https://numpy.org/
import pandas as pd # https://pandas.pydata.org/
import seaborn as sns # https://seaborn.pydata.org/

In [None]:
# Leer el conjunto de datos y guardarlos en un objeto tipo DataFrame
url = 'https://raw.githubusercontent.com/JASDataCTG/Diplomado-ML/main/Modulo%202/Datasets/precio_casa_reg.csv'
df = pd.read_csv(url, header = 0)

In [None]:
# Mostrar las primeras cinco filas del dataframe por defecto, para mostrar más
# utilizar df.head(n=10)
df.head()

In [None]:
# Mostrar el número de filas y columnas del dataframe
df.shape

In [None]:
# Presentar información sobre las variables presentes en el dataframe y sus tipos de datos
df.info()

# Descripción de las variables
![Asimetría](asimetria.jpg)
![Curtosis](curtosis.jpg)

In [None]:
# Ver los estadísticos descriptivos de los atributos numéricos
df.describe()

In [None]:
# Visualizar la distribución de las variables y ver la nube de puntos (x,y)
sns.jointplot(x = df['n_hab_hotel'], y = df['precio'])

In [None]:
sns.jointplot(x = df['lluvia_ano'], y = df['precio'])

En las gráficas se observan algunos puntos que se comportan como valores atípicos a los cuales debemos ponerles un techo a su crecimiento para que no afecten los modelos de regresión.

In [None]:
# Visualizar los diagrama de barras de las variables categóricas con countplot
sns.countplot(x = df['aeropuerto'])

In [None]:
sns.countplot(x = df['cuerpo_agua'], palette = 'dark')

In [None]:
sns.countplot(x = df['ter_bus'], palette = 'dark')

Como se puede observar la variable 'ter_bus'solo presenta un valor por lo que no aporta información al modelo.

In [None]:
# Otro tipo de grafíco interesante es el PairGrid que crea una matriz de gráficas de puntos
# de todas las variables numéricas
g = sns.PairGrid(df[['lluvia_ano', 'n_hab_hotel', 'num_hab', 'n_cam_hos', 'edad', 'cal_aire']])
g.map(sns.scatterplot)
g2 = g.add_legend()
#g2.savefig('nube_puntos.png')

### Hallazgos en el análisis de los datos

* El atributo n_cam_hos (números de cama en los hospitales) tiene valores nulos
* Outlier evidentes en los estadísticos descriptivos del atributo tasa_crimen
* Se pueden visualizar outliers en los atributos lluvia_ano y n_hab_hotel
* La variable term_bus tiene un solo valor

# Tratamiendo de los outliers
A los valores atípicos observados en la figura se les desarrolla un tratamiento para que no afecten el modelo, en el caso de los atípicos superiores solo vamos a dejar que los valores lleguen hasta tres veces el valor ubicado en el percentil 99, y para los atípicos inferiores serán como mínimo 0.3 veces el valor ubicado en el percentil 1.

Existen otras formas de tratar los atípicos que se pueden consultar en el siguiente enlace: 

https://towardsdatascience.com/ways-to-detect-and-remove-the-outliers-404d16608dba

In [None]:
# Proceder a ubicar el valor que se encuentra en el percentil 99
np.percentile(df.n_hab_hotel,[99])

In [None]:
# Para ver el valor sin la notación de array (vector o arreglo), y al ser un array de un
# solo elemento accedemos al valor ubicado en la posición 0 (Python indexa desde 0)
np.percentile(df.n_hab_hotel,[99])[0]

In [None]:
# Ver el valor de referencia para establecer el piso superior del método piso y techo
lim_sup = np.percentile(df.n_hab_hotel,[99])[0]

In [None]:
# Revisar los datos en nuestro dataset que son outliers por encima del límite superior
df[df.n_hab_hotel > lim_sup]

In [None]:
df.n_hab_hotel[df.n_hab_hotel > 3 * lim_sup] = 3 * lim_sup

In [None]:
np.percentile(df.lluvia_ano,[1])[0]

In [None]:
lim_inf = np.percentile(df.lluvia_ano,[1])[0]

In [None]:
df[df.lluvia_ano < lim_inf]

In [None]:
df.lluvia_ano[df.lluvia_ano < 0.3 * lim_inf] = 0.3 * lim_inf

In [None]:
# Si se desea trabajar sin el formato atributo['nombre>atr'] debe informar a la función
# de Seaborn el nombre del dataframe que se esta utilizando
sns.jointplot(x = 'tasa_crimen', y = 'precio', data = df)

In [None]:
# Una vez que hacemos el tratamiento de los outliers la media y la mediana de los atributos
# se encuentran más cercanas
df.describe()

In [None]:
# Ahora podemos ver el efecto del tratamiento que se le ha dado a los outliers en las gráficas
sns.jointplot(x = df['n_hab_hotel'], y = df['precio'])

In [None]:
sns.jointplot(x = df['lluvia_ano'], y = df['precio'])

# Imputación de valores faltantes en el atributo n_cam_hos

In [None]:
# Ver los valores NaN en el atributo
df.n_cam_hos[df.n_cam_hos.isna()]

In [None]:
# Se puede verificar la existencia de NaN en un datafarme con la siguiente instrucción:
# df.isna().values.any()
df.n_cam_hos = df.n_cam_hos.fillna(df.n_cam_hos.mean())

In [None]:
df.info()

In [None]:
# Confirmar si queda en el dataframe algún atributo con valores perdidos
df.isna().values.any()

# Transformación de variables

In [None]:
sns.jointplot(x = df['tasa_crimen'], y = df['precio']) # Evaluar la función de tendencia para la nube de puntos

In [None]:
# Transformar el atributo tasa crimen
df.tasa_crimen = np.log(1 + df.tasa_crimen) 

In [None]:
sns.jointplot(x = df['tasa_crimen'], y = df['precio']) # Verificar el efecto de la transformación

In [None]:
# Promediar las distancias para crear un solo atributo distancia promedio (dist_prom)
df['dist_prom'] = (df.dist1 + df.dist2 + df.dist3 + df.dist4) / 4 

In [None]:
df.describe() # Ver los estadísticos descriptivos de la nueva variable

In [None]:
# Eliminar los atributos de distancia
del df['dist1'] 

In [None]:
del df['dist2']

In [None]:
del df['dist3']

In [None]:
del df['dist4']

In [None]:
df.describe()

In [None]:
# Eliminar atributo ter_bus dado que un solo valor no aporta información al modelo
del df['ter_bus']

In [None]:
df.head()

# Crear variables dummy para los atributos categóricos
Algunos algoritmos de aprendizaje automático no pueden desarrollar los entrenamientos con variables categóricas por lo que se hace necesario codificarlas a través de variables dummies

In [None]:
# Separa los valores únicos de los atributos categóricos en columnas
# que indicaran la presencia(1) o la ausencia(0) de los valores
df = pd.get_dummies(df) 

In [None]:
df.head()

In [None]:
# Eliminar atributos redundantes
del df['aeropuerto_NO'] 

In [None]:
del df['cuerpo_agua_Ninguno']

In [None]:
df.head()

In [None]:
# Guardar dataset con el preproceso finalizado
# para su uso en los siguientes pasos.
#df.to_csv('precio_prep_reg.csv', header = True, index = False) 