# Importación de datos y preparación

In [None]:
import os # Modulo que permite que Python pueda tener acceso a las operaciones del sistema operativo

In [None]:
os.getcwd() # Muestra el directorio de trabajo actual

In [None]:
os.chdir('C:/Users/jacos/Documents/Modulo 2') # Cambia la ubicación del directorio de trabajo

In [None]:
os.getcwd()

In [None]:
import numpy as np # https://numpy.org/
import pandas as pd # https://pandas.pydata.org/
import seaborn as sns # https://seaborn.pydata.org/

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/JASDataCTG/Diplomado-ML/main/Modulo%202/Datasets/precio_casa_reg.csv', header = 0)

In [None]:
df.head() # Muestra las primeras cinco filas del dataframe por defecto

In [None]:
df.shape # Muestra las filas y columnas del dataframe

In [None]:
df.info() # Presenta información sobre las variables y sus tipos de datos

# Descripción de las variables
![Asimetría](asimetria.jpg)
![Curtosis](curtosis.jpg)

In [None]:
df.describe() # Ver los estadísticos descriptivos de los atributos numéricos

In [None]:
sns.jointplot(x = df['n_hab_hotel'], y = df['precio']) # Visualizar la distribución de las variables y ver la nube de puntos (x,y)

In [None]:
sns.jointplot(x = df['lluvia_ano'], y = df['precio'])

In [None]:
sns.countplot(x = df['aeropuerto']) # Visualizamos un diagrama de barras de las variables categóricas con countplot

In [None]:
sns.countplot(x = df['cuerpo_agua'], palette = 'dark')

In [None]:
sns.countplot(x = df['ter_bus'], palette = 'dark')

In [None]:
#g = sns.PairGrid(df)
#g.map(sns.scatterplot)
#g2 = g.add_legend()
#g2.savefig('nube_puntos.png')

### Hallazgos en el análisis de los datos

* El atributo n_cam_hos (números de cama en los hospitales) tiene valores nulos
* Outlier evidentes en los estadísticos descriptivos del atributo tasa_crimen
* Se pueden visualizar outliers en los atributos lluvia_ano y n_hab_hotel
* La variable term_bus tiene un solo valor

# Tratamiendo de los outliers

In [None]:
np.percentile(df.n_hab_hotel,[99]) #Teniendo los datos ordenados ahora ubicamos el valor que se ubica en el percentil 99

In [None]:
np.percentile(df.n_hab_hotel,[99])[0] # Para ver el valor sin la notación de array (vector o arreglo),
# y al ser un array de un solo elemento accedemos al valor ubicado en la posición 0 (Python indexa desde 0)

In [None]:
lim_sup = np.percentile(df.n_hab_hotel,[99])[0] # Ver el valor de referencia para establecer el piso superior del
# método piso y techo

In [None]:
df[df.n_hab_hotel > lim_sup] # Revisamos los datos en nuestro dataset que son outliers por encima del límite superior

In [None]:
df.n_hab_hotel[df.n_hab_hotel > 3 * lim_sup] = 3 * lim_sup

In [None]:
np.percentile(df.lluvia_ano,[1])[0]

In [None]:
lim_inf = np.percentile(df.lluvia_ano,[1])[0]

In [None]:
df[df.lluvia_ano < lim_inf]

In [None]:
df.lluvia_ano[df.lluvia_ano < 0.3 * lim_inf] = 0.3 * lim_inf

In [None]:
sns.jointplot(x = 'tasa_crimen', y = 'precio', data = df) # Si se desea trabajar sin el formato atributo['nombre>atr']
# debe informar a la función de Seaborn el nombre del dataframe que se esta utilizando

In [None]:
df.describe() # Una vez que hacemos el tratamiento de los outliers la media y la mediana de los atributos
# se encuentran más cercanas

In [None]:
# Ahora podemos ver el efecto del tratamiento que se le ha dado a los outliers en las gráficas
sns.jointplot(x = df['n_hab_hotel'], y = df['precio'])

In [None]:
sns.jointplot(x = df['lluvia_ano'], y = df['precio'])

# Imputación de valores faltantes en el atributo n_cam_hos

In [None]:
df.n_cam_hos[df.n_cam_hos.isna()] # Ver los valores NaN en el atributo

In [None]:
df.n_cam_hos = df.n_cam_hos.fillna(df.n_cam_hos.mean())
# Se puede verificar la existencia de NaN en un datafarme con la siguiente instrucción: df.isna().values.any()

In [None]:
df.info()

In [None]:
df.isna().values.any() # Confirmar si queda en el dataframe algún atributo con valores perdidos

# Transformación de variables

In [None]:
sns.jointplot(x = df['tasa_crimen'], y = df['precio']) # Evaluar la función de tendencia para la nube de puntos

In [None]:
df.tasa_crimen = np.log(1 + df.tasa_crimen) # Transformar el atributo tasa crimen

In [None]:
sns.jointplot(x = df['tasa_crimen'], y = df['precio']) # Verificar el efecto de la transformación

In [None]:
df['dist_prom'] = (df.dist1 + df.dist2 + df.dist3 + df.dist4) / 4 # Promediar las distancias para crear un solo atributo
# distancia promedio (dist_prom)

In [None]:
df.describe() # Ver los estadísticos descriptivos de la nueva variable

In [None]:
del df['dist1'] # Eliminar los atributos de distancia

In [None]:
del df['dist2']

In [None]:
del df['dist3']

In [None]:
del df['dist4']

In [None]:
df.describe()

In [None]:
del df['ter_bus'] # Eliminar atributo ter_bus dado que un solo valor no aporta información al modelo

In [None]:
df.head()

# Crear variables dummy para los atributos categóricos
Algunos algoritmos de aprendizaje automático no pueden desarrollar los entrenamientos con variables categóricas

In [None]:
df = pd.get_dummies(df) # Separa los valores únicos de los atributos categóricos en columnas
# que indicaran la presencia(1) o la ausencia(0) de los valores

In [None]:
df.head()

In [None]:
del df['aeropuerto_NO'] # Eliminar atributos redundantes

In [None]:
del df['cuerpo_agua_Ninguno']

In [None]:
df.head()

In [None]:
df.to_csv('precio_prep_reg.csv', header = True, index = False) # Guardar dataset con el preproceso finalizado
# para su uso en los siguientes pasos.