## Proceso de ML

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker # para visualización de intervalos
import seaborn as sns

### 1. Obtención de datos

In [2]:
casas = pd.read_csv("USA_Housing.csv") #creo el DataFrame

In [3]:
casas.head(5) # muestro los 5ros elementos por defecto 

Unnamed: 0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price,Address
0,79545.458574,5.682861,7.009188,4.09,23086.800503,1059034.0,"208 Michael Ferry Apt. 674\nLaurabury, NE 3701..."
1,79248.642455,6.0029,6.730821,3.09,40173.072174,1505891.0,"188 Johnson Views Suite 079\nLake Kathleen, CA..."
2,61287.067179,5.86589,8.512727,5.13,36882.1594,1058988.0,"9127 Elizabeth Stravenue\nDanieltown, WI 06482..."
3,63345.240046,7.188236,5.586729,3.26,34310.242831,1260617.0,USS Barnett\nFPO AP 44820
4,59982.197226,5.040555,7.839388,4.23,26354.109472,630943.5,USNS Raymond\nFPO AE 09386


In [4]:
#información general de la data
casas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 7 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Avg. Area Income              5000 non-null   float64
 1   Avg. Area House Age           5000 non-null   float64
 2   Avg. Area Number of Rooms     5000 non-null   float64
 3   Avg. Area Number of Bedrooms  5000 non-null   float64
 4   Area Population               5000 non-null   float64
 5   Price                         5000 non-null   float64
 6   Address                       5000 non-null   object 
dtypes: float64(6), object(1)
memory usage: 273.6+ KB


In [None]:
casas.describe() 

In [None]:
"""El precio medio es 1.232073, el maximo 2,5 y el minimo en 1,6
la curva corresponde a distribucion normal--> La distribución tiene la forma de una campana
y la mayor parte del área de esta campana se encuentra donde la media (mediana y moda).
El área debajo de la campana es de 1, y se divide por 0.5 a la izquierda y 0.5 a la derecha de la media."""
sns.distplot(casas['Price'])

### 2. Limpieza de datos


In [None]:
""" Veo la correlacion entre las columnas lo que mas influye en el precio es 0,64
se toma en cuenta el minimo, maximo """
sns.heatmap(casas.corr(), annot=True)

In [None]:
# Dimensiones del dataset
casas.shape
#cantidad de datos (filas x columnas)

In [None]:
# Número de datos ausentes por variable
"""La mayoría de algoritmos no aceptan observaciones incompletas o bien se 
ven muy influenciados por ellas. Su identificación se tiene que realizar / eliminar
antes de separar los datos para asegurar que se establecen todas las 
estrategias de imputación necesarias."""
casas.isna().sum().sort_values()

In [None]:
# como parte de la limpieza de datos es modificarlos de modo q se pueda acceder a ellos
casas.columns 

In [None]:
# Valores observados de Bedrooms
casas.Avg. Area Number of Bedrooms.value_counts() 
"""no es posible necesito renombrar"""

In [None]:
casas=casas.rename(columns={'Avg. Area Income':'Income', 'Avg. Area House Age':'HouseAge', 'Avg. Area Number of Rooms':'Rooms',
       'Avg. Area Number of Bedrooms':'Bedrooms', 'Area Population':'Population'})
casas.Bedrooms.value_counts() 

In [None]:
# Se convierte la variable Bedrooms tipo string
"""luego realizar un modelo que incluya este dato"""
casas.Bedrooms = casas.Bedrooms.astype("str")
casas.Bedrooms

In [None]:
# se muestran datos solo del tipo especificado (solo consulta,no se modifican)
casas.select_dtypes(include=['float64', 'int']).describe()

In [None]:
# Variables cualitativas (tipo object)
casas.select_dtypes(include=['object']).describe()

### 3. Divido los datos en entrenamiento y prueba.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import minmax_scale

In [None]:
casas.head(3)

In [None]:
# paso los datos de Bedrooms al final
cols = [col for col in casas if col != casas.columns[-4]] + [casas.columns[-4]] 
casas = casas[cols]
casas.head(3)

In [None]:
# los datos se dejaron como estaban (no hubo limpieza)
# Pero, acomodar la data tambien es una opcion


In [None]:
"""# Variables numéricas"""
# la idea es estimar el precio a futuro 
# casas.select_dtypes(include=['float64', 'int']).describe()
x = casas.iloc[:, :-3] # tomo las caracteristicas ..todas las columnas q no son precios
x

In [None]:
"""Cuando se crea un modelo, es muy importante estudiar la distribución de la variable
respuesta, ya que, a fin de cuentas, es lo que interesa predecir. """
#y = casas.iloc[:, -1:]# columna / variable objetivo
y = casas['Price']
y

In [None]:
# entremiento 70 - 30%.. aleatoreamente
x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.30, random_state=42)

### 4. Creo y entreno el modelo

In [None]:
# Transformaciones para las variables numéricas
# PROBAR con y sin esto transformación
#x_train = minmax_scale(x_train)
#y_train = minmax_scale(y_train)

In [None]:
lrm = LinearRegression() # algoritmo a utilizar
lrm.fit(x_train,y_train) #

### 5. Modelo de pruebas (evalua el modelo)

In [None]:
from sklearn import metrics

In [None]:
"""
x_test tiene el precio real de las casas con el que podemos comparar
--> predicciones 1308536.1359262  vs y_test 1.339096e+06 la diferencia es de 0.3
este seria el error """
y_pred = lrm.predict(x_test)
y_pred

In [None]:
plt.scatter(y_test, y_pred)
"""SI se traza una linea diagonal vemos que practicamente pasaria 
por la mitad, lo que indica que los datos de prediccion y reales se parecen
los datos que estan cerca a la diagonal quiere decir q el modelo es bueno"""

In [None]:
"""restamos el precio real de la prediccion, el cual es el error (valor recidual)
si no tuviera un modelo de distribucionon normal deberiamos replantear el modelo"""
sns.distplot(y_test - y_pred)

In [None]:
# calculamos el coeficiente de determinación R2
"""El rango de R2 está entre 0 y 1, siendo 1 lo mejor."""
print("Coeficiente de determinación R^2:", lrm.score(x_train,y_train))

In [None]:
print("Coeficiente de determinación R^2:", lrm.score(x_test,y_pred))

In [None]:
# MAE (Mean absolute error) - Error medio absoluto
metrics.mean_absolute_error(y_test,y_pred) # paso los valores reales y predicciones
# mientras menor es el valor mejor es el modelo

In [None]:
# MSE (Error cuadrático medio)
metrics.mean_squared_error(y_test,y_pred)

In [None]:
# RMSE (Raíz Cuadrada del MSE)
np.sqrt(metrics.mean_squared_error(y_test,y_pred))

In [None]:
# Se crea un dataframe con las predicciones y el valor real
from math import *
df_predicciones = pd.DataFrame({'precio' : y_test, 'prediccion' : y_pred, 'dif' : abs((y_test-y_pred))})
df_predicciones.head()

In [None]:
# Conclusion el modelo es un bastante bueno asi que puede se utilizado como modelo defnitivo