In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker # para vosualización de intervalos
import seaborn as sns

In [2]:
#pwd # para saber en q directorio estamos
#cd .. # retrocedo un folder
#cd Documents # ingreso a Documents
#ls # muestro el contenido del folder

### 1. Obtención de datos

In [3]:
casas = pd.read_csv("USA_Housing.csv") #creo el DataFrame

In [4]:
casas.head(3) # muestro los 5ros elementos por defecto 

Unnamed: 0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price,Address
0,79545.458574,5.682861,7.009188,4.09,23086.800503,1059034.0,"208 Michael Ferry Apt. 674\nLaurabury, NE 3701..."
1,79248.642455,6.0029,6.730821,3.09,40173.072174,1505891.0,"188 Johnson Views Suite 079\nLake Kathleen, CA..."
2,61287.067179,5.86589,8.512727,5.13,36882.1594,1058988.0,"9127 Elizabeth Stravenue\nDanieltown, WI 06482..."


In [5]:
casas.info()
#casas['Price'] # devuelve una columna 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 7 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Avg. Area Income              5000 non-null   float64
 1   Avg. Area House Age           5000 non-null   float64
 2   Avg. Area Number of Rooms     5000 non-null   float64
 3   Avg. Area Number of Bedrooms  5000 non-null   float64
 4   Area Population               5000 non-null   float64
 5   Price                         5000 non-null   float64
 6   Address                       5000 non-null   object 
dtypes: float64(6), object(1)
memory usage: 273.6+ KB


In [None]:
casas.describe()

In [None]:
#Distribución del precio
#sns.displot(casas['Price']) #cuadraditos
"""con casas.describe()  vimos que el precio medio es 1.232073, el maximo 2,5 y el minimo en 1,6
la curva correcponde a distribucion normal--> La distribución tiene la forma de una campana
y la mayor parte del área de esta campana se encuentra donde la media (mediana y moda).
El área debajo de la campana es de 1, y se divide por 0.5 a la izquierda y 0.5 a la derecha de la media."""

sns.distplot(casas['Price'])

### 2. Limpieza de datos


In [None]:
""" Veo la correlacion entre las columnas lo que mas influye en el precio es 0,64
se toma en cuenta el minimo, maximo """
sns.heatmap(casas.corr(), annot=True)

In [None]:
# Dimensiones del dataset
casas.shape

In [None]:
# Número de datos ausentes por variable
"""Los valores ausentes son muy importantes a la hora de crear modelos, 
la mayoría de algoritmos no aceptan observaciones incompletas o bien se 
ven muy influenciados por ellas. Aunque la imputación de valores ausentes 
es parte del preprocesado y, por lo tanto, debe de aprenderse únicamente 
con los datos de entrenamiento, su identificación se tiene que realizar 
antes de separar los datos para asegurar que se establecen todas las 
estrategias de imputación necesarias."""
casas.isna().sum().sort_values()

In [None]:
# Gráfico de distribución para cada variable numérica
# para conocer las características definitivas
"""Explicar que se excluye la etiqueta """

fig, axes = plt.subplots(nrows=3, ncols=2, figsize=(10, 10))
axes = axes.flat
columnas_numeric = casas.select_dtypes(include=['float64', 'int']).columns
columnas_numeric = columnas_numeric.drop('Price')

for i, colum in enumerate(columnas_numeric):
    sns.histplot(
        data    = casas,
        x       = colum,
        stat    = "count",
        kde     = True,
        color   = (list(plt.rcParams['axes.prop_cycle'])*2)[i]["color"],
        line_kws= {'linewidth': 2},
        alpha   = 0.3,
        ax      = axes[i]
    )
    axes[i].set_title(colum, fontsize = 7, fontweight = "bold")
    axes[i].tick_params(labelsize = 5)
    axes[i].set_xlabel("")
    
# Se eliminan los axes vacíos
for i in [5]:
    fig.delaxes(axes[i])    
    
fig.tight_layout()
plt.subplots_adjust(top = 0.9)
fig.suptitle('Distribución variables numéricas', fontsize = 10, fontweight = "bold");

In [None]:
# como parte de la limpieza de datos es modificarlos de modo q se pueda acceder a ellos
casas.columns 

In [None]:
# Valores observados de Bedrooms
#casas.Avg. Area Number of Bedrooms.value_counts() 
"""no es posible necesito renombrar"""

In [None]:
casas=casas.rename(columns={'Avg. Area Income':'Income', 'Avg. Area House Age':'HouseAge', 'Avg. Area Number of Rooms':'Rooms',
       'Avg. Area Number of Bedrooms':'Bedrooms', 'Area Population':'Population'})

In [None]:
# Se convierte la variable Bedrooms tipo string
casas.Bedrooms = casas.Bedrooms.astype("str")
"""luego realizar un modelo que incluya este dato"""

In [None]:
casas.select_dtypes(include=['float64', 'int']).describe()

In [None]:
"""Como el objetivo del estudio es predecir el precio de las viviendas, 
el análisis de cada variable se hace también en relación a la variable respuesta precio.
Analizando los datos de esta forma, se pueden empezar a extraer ideas sobre qué
variables están más relacionadas con el precio y de qué forma."""

# Gráfico de distribución para cada variable numérica
# ==============================================================================
# Ajustar número de subplots en función del número de columnas
fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(10, 10))
axes = axes.flat
columnas_numeric = casas.select_dtypes(include=['float64', 'int']).columns
columnas_numeric = columnas_numeric.drop('Price')

for i, colum in enumerate(columnas_numeric):
    sns.regplot(
        x           = casas[colum],
        y           = casas['Price'],
        color       = "gray",
        marker      = '.',
        scatter_kws = {"alpha":0.4},
        line_kws    = {"color":"r","alpha":0.7},
        ax          = axes[i]
    )
    axes[i].set_title(f"precio vs {colum}", fontsize = 7, fontweight = "bold")
    axes[i].yaxis.set_major_formatter(ticker.EngFormatter())
    axes[i].xaxis.set_major_formatter(ticker.EngFormatter())
    axes[i].tick_params(labelsize = 4)
    axes[i].set_xlabel("")
    axes[i].set_ylabel("")

    
fig.tight_layout()
plt.subplots_adjust(top=0.9)
fig.suptitle('Correlación con precio', fontsize = 10, fontweight = "bold");


In [None]:
# Variables cualitativas (tipo object)
casas.select_dtypes(include=['object']).describe()

In [None]:
casas.head(3)

In [None]:
cols = [col for col in casas if col != casas.columns[-4]] + [casas.columns[-4]] 
casas = casas[cols]
casas.head(3)

In [None]:
# Acomodar la data tambien es una opcion

# Cambiar el orden de las columnas
cols = [col for col in casas if col != casas.columns[-2]] + [casas.columns[-2]] 
casas = casas[cols]
casas.head()