# House Prices: Advanced Regression Techniques"

## Análsis exploratorio

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

sns.set_theme(style="whitegrid")

filePath = './train.csv'

df = pd.read_csv(filePath, encoding="ISO-8859-1")
print(df.head())


   Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape  \
0   1          60       RL         65.0     8450   Pave   NaN      Reg   
1   2          20       RL         80.0     9600   Pave   NaN      Reg   
2   3          60       RL         68.0    11250   Pave   NaN      IR1   
3   4          70       RL         60.0     9550   Pave   NaN      IR1   
4   5          60       RL         84.0    14260   Pave   NaN      IR1   

  LandContour Utilities  ... PoolArea PoolQC Fence MiscFeature MiscVal MoSold  \
0         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
1         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      5   
2         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      9   
3         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
4         Lvl    AllPub  ...        0    NaN   NaN         NaN       0     12   

  YrSold  SaleType  SaleCondition  SalePrice  
0   2008        WD   

## Descripción de las Variables del Dataset

| Variable       | Descripción |
|---------------|-------------|
| **MSSubClass** | Tipo de vivienda involucrada en la venta (código numérico). |
| **MSZoning** | Clasificación de zonificación general de la venta. |
| **LotFrontage** | Pies lineales de calle conectados a la propiedad. |
| **LotArea** | Tamaño del lote en pies cuadrados. |
| **Street** | Tipo de acceso por carretera a la propiedad. |
| **Alley** | Tipo de acceso al callejón. |
| **LotShape** | Forma general de la propiedad. |
| **LandContour** | Nivel de la propiedad en relación con su entorno. |
| **Utilities** | Tipo de servicios públicos disponibles. |
| **LotConfig** | Configuración del lote. |
| **LandSlope** | Pendiente del terreno. |
| **Neighborhood** | Ubicación física dentro de los límites de la ciudad. |
| **Condition1** | Proximidad a diversas condiciones. |
| **Condition2** | Segunda proximidad a diversas condiciones (si hay más de una). |
| **BldgType** | Tipo de vivienda. |
| **HouseStyle** | Estilo de la vivienda. |
| **OverallQual** | Calidad general de los materiales y el acabado de la casa. |
| **OverallCond** | Condición general de la casa. |
| **YearBuilt** | Año de construcción original. |
| **YearRemodAdd** | Año de remodelación (igual a `YearBuilt` si no ha habido cambios). |
| **RoofStyle** | Tipo de techo. |
| **RoofMatl** | Material del techo. |
| **Exterior1st** | Cubierta exterior principal de la casa. |
| **Exterior2nd** | Cubierta exterior secundaria de la casa (si hay más de un material). |
| **MasVnrType** | Tipo de revestimiento de mampostería. |
| **MasVnrArea** | Área del revestimiento de mampostería en pies cuadrados. |
| **ExterQual** | Calidad de los materiales en el exterior. |
| **ExterCond** | Condición actual del material en el exterior. |
| **Foundation** | Tipo de cimentación. |
| **BsmtQual** | Altura del sótano. |
| **BsmtCond** | Condición general del sótano. |
| **BsmtExposure** | Exposición del sótano a nivel de jardín. |
| **BsmtFinType1** | Tipo de acabado del sótano 1. |
| **BsmtFinSF1** | Pies cuadrados de área terminada del sótano tipo 1. |
| **BsmtFinType2** | Tipo de acabado del sótano 2. |
| **BsmtFinSF2** | Pies cuadrados de área terminada del sótano tipo 2. |
| **BsmtUnfSF** | Pies cuadrados sin terminar del sótano. |
| **TotalBsmtSF** | Área total en pies cuadrados del sótano. |
| **Heating** | Tipo de calefacción. |
| **HeatingQC** | Calidad y estado del sistema de calefacción. |
| **CentralAir** | Aire acondicionado centralizado (Sí/No). |
| **Electrical** | Sistema eléctrico. |
| **1stFlrSF** | Pies cuadrados del primer piso. |
| **2ndFlrSF** | Pies cuadrados del segundo piso. |
| **LowQualFinSF** | Pies cuadrados de áreas terminadas de baja calidad. |
| **GrLivArea** | Área habitable sobre el nivel del suelo en pies cuadrados. |
| **BsmtFullBath** | Número de baños completos en el sótano. |
| **BsmtHalfBath** | Número de medios baños en el sótano. |
| **FullBath** | Número de baños completos sobre el nivel del suelo. |
| **HalfBath** | Número de medios baños sobre el nivel del suelo. |
| **Bedroom** | Número de habitaciones sobre el nivel del suelo (excluye sótanos). |
| **Kitchen** | Número de cocinas sobre el nivel del suelo. |
| **KitchenQual** | Calidad de la cocina. |
| **TotRmsAbvGrd** | Número total de habitaciones sobre el nivel del suelo (excluye baños). |
| **Functional** | Funcionalidad del hogar. |
| **Fireplaces** | Número de chimeneas. |
| **FireplaceQu** | Calidad de la chimenea. |
| **GarageType** | Ubicación del garaje. |
| **GarageYrBlt** | Año de construcción del garaje. |
| **GarageFinish** | Acabado interior del garaje. |
| **GarageCars** | Tamaño del garaje en capacidad de autos. |
| **GarageArea** | Tamaño del garaje en pies cuadrados. |
| **GarageQual** | Calidad del garaje. |
| **GarageCond** | Condición del garaje. |
| **PavedDrive** | Tipo de pavimentación de la entrada. |
| **WoodDeckSF** | Área de la terraza de madera en pies cuadrados. |
| **OpenPorchSF** | Área del porche abierto en pies cuadrados. |
| **EnclosedPorch** | Área del porche cerrado en pies cuadrados. |
| **3SsnPorch** | Área del porche de tres estaciones en pies cuadrados. |
| **ScreenPorch** | Área del porche con mosquitero en pies cuadrados. |
| **PoolArea** | Área de la piscina en pies cuadrados. |
| **PoolQC** | Calidad de la piscina. |
| **Fence** | Calidad de la cerca. |
| **MiscFeature** | Característica adicional no cubierta en otras categorías. |
| **MiscVal** | Valor en dólares de la característica adicional. |
| **MoSold** | Mes en que se vendió la casa. |
| **YrSold** | Año en que se vendió la casa. |
| **SaleType** | Tipo de venta. |
| **SaleCondition** | Condición de la venta. |
| **SalePrice** | **Precio de venta de la vivienda (variable objetivo).** |


### Separación de variables categoricas y numericas

In [None]:
df_numerico = df.select_dtypes(include=['number']).copy()

print(df_numerico.head())

df_numerico.info()


   Id  MSSubClass  LotFrontage  LotArea  OverallQual  OverallCond  YearBuilt  \
0   1          60         65.0     8450            7            5       2003   
1   2          20         80.0     9600            6            8       1976   
2   3          60         68.0    11250            7            5       2001   
3   4          70         60.0     9550            7            5       1915   
4   5          60         84.0    14260            8            5       2000   

   YearRemodAdd  MasVnrArea  BsmtFinSF1  ...  WoodDeckSF  OpenPorchSF  \
0          2003       196.0         706  ...           0           61   
1          1976         0.0         978  ...         298            0   
2          2002       162.0         486  ...           0           42   
3          1970         0.0         216  ...           0           35   
4          2000       350.0         655  ...         192           84   

   EnclosedPorch  3SsnPorch  ScreenPorch  PoolArea  MiscVal  MoSold  YrSold  \
0

## Selección de Variables Numéricas

Para facilitar el análisis exploratorio, se han separado las variables numéricas de las categóricas. Se eliminaron las variables de tipo texto y categóricas, dejando únicamente aquellas que contienen datos numéricos.

### **Resultado:**
Se ha obtenido un nuevo DataFrame (`df_numerico`) que contiene exclusivamente las variables numéricas, lo que permitirá realizar análisis estadísticos y de correlación de manera más eficiente. 

**Características del nuevo DataFrame:**
- **Número de columnas:** 38 variables numéricas.
- **Número de filas:** Igual al dataset original.
- **Valores nulos NO han sido modificados**, para analizarlos antes de decidir cómo manejarlos.


In [4]:
df_numerico.describe()

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
count,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,...,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,730.5,56.89726,69.863699,10516.828082,6.099315,5.575342,1971.267808,1984.865753,103.117123,443.639726,...,94.244521,46.660274,21.95411,3.409589,15.060959,2.758904,43.489041,6.321918,2007.815753,180921.19589
std,421.610009,42.300571,22.027677,9981.264932,1.382997,1.112799,30.202904,20.645407,180.731373,456.098091,...,125.338794,66.256028,61.119149,29.317331,55.757415,40.177307,496.123024,2.703626,1.328095,79442.502883
min,1.0,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,34900.0
25%,365.75,20.0,60.0,7553.5,5.0,5.0,1954.0,1967.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,2007.0,129975.0
50%,730.5,50.0,69.0,9478.5,6.0,5.0,1973.0,1994.0,0.0,383.5,...,0.0,25.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,163000.0
75%,1095.25,70.0,79.0,11601.5,7.0,6.0,2000.0,2004.0,164.25,712.25,...,168.0,68.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,214000.0
max,1460.0,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,...,857.0,547.0,552.0,508.0,480.0,738.0,15500.0,12.0,2010.0,755000.0


### Hallazgos en el describe:
1. Distribución sesgada de algunas variables:
- LotArea (tamaño del lote): La media es 10,516 pies cuadrados, pero el máximo llega a 215,245, lo que sugiere la presencia de valores atípicos extremos.
- SalePrice (precio de venta): Hay una gran diferencia entre la media ($180,921) y el máximo ($755,000), lo que indica una posible distribución sesgada.
2. Valores atípicos notables:
- LotFrontage (frente del lote): Tiene un máximo de 313 pies, mientras que el percentil 75% es 79 pies. Esto indica que hay terrenos con frentes extremadamente grandes.
- MasVnrArea (área de mampostería): La mayoría de las casas no tienen mampostería (mediana = 0), pero algunas tienen hasta 1,600 pies cuadrados
- BsmtFinSF1 (área terminada del sótano 1): El máximo es 5,644 pies cuadrados, pero la mediana es 383.5 pies cuadrados, sugiriendo que hay pocos sótanos muy grandes.
- PoolArea (área de la piscina): La mayoría de las casas no tienen piscina (mediana = 0), pero algunas tienen hasta 738 pies cuadrados.
3. Datos con gran cantidad de ceros:
- Varias variables como EnclosedPorch, 3SsnPorch, ScreenPorch, PoolArea, MiscVal tienen una mediana de 0, lo que indica que la mayoría de las casas no tienen estos elementos
4. Distribución del año de construcción y remodelación:
- YearBuilt y YearRemodAdd: El mínimo es 1872, mientras que el máximo es 2010. Podemos analizar la evolución de los precios con respecto a la antigüedad de la casa.
5. Número de baños y habitaciones:
- FullBath y HalfBath: La media de baños completos es 1.56, lo que sugiere que la mayoría de las casas tienen 1 o 2 baños completos, pero algunas pueden tener hasta 3 o más.
- TotRmsAbvGrd (Total de habitaciones sobre el nivel del suelo): Rango entre 2 y 14 habitaciones, lo que puede influir en el precio de manera significativa.