# Precios de la vivienda: Técnicas avanzadas de regresión

### Descripción del problema
> En este proyecto, trabajaremos con el dataset de la competencia de Kaggle ["House Prices: Advanced Regression Techniques"](https://www.kaggle.com/c/house-prices-advanced-regression-techniques). El objetivo es predecir el precio de las viviendas en Ames, Iowa, utilizando técnicas avanzadas de regresión. Este dataset contiene 79 variables explicativas que describen aspectos de las viviendas, como el tamaño, la ubicación, la calidad de construcción, entre otros.

### Objetivo
> Construir un modelo de regresión que prediga con precisión el precio de las viviendas (`SalePrice`) basado en las características proporcionadas.


## Descripción de las variables

A continuación se describe cada una de las variables presentes en el dataset:

### Variables categóricas:

1. **MSSubClass**: Identifica el tipo de vivienda involucrada en la venta.
   - Ejemplos: 1-STORY 1946 & NEWER ALL STYLES, 2-STORY 1945 & OLDER, etc.

2. **MSZoning**: Clasificación general de zonificación.
   - Ejemplos: Agriculture (A), Residential Low Density (RL), Commercial (C), etc.

3. **Street**: Tipo de acceso vial a la propiedad.
   - Valores: Paved (Pave), Gravel (Grvl).

4. **Alley**: Tipo de acceso por callejón.
   - Valores: Paved (Pave), Gravel (Grvl), No alley access (NA).

5. **LotShape**: Forma general del terreno.
   - Valores: Regular (Reg), Irregular (IR1, IR2, IR3).

6. **LandContour**: Planitud del terreno.
   - Valores: Near Flat/Level (Lvl), Banked (Bnk), Hillside (HLS), Depression (Low).

7. **Utilities**: Tipo de servicios públicos disponibles.
   - Valores: All public Utilities (AllPub), Electricity and Gas Only (NoSeWa), etc.

8. **LotConfig**: Configuración del terreno.
   - Valores: Inside lot, Corner lot, Cul-de-sac, etc.

9. **LandSlope**: Pendiente del terreno.
   - Valores: Gentle slope (Gtl), Moderate Slope (Mod), Severe Slope (Sev).

10. **Neighborhood**: Ubicación física dentro de los límites de la ciudad de Ames.
    - Ejemplos: Bloomington Heights (Blmngtn), Northridge (NoRidge), Old Town (OldTown), etc.

11. **Condition1** y **Condition2**: Proximidad a varias condiciones (como calles arteriales, vías férreas, etc.).
    - Ejemplos: Normal (Norm), Adjacent to arterial street (Artery), etc.

12. **BldgType**: Tipo de vivienda.
    - Valores: Single-family Detached (1Fam), Duplex (Duplx), Townhouse (TwnhsE, TwnhsI), etc.

13. **HouseStyle**: Estilo de la vivienda.
    - Valores: One story (1Story), Two story (2Story), Split Foyer (SFoyer), etc.

14. **RoofStyle** y **RoofMatl**: Estilo y material del techo.
    - Ejemplos: Gable, Hip, Flat, Clay Tile, Metal, etc.

15. **Exterior1st** y **Exterior2nd**: Materiales de revestimiento exterior.
    - Ejemplos: Vinyl Siding, Brick Face, Wood Siding, etc.

16. **MasVnrType**: Tipo de revestimiento de mampostería.
    - Valores: Brick Face, Stone, None, etc.

17. **Foundation**: Tipo de cimentación.
    - Valores: Poured Concrete (PConc), Cinder Block (CBlock), Slab, etc.

18. **Heating** y **HeatingQC**: Tipo de calefacción y su calidad.
    - Ejemplos: Gas forced warm air furnace (GasA), Excellent (Ex), Good (Gd), etc.

19. **CentralAir**: Aire acondicionado central.
    - Valores: Yes (Y), No (N).

20. **Electrical**: Sistema eléctrico.
    - Valores: Standard Circuit Breakers (SBrkr), Fuse Box (FuseA, FuseF), etc.

21. **GarageType**, **GarageFinish**, **GarageQual**, **GarageCond**: Tipo, acabado, calidad y condición del garaje.
    - Ejemplos: Attached (Attchd), Detached (Detchd), Finished (Fin), etc.

22. **PavedDrive**: Tipo de entrada pavimentada.
    - Valores: Paved (Y), Partial Pavement (P), Dirt/Gravel (N).

23. **SaleType** y **SaleCondition**: Tipo y condición de la venta.
    - Ejemplos: Warranty Deed (WD), New (New), Normal Sale (Normal), etc.

### Variables numéricas:

1. **LotFrontage**: Metros lineales de calle conectados a la propiedad.

2. **LotArea**: Tamaño del terreno en metros cuadrados.

3. **MasVnrArea**: Área de revestimiento de mampostería en metros cuadrados.

4. **BsmtFinSF1**, **BsmtFinSF2**, **BsmtUnfSF**, **TotalBsmtSF**: Área terminada y sin terminar del sótano en metros cuadrados.

5. **1stFlrSF**, **2ndFlrSF**, **GrLivArea**: Área habitable en metros cuadrados (primer piso, segundo piso y total).

6. **GarageCars**, **GarageArea**: Capacidad del garaje en número de autos y área en metros cuadrados.

7. **WoodDeckSF**, **OpenPorchSF**, **EnclosedPorch**, **3SsnPorch**, **ScreenPorch**: Áreas de terrazas y porches en metros cuadrados.

8. **PoolArea**: Área de la piscina en metros cuadrados.

9. **MiscVal**: Valor de características misceláneas (como cobertizos o canchas de tenis).

10. **MoSold**, **YrSold**: Mes y año de la venta.

### Variable objetivo:

1. **SalePrice**: Precio de venta de la vivienda (en dólares). Esta es la variable que queremos predecir.

# Librerias

In [3]:
import pandas as pd
import kaggle
import zipfile

# Datos

In [1]:
!kaggle competitions download -c house-prices-advanced-regression-techniques

Downloading house-prices-advanced-regression-techniques.zip to /home/denis/Documentos/VSCode/proyectos/Data-Science-Portafolio/Regression-Projects/House Prices/notebooks
100%|█████████████████████████████████████████| 199k/199k [00:00<00:00, 587kB/s]
100%|█████████████████████████████████████████| 199k/199k [00:00<00:00, 587kB/s]


In [8]:
with zipfile.ZipFile('house-prices-advanced-regression-techniques.zip', 'r') as zip_ref:
    zip_ref.extractall('../data')

In [30]:
data_train = pd.read_csv('../data/train.csv')
data_train.head(3)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500


# EDA

In [31]:
data_train.describe(include=['object'])

Unnamed: 0,MSZoning,Street,Alley,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,Condition1,...,GarageType,GarageFinish,GarageQual,GarageCond,PavedDrive,PoolQC,Fence,MiscFeature,SaleType,SaleCondition
count,1460,1460,91,1460,1460,1460,1460,1460,1460,1460,...,1379,1379,1379,1379,1460,7,281,54,1460,1460
unique,5,2,2,4,4,2,5,3,25,9,...,6,3,5,5,3,3,4,4,9,6
top,RL,Pave,Grvl,Reg,Lvl,AllPub,Inside,Gtl,NAmes,Norm,...,Attchd,Unf,TA,TA,Y,Gd,MnPrv,Shed,WD,Normal
freq,1151,1454,50,925,1311,1459,1052,1382,225,1260,...,870,605,1311,1326,1340,3,157,49,1267,1198


In [32]:
data_train.describe(include=['int64', 'float64'])

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
count,1460.0,1460.0,1201.0,1460.0,1460.0,1460.0,1460.0,1460.0,1452.0,1460.0,...,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,730.5,56.89726,70.049958,10516.828082,6.099315,5.575342,1971.267808,1984.865753,103.685262,443.639726,...,94.244521,46.660274,21.95411,3.409589,15.060959,2.758904,43.489041,6.321918,2007.815753,180921.19589
std,421.610009,42.300571,24.284752,9981.264932,1.382997,1.112799,30.202904,20.645407,181.066207,456.098091,...,125.338794,66.256028,61.119149,29.317331,55.757415,40.177307,496.123024,2.703626,1.328095,79442.502883
min,1.0,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,34900.0
25%,365.75,20.0,59.0,7553.5,5.0,5.0,1954.0,1967.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,2007.0,129975.0
50%,730.5,50.0,69.0,9478.5,6.0,5.0,1973.0,1994.0,0.0,383.5,...,0.0,25.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,163000.0
75%,1095.25,70.0,80.0,11601.5,7.0,6.0,2000.0,2004.0,166.0,712.25,...,168.0,68.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,214000.0
max,1460.0,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,...,857.0,547.0,552.0,508.0,480.0,738.0,15500.0,12.0,2010.0,755000.0


#### Datos Faltantes

In [35]:
null_counts = (data_train.isnull().sum() / len(data_train)) * 100
null_counts[null_counts > 0].sort_values(ascending=False)

PoolQC          99.520548
MiscFeature     96.301370
Alley           93.767123
Fence           80.753425
MasVnrType      59.726027
FireplaceQu     47.260274
LotFrontage     17.739726
GarageType       5.547945
GarageYrBlt      5.547945
GarageFinish     5.547945
GarageQual       5.547945
GarageCond       5.547945
BsmtFinType2     2.602740
BsmtExposure     2.602740
BsmtFinType1     2.534247
BsmtCond         2.534247
BsmtQual         2.534247
MasVnrArea       0.547945
Electrical       0.068493
dtype: float64

# Conclucion

#### Datos Faltentes

> las variables 