#  Dataset: House Prices - Advanced Regression Techniques

--- jhonnatan camacho 

##  Objetivo del dataset
- **Meta principal**: **Predecir el precio de venta de una casa (`SalePrice`)** en la ciudad de Ames (Iowa, EE.UU.).
- **C√≥mo se logra**: mediante modelos de **regresi√≥n m√∫ltiple** u otros algoritmos de Machine Learning, usando como insumo las caracter√≠sticas de la casa (tama√±o, materiales, condiciones, ubicaci√≥n, etc.).

---

##  Pasos para llegar al objetivo
1. **Comprensi√≥n del problema**  
   - Variable dependiente: `SalePrice`.
   - Variables independientes: caracter√≠sticas estructurales, de ubicaci√≥n, materiales y extras.

2. **Exploraci√≥n de los datos (EDA)**  
   - Revisar registros, valores nulos, tipos de datos.
   - Generar estad√≠sticas descriptivas y distribuciones.

3. **Limpieza de datos**  
   - Imputar o eliminar valores faltantes (`NA`).
   - Tratar valores at√≠picos.
   - Agrupar categor√≠as poco frecuentes.

4. **Codificaci√≥n de variables categ√≥ricas**  
   - Usar *One Hot Encoding* o *Label Encoding*.

5. **Escalamiento / Normalizaci√≥n**  
   - Aplicar sobre variables num√©ricas cuando el modelo lo requiera.

6. **Selecci√≥n de variables relevantes**  
   - Usar correlaciones, ANOVA o t√©cnicas de *feature selection*.

7. **Construcci√≥n del modelo**  
   - Empezar con **Regresi√≥n Lineal M√∫ltiple**.
  

8. **Evaluaci√≥n del modelo**  
- **RMSE (Root Mean Squared Error):** mide el error promedio, penaliza m√°s los errores grandes.  
- **MAE (Mean Absolute Error):** error promedio absoluto entre lo real y lo predicho.  
- **R¬≤ (Coeficiente de determinaci√≥n):** indica qu√© tan bien el modelo explica la variabilidad (0 a 1).  
- **Validaci√≥n cruzada:** divide los datos en partes para entrenar y probar el modelo de forma m√°s robusta.  


9. **Interpretaci√≥n de resultados**  
   - Identificar qu√© variables influyen m√°s en el precio de venta.

---

##  Resumen de variables principales
El dataset contiene **79 variables**. Algunos ejemplos clave:

- **Lote**
  - `MSSubClass`: tipo de vivienda (1 piso, 2 pisos, d√∫plex, PUD).  
  - `MSZoning`: zonificaci√≥n (residencial, comercial, agr√≠cola).  
  - `LotFrontage`: longitud de fachada.  
  - `LotArea`: √°rea del terreno.  
  - `LotShape`: forma del lote (regular, irregular).  
  - `LandContour`: topograf√≠a (plano, pendiente, depresi√≥n).  
  - `Neighborhood`: barrio donde se ubica la casa.  

- **Construcci√≥n**
  - `BldgType`: tipo de construcci√≥n (unifamiliar, d√∫plex, townhouse).  
  - `HouseStyle`: estilo (1 piso, 2 pisos, split-level).  
  - `OverallQual`: calidad general (1 = muy mala, 10 = excelente).  
  - `OverallCond`: estado general de la vivienda.  
  - `YearBuilt`: a√±o de construcci√≥n.  
  - `YearRemodAdd`: a√±o de remodelaci√≥n.  
  - `RoofStyle` / `RoofMatl`: tipo y material del techo.  
  - `Exterior1st` / `Exterior2nd`: material exterior.  

- **S√≥tano**
  - `BsmtQual`, `BsmtCond`: calidad y estado del s√≥tano.  
  - `BsmtExposure`: exposici√≥n (ventanas, walkout).  
  - `TotalBsmtSF`: √°rea total del s√≥tano.  

- **Habitabilidad**
  - `GrLivArea`: √°rea habitable sobre el nivel del suelo.  
  - `FullBath`, `HalfBath`: ba√±os.  
  - `Bedroom`, `Kitchen`: habitaciones y cocinas.  
  - `TotRmsAbvGrd`: total de cuartos.  

- **Extras**
  - `Fireplaces`, `FireplaceQu`: chimeneas.  
  - `GarageType`, `GarageCars`, `GarageArea`: caracter√≠sticas del garaje.  
  - `WoodDeckSF`, `OpenPorchSF`, `PoolArea`, `Fence`: √°reas exteriores y amenidades.  

- **Venta**
  - `MoSold`, `YrSold`: mes y a√±o de venta.  
  - `SaleType`: tipo de venta (convencional, cash, VA loan).  
  - `SaleCondition`: condiciones de la venta (normal, familiar, parcial, etc.).  

- **Target**
  - `SalePrice`: precio de venta de la vivienda (variable a predecir).

---

##  En resumen
El dataset busca **explicar y predecir el precio de las casas** usando informaci√≥n estructural, de ubicaci√≥n, calidad de materiales, extras y condiciones de venta.


In [14]:
import pandas as pd

# Crear los datos
data = {
    "Id": [1461, 1462, 1463],
    "SalePrice": [169277.0524984, 187758.393988768, 183583.683569555]
}

# Convertir a DataFrame
df = pd.DataFrame(data)

# Guardar como CSV
df.to_csv("predicciones.csv", index=False)

print("Archivo 'predicciones.csv' generado con √©xito ‚úÖ")


Archivo 'predicciones.csv' generado con √©xito ‚úÖ


# üè† Taller Semana 6 - Predicci√≥n de Precios de Vivienda

Este proyecto utiliza el dataset **House Prices - Advanced Regression Techniques** de Kaggle.  
El objetivo es predecir el precio de venta de una casa en Ames (Iowa, EE.UU.) a partir de sus caracter√≠sticas estructurales, de ubicaci√≥n y calidad.

El proceso incluye:
1. Exploraci√≥n y limpieza de datos.  
2. Selecci√≥n de variables m√°s relevantes.  
3. Construcci√≥n de un modelo de **Regresi√≥n Lineal M√∫ltiple**.  
4. Evaluaci√≥n y generaci√≥n de predicciones finales.


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

print("‚úÖ Librer√≠as cargadas correctamente")

‚úÖ Librer√≠as cargadas correctamente


In [1]:
import os
import pandas as pd

# ‚úÖ Verificar tama√±o y leer los archivos
for archivo in ["train.csv", "test.csv"]:
    if os.path.exists(archivo):
        print(f"{archivo}: {os.path.getsize(archivo)} bytes")
    else:
        print(f"{archivo}: ‚ùå No encontrado")

# ‚úÖ Cargar los datos
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

# ‚úÖ Mostrar resultados
print("\nDimensiones de los archivos:")
print("train:", train.shape)
print("test:", test.shape)

print("\nPrimeras filas del train:")
print(train.head())



train.csv: 460676 bytes
test.csv: 451405 bytes

Dimensiones de los archivos:
train: (1460, 81)
test: (1459, 80)

Primeras filas del train:
   Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape  \
0   1          60       RL         65.0     8450   Pave   NaN      Reg   
1   2          20       RL         80.0     9600   Pave   NaN      Reg   
2   3          60       RL         68.0    11250   Pave   NaN      IR1   
3   4          70       RL         60.0     9550   Pave   NaN      IR1   
4   5          60       RL         84.0    14260   Pave   NaN      IR1   

  LandContour Utilities  ... PoolArea PoolQC Fence MiscFeature MiscVal MoSold  \
0         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
1         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      5   
2         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      9   
3         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
4         L

In [2]:
# Informaci√≥n general del dataset
print("Informaci√≥n del dataset de entrenamiento:")
print(train.info())

# Ver columnas con datos faltantes
faltantes = train.isnull().sum()
print("\nColumnas con datos faltantes:")
print(faltantes[faltantes > 0].sort_values(ascending=False).head(10))

# Descripci√≥n estad√≠stica de las variables num√©ricas
print("\nDescripci√≥n estad√≠stica de las variables num√©ricas:")
print(train.describe())


Informaci√≥n del dataset de entrenamiento:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQu

In [4]:
from sklearn.model_selection import train_test_split

# Eliminar columnas innecesarias
X = train.drop(["SalePrice", "Id"], axis=1)
y = train["SalePrice"]

# Convertir variables categ√≥ricas a num√©ricas (codificaci√≥n autom√°tica)
X = pd.get_dummies(X)

# Alinear columnas de train y test (asegura que tengan las mismas variables)
X, test_aligned = X.align(pd.get_dummies(test), join='left', axis=1, fill_value=0)

# Dividir en conjunto de entrenamiento y validaci√≥n
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

print("‚úÖ Datos preparados correctamente:")
print("X_train:", X_train.shape)
print("X_val:", X_val.shape)
print("y_train:", y_train.shape)
print("y_val:", y_val.shape)


‚úÖ Datos preparados correctamente:
X_train: (1168, 287)
X_val: (292, 287)
y_train: (1168,)
y_val: (292,)
