# Exploración del Dataset de Kaggle - House Prices

Este notebook explora el dataset de Kaggle para predicción de precios de casas.

## 1. Importar librerías y configuración

In [1]:
import pandas as pd
import sys
import os

# Añadir el directorio padre al path para poder importar config
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath('__file__'))))
from config import KAGGLE_TRAIN_FILE

## 2. Cargar datos

In [2]:
print("Cargando dataset de Kaggle...")
df = pd.read_csv(KAGGLE_TRAIN_FILE)
print("Dataset cargado exitosamente!")

Cargando dataset de Kaggle...
Dataset cargado exitosamente!


## 3. Información General

In [3]:
print(f"=== INFORMACIÓN GENERAL ===")
print(f"Dimensiones: {df.shape}")
print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")

=== INFORMACIÓN GENERAL ===
Dimensiones: (1460, 81)
Filas: 1460, Columnas: 81


## 4. Primeras filas del dataset

In [4]:
print(f"=== PRIMERAS FILAS ===")
df.head()

=== PRIMERAS FILAS ===


Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


## 5. Tipos de datos

In [5]:
print(f"=== TIPOS DE DATOS ===")
df.dtypes

=== TIPOS DE DATOS ===


Id                 int64
MSSubClass         int64
MSZoning          object
LotFrontage      float64
LotArea            int64
                  ...   
MoSold             int64
YrSold             int64
SaleType          object
SaleCondition     object
SalePrice          int64
Length: 81, dtype: object

## 6. Columnas disponibles

In [6]:
print(f"=== COLUMNAS DISPONIBLES ===")
df.columns.tolist()

=== COLUMNAS DISPONIBLES ===


['Id',
 'MSSubClass',
 'MSZoning',
 'LotFrontage',
 'LotArea',
 'Street',
 'Alley',
 'LotShape',
 'LandContour',
 'Utilities',
 'LotConfig',
 'LandSlope',
 'Neighborhood',
 'Condition1',
 'Condition2',
 'BldgType',
 'HouseStyle',
 'OverallQual',
 'OverallCond',
 'YearBuilt',
 'YearRemodAdd',
 'RoofStyle',
 'RoofMatl',
 'Exterior1st',
 'Exterior2nd',
 'MasVnrType',
 'MasVnrArea',
 'ExterQual',
 'ExterCond',
 'Foundation',
 'BsmtQual',
 'BsmtCond',
 'BsmtExposure',
 'BsmtFinType1',
 'BsmtFinSF1',
 'BsmtFinType2',
 'BsmtFinSF2',
 'BsmtUnfSF',
 'TotalBsmtSF',
 'Heating',
 'HeatingQC',
 'CentralAir',
 'Electrical',
 '1stFlrSF',
 '2ndFlrSF',
 'LowQualFinSF',
 'GrLivArea',
 'BsmtFullBath',
 'BsmtHalfBath',
 'FullBath',
 'HalfBath',
 'BedroomAbvGr',
 'KitchenAbvGr',
 'KitchenQual',
 'TotRmsAbvGrd',
 'Functional',
 'Fireplaces',
 'FireplaceQu',
 'GarageType',
 'GarageYrBlt',
 'GarageFinish',
 'GarageCars',
 'GarageArea',
 'GarageQual',
 'GarageCond',
 'PavedDrive',
 'WoodDeckSF',
 'OpenPorchSF'

## 7. Valores faltantes

In [7]:
print(f"=== VALORES FALTANTES ===")
faltantes = df.isnull().sum()
faltantes[faltantes > 0].sort_values(ascending=False)

=== VALORES FALTANTES ===


PoolQC          1453
MiscFeature     1406
Alley           1369
Fence           1179
MasVnrType       872
FireplaceQu      690
LotFrontage      259
GarageType        81
GarageYrBlt       81
GarageFinish      81
GarageQual        81
GarageCond        81
BsmtExposure      38
BsmtFinType2      38
BsmtQual          37
BsmtCond          37
BsmtFinType1      37
MasVnrArea         8
Electrical         1
dtype: int64

## 8. Estadísticas del precio (Target)

In [8]:
print(f"=== ESTADÍSTICAS DEL PRECIO (Target) ===")
df['SalePrice'].describe()

=== ESTADÍSTICAS DEL PRECIO (Target) ===


count      1460.000000
mean     180921.195890
std       79442.502883
min       34900.000000
25%      129975.000000
50%      163000.000000
75%      214000.000000
max      755000.000000
Name: SalePrice, dtype: float64

## 9. Características recomendadas

In [9]:
print(f"=== CARACTERÍSTICAS RECOMENDADAS ===")

# Características numéricas importantes con pocos faltantes
features_numericas = [
    'GrLivArea',        # Área habitable sobre el suelo (m²)
    'TotalBsmtSF',      # Área total del sótano (m²)
    'OverallQual',      # Calidad general (1-10)
    'OverallCond',      # Condición general (1-10)
    'YearBuilt',        # Año de construcción
    'YearRemodAdd',     # Año de remodelación
    'GarageCars',       # Capacidad del garaje (# de autos)
    'GarageArea',       # Área del garaje (m²)
    'FullBath',         # Baños completos
    'BedroomAbvGr',     # Habitaciones sobre el suelo
    'TotRmsAbvGrd',     # Total de habitaciones sobre el suelo
    'Fireplaces',       # Número de chimeneas
]

print("\nCaracterísticas seleccionadas:")
for feat in features_numericas:
    faltantes = df[feat].isnull().sum()
    print(f"  {feat}: {faltantes} valores faltantes")

=== CARACTERÍSTICAS RECOMENDADAS ===

Características seleccionadas:
  GrLivArea: 0 valores faltantes
  TotalBsmtSF: 0 valores faltantes
  OverallQual: 0 valores faltantes
  OverallCond: 0 valores faltantes
  YearBuilt: 0 valores faltantes
  YearRemodAdd: 0 valores faltantes
  GarageCars: 0 valores faltantes
  GarageArea: 0 valores faltantes
  FullBath: 0 valores faltantes
  BedroomAbvGr: 0 valores faltantes
  TotRmsAbvGrd: 0 valores faltantes
  Fireplaces: 0 valores faltantes


## 10. Correlación con el precio

In [10]:
print(f"=== CORRELACIÓN CON EL PRECIO ===")
correlaciones = df[features_numericas + ['SalePrice']].corr()['SalePrice'].sort_values(ascending=False)
correlaciones

=== CORRELACIÓN CON EL PRECIO ===


SalePrice       1.000000
OverallQual     0.790982
GrLivArea       0.708624
GarageCars      0.640409
GarageArea      0.623431
TotalBsmtSF     0.613581
FullBath        0.560664
TotRmsAbvGrd    0.533723
YearBuilt       0.522897
YearRemodAdd    0.507101
Fireplaces      0.466929
BedroomAbvGr    0.168213
OverallCond    -0.077856
Name: SalePrice, dtype: float64