<a href="https://colab.research.google.com/github/pascuord/pascuord.github.io/blob/main/preprocesamiento_datos_Housing_prices.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🧹 Preprocesamiento de Datos

### ✅ Objetivo:
Realizar un preprocesamiento completo del conjunto de datos, que incluya:

- Limpieza de datos  
- Eliminación de outliers  
- Normalización de variables


In [2]:
import pandas as pd

# Cargar el archivo CSV (ajusta la ruta a tu archivo)
df = pd.read_csv("Housing.csv")

# Vista previa
df.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished


## 🧼 Paso 2: Limpieza de Datos
### 2.1 Eliminar duplicados

In [3]:
df = df.drop_duplicates()

### 2.2 Manejo de valores nulos

In [5]:
# Verificar valores nulos por columna
df.isnull().sum()

# Opción A: Eliminar filas con valores nulos
#df = df.dropna()

# Opción B (alternativa): Rellenar valores nulos con la media
df = df.fillna(df.mean(numeric_only=True))

### 2.3 Verificar y corregir tipos de datos

In [6]:
# Revisar los tipos de datos
df.dtypes

# Ejemplo: convertir columna 'fecha' a formato datetime
# df['fecha'] = pd.to_datetime(df['fecha'])

Unnamed: 0,0
price,int64
area,int64
bedrooms,int64
bathrooms,int64
stories,int64
mainroad,object
guestroom,object
basement,object
hotwaterheating,object
airconditioning,object


## 📉 Paso 3: Eliminación de Outliers

Usaremos el método del rango intercuartílico (IQR) para detectar y eliminar valores atípicos.


In [16]:
# Calcular el IQR para la columna 'price'
Q1 = df['price'].quantile(0.25)
Q3 = df['price'].quantile(0.75)
IQR = Q3 - Q1
# Definir los límites para identificar outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
# Identificar outliers
outliers = df[(df['price'] < lower_bound) | (df['price'] >
upper_bound)]
# Mostrar los outliers identificados
print(outliers)
# Eliminar outliers
df_cleaned = df[(df['price'] >= lower_bound) & (df['price'] <=
upper_bound)]
# Mostrar las primeras filas del dataframe limpio
print(df_cleaned.head())
# Guardar el dataframe limpio en un nuevo archivo CSV
df_cleaned.to_csv('house_prices_cleaned.csv', index=False)

      price  area  bedrooms  bathrooms  stories mainroad guestroom basement  \
15  9100000  6000         4          1        2      yes        no      yes   
16  9100000  6600         4          2        2      yes       yes      yes   
18  8890000  4600         3          2        2      yes       yes       no   
19  8855000  6420         3          2        2      yes        no       no   
20  8750000  4320         3          1        2      yes        no      yes   
21  8680000  7155         3          2        1      yes       yes      yes   
22  8645000  8050         3          1        1      yes       yes      yes   
23  8645000  4560         3          2        2      yes       yes      yes   
24  8575000  8800         3          2        2      yes        no       no   
25  8540000  6540         4          2        2      yes       yes      yes   
27  8400000  8875         3          1        1      yes        no       no   
29  8400000  5500         4          2        2     

## 📊 Paso 4: Normalización de Variables Numéricas

Usaremos el escalado StandardScaler como método principal.


In [21]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df.select_dtypes(include=['float64',
'int64']))