# üìä Notebook 1: Limpieza de Datos y An√°lisis Exploratorio de Datos (EDA)

## üéØ Objetivos del Notebook
En este notebook aprenderemos a:
1. **Cargar y explorar** nuestro dataset de precios de casas
2. **Limpiar los datos** eliminando columnas innecesarias
3. **Realizar un an√°lisis exploratorio** para entender la estructura de nuestros datos
4. **Identificar patrones** y **valores at√≠picos**
5. **Preparar los datos** para el an√°lisis posterior

## üìà ¬øQu√© es el EDA?
El **An√°lisis Exploratorio de Datos** (EDA) es el proceso de analizar datasets para resumir sus caracter√≠sticas principales, a menudo utilizando m√©todos estad√≠sticos y visualizaciones. Es un paso crucial antes de aplicar cualquier modelo de machine learning.

## üìö 1. Importaci√≥n de Librer√≠as

Comenzamos importando las librer√≠as necesarias para nuestro an√°lisis:
- **pandas**: Para manipulaci√≥n y an√°lisis de datos
- **numpy**: Para operaciones matem√°ticas
- **warnings**: Para suprimir advertencias innecesarias

In [1]:
# Importamos las librer√≠as necesarias para el an√°lisis exploratorio
import pandas as pd
import numpy as np
import warnings

# Suprimimos las advertencias para una salida m√°s limpia
warnings.filterwarnings("ignore")

print("‚úÖ Librer√≠as importadas correctamente")

‚úÖ Librer√≠as importadas correctamente


## üìÇ 2. Carga de Datos

Ahora cargaremos nuestro dataset de precios de casas. Este dataset contiene informaci√≥n sobre:
- **Ingresos promedio del √°rea**
- **Edad promedio de las casas**
- **N√∫mero promedio de habitaciones**
- **N√∫mero promedio de dormitorios**
- **Poblaci√≥n del √°rea**
- **Precio de la casa** (nuestra variable objetivo)
- **Direcci√≥n** (que eliminaremos por privacidad)

In [2]:
# Cargamos el dataset desde el archivo CSV
# Utilizamos una ruta relativa desde la carpeta Notebook hacia la carpeta Data
df = pd.read_csv("../Data/USA_Housing.csv")

print(f"üìà Dataset cargado exitosamente")
print(f"üìä Forma del dataset: {df.shape[0]} filas y {df.shape[1]} columnas")

üìà Dataset cargado exitosamente
üìä Forma del dataset: 5000 filas y 7 columnas


## üîç 3. Exploraci√≥n Inicial de los Datos

### 3.1 Primeras Filas del Dataset
Veamos c√≥mo se ven nuestros datos:

In [3]:
# Mostramos las primeras 5 filas del dataset
print("üîç Primeras 5 filas del dataset:")
df.head()

üîç Primeras 5 filas del dataset:


Unnamed: 0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price,Address
0,79545.458574,5.682861,7.009188,4.09,23086.800503,1059034.0,"208 Michael Ferry Apt. 674\r\nLaurabury, NE 37..."
1,79248.642455,6.0029,6.730821,3.09,40173.072174,1505891.0,"188 Johnson Views Suite 079\r\nLake Kathleen, ..."
2,61287.067179,5.86589,8.512727,5.13,36882.1594,1058988.0,"9127 Elizabeth Stravenue\r\nDanieltown, WI 064..."
3,63345.240046,7.188236,5.586729,3.26,34310.242831,1260617.0,USS Barnett\r\nFPO AP 44820
4,59982.197226,5.040555,7.839388,4.23,26354.109472,630943.5,USNS Raymond\r\nFPO AE 09386


### 3.2 √öltimas Filas del Dataset
Tambi√©n es importante revisar las √∫ltimas filas para detectar posibles inconsistencias:

In [4]:
# Mostramos las √∫ltimas 5 filas del dataset
print("üîç √öltimas 5 filas del dataset:")
df.tail()

üîç √öltimas 5 filas del dataset:


Unnamed: 0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price,Address
4995,60567.94414,7.830362,6.137356,3.46,22837.361035,1060194.0,USNS Williams\r\nFPO AP 30153-7653
4996,78491.275435,6.999135,6.576763,4.02,25616.115489,1482618.0,"PSC 9258, Box 8489\r\nAPO AA 42991-3352"
4997,63390.686886,7.250591,4.805081,2.13,33266.14549,1030730.0,"4215 Tracy Garden Suite 076\r\nJoshualand, VA ..."
4998,68001.331235,5.534388,7.130144,5.44,42625.620156,1198657.0,USS Wallace\r\nFPO AE 73316
4999,65510.581804,5.992305,6.792336,4.07,46501.283803,1298950.0,"37778 George Ridges Apt. 509\r\nEast Holly, NV..."


### 3.3 Informaci√≥n General del Dataset
Obtengamos informaci√≥n detallada sobre nuestros datos:

In [5]:
# Informaci√≥n detallada sobre el dataset
print("üìã Informaci√≥n detallada del dataset:")
print("=" * 50)
df.info()

print("\nüìå Interpretaci√≥n:")
print("- Todas las columnas num√©ricas tienen el mismo n√∫mero de valores no nulos")
print("- No parece haber valores faltantes en las columnas num√©ricas")
print("- Los tipos de datos parecen apropiados para nuestro an√°lisis")

üìã Informaci√≥n detallada del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 7 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Avg. Area Income              5000 non-null   float64
 1   Avg. Area House Age           5000 non-null   float64
 2   Avg. Area Number of Rooms     5000 non-null   float64
 3   Avg. Area Number of Bedrooms  5000 non-null   float64
 4   Area Population               5000 non-null   float64
 5   Price                         5000 non-null   float64
 6   Address                       5000 non-null   object 
dtypes: float64(6), object(1)
memory usage: 273.6+ KB

üìå Interpretaci√≥n:
- Todas las columnas num√©ricas tienen el mismo n√∫mero de valores no nulos
- No parece haber valores faltantes en las columnas num√©ricas
- Los tipos de datos parecen apropiados para nuestro an√°lisis


### 3.4 Estad√≠sticas Descriptivas
Las estad√≠sticas descriptivas nos ayudan a entender la distribuci√≥n de nuestros datos:

In [6]:
# Estad√≠sticas descriptivas de las variables num√©ricas
print("üìà Estad√≠sticas descriptivas:")
print("=" * 80)
descripcion = df.describe()
print(descripcion)

print("\nüéØ Insights importantes:")
print(f"‚Ä¢ El precio promedio de las casas es: ${descripcion.loc['mean', 'Price']:,.2f}")
print(f"‚Ä¢ El precio m√°s bajo es: ${descripcion.loc['min', 'Price']:,.2f}")
print(f"‚Ä¢ El precio m√°s alto es: ${descripcion.loc['max', 'Price']:,.2f}")
print(f"‚Ä¢ El ingreso promedio del √°rea var√≠a entre ${descripcion.loc['min', 'Avg. Area Income']:,.2f} y ${descripcion.loc['max', 'Avg. Area Income']:,.2f}")

üìà Estad√≠sticas descriptivas:
       Avg. Area Income  Avg. Area House Age  Avg. Area Number of Rooms  \
count       5000.000000          5000.000000                5000.000000   
mean       68583.108984             5.977222                   6.987792   
std        10657.991214             0.991456                   1.005833   
min        17796.631190             2.644304                   3.236194   
25%        61480.562388             5.322283                   6.299250   
50%        68804.286404             5.970429                   7.002902   
75%        75783.338666             6.650808                   7.665871   
max       107701.748378             9.519088                  10.759588   

       Avg. Area Number of Bedrooms  Area Population         Price  
count                   5000.000000      5000.000000  5.000000e+03  
mean                       3.981330     36163.516039  1.232073e+06  
std                        1.234137      9925.650114  3.531176e+05  
min            

## üßπ 4. Limpieza de Datos

### 4.1 Detecci√≥n de Valores Faltantes
Antes de proceder, verifiquemos si hay valores faltantes en nuestro dataset:

In [7]:
# Verificamos valores faltantes en cada columna
print("üîç Valores faltantes por columna:")
print("=" * 40)
valores_faltantes = df.isnull().sum()
print(valores_faltantes)

if valores_faltantes.sum() == 0:
    print("\n‚úÖ ¬°Excelente! No hay valores faltantes en el dataset")
else:
    print(f"\n‚ö†Ô∏è  Se encontraron {valores_faltantes.sum()} valores faltantes en total")

üîç Valores faltantes por columna:
Avg. Area Income                0
Avg. Area House Age             0
Avg. Area Number of Rooms       0
Avg. Area Number of Bedrooms    0
Area Population                 0
Price                           0
Address                         0
dtype: int64

‚úÖ ¬°Excelente! No hay valores faltantes en el dataset


### 4.2 Eliminaci√≥n de Columnas Innecesarias
La columna 'Address' contiene informaci√≥n que:
1. **No aporta valor predictivo** para nuestro modelo
2. **No es √∫til** para el an√°lisis estad√≠stico

Por tanto, la eliminaremos:

In [8]:
# Verificamos qu√© columnas tenemos antes de la limpieza
print("üìã Columnas antes de la limpieza:")
print(list(df.columns))

# Eliminamos la columna 'Address' ya que no aporta valor predictivo
df_clean = df.drop(columns=["Address"])

print("\nüìã Columnas despu√©s de la limpieza:")
print(list(df_clean.columns))

print(f"\n‚úÖ Dataset limpio creado con {df_clean.shape[0]} filas y {df_clean.shape[1]} columnas")

üìã Columnas antes de la limpieza:
['Avg. Area Income', 'Avg. Area House Age', 'Avg. Area Number of Rooms', 'Avg. Area Number of Bedrooms', 'Area Population', 'Price', 'Address']

üìã Columnas despu√©s de la limpieza:
['Avg. Area Income', 'Avg. Area House Age', 'Avg. Area Number of Rooms', 'Avg. Area Number of Bedrooms', 'Area Population', 'Price']

‚úÖ Dataset limpio creado con 5000 filas y 6 columnas


## üìä 5. An√°lisis Exploratorio Detallado

### 5.1 An√°lisis de la Variable Objetivo (Precio)
Analicemos la distribuci√≥n de nuestra variable objetivo:

In [9]:
# An√°lisis detallado de la variable precio
print("üè† An√°lisis de la Variable Objetivo: PRECIO")
print("=" * 50)

precio_stats = df_clean['Price'].describe()
print("üìà Estad√≠sticas del Precio:")
for stat, value in precio_stats.items():
    print(f"  {stat.capitalize()}: ${value:,.2f}")

# Calculamos algunos estad√≠sticos adicionales
q1 = df_clean['Price'].quantile(0.25)
q3 = df_clean['Price'].quantile(0.75)
iqr = q3 - q1

print(f"\nüìä An√°lisis de Cuartiles:")
print(f"  Q1 (25%): ${q1:,.2f}")
print(f"  Q3 (75%): ${q3:,.2f}")
print(f"  IQR (Rango Intercuart√≠lico): ${iqr:,.2f}")

# Detecci√≥n de valores at√≠picos usando el m√©todo IQR
limite_inferior = q1 - 1.5 * iqr
limite_superior = q3 + 1.5 * iqr
outliers = df_clean[(df_clean['Price'] < limite_inferior) | (df_clean['Price'] > limite_superior)]

print(f"\nüîç Detecci√≥n de Valores At√≠picos:")
print(f"  L√≠mite inferior: ${limite_inferior:,.2f}")
print(f"  L√≠mite superior: ${limite_superior:,.2f}")
print(f"  N√∫mero de outliers: {len(outliers)} ({len(outliers)/len(df_clean)*100:.2f}% del total)")

üè† An√°lisis de la Variable Objetivo: PRECIO
üìà Estad√≠sticas del Precio:
  Count: $5,000.00
  Mean: $1,232,072.65
  Std: $353,117.63
  Min: $15,938.66
  25%: $997,577.14
  50%: $1,232,669.38
  75%: $1,471,210.20
  Max: $2,469,065.59

üìä An√°lisis de Cuartiles:
  Q1 (25%): $997,577.14
  Q3 (75%): $1,471,210.20
  IQR (Rango Intercuart√≠lico): $473,633.07

üîç Detecci√≥n de Valores At√≠picos:
  L√≠mite inferior: $287,127.53
  L√≠mite superior: $2,181,659.81
  N√∫mero de outliers: 35 (0.70% del total)


### 5.2 An√°lisis de las Variables Predictoras
Analicemos cada una de nuestras variables independientes:

In [10]:
# An√°lisis de las variables predictoras
print("üèóÔ∏è An√°lisis de Variables Predictoras")
print("=" * 60)

variables_predictoras = ['Avg. Area Income', 'Avg. Area House Age', 
                        'Avg. Area Number of Rooms', 'Avg. Area Number of Bedrooms', 
                        'Area Population']

for var in variables_predictoras:
    print(f"\nüìä {var}:")
    stats = df_clean[var].describe()
    print(f"  ‚Ä¢ Promedio: {stats['mean']:,.2f}")
    print(f"  ‚Ä¢ Mediana: {stats['50%']:,.2f}")
    print(f"  ‚Ä¢ Desviaci√≥n est√°ndar: {stats['std']:,.2f}")
    print(f"  ‚Ä¢ Rango: {stats['min']:,.2f} - {stats['max']:,.2f}")
    
    # Coeficiente de variaci√≥n
    cv = (stats['std'] / stats['mean']) * 100
    print(f"  ‚Ä¢ Coeficiente de variaci√≥n: {cv:.2f}%")

üèóÔ∏è An√°lisis de Variables Predictoras

üìä Avg. Area Income:
  ‚Ä¢ Promedio: 68,583.11
  ‚Ä¢ Mediana: 68,804.29
  ‚Ä¢ Desviaci√≥n est√°ndar: 10,657.99
  ‚Ä¢ Rango: 17,796.63 - 107,701.75
  ‚Ä¢ Coeficiente de variaci√≥n: 15.54%

üìä Avg. Area House Age:
  ‚Ä¢ Promedio: 5.98
  ‚Ä¢ Mediana: 5.97
  ‚Ä¢ Desviaci√≥n est√°ndar: 0.99
  ‚Ä¢ Rango: 2.64 - 9.52
  ‚Ä¢ Coeficiente de variaci√≥n: 16.59%

üìä Avg. Area Number of Rooms:
  ‚Ä¢ Promedio: 6.99
  ‚Ä¢ Mediana: 7.00
  ‚Ä¢ Desviaci√≥n est√°ndar: 1.01
  ‚Ä¢ Rango: 3.24 - 10.76
  ‚Ä¢ Coeficiente de variaci√≥n: 14.39%

üìä Avg. Area Number of Bedrooms:
  ‚Ä¢ Promedio: 3.98
  ‚Ä¢ Mediana: 4.05
  ‚Ä¢ Desviaci√≥n est√°ndar: 1.23
  ‚Ä¢ Rango: 2.00 - 6.50
  ‚Ä¢ Coeficiente de variaci√≥n: 31.00%

üìä Area Population:
  ‚Ä¢ Promedio: 36,163.52
  ‚Ä¢ Mediana: 36,199.41
  ‚Ä¢ Desviaci√≥n est√°ndar: 9,925.65
  ‚Ä¢ Rango: 172.61 - 69,621.71
  ‚Ä¢ Coeficiente de variaci√≥n: 27.45%


### 5.3 An√°lisis de Correlaci√≥n
Veamos c√≥mo se relacionan nuestras variables entre s√≠:

In [11]:
# Matriz de correlaci√≥n
print("üîó Matriz de Correlaci√≥n")
print("=" * 40)

correlacion = df_clean.corr()
print(correlacion.round(3))

# An√°lisis de correlaci√≥n con la variable objetivo
print("\nüéØ Correlaci√≥n con el Precio (Variable Objetivo):")
correlacion_precio = correlacion['Price'].sort_values(ascending=False)
print(correlacion_precio.round(3))

print("\nüìù Interpretaci√≥n de Correlaciones:")
for var, corr in correlacion_precio.items():
    if var != 'Price':
        if abs(corr) > 0.7:
            fuerza = "muy fuerte"
        elif abs(corr) > 0.5:
            fuerza = "fuerte"
        elif abs(corr) > 0.3:
            fuerza = "moderada"
        else:
            fuerza = "d√©bil"
        
        direccion = "positiva" if corr > 0 else "negativa"
        print(f"  ‚Ä¢ {var}: Correlaci√≥n {fuerza} {direccion} ({corr:.3f})")

üîó Matriz de Correlaci√≥n
                              Avg. Area Income  Avg. Area House Age  \
Avg. Area Income                         1.000               -0.002   
Avg. Area House Age                     -0.002                1.000   
Avg. Area Number of Rooms               -0.011               -0.009   
Avg. Area Number of Bedrooms             0.020                0.006   
Area Population                         -0.016               -0.019   
Price                                    0.640                0.453   

                              Avg. Area Number of Rooms  \
Avg. Area Income                                 -0.011   
Avg. Area House Age                              -0.009   
Avg. Area Number of Rooms                         1.000   
Avg. Area Number of Bedrooms                      0.463   
Area Population                                   0.002   
Price                                             0.336   

                              Avg. Area Number of Bedrooms  

## üíæ 6. Guardado de Datos Limpios

Finalmente, guardamos nuestros datos limpios para uso en los siguientes notebooks:

In [12]:
# Guardamos el dataset limpio
df_clean.to_csv("../Data/USA_Housing_Clean.csv", index=False)

print("üíæ Dataset limpio guardado como 'USA_Housing_Clean.csv'")
print(f"üìä Resumen final del dataset limpio:")
print(f"  ‚Ä¢ Filas: {df_clean.shape[0]:,}")
print(f"  ‚Ä¢ Columnas: {df_clean.shape[1]}")
print(f"  ‚Ä¢ Variables predictoras: {len(variables_predictoras)}")
print(f"  ‚Ä¢ Variable objetivo: Price")
print(f"  ‚Ä¢ Valores faltantes: {df_clean.isnull().sum().sum()}")

üíæ Dataset limpio guardado como 'USA_Housing_Clean.csv'
üìä Resumen final del dataset limpio:
  ‚Ä¢ Filas: 5,000
  ‚Ä¢ Columnas: 6
  ‚Ä¢ Variables predictoras: 5
  ‚Ä¢ Variable objetivo: Price
  ‚Ä¢ Valores faltantes: 0


## üìã 7. Resumen y Conclusiones

### ‚úÖ Lo que hemos logrado:
1. **Cargamos exitosamente** el dataset de precios de casas
2. **Exploramos la estructura** de nuestros datos
3. **Limpiamos el dataset** eliminando la columna de direcciones
4. **Analizamos las distribuciones** de todas las variables
5. **Calculamos correlaciones** para entender las relaciones entre variables
6. **Identificamos patrones** importantes en los datos
7. **Guardamos el dataset limpio** para an√°lisis posteriores

### üéØ Hallazgos clave:
- El dataset no tiene valores faltantes
- Las variables muestran correlaciones interesantes con el precio
- Los datos parecen estar en buen estado para el modelado

### üìà Pr√≥ximos pasos:
- **Notebook 2**: Visualizaciones detalladas de los datos
- **Notebook 3**: Construcci√≥n y evaluaci√≥n del modelo de machine learning

---
**üéì Aprendizaje clave**: El EDA es fundamental antes de cualquier modelado. Nos permite entender nuestros datos, detectar problemas y tomar decisiones informadas sobre el preprocesamiento.