#  Taller Evaluativo: Preprocesamiento y Análisis de Datos de Vivienda

Este cuaderno constituye una **evaluación práctica** donde deberás aplicar técnicas de:

- Limpieza de datos  
- Análisis exploratorio (EDA)  
- Imputación de valores nulos  
- Tratamiento de valores atípicos  
- Codificación de variables categóricas  
- Escalado y reducción de características  
- División en entrenamiento y prueba  

 **Instrucciones:**  
1. Lee con atención cada enunciado (celdas con `#` o en texto explicativo).  
2. Desarrolla el código solicitado en la celda correspondiente.  
3. Después de cada celda de código, redacta una **conclusión o inferencia** en la celda de texto que sigue.  


# <center> ★ Machine Learning Project - Predicción del precio de la vivienda  ★

#### <center> ***Area: Sector Inmobiliario***

---

<center><img src="https://raw.githubusercontent.com/Masterx-AI/Project_Housing_Price_Prediction_/main/hs.jpg" style="width: 700px;"/>

---

## Taller Evaluativo - Preprocesamiento y Preparación de Datos  

Este taller es la aplicación integral de lo aprendido en clase sobre análisis y transformación de datos, desde la **limpieza** hasta la **preparación para el modelado**.  

El flujo de trabajo incluirá:  
- **Análisis exploratorio de datos (EDA)**  
- **Limpieza e imputación de valores nulos**  
- **Tratamiento de valores atípicos**  
- **Codificación de variables categóricas**  
- **Creación y selección de características**  
- **División del conjunto de datos**  
- **Balanceo de clases**  

Lenguaje y librerías a utilizar:  
Python 3.9+ con **Pandas, NumPy, Seaborn, Matplotlib y Scikit-learn**.  
Recomendamos trabajar en **Jupyter Notebook o Google Colab** para facilitar la ejecución y visualización de resultados.  

Importante:  
- Puedes apoyarte en la **IA de la plataforma** para completar el taller.  
- **Cada línea de código debe estar precedida por una celda de texto (Markdown) donde expliques qué acción vas a realizar y por qué**.  

---

## 1. Cargar y explorar el dataset
- Descargar el dataset proporcionado sobre clientes interesados en comprar vivienda.  
- Inspeccionar las primeras filas y las dimensiones del DataFrame.  
- Cambie los nombres de cada columna por su traducción en español.
---

## 2. Transformaciones iniciales
- Verificar si hay nulos es imputar la mediana en valores, numericos y la moda en categoricos.
- Realice el análisis estadistico
- Realizar el análisis gráfico de barras de frecuencia
- Eliminar las columnas que puede ser colineales usando correlación
- Mostrar las primeras filas para verificar las transformaciones.  

---

## 3. Análisis Exploratorio de Datos (EDA)  
- Realizar histogramas con densidad estimada (KDE) para *precio**.  
- Identificar patrones, sesgos o valores atípicos.  

---

## 5. Manejo de valores atípicos (outliers)  
- Aplicar el método **IQR (Rango Intercuartílico)** a total_gastos y credito_a_solicitar.  
- Calcular límites inferior y superior:  
  - Límite inferior = Q1 – 1.5 × IQR  
  - Límite superior = Q3 + 1.5 × IQR  
- Ajustar valores fuera de rango al límite correspondiente (sin eliminarlos).  

---

## 6. Codificación de variables categóricas  
- Aplicar **One-Hot Encoding** a genero, estado_civil y tiene_credito.  
- Eliminar las columnas originales.  
- Explicar cómo la codificación ayuda al modelo.  

---


## 7. División del dataset  
- Dividir en entrenamiento (train) y prueba (test) con un 80/20.  
- Asegurar que la proporción de clases de compro_vivienda se mantenga en ambas particiones (**stratify**).  

---
## 8. Normalice train y luego el test

- Usar **MinMax**.  
- Reconstruir el DataFrame con las más relevantes.  
---

## 8. Selección de características  
- Usar **VarianceThreshold** para eliminar variables con baja varianza.  
- Reconstruir el DataFrame con las más relevantes.  



---

## Entrega  
- Guardar el notebook en formato `.ipynb`.  
- Subirlo a la plataforma del curso.  

---

Recuerda: Cada bloque de código tiene sus instrucciones pero después de ejecutar el codigo debe tener un texto que haga un análisis de los resultados más importantes de la celda previa, explicando **Por qué y que analisis y/o acción debe realizarse para obetener los datos limpios para generar la vista minable**.  



### Referencia:
Harrison, D. and Rubinfeld, D.L. (1978) Hedonic prices and the demand for clean air. J. Environ. Economics and Management 5, 81–102.


---

# <center>1. Data Exploration

### Tarea: Importing the basic librarires

**Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea: Cargar el dataset y mostra las primeras muestras df.drop(['dteday','instant'], axis=1, inplace=True)

**Justificación técnica:** Describe aquí tu interpretación del resultado.

###Tarea: Liste las columnas

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

### Tarea: Traducción de nombres de columnas al español
- Renombrar las columnas en el DataFrame Verificar los nuevos nombres

# **Conclusión:** Describe aquí tu interpretación del resultado.

### Tarea: Número de filas y columnas en el DataFrame

**Justificación técnica:** Describe aquí tu interpretación del resultado.

### Tarea: Verificando los tipos de datos de todas las columnas

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

### Tarea: Eliminación de filas duplicadas (si existen)

- Guardamos las dimensiones originales del DataFrame
- Eliminamos duplicados directamente en el DataFrame
- Verificamos si hubo cambios

**Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea: Análisis de valores nulos en el DataFrame

- Verificar el número total de valores nulos por columna
- Verificar el porcentaje de valores nulos por columna
- Visualizar los valores nulos con un gráfico de calor con mapa de calor

**Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea: Imputación de valores nulos
- 1. Imputar la columna 'bedrooms' con el valor fijo de 4, ya se recolecto el valor real.
- 2. Imputar bathrooms con valor de  1 stories con 3 ya se recolecto el valor real.
- 3. Imputar el resto de columnas categóricas con la moda (valor más frecuente) por que los dato son discretos.
- 4. (Opcional) Verificar nuevamente si aún quedan valores nulos

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea: Mostrar un resumen estadístico de las variables numéricas del DataFrame

**Justificación técnica:** Describe aquí tu interpretación del resultado.

:###  Tarea: Extraer las variables numéricas del DataFrame
- Extraer las variables categóricas (objetos o tipo category)

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea: Muestre las primeras muestras de las variables categoricas

**Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea: Mostrar un resumen estadístico de las variables categóricas del DataFrame Esto incluye: cantidad de valores no nulos, número de categorías únicas, valor más frecuente (top) y frecuencia de ese valor.

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

### Tarea: Verificar la cantidad de valores únicos en cada columna (cardinalidad de cada variable)

**Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea: Seleccionar todas las columnas excepto 'precio' y 'area'
- Mostrar los valores únicos de cada columna seleccionada

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea: Seleccionar todas las columnas excepto 'precio' y 'area'
- Mostrar la distribución de frecuencias de cada columna seleccionada

**Justificación técnica:** Describe aquí tu interpretación del resultado.

### Tarea: Seleccionar columnas excepto 'precio' y 'area'
- Definir la cantidad de filas necesarias para graficar en 3 columnas
- Crear figura Generar gráficos
- Eliminar ejes vacíos si sobran

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea:  Numerización de variables binarias (yes/no) con OrdinalEncoder

- Las variables binarias a numerizar
- Definir transformador con OrdinalEncoder (yes=1, no=0)
Aplicar la transformación solo a las columnas binarias Ajustar y transformar el DataFrame
- Recuerda dejar el feature entero
- Guardar el transformador entrenado

**Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea:  Numerización de 'estado_amueblado' con OrdinalEncoder y diccionario -

- Definir el orden deseado según el diccionario
- Crear el encoder con el orden definido Ajustar y transformar la columna
- Recuerda dejar el feature entero
- Guardar el encoder para persistencia Verificar la transformación

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

In [None]:
target = 'precio'
features = [i for i in df.columns if i not in [target]]

### Tarea: Mapa de correlación de todas las variables numéricas

- Calcular la matriz de correlación
- Configurar el tamaño de la figura
- Crear el mapa de calor Título del gráfico


**Justificación técnica:** Describe aquí tu interpretación del resultado.

---

# <center> 2. Exploratory Data Analysis (EDA)

### Tarea:  Analizar la distribución de la variable objetivo con 30 bins usado curva de densidad
Histograma con curva de densidad

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea: Calcular el sesgo (skewness) de la variable 'precio'

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea:  Calcular la curtosis (kurtosis) de la variable 'precio'


 **Justificación técnica:** Describe aquí tu interpretación del resultado.

 Tarea:  Calcular la media, mediana y moda


 Tarea:  Calcular la curtosis (kurtosis) de la variable 'precio'


```
# This is formatted as code
```

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea:   Diagramas de caja y bigotes (3 por fila) excluyendo variables binarias
- Variables a excluir Seleccionar solo columnas numéricas, excluyendo las binarias
- Definir número de columnas en la cuadrícula
- Crear subplots Graficar cada boxplot
- Eliminar ejes vacíos

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

### Tarea: Eliminar outliers en la variable 'precio' usando IQR
- Calcular Q1 y Q3 Definir límite superior
- Filtrar filas (mantener solo precios dentro del rango aceptable)

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea: Boxplot de la variable 'precio'

**Justificación técnica:** Describe aquí tu interpretación del resultado.

###Tarea: Nuevamente verifiquemos cómo quedó la distribución de frecuencia de la variable 'precio'

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

# <center> 4. Data Manipulation

###  Tarea: División del dataset en conjuntos de entrenamiento y prueba

- Reemplazar espacios en los nombres de columnas por "_"
- Separar variables predictoras (X) y variable objetivo (Y)
- Dividir los datos (80% entrenamiento, 20% prueba)

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

### Tarea:  Escalado de características (Estandarización)
- Inicializamos el escalador
- Estandarización del conjunto de entrenamiento
- Estandarización del conjunto de prueba ----

 **Justificación técnica:** Describe aquí tu interpretación del resultado.

### Tarea:   Guardar y cargar el modelo de normalización
- Guardar el modelo entrenado de StandardScaler

**Justificación técnica:** Describe aquí tu interpretación del resultado.

###  Tarea:  Varianza en decimales con 6 cifras


 **Justificación técnica:** Describe aquí tu interpretación del resultado.

---

### Tarea:  Reducción de características con VarianceThreshold

- Definir el umbral (ej: 0.01)
- Ajustar en los datos normalizados de entrenamiento Columnas seleccionadas
- Convertir a DataFrame

**Justificación técnica:** Describe aquí tu interpretación del resultado.

# <font color="green"> Conclusión General --Obligatorio--</font>

*Agrega una sección al final de tu script donde resumas los principales pasos realizados, las decisiones clave tomadas y el estado final del dataset preprocesado. Esto ayudará a otros a entender tu trabajo y a reutilizar tu código más fácilmente.
Podrías mencionar posibles pasos futuros, como la selección de características o la construcción de modelos.*

### Tarea: <<<------------------THE END------------------------->>>