<a href="https://colab.research.google.com/github/gustavovazquez/ML/blob/main/ML_Ejercicio_proyecto_precios_viviendas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto ML: Predicción de Precios de Viviendas

En este notebook vamos a desarrollar paso a paso un proyecto de Machine Learning
utilizando **regresión lineal**.  

Usaremos **únicamente variables numéricas** al comienzo, y luego podremos ampliar a variables categóricas.

El flujo será:

1. Definición del problema  
2. Carga y exploración de datos  
3. Preprocesamiento  
4. División en entrenamiento y prueba  
5. Entrenamiento del modelo  
6. Evaluación  
7. Interpretación de coeficientes  
8. Análisis de errores  


## 1. Definición del problema

Queremos predecir el **precio de una vivienda** (`Precio`) en función de sus
características numéricas (superficie, baños, habitaciones, etc.).

El objetivo es construir un **modelo de regresión lineal** que nos permita
entender cuáles son los factores más influyentes en el valor de una propiedad.


## 2. Carga y exploración de datos

En esta etapa cargamos el dataset y exploramos su estructura:
- Número de filas y columnas.
- Tipos de datos (numéricos y categóricos).
- Primeras filas para darnos una idea del contenido.


In [None]:
# Importar librerías necesarias: pandas, numpy, matplotlib, seaborn
# Cargar el dataset desde la URL o desde un archivo local
# Mostrar las primeras filas con df.head()
# Revisar información general con df.info() y df.describe()
# Realiza un análisis descriptivo más general usando pandas profiling

## 3. Selección de variables

Elegimos únicamente las **variables numéricas** como predictores (X),
y la variable `Precio` como objetivo (y).


In [None]:
# Seleccionar columnas numéricas con df.select_dtypes()
# Separar en X (predictoras) y y (objetivo)
# Una forma sencilla de seleccionar las variables numéricas es df.select_dtypes(include=["number"])
# ^^^ acordarse de descartar la columna objetivo!
# Realiza una matriz de correlación para detectar posibles correlaciones

## 4. División en entrenamiento y prueba

Separamos el dataset en dos partes:
- **Entrenamiento (80%)** para ajustar el modelo.
- **Prueba (20%)** para evaluar el desempeño en datos no vistos.


In [None]:
# Usar train_test_split de sklearn.model_selection
# Guardar en X_train, X_test, y_train, y_test

## 5. Preprocesamiento: Escalado

- **Estandarización**: escalar todas las variables numéricas a media=0 y var=1,
  para que los coeficientes sean comparables.


In [None]:
# Usar Pipeline de sklearn
# Incluir pasos: StandardScaler(), LinearRegression()

## 6. Entrenamiento del modelo

Entrenamos un modelo de **regresión lineal** utilizando las variables
numéricas escaladas.


In [None]:
# Ajustar el pipeline con .fit(X_train, y_train)

## 7. Evaluación del modelo

Medimos qué tan bien predice en los datos de prueba:
- MSE (Error cuadrático medio)  
- RMSE (Raíz del MSE)  
- MAE (Error absoluto medio)  
- R² (Coeficiente de determinación)  


In [None]:
# Usar .predict(X_test) para obtener predicciones
# Calcular métricas con mean_squared_error, mean_absolute_error, r2_score
# Imprimir resultados

## 8. Interpretación de coeficientes

Al haber usado estandarización, los coeficientes son comparables:
- Signo (+/-): indica si la variable aumenta o disminuye el precio.
- Magnitud: indica la influencia relativa.


In [None]:
# Extraer coeficientes del modelo con .coef_
# Crear un DataFrame con feature y coeficiente
# Ordenar por valor absoluto para ver las variables más influyentes
# (opcional) Hacer un gráfico de barras horizontales

## 9. Análisis de errores

Revisamos si el modelo cumple los supuestos de la regresión lineal:
- Residuos deben distribuirse de forma aproximadamente normal.
- No debe haber patrones claros en el gráfico residuos vs predicción.


In [None]:
# Calcular residuos = y_test - y_pred
# Hacer un scatterplot de y_pred vs residuos
# Dibujar histograma de residuos