**Algoritmos de regresion:** cuando el target es una variable continua (por ejemplo un precio).

#Regresion lineal

Es de los modelos mas simples en machine learning, recibe este nombre ya que este modelo busca la linea que mejor se ajuste a los datos. Luego usando esta linea podemos hacer predicciones. Entenderemos mejor esto con un ejemplo:

In [None]:
# Usamos la biblioteca google para poder usar archivos en nuestro drive.
from google.colab import drive
# Este comando conecta colab con drive.
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/Bootcamp-ML/Cores/core1_RegresionLineal/house-prices.csv')

# **Información**

* SqFt: Tamaño de la casa en pies cuadrados.
* Bedrooms: Número de habitaciones.
* Bathrooms: Número de baños.
* price: Precio de venta de la casa.

# **Análisis**

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128 entries, 0 to 127
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Home          128 non-null    int64 
 1   Price         128 non-null    int64 
 2   SqFt          128 non-null    int64 
 3   Bedrooms      128 non-null    int64 
 4   Bathrooms     128 non-null    int64 
 5   Offers        128 non-null    int64 
 6   Brick         128 non-null    object
 7   Neighborhood  128 non-null    object
dtypes: int64(6), object(2)
memory usage: 8.1+ KB


In [None]:
df.describe().T.round(2)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Home,128.0,64.5,37.09,1.0,32.75,64.5,96.25,128.0
Price,128.0,130427.34,26868.77,69100.0,111325.0,125950.0,148250.0,211200.0
SqFt,128.0,2000.94,211.57,1450.0,1880.0,2000.0,2140.0,2590.0
Bedrooms,128.0,3.02,0.73,2.0,3.0,3.0,3.0,5.0
Bathrooms,128.0,2.45,0.51,2.0,2.0,2.0,3.0,4.0
Offers,128.0,2.58,1.07,1.0,2.0,3.0,3.0,6.0


In [None]:
df

Unnamed: 0,Home,Price,SqFt,Bedrooms,Bathrooms,Offers,Brick,Neighborhood
0,1,114300,1790,2,2,2,No,East
1,2,114200,2030,4,2,3,No,East
2,3,114800,1740,3,2,1,No,East
3,4,94700,1980,3,2,3,No,East
4,5,119800,2130,3,3,3,No,East
...,...,...,...,...,...,...,...,...
123,124,119700,1900,3,3,3,Yes,East
124,125,147900,2160,4,3,3,Yes,East
125,126,113500,2070,2,2,2,No,North
126,127,149900,2020,3,3,1,No,West


In [None]:
print(df.isnull().sum())

Home            0
Price           0
SqFt            0
Bedrooms        0
Bathrooms       0
Offers          0
Brick           0
Neighborhood    0
dtype: int64


In [None]:
df.duplicated().sum()

np.int64(0)

# **Machine Learning**

In [None]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression

In [None]:
# Separar las características (X) y el objetivo (y)
X = df.drop(['Price','Brick','Neighborhood','Home','Offers'], axis=1)
y = df['Price']

In [None]:
# 2. Dividir en train y test.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 3. Escalar los datos.
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
# 4. Entrenar modelo, nombre designado al modelo -> modelo
modelo = LinearRegression()
modelo.fit(X_train_scaled, y_train)

In [None]:
# 5. Predecir
y_pred = modelo.predict(X_test_scaled)
y_pred

array([101653.67332246,  95022.06503238, 133311.58396858, 110357.6592032 ,
       126023.85004097, 131412.03177666, 150221.20136074, 119806.71726901,
       152708.05446952, 133815.00603426, 153122.52998765, 111102.73138828,
       117734.33967836, 142015.56984932, 154864.31091136, 123536.99693218,
       108285.28161255, 144502.4229581 , 116160.31645702,  93364.16295986,
       100824.7222862 , 124780.42348658, 121464.61934153, 107870.80609442,
       168872.5996766 , 115661.96208771])

In [None]:
# 6.- Evaluar

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MSE: {mse:.2f}")
print(f"R² (score): {r2:.2f}")

MSE: 320149938.23
R² (score): 0.46


In [None]:
import numpy as np
rmse = np.sqrt(320149938.23)
print(rmse)

17892.73423012816


* El modelo explica el  **46%** de la variabilidad en los precios de las casas (lo cual es muy bajo)
* En promedio el modelo se equivoca en unos $17892,73 al predecir el precio de una casa.

# **Predicción:** Usa el modelo entrenado para predecir el precio de una casa con las siguientes características:
Tamaño: 2000 pies cuadrados
Habitaciones: 3
Baños: 2

In [None]:

dic={
    "SqFt": 2000,
    "Bedrooms" : 3,
    "Bathrooms": 2
}
nueva_casa = pd.DataFrame([dic])

# Hacer la predicción
precio_estimado = modelo.predict(nueva_casa)

print(f"Precio estimado para la casa: ${precio_estimado[0]:,.2f}")

Precio estimado para la casa: $17,119,873.88


