Algoritmos de regresion: cuando el target es una variable continua (por ejemplo un precio).

#Regresion lineal

Es de los modelos mas simples en machine learning, recibe este nombre ya que este modelo busca la linea que mejor se ajuste a los datos. Luego usando esta linea podemos hacer predicciones. Entenderemos mejor esto con un ejemplo:

In [None]:
# Usamos la biblioteca google para poder usar archivos en nuestro drive.
from google.colab import drive
# Este comando conecta colab con drive.
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/Bootcamp-ML/Cores/core1_RegresionLineal/house-prices.csv')

# **Información**

* SqFt: Tamaño de la casa en pies cuadrados.
* Bedrooms: Número de habitaciones.
* Bathrooms: Número de baños.
* price: Precio de venta de la casa.

# **Análisis**

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128 entries, 0 to 127
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Home          128 non-null    int64 
 1   Price         128 non-null    int64 
 2   SqFt          128 non-null    int64 
 3   Bedrooms      128 non-null    int64 
 4   Bathrooms     128 non-null    int64 
 5   Offers        128 non-null    int64 
 6   Brick         128 non-null    object
 7   Neighborhood  128 non-null    object
dtypes: int64(6), object(2)
memory usage: 8.1+ KB


In [None]:
df.describe().T.round(2)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Home,128.0,64.5,37.09,1.0,32.75,64.5,96.25,128.0
Price,128.0,130427.34,26868.77,69100.0,111325.0,125950.0,148250.0,211200.0
SqFt,128.0,2000.94,211.57,1450.0,1880.0,2000.0,2140.0,2590.0
Bedrooms,128.0,3.02,0.73,2.0,3.0,3.0,3.0,5.0
Bathrooms,128.0,2.45,0.51,2.0,2.0,2.0,3.0,4.0
Offers,128.0,2.58,1.07,1.0,2.0,3.0,3.0,6.0


In [None]:
df

Unnamed: 0,Home,Price,SqFt,Bedrooms,Bathrooms,Offers,Brick,Neighborhood
0,1,114300,1790,2,2,2,No,East
1,2,114200,2030,4,2,3,No,East
2,3,114800,1740,3,2,1,No,East
3,4,94700,1980,3,2,3,No,East
4,5,119800,2130,3,3,3,No,East
...,...,...,...,...,...,...,...,...
123,124,119700,1900,3,3,3,Yes,East
124,125,147900,2160,4,3,3,Yes,East
125,126,113500,2070,2,2,2,No,North
126,127,149900,2020,3,3,1,No,West


In [None]:
print(df.isnull().sum())

Home            0
Price           0
SqFt            0
Bedrooms        0
Bathrooms       0
Offers          0
Brick           0
Neighborhood    0
dtype: int64


In [None]:
df.duplicated().sum()

np.int64(0)

In [None]:
# Codifico Brick
df["Brick"] =df["Brick"].map({
    "Yes": 0,
    "No": 1
})

In [None]:
# Codifico Neighborhood
df["Neighborhood"] =df["Neighborhood"].map({
    "East": 0,
    "North": 1,
    "West" : 2
})

In [None]:
df.head()

Unnamed: 0,Home,Price,SqFt,Bedrooms,Bathrooms,Offers,Brick,Neighborhood
0,1,114300,1790,2,2,2,1,0
1,2,114200,2030,4,2,3,1,0
2,3,114800,1740,3,2,1,1,0
3,4,94700,1980,3,2,3,1,0
4,5,119800,2130,3,3,3,1,0


**Supuesto:** En este modelo consideré trabajar con todas las features, menos Home que no es mas que un correlativo. Aqui el modelo va a estimar el precio de la vivienda tomando en cuenta: SqFt, Bedrooms, Bathrooms, Offers, Brick y Neighborhood, pues todos esas características o "features" inciden en el avalúo no una propiedad.

# **Machine Learning**

In [None]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression

In [None]:
df.columns

Index(['Home', 'Price', 'SqFt', 'Bedrooms', 'Bathrooms', 'Offers', 'Brick',
       'Neighborhood'],
      dtype='object')

In [None]:
# Separar las características (X) y el objetivo (y)
X = df.drop(['Price','Home'], axis=1)
y = df['Price']

In [None]:
X

Unnamed: 0,SqFt,Bedrooms,Bathrooms,Offers,Brick,Neighborhood
0,1790,2,2,2,1,0
1,2030,4,2,3,1,0
2,1740,3,2,1,1,0
3,1980,3,2,3,1,0
4,2130,3,3,3,1,0
...,...,...,...,...,...,...
123,1900,3,3,3,0,0
124,2160,4,3,3,0,0
125,2070,2,2,2,1,1
126,2020,3,3,1,1,2


In [None]:
y

Unnamed: 0,Price
0,114300
1,114200
2,114800
3,94700
4,119800
...,...
123,119700
124,147900
125,113500
126,149900


In [None]:
# 2. Dividir en train y test.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 3. Escalar los datos.
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
# 4. Entrenar modelo, nombre designado al modelo -> modelo
modelo = LinearRegression()
modelo.fit(X_train_scaled, y_train)

In [None]:
# 5. Predecir
y_pred = modelo.predict(X_test_scaled)
y_pred

array([111927.80731298,  93605.55781711, 157677.88331799, 135714.99063084,
       151909.16526049, 138048.40055288, 144629.98368137,  90112.8629    ,
       177802.05637343, 131682.98473288, 167692.87841882,  97580.95361579,
       127707.58893419, 123235.03864002, 144038.10290298, 134992.92030563,
       113994.22907164, 134846.62224461, 126744.49426507,  79055.5873193 ,
       121365.91867846, 127311.33512684, 131637.58735999, 121993.8061499 ,
       164047.73564838,  94182.44155246])

In [None]:
# 6.- Evaluar

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MSE: {mse:.2f}")
print(f"R² (score): {r2:.2f}")

MSE: 131395188.40
R² (score): 0.78


In [None]:
import numpy as np
rmse = np.sqrt(131395188.40)
print(rmse)

11462.774027258847


* El modelo explica el 78% de la variabilidad en los precios de las casas (Mejoró respecto de la primera versión, siendo nayor el % de predecibilidad.
* En promedio, el modelo se equivoca en unos $11,460 al predecir el precio de una casa.


**Predicción:** Usa el modelo entrenado para predecir el precio de una casa con las siguientes características:
Tamaño: 2000 pies cuadrados
Habitaciones: 3
Baños: 2

In [None]:
#Offers Brick   Neighborhood
dic={
   "SqFt": 2000,
    "Bedrooms" : 3,
    "Bathrooms": 2,
    "Offers" : 3,
    "Brick" : 1,
    "Neighborhood" : 0
}
nueva_casa = pd.DataFrame([dic])

# Scale the new data using the same scaler fitted on the training data
nueva_casa_scaled = scaler.transform(nueva_casa)

# Hacer la predicción
precio_estimado2 = modelo.predict(nueva_casa_scaled)

print(f"Precio estimado para la casa: ${precio_estimado2[0]:,.2f}")

Precio estimado para la casa: $106,932.71
