In [112]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn

# Carga de datos

In [113]:
datos = pd.read_csv("./california_housing.csv")

In [114]:
datos

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


# Análisis exploratorio

## Datos numéricos

In [115]:
# Resporte estadístico de los datos cargados
datos.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


Vemos que hay un problema con count de total_bedrooms ya que faltan datos en comparación con el resto de los datos del mismo count.

## Datos categóricos

In [116]:
# Obtenemos los valores únicos de la columna ocean_proximity
datos.ocean_proximity.unique()

# Es lo mismo que
# datos['ocean_proximity'].unique()

array(['NEAR BAY', '<1H OCEAN', 'INLAND', 'NEAR OCEAN', 'ISLAND'],
      dtype=object)

In [117]:
# Verificar datos sin valor
datos.isna().sum()

longitude               0
latitude                0
housing_median_age      0
total_rooms             0
total_bedrooms        207
population              0
households              0
median_income           0
median_house_value      0
ocean_proximity         0
dtype: int64

Vemos que en el total_bedroom hay 207 valores que no tienen valor asignado.

# Limpieza de datos

Eliminar items con elementos faltantes

Alternativamente, se puede realizar imputación de valores

In [118]:
# Borramos los valores nulos
datos.dropna(inplace=True)

# Con inplace=True hacemos que los nuevos datos con las filas vacías dropeadas
# se guarden en la misma variable

# El inplace=True es lo mismo que hacer
# datos = datos.dropna()

In [119]:
datos.isna().sum()

longitude             0
latitude              0
housing_median_age    0
total_rooms           0
total_bedrooms        0
population            0
households            0
median_income         0
median_house_value    0
ocean_proximity       0
dtype: int64

Vemos que haciendo uso de la función dropna(inplace=True) eliminamos los elementos sin valor de la data.

# One-hot encoding

Cambiamos los datos categóricos (texto, sin un orden natural) a nuevas numéricas
con números (0 y 1) y borramos la columna original

### Usando Pandas

In [120]:
tabla_dummies = pd.get_dummies(datos.ocean_proximity)

In [121]:
tabla_dummies

Unnamed: 0,<1H OCEAN,INLAND,ISLAND,NEAR BAY,NEAR OCEAN
0,0,0,0,1,0
1,0,0,0,1,0
2,0,0,0,1,0
3,0,0,0,1,0
4,0,0,0,1,0
...,...,...,...,...,...
20635,0,1,0,0,0
20636,0,1,0,0,0
20637,0,1,0,0,0
20638,0,1,0,0,0


In [122]:
# Concatenamos las tablas de los datos y la tabla_dummies
datos_preproc = pd.concat([datos, tabla_dummies], axis=1)

In [123]:
datos_preproc

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,<1H OCEAN,INLAND,ISLAND,NEAR BAY,NEAR OCEAN
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY,0,0,0,1,0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY,0,0,0,1,0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY,0,0,0,1,0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY,0,0,0,1,0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND,0,1,0,0,0
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND,0,1,0,0,0
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND,0,1,0,0,0
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND,0,1,0,0,0


Es necesario concatenar con axis=1 ya que pandas espera que los nombres de las columnas de las tablas sean las mismas. Si estas no lo son, colocará muchos NA, cosa que no queremos.

In [124]:
# Borramos la columna de ocean_proximity y guardamos esta nueva tabla en la misma variable
datos_preproc.drop(columns='ocean_proximity', inplace=True)

# El inplace=True es lo mismo que hacer
# datos_preproc = datos_preproc.drop(columns='ocean_proximity')

In [125]:
datos_preproc

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,<1H OCEAN,INLAND,ISLAND,NEAR BAY,NEAR OCEAN
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,0,0,0,1,0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,0,0,0,1,0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,0,0,0,1,0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,0,0,0,1,0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,0,1,0,0,0
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,0,1,0,0,0
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,0,1,0,0,0
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,0,1,0,0,0


# Separar datos de entrenamiento y testing

In [126]:
# Sacamos una muestra del 80% de los datos preprocesados, con un random_state para tener siempre la misma muestra y no esté cambiando cada vez que carguemos
train = datos_preproc.sample(frac=0.8, random_state=123)

# Tomamos el 100% de los datos preprocesados que no están en el train con el
# mismo random_state de este último
test = datos_preproc.drop(train.index).sample(frac=1.0, random_state=123)

# Es importante que tengan el mismo random_state

In [127]:
train

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,<1H OCEAN,INLAND,ISLAND,NEAR BAY,NEAR OCEAN
14354,-117.23,32.75,23.0,2415.0,653.0,1275.0,596.0,3.1389,101800.0,0,0,0,0,1
12908,-121.29,38.63,24.0,2868.0,527.0,1284.0,487.0,3.3182,213000.0,0,1,0,0,0
19545,-120.97,37.63,39.0,2360.0,607.0,2047.0,605.0,1.7054,58800.0,0,1,0,0,0
12188,-117.35,33.69,11.0,1229.0,236.0,581.0,190.0,3.1020,111300.0,1,0,0,0,0
14786,-117.12,32.57,21.0,1738.0,295.0,983.0,298.0,4.8274,174100.0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13853,-117.31,34.50,14.0,2443.0,447.0,883.0,465.0,2.1111,116700.0,0,1,0,0,0
8048,-118.17,33.84,45.0,1853.0,328.0,945.0,320.0,5.0787,219200.0,1,0,0,0,0
15731,-122.44,37.78,52.0,3017.0,851.0,1588.0,800.0,3.3882,471400.0,0,0,0,1,0
10837,-117.94,33.68,26.0,4183.0,539.0,1504.0,520.0,7.4056,374200.0,1,0,0,0,0


Vemos que ***train*** contiene únicamente el 80% del total de los datos preprocesados

In [128]:
test

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,<1H OCEAN,INLAND,ISLAND,NEAR BAY,NEAR OCEAN
7584,-118.22,33.90,22.0,312.0,107.0,583.0,119.0,1.9423,98400.0,1,0,0,0,0
5092,-118.28,33.97,35.0,2305.0,634.0,1978.0,568.0,1.3750,100000.0,1,0,0,0,0
17734,-121.80,37.30,16.0,906.0,149.0,605.0,148.0,4.8173,235600.0,1,0,0,0,0
3073,-119.23,35.79,31.0,2862.0,606.0,2467.0,600.0,2.3125,62100.0,0,1,0,0,0
15424,-117.27,33.20,34.0,1852.0,322.0,978.0,332.0,4.3542,156900.0,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20536,-121.73,38.55,34.0,1717.0,393.0,1224.0,387.0,2.7917,130800.0,0,1,0,0,0
6987,-118.03,33.97,39.0,2126.0,434.0,1103.0,433.0,3.2852,196200.0,1,0,0,0,0
17679,-121.84,37.32,22.0,3015.0,581.0,2491.0,530.0,4.3419,176300.0,1,0,0,0,0
17603,-121.88,37.29,44.0,2026.0,396.0,908.0,383.0,4.1406,274100.0,1,0,0,0,0


Vemos que ***test*** contiene el 20% restante de los datos.

# Regresión

Se nos pide predecir el valor medio de una cada (median_house_value)

In [129]:
target = 'median_house_value'

1. Para que nuestro modelo predizca esto, primero hay que separar la data de
entrada que la de salida (la respuesta, el target)

- x = variable de entrada
- y = variable de salida (respuesta, el target)

In [130]:
# Varaiable de entrada
x_train = train.drop(columns=target)

# Variable de salida
y_train = train[target]

Hay que hacer esto tanto para la de entrenamiento como la de testing

In [131]:
# Varaiable de entrada
x_test = test.drop(columns=target)

# Variable de salida
y_test = test[target]

## Regresión lineal

In [132]:
from sklearn.linear_model import LinearRegression, SGDRegressor

In [133]:
# Instanciamos la regresión lineal
modelo_lineal = LinearRegression()

# Entrenamiento
modelo_lineal.fit(x_train, y_train)

In [134]:
# Vemos los coeficientes, los 13 atributos
print(modelo_lineal.coef_)

[-2.79505461e+04 -2.64356224e+04  1.05281453e+03 -4.83622026e+00
  1.02613205e+02 -4.24880934e+01  5.13420919e+01  3.85584636e+04
 -1.83932245e+04 -5.76452663e+04  1.15305246e+05 -2.35743400e+04
 -1.56924156e+04]


In [135]:
# Vemos el intercepto
print(modelo_lineal.intercept_)

-2349285.2026766594


In [136]:
# Puntaje obtenido
print(modelo_lineal.score(x_train, y_train))
print(modelo_lineal.score(x_test, y_test))

0.6447189719852665
0.650984087187056


Vemos que obtenemos 64.47% y 65.1% de eficiencia con los datos de entrenamiento
y pruebas, respectivamente.

In [137]:
# Hacemos predicciones
y_pred = modelo_lineal.predict(x_test)

print(y_pred)
print(y_test)

[129331.42153611 129190.61410747 246043.17839169 ... 208228.13219093
 271050.26710511 309530.5544212 ]
7584      98400.0
5092     100000.0
17734    235600.0
3073      62100.0
15424    156900.0
           ...   
20536    130800.0
6987     196200.0
17679    176300.0
17603    274100.0
18232    351900.0
Name: median_house_value, Length: 4087, dtype: float64


Lo mismo de arriba, pero usando el Stochastic Gradient Descent Regressor

In [138]:
# Instanciamos el Stochastic Gradient Descent Regressor
# El SGD es un modelo iterativo, por lo que en cada iteración cambia su learning
# rate. Para asemejarlo a lo hecho antes, vamos a definirlo como constante y
# dándode un valor predeterminado
modelo_SGD = SGDRegressor(learning_rate='constant', eta0=0.1)

# Entrenamiento
modelo_SGD.fit(x_train, y_train)

In [139]:
# Coeficiente e intercepto
print(modelo_SGD.coef_)
print(modelo_SGD.intercept_)

[-4.74576596e+14  1.57577147e+14 -8.06198410e+13  5.64656080e+14
  2.57483983e+14  3.57735087e+14  2.77178649e+14 -3.61749804e+12
  4.28213495e+12  5.66889947e+12 -4.31042041e+11  1.61419705e+12
 -7.06752856e+12]
[4.22419732e+12]


In [140]:
# Resulados obtenidos
print(modelo_SGD.score(x_train, y_train))
print(modelo_SGD.score(x_test, y_test))

-6.489288512752639e+26
-6.647160586596002e+26


Los resultados obtenidos no son buenos porque no se ha regularizado la data, por
lo que puede que el modelo esté priorizando algunos coeficientes y/o atributos
que otros.

## Regresión polinomial

In [141]:
from sklearn.preprocessing import PolynomialFeatures

In [142]:
poly = PolynomialFeatures(degree=1)
# Un modelo polinomial de grado 1 es un modelo de regesión lineal

x_train_poly = poly.fit_transform(x_train)
x_test_poly = poly.transform(x_test)

In [143]:
# Instanciamos la regresión lineal
modelo_lineal = LinearRegression()

# Entrenamiento
modelo_lineal.fit(x_train_poly, y_train)

# Puntaje obtenido
print(modelo_lineal.score(x_train_poly, y_train))
print(modelo_lineal.score(x_test_poly, y_test))

0.6447189719852666
0.6509840871870617


Vemos que obtenemos los mismos resultados que con la regresión lineal. Esto es
porque es el mismo modelo, una regresión polinomial de grado 1 es una regresión
lineal.

In [144]:
# Aumentamos de poco a poco el grado del modelo para ver cómo cambian los
# resultados
poly = PolynomialFeatures(degree=2)

x_train_poly = poly.fit_transform(x_train)
x_test_poly = poly.transform(x_test)

modelo_lineal = LinearRegression()

modelo_lineal.fit(x_train_poly, y_train)

print(modelo_lineal.score(x_train_poly, y_train))
print(modelo_lineal.score(x_test_poly, y_test))

0.7123903474125894
0.5994162555807622


Vemos que, con grado 2, el entrenamiento mejora, pero el testing empeora.

In [145]:
# Aumentamos de poco a poco el grado del modelo para ver cómo cambian los
# resultados
poly = PolynomialFeatures(degree=3)

x_train_poly = poly.fit_transform(x_train)
x_test_poly = poly.transform(x_test)

modelo_lineal = LinearRegression()

modelo_lineal.fit(x_train_poly, y_train)

print(modelo_lineal.score(x_train_poly, y_train))
print(modelo_lineal.score(x_test_poly, y_test))

0.7733665695085641
-0.4690002524082275


Vemos que, con grado 3, el entrenamiento sigue mejorando, pero el testing se va
a peor. Si aumentamos los grados, esto se repite, el testing sigue empeorando.

### Con StandardScaler
Sirve para regularizar variables numéricas, para que el modelo no priorice a
unas por encima de otras.

In [146]:
from sklearn.preprocessing import StandardScaler

In [147]:
scaler = StandardScaler()

x_train_scale = scaler.fit_transform(x_train)
x_test_scale = scaler.transform(x_test)

poly = PolynomialFeatures(degree=2)

x_train_poly = poly.fit_transform(x_train_scale)
x_test_poly = poly.transform(x_test_scale)

In [148]:
from sklearn.linear_model import Ridge

In [149]:
modelo_lineal = Ridge(alpha=8.0)
# alpha es el valor de regularización

modelo_lineal.fit(x_train_poly, y_train)

print(modelo_lineal.score(x_train_poly, y_train))
print(modelo_lineal.score(x_test_poly, y_test))

0.711926485165357
0.6073937190188584


Vemos que se mejoran los resultados para la regresión polinomial.

### Con Lasso

In [150]:
from sklearn.linear_model import Lasso

In [151]:
modelo_lineal = Lasso(alpha=8.0)
# alpha es el valor de regularización

modelo_lineal.fit(x_train_poly, y_train)

print(modelo_lineal.score(x_train_poly, y_train))
print(modelo_lineal.score(x_test_poly, y_test))

0.7118629023928777
0.6129439658505773


  model = cd_fast.enet_coordinate_descent(


Vemos que con Lasso obtenemos resultados un poco mejores que con Ridge.

Esto es porque Ridge, como eleva al cuadrado, va a penalizar más fuertemente a
coeficientes grandes.

Lasso es un valor absoluto, por lo que no los va a penalizar de manera tan
drástico.