## Desafío Miércoles Semana 5 - Regresión desde el aprendizaje de máquinas
###  Gustavo Morales, G10 - 09.Oct.2019

#### Ejercicio 1

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn import preprocessing

In [2]:
df = pd.read_csv("boston.csv")
df = df.drop(columns='Unnamed: 0')

In [3]:
df.describe()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677082,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
crim       506 non-null float64
zn         506 non-null float64
indus      506 non-null float64
chas       506 non-null int64
nox        506 non-null float64
rm         506 non-null float64
age        506 non-null float64
dis        506 non-null float64
rad        506 non-null int64
tax        506 non-null int64
ptratio    506 non-null float64
black      506 non-null float64
lstat      506 non-null float64
medv       506 non-null float64
dtypes: float64(11), int64(3)
memory usage: 55.5 KB


#### Ejercicio 2

In [5]:
X = df.drop(['medv'], axis=1)  # features

In [6]:
y = df['medv']  # target

In [7]:
print(f'Sample size = {y.shape[0]}')

Sample size = 506


In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [9]:
print(f'Train size = {X_train.shape[0]}')
print(f'Test size = {X_test.shape[0]}')
print(f'Number of features = {X_train.shape[1]}')

Train size = 339
Test size = 167
Number of features = 13


#### Ejercicio 3

Aplicaré una estandarización básica:

In [10]:
linear_modelu = LinearRegression(fit_intercept=False, normalize=False)
linear_modeln = LinearRegression(fit_intercept=True, normalize=True)
lfit_unnormed = linear_modelu.fit(X_train, y_train)
lfit_normed = linear_modeln.fit(X_train, y_train)

In [11]:
# evaluation for testing sets for the two models
y_test_predict_u = lfit_unnormed.predict(X_test)
y_test_predict_n = lfit_normed.predict(X_test)

#### Ejercicio 4

In [12]:
def report_scores(predicted, to_test):
    mse = mean_squared_error(predicted, to_test)
    r2 = r2_score(predicted, to_test)
    print(f'MSE = {mse:.2f}')
    print(f'R2  = {r2:.2f}')

In [13]:
report_scores(y_test_predict_u, y_test)

MSE = 23.60
R2  = 0.63


In [14]:
report_scores(y_test_predict_n, y_test)

MSE = 20.72
R2  = 0.67


**(R)** El MSE básicamente mide el promedio al cuadrado del error en la predicción. En base a esto, el mejor modelo es el normalizado, por que tiene menor MSE. De hecho es lógico que el $R^2$ no cambie, porque es independiente de la normalización.

#### Ejercicio 5

In [15]:
def fetch_features(dataframe, target='medv'):
    df_c = dataframe.corr()[target].abs().sort_values(ascending=False)
    return df_c[1:].head(6)

In [16]:
fetch_features(df)

lstat      0.737663
rm         0.695360
ptratio    0.507787
indus      0.483725
tax        0.468536
nox        0.427321
Name: medv, dtype: float64

#### Ejercicio 6

In [17]:
yy = df['medv']
XX = df[fetch_features(df).index.tolist()]

In [18]:
XX_train, XX_test, yy_train, yy_test = train_test_split(XX, yy, test_size=0.33, random_state=42)

El modelo que tenía mejor desempeño era con `fit_intercept=True` y `normalize=True`:

In [19]:
lfit_normed2 = LinearRegression(fit_intercept=True, normalize=True).fit(XX_train, yy_train)

In [20]:
# model evaluation for training and testing sets, normalized
yy_train_predict_n = lfit_normed2.predict(XX_test)
yy_test_predict_n = lfit_normed2.predict(XX_test)

In [21]:
report_scores(yy_test_predict_n, yy_test)

MSE = 25.00
R2  = 0.53


**(R)** Vemos que al tomar los 6 regresores con mayor correlación, no necesariamente cambian estas dos métricas.

#### Ejercicio 7

**Notar que los valores de `nox` están invertidos en ambos casos porque en el dataset original dicha variable quiere decir cantidad de óxido nítrico (que mientras más es mejor), y no cantidad de CO2 (que mientras más es peor).**

In [22]:
worst_neighbor = np.array([37.9, 3.5, 12.6, 27.7, 187, 0.38]).reshape(1,-1)  # reshape is for a single feature/sample
best_neighbor = np.array([1.73, 8.7, 22, 0.46, 711, 0.87]).reshape(1,-1)  # reshape is for a single feature/sample

Usaré `lfit_normed2`:

In [23]:
worst_case_prediction = lfit_normed2.predict(worst_neighbor)[0]

In [24]:
best_case_prediction = lfit_normed2.predict(best_neighbor)[0]

In [25]:
neighbor_keys = ['lstat','rm','ptratio','indus','tax','nox']

In [26]:
best_case_dict = {}
for k, v in zip(neighbor_keys, list(best_neighbor[0])):
    best_case_dict[k] = v
best_case_dict['my_pred'] = best_case_prediction

In [27]:
worst_case_dict = {}
for k, v in zip(neighbor_keys, list(worst_neighbor[0])):
    worst_case_dict[k] = v
worst_case_dict['my_pred'] = worst_case_prediction

In [28]:
def print_prediction(dictionary):
    result = f"Mi predicción para una casa en Boston con\n\
    - Porcentaje de población de estratos bajos = {dictionary['lstat']}\n\
    - Cantidad promedio de habitaciones por casa = {dictionary['rm']}\n\
    - Razón alumno:profesor = {dictionary['ptratio']}\n\
    - Proporción de negocios no asociados al retail = {dictionary['indus']}\n\
    - Nivel de impuestos asociados a viviendas = {dictionary['tax']}\n\
    - Concentración de óxido nítrico (ppm) = {dictionary['nox']}\n\
\n\
\tes de {dictionary['my_pred']:.2f} miles de USD."
    print(result)

In [29]:
print_prediction(best_case_dict)

Mi predicción para una casa en Boston con
    - Porcentaje de población de estratos bajos = 1.73
    - Cantidad promedio de habitaciones por casa = 8.7
    - Razón alumno:profesor = 22.0
    - Proporción de negocios no asociados al retail = 0.46
    - Nivel de impuestos asociados a viviendas = 711.0
    - Concentración de óxido nítrico (ppm) = 0.87

	es de 34.17 miles de USD.


In [30]:
print_prediction(worst_case_dict)

Mi predicción para una casa en Boston con
    - Porcentaje de población de estratos bajos = 37.9
    - Cantidad promedio de habitaciones por casa = 3.5
    - Razón alumno:profesor = 12.6
    - Proporción de negocios no asociados al retail = 27.7
    - Nivel de impuestos asociados a viviendas = 187.0
    - Concentración de óxido nítrico (ppm) = 0.38

	es de 2.54 miles de USD.


In [31]:
best_case_dict['my_pred']/worst_case_dict['my_pred']

13.442370252230372

**(R)** Es decir, para una casa en Boston en el caso hipotético (`best_neighbor`) que es mejor que el otro caso (`worst_neighbor`), yo predigo un precio $\sim 13-14$ veces más caro para la casa en el mejor barrio.

In [32]:
df1 = pd.DataFrame.from_dict(best_case_dict, orient='index', columns=['best_case'])

In [33]:
df2 = pd.DataFrame.from_dict(worst_case_dict, orient='index', columns=['worst_case'])

In [34]:
df_ = pd.concat([df1,df2], axis=1)

In [35]:
df_pred = df_.rename(index={'lstat': 'Porcentaje de población de estratos bajos',
                            'rm': 'Cantidad promedio de habitaciones por casa',
                            'ptratio': 'Razón alumno:profesor',
                            'indus': 'Proporción de negocios no asociados al retail',
                            'tax': 'Nivel de impuestos asociados a viviendas',
                            'nox': 'Concentración de óxido nítrico (ppm)',
                            'my_pred': 'Mi predicción (x1000 USD)'},
                     columns={'best_case':'Mejor barrio', 'worst_case':'Peor barrio'})

In [36]:
df_pred.round(1)

Unnamed: 0,Mejor barrio,Peor barrio
Porcentaje de población de estratos bajos,1.7,37.9
Cantidad promedio de habitaciones por casa,8.7,3.5
Razón alumno:profesor,22.0,12.6
Proporción de negocios no asociados al retail,0.5,27.7
Nivel de impuestos asociados a viviendas,711.0,187.0
Concentración de óxido nítrico (ppm),0.9,0.4
Mi predicción (x1000 USD),34.2,2.5
