# Ejemplo 01

**Dr. Antonio Arista Jalife.**

En este ejemplo vamos a cargar datos de viviendas de boston y con ellos vamos a entrenar un modelo de regresión lineal. Para ello vamos a cargar un dataset y veremos sus características.

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [None]:
housing = fetch_california_housing()
housingDataFrame = pd.DataFrame(housing.data, columns = housing.feature_names)
housingDataFrame["MedHouseVal"] = housing.target
housingDataFrame.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [None]:
housingDataFrame.shape

(20640, 9)

Los datos disponibles del dataset son:

**MedInc:** Mediana de ingreso en la cuadra

**HouseAge:** Mediana de edad de las casas en la cuadra

**AveRooms:** Promedio de cuartos por número de habitantes en la casa

**AveBedrms:** Promedio de habitaciones por número de habitantes de la casa

**Population:** Población total en la cuadra

**AveOccup:** Promedio de habitantes en la casa

**Latitude:** Latitud de la cuadra

**Longitude:** Longitud de la cuadra

Y el dato a predecir es:

**MedHouseVal:** Costo promedio de casas (en miles).

In [None]:
#Se eligen 2 campos: Mediana de ingreo de la cuadra y cantidad promedio de habitacione spor habitantes.
X = housingDataFrame[['MedInc', 'AveBedrms']]
Y = housingDataFrame['MedHouseVal']

Aqui vamos a dividir los datos en Train y Test y entrenaremos un regresor lineal para obtener lo mejor que pueda una predicción sobre el precio

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.4, random_state=5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

(12384, 2)
(8256, 2)
(12384,)
(8256,)


### **Entrenamiento y predicciones:**
Trataremos de predecir que tal funciona el regresor lineal.

In [None]:
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)

In [None]:
y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train, y_train_predict)
print("Entrenamiento: MSE= "+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE= "+str(MSE))

Entrenamiento: MSE= 0.697532017688797
Pruebas: MSE= 0.7068301704412728


### **Predicciones:**
Ahora, veamos que tal predijo nuestro modelo poniendo lado a lado las predicciones y los valores reales

In [None]:
df_predicciones = pd.DataFrame({'valor_real': Y_test, 'prediccion': y_test_predict})
df_predicciones = df_predicciones.reset_index(drop=True)
df_predicciones.head(10)

Unnamed: 0,valor_real,prediccion
0,0.936,1.586953
1,1.536,1.95222
2,1.325,1.394057
3,1.479,1.555578
4,1.207,1.514277
5,1.155,2.457804
6,1.633,1.638246
7,1.603,1.72192
8,3.406,3.030692
9,5.00001,3.682019


# Ejemplo 02

**Dr. Antonio Arista Jalife.**

En este ejemplo crearemos un sistema de regresión polinomial: Utilizaremos los grados de un polinomio para curvear la línea (o el plano) y evaluar que tal mejora una predicción

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error

In [None]:
housing = fetch_california_housing()
housingDataFrame = pd.DataFrame(housing.data, columns=housing.feature_names)
housingDataFrame['MedHouseVal'] = housing.target
X = housingDataFrame[['MedInc', 'AveBedrms']]
Y = housingDataFrame['MedHouseVal']
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.4, random_state=5)

### Ejemplo lineal:
Primero probaremos con predicciones lineales

In [None]:
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)
y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train, y_train_predict)
print('Entrenamiento: MSE= '+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print('Pruebas: MSE= '+str(MSE))

df_predicciones = pd.DataFrame({'valor_real': Y_test, 'Prediccion':y_test_predict, 'diferencia': Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop=True)
df_predicciones.head(10)

Entrenamiento: MSE= 0.697532017688797
Pruebas: MSE= 0.7068301704412728


Unnamed: 0,valor_real,Prediccion,diferencia
0,0.936,1.586953,-0.650953
1,1.536,1.95222,-0.41622
2,1.325,1.394057,-0.069057
3,1.479,1.555578,-0.076578
4,1.207,1.514277,-0.307277
5,1.155,2.457804,-1.302804
6,1.633,1.638246,-0.005246
7,1.603,1.72192,-0.11892
8,3.406,3.030692,0.375308
9,5.00001,3.682019,1.317991


**Ejemplo de polinomio de grado 2**

Ahora probaremos con un polinomio de grado 2

In [None]:
poly_model = LinearRegression()
poly = PolynomialFeatures(degree=2)

Xpolytrain = poly.fit_transform(X_train)
Xpolytest = poly.fit_transform(X_test)

poly_model.fit(Xpolytrain, Y_train)
y_train_predict = poly_model.predict(Xpolytrain)

MSE =mean_squared_error(Y_train, y_train_predict)
print("Entrenamiento: MSE= "+str(MSE))

y_test_predict = poly_model.predict(Xpolytest)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE= "+str(MSE))

df_predicciones = pd.DataFrame({'valor_real': Y_test, 'prediccion': y_test_predict, 'diferencia': Y_test - y_test_predict})
df_predicciones = df_predicciones.reset_index(drop=True)
df_predicciones.head(10)

Entrenamiento: MSE= 0.6926995352961527
Pruebas: MSE= 0.6982901767917583


Unnamed: 0,valor_real,prediccion,diferencia
0,0.936,1.576446,-0.640446
1,1.536,1.977706,-0.441706
2,1.325,1.523437,-0.198437
3,1.479,1.540762,-0.061762
4,1.207,1.494667,-0.287667
5,1.155,2.509804,-1.354804
6,1.633,1.63368,-0.00068
7,1.603,1.726007,-0.123007
8,3.406,3.082113,0.323887
9,5.00001,3.688743,1.311267


# Ejemplo 03

**Dr. Antonio Arista Jalife.**

En este ejemplo vamos a tomar una serie de tiempo de temperatura y con base en los datos de 10 días anteriores, trataremos de predecir la temperatura del día siguiente. Esto nos muestra como algo tan volátil de predecir como el clima puede ser predicho con un algoritmo de regresión lineal.

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

### **Serie de tiempo a Dataset.**

Esta función transforma una serie de tiempo en un dataset, como vimos en clase: toma N valores y el N+1 lo vuelve una salida esperada.

In [None]:
def transformarSerieADataset(serie, elementosPorMuestra):
    dataset = None
    salidasDataset = None
    for counter in range (len(serie)-elementosPorMuestra-1):
        muestra = np.array([serie[counter:counter+elementosPorMuestra]])
        salida = np.array([serie[counter+elementosPorMuestra]])
        if dataset is None:
            dataset = muestra
        else:
            dataset = np.append(dataset,muestra,axis = 0)
        if salidasDataset is None:
            salidasDataset = salida
        else:
            salidasDataset = np.append(salidasDataset,salida)
    return dataset, salidasDataset

In [None]:
df_timeseries = pd.read_csv('/content/drive/MyDrive/DataSets3_TCH/timeseries-temperature.csv')
df_timeseries['Temp']
serie = df_timeseries['Temp'].to_numpy()

X1, Y1 = transformarSerieADataset(serie, elementosPorMuestra=10)

Aqui vamos a dividir los datos en Train y Test y entrenaremos un regresor lineal para obtener lo mejor que pueda una predicción sobre el clima

In [None]:
X_train1, X_test1, Y_train1, Y_test1 = train_test_split(X1, Y1, test_size = 0.4, random_state=5)
print(X_train1.shape)
print(X_test1.shape)
print(Y_train1.shape)
print(Y_test1.shape)

(2183, 10)
(1456, 10)
(2183,)
(1456,)


### **Entrenamiento y predicciones:**

Trataremos de predecir que tal funciona el regresor lineal.

In [None]:
lin_model = LinearRegression()
lin_model.fit(X_train1, Y_train1)

In [None]:
y_train_predict1 = lin_model.predict(X_train1)
MSE = mean_squared_error(Y_train1, y_train_predict1)
print("Entrenamiento: MSE= "+str(MSE))

y_test_predict1 = lin_model.predict(X_test1)
MSE = (mean_squared_error(Y_test1, y_test_predict1))
print("Pruebas: MSE= "+str(MSE))

Entrenamiento: MSE= 5.938930927900748
Pruebas: MSE= 5.804442996215095


### Predicciones:
Ahora, veamos que tal predijo nuestro modelo poniendo lado a lado las predicciones y los valores reales

In [None]:
df_predicciones = pd.DataFrame({'valor_real':Y_test1, 'prediccion': y_test_predict1, 'diferencia':Y_test1 - y_test_predict1})
df_predicciones = df_predicciones.reset_index(drop=True)
df_predicciones.head(10)

Unnamed: 0,valor_real,prediccion,diferencia
0,7.1,7.842427,-0.742427
1,16.3,12.787543,3.512457
2,10.1,9.808592,0.291408
3,5.3,4.433977,0.866023
4,5.7,5.126536,0.573464
5,11.2,12.512273,-1.312273
6,16.1,16.19359,-0.09359
7,9.0,9.344948,-0.344948
8,6.6,8.291188,-1.691188
9,6.0,8.004833,-2.004833
