# Ejemplo 03
**_Dr. Antonio Arista Jalife._**

En este ejemplo vamos a tomar una serie de tiempo de temperatura y con base en los datos de 10 días anteriores, trataremos de predecir la temperatura del día siguiente. Esto nos muestra como algo tan volátil de predecir como el clima puede ser predicho con un algoritmo de regresión lineal.

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

### Serie de tiempo a Dataset.
Esta función transforma una serie de tiempo en un dataset, como vimos en clase: toma N valores y el N+1 lo vuelve una salida esperada.

In [2]:
def transformarSerieADataset(serie, elementosPorMuestra):
    dataset = None
    salidasDataset = None
    for counter in range (len(serie)-elementosPorMuestra-1):        
        muestra = np.array([serie[counter:counter+elementosPorMuestra]])        
        salida = np.array([serie[counter+elementosPorMuestra]])
        if dataset is None:
            dataset = muestra
        else:
            dataset = np.append(dataset,muestra,axis = 0)
        if salidasDataset is None:
            salidasDataset = salida    
        else:        
            salidasDataset = np.append(salidasDataset,salida)
    return dataset, salidasDataset

In [15]:
df_timeseries = pd.read_csv('timeseries-temperature.csv')
df_timeseries['Temp']
serie = df_timeseries['Temp'].to_numpy()
X, Y = transformarSerieADataset(serie, elementosPorMuestra = 30)

In [16]:
df_timeseries.head(10)

Unnamed: 0,Date,Temp
0,1981-01-01,20.7
1,1981-01-02,17.9
2,1981-01-03,18.8
3,1981-01-04,14.6
4,1981-01-05,15.8
5,1981-01-06,15.8
6,1981-01-07,15.8
7,1981-01-08,17.4
8,1981-01-09,21.8
9,1981-01-10,20.0


In [7]:
X

array([[20.7, 17.9, 18.8, 14.6, 15.8],
       [17.9, 18.8, 14.6, 15.8, 15.8],
       [18.8, 14.6, 15.8, 15.8, 15.8],
       ...,
       [13.9, 10. , 12.9, 14.6, 14. ],
       [10. , 12.9, 14.6, 14. , 13.6],
       [12.9, 14.6, 14. , 13.6, 13.5]])

In [None]:
#x = pd.to_datetime(df_timeseries.Temp, format = "%B%Y")

Aqui vamos a dividir los datos en Train y Test y entrenaremos un regresor lineal para obtener lo mejor que pueda una predicción sobre el clima

In [17]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4, random_state=5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

(2171, 30)
(1448, 30)
(2171,)
(1448,)


### Entrenamiento y predicciones:
Trataremos de predecir que tal funciona el regresor lineal. 

In [18]:
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)

In [19]:
y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

Entrenamiento: MSE =5.587625937297799
Pruebas: MSE =6.084308975091326


In [13]:
from sklearn.metrics import mean_absolute_percentage_error as mape
mape(Y_train, y_train_predict)

10717856678678.709

### Predicciones:
Ahora, veamos que tal predijo nuestro modelo poniendo lado a lado las predicciones y los valores reales

In [14]:
df_predicciones = pd.DataFrame({'valor real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Unnamed: 0,valor real,prediccion,diferencia
0,11.6,12.130707,-0.530707
1,15.4,15.534827,-0.134827
2,10.5,8.503669,1.996331
3,8.1,7.423626,0.676374
4,6.6,4.366341,2.233659
5,14.3,14.358012,-0.058012
6,23.9,17.291526,6.608474
7,8.0,10.216408,-2.216408
8,21.0,16.523479,4.476521
9,7.9,8.279403,-0.379403
