# Mostrar a Leo

In [1]:
import numpy as np
import pandas as pd

from sklearn.metrics import mean_squared_error, r2_score, explained_variance_score, mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn import linear_model

In [2]:
data = pd.read_csv("datos_producidos/datos_1.csv")
data

Unnamed: 0,fecha,provincia,departamento,carneros,ovejas,borregos,capones,cordero/as,total_ovinos,kilos_lana,finura,rinde,humedad,cant_lluvia,tem_max,temp_media,temp_min
0,2012-12-31,CHUBUT,BIEDMA,5785,93378,30168,48447,16071,193849,649130.0,19.80,58.06,58.40,46.4,18.10,12.40,6.70
1,2013-12-31,CHUBUT,BIEDMA,5376,82998,25341,47350,26832,187897,620176.0,19.60,56.68,64.70,226.5,19.90,14.20,8.80
2,2014-12-31,CHUBUT,BIEDMA,4785,82706,29379,35155,29900,181925,649130.0,20.10,61.19,60.50,331.3,20.60,14.70,9.20
3,2015-12-31,CHUBUT,BIEDMA,4440,89262,29663,35437,32343,191145,672480.0,18.58,58.18,58.70,114.2,22.20,15.80,10.20
4,2016-12-31,CHUBUT,BIEDMA,4452,82295,33662,33470,21326,175205,653800.0,17.99,59.93,57.50,88.9,25.20,18.60,12.90
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
196,2016-12-31,CHUBUT,TELSEN,4896,80262,26471,39243,20290,171162,637000.0,20.20,53.55,50.80,820.0,17.47,11.57,5.77
197,2017-12-31,CHUBUT,TELSEN,4640,77556,27296,36570,17750,163812,637000.0,19.11,56.01,47.17,660.1,16.60,10.93,5.03
198,2018-12-31,CHUBUT,TELSEN,4832,79117,28366,37558,21933,171806,637000.0,20.38,54.64,47.93,604.2,17.63,11.33,5.03
199,2019-12-31,CHUBUT,TELSEN,4781,80109,28428,38109,17731,169158,613021.5,16.88,53.83,47.57,358.4,17.53,11.17,4.83


## Primera Predicción: Lana

Variables independientes: 
- Cantidad total de lluvia acumulada de cada año (mm)
- Cantidad de total de ovinos (animales)

Variables dependientes:
- Kilos de lana producidos

In [3]:
X_primera_prediccion = data[['cant_lluvia','total_ovinos']]
y_primera_prediccion = data[['kilos_lana']]

In [4]:
X_train_1, X_test_1, y_train_1, y_test_1 = train_test_split(
                                                X_primera_prediccion, 
                                                y_primera_prediccion, 
                                                test_size=0.25
                                            )

In [5]:
lr_multiple_1 = linear_model.LinearRegression()

In [6]:
lr_multiple_1.fit(X_train_1, y_train_1)

LinearRegression()

In [7]:
Y_pred_multiple_1 = lr_multiple_1.predict(X_test_1)

In [9]:
Y_pred_multiple_1[:5]

array([[ 685626.02437911],
       [ 555643.75474736],
       [ 802937.61830592],
       [1044953.8131949 ],
       [3007152.62590503]])

In [10]:
y_test_1[:5]

Unnamed: 0,kilos_lana
6,653800.0
37,787200.0
53,1250640.0
190,778960.0
149,2930944.0


### Métricas

#### Score

*Score*: Todos los algoritmos incluyen un método "score" que provee el resultado de un criterio de evaluación por defecto para aquel problema al que están orientados. De esta manera, el método score de un modelo de clasificación basado en árbol de decisión, devuelve la precisión del modelo, entendida como el porcentaje de valores clasificados correctamente con respecto al total de elementos. O una regresión lineal devuelve el coeficiente de determinación, o R2, entendida como el porcentaje de la variancia de la variable dependiente que es predecible a partir de la variable independiente.

In [13]:
print('Precisión del modelo en entrenamiento:')
print(str(round(lr_multiple_1.score(X_train_1, y_train_1),4))+'%')

Precisión del modelo en entrenamiento:
0.9062%


Interpretación: En este caso estamos usando los valores de entrenamiento, y el modelo predice con un 91% de exactitud.  

In [14]:
print('Precisión del modelo en test:')
print(str(round(lr_multiple_1.score(X_test_1, y_test_1),4))+'%')

Precisión del modelo en test:
0.9108%


Interpretación: En este caso estamos usando los valores de prueba, y el modelo predice con un 91% de exactitud. 

#### Varianza explicada

*Varianza explicada*: Representa el porcentaje de la varianza de la variable de salida que es explicado por el modelo. O sea esta métrica evalúa la variación o dispersión de los puntos de datos. La mejor puntuación posible es 1.0, los valores más bajos son peores. Dentro de sklearn el método es **explained_variance_score**. 

In [15]:
print('Varianza Explicada:')
print(str(round(explained_variance_score(y_test_1, Y_pred_multiple_1),4)))

Varianza Explicada:
0.9157


Interpretación: El modelo explica la variable de salida en un 92%.

#### Error medio absoluto

*Error medio absoluto* (**MAE**): Es la media de las diferencias absolutas entre el valor objetivo y el predicho. Al no elevar al cuadrado, no penaliza los errores grandes, lo que la hace no muy sensible a valores anómalos, por lo que no es una métrica recomendable en modelos en los que se deba prestar atención a éstos. Mientras mas cercano a cero mejor. Dentro de sklearn el método es **mean_absolute_error**.

In [16]:
print('MAE:')
print(str(round(mean_absolute_error(y_test_1, Y_pred_multiple_1),4)))

MAE:
154350.6543


Interpretación: Nos dice que el modelo se equivoca en promedio 154350kg, cada vez que predice un valor de lana. 

#### Error cuadrático medio

*Error cuadrático medio* (**MSE**): Es simplemente la media de las diferencias entre el valor objetivo y el predicho al cuadrado. Al elevar al cuadrado los errores, magnifica los errores grandes, por lo que hay que utilizarla con cuidado cuando tenemos valores anómalos en nuestro conjunto de datos. Mientras mas cercano a cero mejor. Dentro de sklearn el método es **mean_squared_error**.

In [17]:
print('MSE:')
print(str(round(mean_squared_error(y_test_1, Y_pred_multiple_1),4)))

MSE:
50845121964.4406


Interpretación: Nos dice que el modelo se equivoca un montón, cada vez que predice un valor de lana, porque esta penalizando los errores grandes. 

#### Raíz cuadrada del MSE

*Raíz cuadrada de la media del error al cuadrado* (**RMSE**): Es igual a la raíz cuadrada de la métrica anterior. La ventaja de esta métrica es que presenta el error en las mismas unidades que la variable objetivo, lo que la hace más fácil de entender. Mientras mas cercano a cero mejor. Dentro de sklearn el método es **mean_squared_error** y a este se le saca la raíz cuadrada. 

In [18]:
print('RMSE:')
print(str(round(np.sqrt(round(mean_squared_error(y_test_1, Y_pred_multiple_1),4)),4)))

RMSE:
225488.6293


Interpretación: Nos dice que el modelo se equivoca en promedio 225488kg, cada vez que predice un valor de lana.

#### R cuadrado

*R cuadrado* (**R2**): Esta métrica difiere de las anteriores, ya que compara nuestro modelo con un modelo básico que siempre devuelve como predicción la media de los valores objetivo de entrenamiento. La comparación entre estos dos modelos se realiza en base a la media de los errores al cuadrado de cada modelo. Los valores que puede tomar esta métrica van desde menos infinito a 1. Cuanto más cercano a 1 sea el valor de esta métrica, mejor será nuestro modelo. El R cuadrado, también llamado coeficiente de determinación, refleja la bondad del ajuste de un modelo a la variable que pretender explicar. Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1. Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que estamos intentando explicar. De forma inversa, cuanto más cerca de cero, menos ajustado estará el modelo y, por tanto, menos fiable será. Dentro de sklearn el método es **r2_score**.

In [21]:
print('R2:')
print(str(round(r2_score(y_test_1, Y_pred_multiple_1),4)))

R2:
0.9108


Interpretación: El modelo explica en un 91% la variable

El problema del coeficiente de determinación, y razón por el cual surge el coeficiente de determinación ajustado, radica en que no penaliza la inclusión de variables explicativas no significativas. Es decir, si al modelo se añaden cinco variables explicativas que guardan poca relación con lo que se intenta predecir, el R cuadrado aumentará. Es por ello que muchos expertos económetras, estadísticos y matemáticos se oponen al uso del R cuadrado como medida representativa de la bondad del ajuste real.