In [None]:
import pandas as pd #lectura de datos
import numpy as np # biblioteca con operaciones matemáticas y algebra lineal

#viz y plots bonitos
import matplotlib.pyplot as plt
import seaborn as sb
plt.style.use('ggplot')
font = {'family' : 'sans',
        'weight' : 'bold',
        'size'   : 20}
plt.rc('font', **font)
plt.rcParams['xtick.labelsize'] = 16
plt.rcParams['ytick.labelsize'] = 16
plt.rcParams[u'figure.figsize'] = (16,12)
params = {'legend.fontsize': 'x-large',
         'axes.labelsize': 'x-large',
         'axes.titlesize':'x-large'}
plt.rcParams.update(params)

# ML
from sklearn import datasets
from sklearn.linear_model import LinearRegression
from sklearn.utils import check_random_state
from sklearn.metrics import (mean_squared_error,mean_absolute_error,
                             r2_score,explained_variance_score, accuracy_score)
from sklearn import model_selection

## Inteligencia Artificial

La inteligencia artificial es el estudio de cómo generar agentes inteligentes, es decir, cómo programar una computadora para que se comporte o realice una tarea como la haría una persona inteligente.

### Data Mining o minería de datos (BI)
La minería de datos es la extracción de *insights* en los datos.

<img src = "Imagenes\ML2.jpg" width = 450>

## *Machine learning*

O aprendizaje automático, es el estudio de algoritmos que tienen la capacidad de aprender de datos sin ser específicamente programados para ello.

<img src= "Imagenes\ML.png" width = 450>

# Tipos de Problemas en ML

Los problemas en *Machine Learning* tienen dos clasificaciones:
    
* Clasificación (Binaria o Multiclase)
* Regresión (variable continua)

Existen diversos tipos de aprendizajes:

+ Supervisado (sabemos el resultado o las etiquetas)
   
   Los algoritmos mas comunes son:
    * Regresión Logística
    * *Clustering: K-neighbors nears*
    * Máquina de Soporte Vectorial (SVM)
    * *Random Forest*
    * *Gradient Boosting Machine*
    * Redes Neuronales
    * *Deep Learning*
    
    
+ No Supervisado (desconocemos el resultado o las etiquetas)
    * *Clustering: K-Means*
    * Clustering:Clustering Jerarquico

<img src = "Imagenes\ML3.jpg">

+ Aprendizaje por Refuerzo
    * *Q-Learning*
    * *Temporal Difference (TD)*

-----------------------

# Metodología de un proyecto de *Data Science* de Inicio a Final

1. Observación a gran escala 
    + Analizar el problema de negocio
    + Preguntarse:
        + ¿Cúal es el objetivo de negocio?
        + ¿Qué espera la compañía obtener al generar un modelo predictivo?
    
2. Recolectar los datos 
    + SQL
    + NOSQL
       + MongoDB
    + *BigData* 
       + *Hive*
       + *Spark-SQL*
    
3. Analizar, visualizar y hacer minería de datos para obtener *insights* (clave para el negocio)
    + AED (Análisis Exploratorio Descriptivo) *se recomienda que se haga en el conjunto de entrenamiento*
        + Correlaciones
        + Datos nulos
        + Intuición de los datos (qué esperas obtener del modelo)
4. Preparar los datos para el/los algoritmos de ML
    + Tratamiento de variables:
        + Categóricas
        + Numéricas
        + Fechas
        + Limpieza de datos (despues del AED)
        + Generación de variables (¡siempre y cuando tenga sentido agregarlas! Que tengan una razón de entrar al modelo (historia))
            + Transformaciones de ellas
            + Tratamiento de fechas
            + Cocientes
            + Métricas de negocio
5. Seleccionar el modelo y entrenarlo
    + Seleccionar una métrica de evaluación adecuada
    
6. Presentar la solución
    + Problema de negocio
    + Descrpición del modelo predictivo (con manzanitas)
    + Presentación de resultados
        + Gráfico de *lift*
        + Métrica de evaluación (si es intuitiva)
    + *Insights*
        + Valor de Coeficientes
        + Importancia de variables
        + Gráfica de Efectos Marginales
7. Automatizar el modelo (Producto de Datos): por medio del desarrollo, monitoreo y mantenimiento de tu sistema.
    + Los mismos pasos anteriores pero automáticos. :v

-----------

# Regresión Lineal

Un modelo lineal genera predicciones por medio de la suma ponderada de variables de entrada, sumándole un intercepto y un término de error (*bias term*).

$f(X) = \beta_0 + \sum X_j\beta_j + \epsilon$

Una regresión estudia la relación entre variables. 

Ejemplos clásicos son:

+ Física (2a Ley de Newton simplificada):

    $ F = ma $

+ Economía (función de oferta):

    $P = 4c - 200$ 
      
Donde P es el precio y c la cantidad de objetos que se venden.
      
+ Matematicas (ecuación de la recta):  

    $f(x) = ax +b$
    
_____

La idea de la regresión es tener un conjunto de datos de entrada y explicar o describir los datos de salida como una combinación lineal de los datos de entrada.

De manera que si nuestro vector de características lo transponemos:

$X^T=(X_1,X_2,...,X_n)$

Para modelar nuestra predicción $\hat{y}$, sin intercepto:

$\hat{y} = X^T \beta + \epsilon$

El modelo que se busca describir es de la forma:

$f(X) = \beta_0 + \sum X_j\beta_j + \epsilon$

El método para estimar las $\beta$'s más comun es el ajuste por mínimos cuadrados.

Este método utiliza los residuos, donde los residuos se definen como: $e_i = y_i - \hat{y_i}$, siendo una especie de distancia que indica que tan alejado o cercano estás del punto a estimar.

En este caso se busca minimizar el error cuadrático o también conocido como la suma de los residuos al cuadrado:

$ RSS(\beta) = \sum [y_i - f(x_i)]^2$                                        (1)

Lo que se hace es sustituir la expresión que de $f(x)$ que depende de las $\beta 's$ para minimizar la ecuación y tratar de encontrar las mejores $\beta 's$ para describir $\hat{y}$.

Minimizando la suma de los residuos cuadráticos y sustituyendo los coeficientes obtenemos:
 
 $\hat{\beta}_1 = \frac{\sum{(x_i-\bar{x})(y_i-\bar{y})}}{\sum{(x_i-\bar{x})^2}}$
 
 $\hat{\beta}_0 = \bar{y} - \hat{\beta}_1\bar{x}$
 
Donde $\bar{x}$ y $\bar{y}$ son los valores promedios.

Aquí se estima el número de ventas por número de minutos de comerciales por TV

<img src='Imagenes/rl_2.png'/>

En este otro ejemplo, tenemos las calorías por grado de alcohol.

Los residuos serían las líneas grises entre cada punto y la línea de tendencia.

<img src='Imagenes/rl.png'/>

# Práctica

Primero que nada vamos a aprender a ajustar nuestros datos a modelos matemáticos, a interpretar los modelos y, al final del Notebook, veremos los conceptos de conjunto de entrenamiento y de prueba y cómo usar el modelo generado para predecir sobre nuevos datos para evaluar qué tan bueno es nuestro modelo.

# ¿Se Consume Más Cerveza Cuando Hace Más Calor?

In [None]:
# Lectura de Datos
df = pd.read_csv("Datos/Consumo_cerveja.csv").dropna()
df.columns = ['Fecha', 'Temperatura_Media_(C)', 'Temperatura_Minima_(C)',
       'Temperatura_Maxima_(C)', 'Precipitacion_(mm)', 'Fin_de_Semana',
       'Consumo_de_cerveza_(litros)']

In [None]:
df.head()

In [None]:
df.info()

Las variables de temperatura son string cuando no deberían serlo.

In [None]:
df['Temperatura_Media_(C)'].unique()[0:10]

In [None]:
df["Temperatura_Media_(C)"] = df["Temperatura_Media_(C)"].str.replace(",",".").astype(float)
df["Temperatura_Minima_(C)"] = df["Temperatura_Minima_(C)"].str.replace(",",".").astype(float)
df["Temperatura_Maxima_(C)"] = df["Temperatura_Maxima_(C)"].str.replace(",",".").astype(float)
df["Precipitacion_(mm)"] = df["Precipitacion_(mm)"].str.replace(",",".").astype(float)

In [None]:
# cómo se ven los datos
df[['Temperatura_Media_(C)','Consumo_de_cerveza_(litros)']].plot.scatter(x='Temperatura_Media_(C)',
                                                                         y='Consumo_de_cerveza_(litros)', 
                                                                         alpha=0.6, figsize=(10,6))
plt.title("¿Hay una relación lineal entre la temperatura y la venta de cerveza?", fontsize = 16)
plt.xlabel("Temperatura media", fontsize = 16)
plt.ylabel("Consumo de cerveza (litros)", fontsize = 16);

Correlación entre las variables:

In [None]:
df[['Temperatura_Media_(C)','Consumo_de_cerveza_(litros)']].corr()

Estadisticos generales:

In [None]:
df[['Temperatura_Media_(C)','Consumo_de_cerveza_(litros)']].describe()

# Machine Learning Hiper Pro!
# Ajustar una regresión lineal a los datos

In [None]:
X = df['Temperatura_Media_(C)'].values.reshape(-1,1) # Se debe hacer el reshape cuando le pasas una sola variable al modelo (con más de una no es necesario)
y = df['Consumo_de_cerveza_(litros)']

In [None]:
ls = LinearRegression()

ls.fit(X, y)

y_hat = ls.predict(X)

### Listo ya acabaste :v

# Interpretación del modelo

El modelo se interpreta a partir de los coeficientes asociados a las variables y de la ordenada la origen o intercepto:

Podemos acceder a los coeficientes del modelo con el atributo *coef_*:

In [None]:
print("Coeficiente de Temperatura_Media_(C)", ls.coef_[0])

Podemos acceder al intercepto del modelo con el atributo *intercept_*:

In [None]:
print("Inter", ls.intercept_)

Una vez ajustado el modelo podemos evaluar nuevos puntos en la regresión lineal, por ejemplo los puntos 0 y 28 Celcius:

In [None]:
X_new = pd.Series([0,28])
X_new

Con el método .predict del regresro se pueden evaluar los nuevos puntos *X_new*:

In [None]:
ls.predict(X_new[0].reshape(-1, 1))

In [None]:
y_pred = pd.Series([ls.predict(X_new[0].reshape(-1, 1)), ls.predict(X_new[1].reshape(-1, 1))])
y_pred

In [None]:
plt.figure(figsize = (10,5))
plt.plot(X_new,y_pred,'ro')
plt.plot(X_new, y_pred,'r-')
plt.plot(X,y,'bx')
plt.legend(['Predicciones', 'Modelo', 'Training Set'], fontsize=12)
plt.title('¿Qué nos dice el modelo de los datos?', fontsize = 16)
plt.xlabel('Temperatura [Celcius]', fontsize = 16)
plt.ylabel('Litros de cerveza consumidos', fontsize = 16);

# Regresion multilineal

La regresión multilineal es una regresión lineal pero con muchas variables.

🤪🤪🤪🤪

*Dataset melbourne-housing-market:*

* Suburb: Suburb

* Address: Address

* Rooms: Number of rooms

* Price: Price in Australian dollars

* Method: S - property sold; SP - property sold prior; PI - property passed in; PN - sold prior not disclosed; SN - sold not disclosed; NB - no bid; VB - vendor bid; W - withdrawn prior to auction; SA - sold after auction; SS - sold after auction price not disclosed. N/A - price or highest bid not available.

* Type: br - bedroom(s); h - house,cottage,villa, semi,terrace; u - unit, duplex; t - townhouse; dev site - development site; o res - other residential.

* SellerG: Real Estate Agent

* Date: Date sold

* Distance: Distance from CBD in Kilometres

* Regionname: General Region (West, North West, North, North east ...etc)

* Propertycount: Number of properties that exist in the suburb.

* Bedroom2 : Scraped # of Bedrooms (from different source)

* Bathroom: Number of Bathrooms

* Car: Number of carspots

* Landsize: Land Size in Metres

* BuildingArea: Building Size in Metres

* YearBuilt: Year the house was built

* CouncilArea: Governing council for the area

* Lattitude: Self explanitory

* Longtitude: Self explanitory

El objetivo es estimar el precio de una casa.

Se leen los datos:

In [None]:
df = pd.read_csv('Datos/Melbourne_housing_FULL.csv')
df.head()

Notemos que los nombres de las columnas tienen mayúsculas. Por convención todos los nombres de columnas deben ser escritos en **minúsculas**, esto para homologar los datos, para acceder más rápido a ellos y porque somos muy flojos y no queremos escribir mayúsculas.

😬😬😬😬

Cambiamos las columnas a minúsculas con el método *str.lower*:

In [None]:
df.columns = df.columns.str.lower()
df.head()

Fixed!

😬😬😬

Los datos también tienen valores nulos, pero hoy queremos irnos temprano así que simplemente vamos a tirarlos todos:

In [None]:
df.dropna(inplace = True)

In [None]:
df.info()

In [None]:
df.isnull().sum()

Definimos nuestra variable objetivo y nuestras variables predictoras:

In [None]:
X = df[['distance', 'car', 'rooms',
       'landsize', 'buildingarea', 'yearbuilt',
       'propertycount']]

y = df.price

In [None]:
X.mean()

In [None]:
X.std()

Los valores de las variables difieren muchísimo entre ellas, tenemos que escalarlas.

😱😱😱😱😱😱

---------------------------------------------

# Feature Scaling

*Feature Scaling* es un método para normalizar el rango de valores que toman las variables independientes (__X__) de un conjunto de datos. 

Dado que el rango de valores de los datos crudos varía ampliamente, en algunos algoritmos de *machine learning*, los modelos predictivos no funcionarán apropiadamente sin normalización. Por ejemplo, muchos clasificadores calculan distancia entre dos puntos y si alguna de las variables es ampliamente mayor que las demás, la distancia será gobernada por esta variable en particular. En consecuencia, el rango de todas las variables debe ser normalizado de manera que cada variable contribuya más o menos lo mismo a la suma de la distancia final.

Otra razón por la que se aplica *feature scaling* es que el método gradiente en descenso, que se revisará más adelante, converge mucho más rápido con las variables escaladas. 

¿De qué forma se pueden escalar nuestras variables? De muchas, pero dos de las más usadas son:

## Rescaling (min-max normalization)

$$x^{'} = \frac{x-min(x)}{max(x)-min(x)} $$

## Estandarización (Z-score Normalization)

$$x^{'} = \frac{x-\bar x}{\sigma} $$

Donde x barra es el valor promedio y sigma es la desviación estándar.

# The Big Question – ¿Normalizar o Estandarizar?


* Normalización: bueno de usar cuando sabes que la distribución de tus datos no sigue una tendencia gaussiana. Esto puede ser bueno para algoritmos que no asumen ninguna distribución de los datos como KNN y las redes neuronales.

* Estandarización: útil cuando los datos siguen una distribución gaussiana. 

No obstante al final del día, la elección de uno o de otro dependerá de tu problema y del algoritmo de *machine learning* que uses. No hay una regla de dedo que te diga cuando normalizar y cuando estandarizar tus datos. Siempre puedes empezar ajustando tu modelo con datos crudos, nomarmalizados y estandarizados para luego comparar el *performance* para determinar cuál da los mejores resultados.

El escalamiento de la variable objetivo generalmente no es necesario.

Dado que uno de los supuestos de la regresión lineal es que las variables independientes sigan una distribución gaussiana, en este caso, lo usual es estandarizar las variables.

------------------------

Volviendo al problema de arriba, tenemos que estandarizar las variables:

In [None]:
X_std = (X - X.mean())/X.std()

# Puro Machine Learining vato!

In [None]:
ls_std = LinearRegression()
ls_std.fit(X_std,y)

### Listo ya lo entrenaste :v

Podemos acceder a los coeficientes del modelo con el atributo *coef_*:

In [None]:
ls_std.coef_

Podemos acceder al intercepto del modelo con el atributo *intercept_*:

In [None]:
print('Intercepto % 1.2f' % ls_std.intercept_)
coefs = pd.DataFrame(index = X.columns, data = ls_std.coef_,columns=['coeficientes'])
coefs

Nota: en caso de no haber escalado las variables, estos coeficientes NO serían comparables entre ellos.

Grafiquemos estos coeficientes para visualizar qué variables repercuten más en el precio de la casa:

In [None]:
coefs.sort_values('coeficientes').plot.barh(legend=False,
                                            title='Valor de los coeficientes', figsize=(10,5));

¿Qué variables impactan más positivamente al precio de la casa?

¿Qué variables impactan más negativamente al precio de la casa?

¿Qué variables no impactan en absoluto al precio de la casa?

# Regresion polinomial

In [None]:
from sklearn.preprocessing import PolynomialFeatures

In [None]:
pf = PolynomialFeatures(2) # revisar ayuda !!!
X_poli = pf.fit_transform(X)

In [None]:
X_poli = pd.DataFrame(X_poli,columns = pf.get_feature_names(X.columns))

In [None]:
X_poli.shape

In [None]:
X_poli

Se generaron columnas de variables al cuadrado ($distancia^2$) y de variables interactuando entre ellas (distancia x carros).

A este DataFrame le ajustamos una regresión lineal estándar y así obtenemos la regresión polinomial.

In [None]:
ls_poli = LinearRegression()
ls_poli.fit(X_poli,y)

In [None]:
print('Intercepto % 1.2f' % ls_poli.intercept_)

coefs = pd.DataFrame(index = pf.get_feature_names(X.columns), 
                     data = ls_poli.coef_,columns=['coeficientes'])
coefs

In [None]:
coefs.plot.barh(figsize=(15,10));
#coefs.sort_values("coeficientes").plot.barh(figsize=(15,10))
#pd.concat([coefs.sort_values("coeficientes").head(5),
#coefs.sort_values("coeficientes").tail(5)]).plot.barh(figsize=(15,10))

In [None]:
coefs.sort_values('coeficientes',inplace=True)
imp_coef = pd.concat([coefs.head(5), coefs.tail(5)])
imp_coef.plot(kind = "barh", color='r',alpha=0.8,figsize = (8,4))
plt.title("Coeficientes del modelo");

Ninguna de las variables agregadas le ayudó al modelo (las variables importantes son las mismas de cuando hicimos la regresión multilineal), incluso *buildingarea* dejó de ser importante.

# Entrenamiento adecuado (FIFA 18)
# Machine Learning BIEN

## Lectura y preprocesamiento de datos

Para la siguiente regresión múltiple se usarán las estadísticas de los jugadores del FIFA 18 para predecir el *overall* (puntaje total asignado al jugador) en función de sus demás aptitudes en el terreno de juego (agilidad, potencia, dribble, aceleración...)

In [None]:
df =  pd.read_csv('Datos/CompleteDataset.csv.zip', compression='zip')
df.head()

Content

    Every player featuring in FIFA 18
    70+ attributes
    Player and Flag Images
    Playing Position Data
    Attributes based on actual data of the latest EA's FIFA 18 game
    Attributes include on all player style statistics like Dribbling, Aggression, GK Skills etc.
    Player personal data like Nationality, Photo, Club, Age, Wage, Salary etc.


Buena práctica: pasar columas a minúsculas.

In [None]:
df.columns = df.columns.str.lower()
df.columns

Para el modelo vamos a restringirnos a las siguientes variables:

In [None]:
#nos quedamos con lo que queremos
cols_new = ['name', 'age', 'overall',
       'value', 
       'acceleration', 'aggression', 'agility', 'balance', 'ball control',
       'composure', 'crossing', 'curve', 'dribbling', 'finishing',
       'heading accuracy', 'interceptions',
       'jumping', 'long passing', 'long shots', 'marking', 'penalties',
       'positioning', 'reactions', 'short passing', 'shot power',
       'sliding tackle', 'sprint speed', 'stamina', 'standing tackle',
       'strength', 'vision', 'volleys']
df = df [cols_new]

In [None]:
df.dtypes

Todas las variables que deberían ser numéricas son strings. Vamos a cambiarlas:

In [None]:
#como no se pudo
# print(cols_new)
num_cols = ['acceleration', 'aggression', 'agility', 'balance', 'ball control', 'composure', 'crossing', 'curve', 'dribbling', 'finishing', 'heading accuracy', 'interceptions', 'jumping', 'long passing', 'long shots', 'marking', 'penalties', 'positioning', 'reactions', 'short passing', 'shot power', 'sliding tackle', 'sprint speed', 'stamina', 'standing tackle', 'strength', 'vision', 'volleys'] 
for i in num_cols:
    df[i] = df[i].astype(float)

Could not convert string to float: '70+9'

😨😨😨😨

Identifiquemos las variables numéricas:

In [None]:
num_cols = ['age', 'overall',
       'acceleration', 'aggression', 'agility', 'balance', 'ball control',
       'composure', 'crossing', 'curve', 'dribbling', 'finishing',
       'heading accuracy', 'interceptions',
       'jumping', 'long passing', 'long shots', 'marking', 'penalties',
       'positioning', 'reactions', 'short passing', 'shot power',
       'sliding tackle', 'sprint speed', 'stamina', 'standing tackle',
       'strength', 'vision', 'volleys']

El método *.unique()* nos devuelve todos los valores únicos de una cierta columna. Esto es útil cuando queremos explorar los datos más a fondo, por ejemplo:

In [None]:
df['age'].unique()

Esos son todos los valores únicos de age. 

Como curiosidad el método *.nunique()* devuelve el número de valores únicos:

In [None]:
print("Número de edades únicas", df['age'].nunique())

Hacemos un ciclo for sobre todas las variables numéricas para identificar el problema:

In [None]:
for i in num_cols:
    print(i)
    print(df[i].unique())

Vamos a quedarnos sólo con los primeros dos dígitos:

In [None]:
for i in num_cols:
    df[i] = df[i].astype(str).str[:2]

In [None]:
for i in num_cols:
    print(i)
    print(df[i].unique())

In [None]:
df.head()

Convirtiendo las variables a enteros ahora sí:

In [None]:
for i in num_cols:
    df[i] = df[i].astype(int)

In [None]:
df.dtypes

Arreglado. Estamos listos para hacer *machine learning* bien, pero primero, un poco más de teoría:

# Conjunto de Entrenamiento y Conjunto de Prueba

Para entrenar un modelo es necesario partir nuestro dataset en dos, un conjunto de entrenamiento y un conjunto de prueba, en algunos casos cuando se quiere optimizar metaparámetros es necesario un tercer conjunto de validación.

<img src="Imagenes/ML5.png">

El proceso del modelo de *machine learning* es como sigue:

* Partir el *data set* original en entrenamiento y prueba.
* Usar el conjunto de entrenamiento para ajustar el modelo a los datos (el modelo más el método *.fit*)
* En caso de que vayan a optimizarse metaparámetros, el conjunto de entrenamiento se parte en entrenamiento y validación llevar acabo ese proceso.
* Una vez entrenado el modelo, se usan las variables predictoras del conjunto de prueba y se hacen las predicciones.
* Las predicciones del modelo se comparan con los valores reales del conjunto de prueba por medio de una métrica de evaluación del modelo.
* Si el performance del modelo es el esperado, puede entrar a producción, si no se busca la manera de mejorarlo hasta que cumpla con los requerimientos mínimos en cuanto a performance.

A continuación realizaremos el proceso anteriormente explicado.

Escogemos las variables predictoras y la variable objetivo será *overall*:

In [None]:
X = ['age',
 'acceleration',
 'aggression',
 'agility',
 'balance',
 'ball control',
 'composure',
 'crossing',
 'curve',
 'dribbling',
 'finishing',
 'heading accuracy',
 'interceptions',
 'jumping',
 'long passing',
 'long shots',
 'marking',
 'penalties',
 'positioning',
 'reactions',
 'short passing',
 'shot power',
 'sliding tackle',
 'sprint speed',
 'stamina',
 'standing tackle',
 'strength',
 'vision',
 'volleys']

Para partir nuestros datos usaremos *train_test_split* de *sklearn.model_selection*:

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df[X],df.overall, test_size = 0.2, random_state = 0)

* test_size: determina el tamaño del conjunto de prueba, e.g. si es igual a 0.2 entonces el 20% de los datos se irán a prueba y el 80% se irá a entrenamiento.
* random_state: semilla de aleateoridad, si se cambia, los conjuntos de entrenamiento y de prueba generados serán diferentes.

Este método de sklearn escoge registros de manera aleatoria y los consolida en los conjuntos de entrenamiento y de prueba. Para que dos modelos sean comparables entre ellos DEBEN de ser evaluados con los MISMOS conjuntos de entrenamiento y prueba y para ello el random_state debe ser el mismo.

Como estamos trabajando con una regresión lineal, conviene estandarizar las variables:

In [None]:
# X_train = (X_train - X_train.mean())/X_train.std()
# X_test = (X_test - X_test.mean())/X_test.std()

Ajustemos el modelo a los datos como hicimos antes:

In [None]:
regressor = LinearRegression()
regressor.fit(X_train,y_train)

Ahora hagamos las predicciones sobre el conjunto de prueba: 

In [None]:
y_pred = regressor.predict(X_test)
y_pred[0:10]

Finalmente, tenemos que comparar estas predicciones con los valores reales contenidos en y_test para ver qué tanto nos acercamos a la relidad, ¿cómo evaluamos qué tan bueno es el modelo?

## Métricas de evaluación de modelo

* Error Cuadrático Medio (Mean Square Error MSE): 

$$ \frac{1}{n} \Sigma_{i =1}^{n} (y_i - \hat y_i)^2 $$

$y_i$: valor real

$\hat y_i$: valor predicho

n: número de registros 

Básicamente está cuantificando la diferencia cuadrática promedio entre predicción y valor real. Por lo general se trabaja con la raíz cuadrada de este valor.

* Coeficiente de Determinación ($R^2$). Métrica de qué tan bueno fue el ajuste del modelo. En regresiones, es una medida estadística de qué tanto las predicciones de la regresión se aproximan a los datos reales. Un $R^2$ de 1 indicará que la regresión se ajusta perfectamente a los datos.

<img src = "Imagenes/ML4.jpg">

In [None]:
print("Raíz del error cuadrático medio:", round(np.sqrt(mean_squared_error(y_test,y_pred)),2))

res = abs((y_test - y_pred)/y_test) * 100

plt.figure(figsize = (10,5))
plt.hist(res,bins=100)
plt.xlabel('Porcentaje de error')
plt.ylabel('Frecuencia')
plt.title('Histograma de error porcentual')
print('Error porcentual promedio',round(res.mean(),2) );

En cuanto a la $R^2$:

In [None]:
print("R*2: %1.4f" % r2_score(y_test,y_pred))

In [None]:
coef = regressor.coef_
coefs = pd.DataFrame(index = X_train.columns, 
                     data =coef,columns=['coeficiente'])

coefs.sort_values('coeficiente').plot.barh(figsize=(9,9))
plt.legend("");

¿Qué variables pesan para el puntaje del jugador?



Hagamos algunas predicciones individuales:

In [None]:
messi = df[df.name == 'L. Messi']
print(messi.overall)
regressor.predict(messi[X])

In [None]:
Hirving = df[df.name == 'H. Lozano']
print(Hirving.overall)
regressor.predict(Hirving[X])