# Regresión lineal

Vamos a hacer un proyecto para predecir la cuota de un partido, es decir si la cuota si gana el equipo local, la cuota si gana el equipo visitante o la cuota si quedan empate;  dados el ID de los equipos locales y visitantes.

Se trata de un problema de regresión lineal ya que queremos un precedir un valor.

Principalmente, lo que hemos hecho es descargar nuestra base de datos SQLite3 en excel, con estos excel los hemos analizado y limpiado. Tras realizar la limpieza, hemos visto que teníamos muy pocos datos, por lo tanto hemos ampliado estos datos con métodos estadísticos, utilizando la base da datos inicial.

## Importamos las librerías

Importamos las librerías a utilizar:

* numpy
* pandas
* matplotlib
* seaborn
* pickle

In [810]:
import pickle

import numpy as np
import pandas as pd
import seaborn as sns

from matplotlib import pyplot as plt


## Descargamos los datos

Vamos a tener dos tipos de datos, los que estaban en un csv en la carpeta \datas.
El otro tipo de datos van a estar en una base de datos SQLlite, la cual la hemos transformado a csv

Descargamos primero los datos: `docs\equipo.csv` y `docs\partido.csv`

In [811]:
team = pd.read_csv('equipo.csv')
matches = pd.read_csv('partidos.csv')

In [812]:
team

Unnamed: 0,Ajax,ajax.png,Paises Bajos,14
0,Atalanta,atalanta.png,Italia,6
1,Atlético,atletico.png,España,11
2,Barcelona,barcelona.png,España,17
3,Bayern,bayern.png,Alemania,16
4,Benfica,benfica.png,Portugal,15
5,Besiktas,besiktas.png,Turquía,2
6,Chelsea,chelsea.png,Inglaterra,1
7,Club Brugge,club_brugge.png,Bélgica,26
8,Dortmund,dortmund.png,Alemania,27
9,Dynamo Kyiv,dynamo_kyiv.png,Ucrania,28


In [813]:
matches

Unnamed: 0,14/09/2021 16:45,29,2,33,34,33.1
0,14/09/2021 16:45,31,19,33,34,33
1,14/09/2021 16:45,25,24,33,34,33
2,14/09/2021 19:00,11,6,33,34,33
3,14/09/2021 19:00,4,5,33,34,33
4,14/09/2021 19:00,16,30,33,34,33
...,...,...,...,...,...,...
90,08/12/2021 20:00,5,4,33,34,33
91,08/12/2021 20:00,19,31,33,34,33
92,08/12/2021 20:00,2,29,33,34,33
93,08/12/2021 20:00,24,25,33,34,33


Descargamos los demás datos que estaban en la base de datos: `\bookmaker.db`. Los hemos descargado en .xlsx

In [814]:
apuesta = pd.read_excel('apuestas.xlsx')
clientes = pd.read_excel('clientes.xlsx')
cuotas = pd.read_excel('cuotas.xlsx')
partidos = pd.read_excel('partidos.xlsx')
empresa = pd.read_excel('empresa.xlsx')
equipos = pd.read_excel('equipos.xlsx')


  warn("Workbook contains no default style, apply openpyxl's default")


In [815]:
apuesta.head()

Unnamed: 0,id,fecha,monto,equipo_ganador_id,partido,cliente,ganacia
0,1,2021-12-15,300.0,2.0,1,88,891.0
1,2,2021-12-15,300.0,29.0,1,88,891.0
2,3,2021-12-15,300.0,2.0,1,88,891.0
3,4,2021-12-15,300.0,29.0,1,88,891.0
4,5,2021-12-15,300.0,2.0,1,88,891.0


In [816]:
clientes.head()

Unnamed: 0,id,nombre,apellido,email,activado
0,1,Lope,Perales,pascualperera@vila.es,1
1,2,Isaura,Canet,gmerino@rocamora.es,1
2,3,Olga,Chaves,amayaprats@llado.com,1
3,4,Celestino,Hoyos,chedelgado@moraleda-pintor.com,1
4,5,Miguel,Milla,inigoprat@gmail.com,1


In [817]:
cuotas.head()

Unnamed: 0,id,local,empate,visitante,partido_id
0,1,1.4,2.97,5.8,1
1,2,5.73,5.08,3.86,2
2,3,5.45,5.99,5.34,3
3,4,1.95,5.08,4.78,4
4,5,4.44,5.99,4.61,5


In [818]:
partidos.head()

Unnamed: 0,id,fecha,equipo_local,equipo_visistante,finalizado,ganador
0,1,2021-12-15,29,2,0,
1,2,2021-12-15,31,19,0,
2,3,2021-12-15,25,24,0,
3,4,2021-12-15,11,6,0,
4,5,2021-12-15,4,5,0,


In [819]:
empresa.head()

Unnamed: 0,id,razon_social,email,activado


In [820]:
equipos.head()

Unnamed: 0,id,nombre,escudo,pais,puntaje,activado
0,1,Ajax,ajax.png,Paises Bajos,14.0,1
1,2,Atalanta,atalanta.png,Italia,6.0,1
2,3,Atlético,atletico.png,España,11.0,1
3,4,Barcelona,barcelona.png,España,17.0,1
4,5,Bayern,bayern.png,Alemania,16.0,1


## Limpiamos los datos

Primero vamos a limpiar el csv equipos.

In [821]:
equipos

Unnamed: 0,id,nombre,escudo,pais,puntaje,activado
0,1,Ajax,ajax.png,Paises Bajos,14.0,1
1,2,Atalanta,atalanta.png,Italia,6.0,1
2,3,Atlético,atletico.png,España,11.0,1
3,4,Barcelona,barcelona.png,España,17.0,1
4,5,Bayern,bayern.png,Alemania,16.0,1
5,6,Benfica,benfica.png,Portugal,15.0,1
6,7,Besiktas,besiktas.png,Turquía,2.0,1
7,8,Chelsea,chelsea.png,Inglaterra,1.0,1
8,9,Club Brugge,club_brugge.png,Bélgica,26.0,1
9,10,Dortmund,dortmund.png,Alemania,27.0,1


Hacemos una breve exploración de datos

In [822]:
equipos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   id        32 non-null     int64  
 1   nombre    32 non-null     object 
 2   escudo    32 non-null     object 
 3   pais      32 non-null     object 
 4   puntaje   32 non-null     float64
 5   activado  32 non-null     int64  
dtypes: float64(1), int64(2), object(3)
memory usage: 1.6+ KB


In [823]:
equipos.count()

id          32
nombre      32
escudo      32
pais        32
puntaje     32
activado    32
dtype: int64

Miramos la columna 'activado', porque creo que solo hay valores de 1, por lo tando es inútil

In [824]:
equipos['activado'].unique()

array([1], dtype=int64)

Todos los valores de la columna 'activado' son uno, por lo tanto eliminamos esa columna. Tambien eliminamos el escudo, porque no lo necesitamos para nada

In [825]:
equipos = equipos.drop(['activado', 'escudo'], axis=1)
equipos

Unnamed: 0,id,nombre,pais,puntaje
0,1,Ajax,Paises Bajos,14.0
1,2,Atalanta,Italia,6.0
2,3,Atlético,España,11.0
3,4,Barcelona,España,17.0
4,5,Bayern,Alemania,16.0
5,6,Benfica,Portugal,15.0
6,7,Besiktas,Turquía,2.0
7,8,Chelsea,Inglaterra,1.0
8,9,Club Brugge,Bélgica,26.0
9,10,Dortmund,Alemania,27.0


In [826]:
max_puntaje = equipos[equipos['puntaje'] == equipos['puntaje'].max()]
max_puntaje

Unnamed: 0,id,nombre,pais,puntaje
28,29,Villarreal,España,30.0


In [827]:
min_puntaje = equipos[equipos['puntaje'] == equipos['puntaje'].min()]
min_puntaje

Unnamed: 0,id,nombre,pais,puntaje
7,8,Chelsea,Inglaterra,1.0


Exploramos los datos de partidos

In [828]:
partidos

Unnamed: 0,id,fecha,equipo_local,equipo_visistante,finalizado,ganador
0,1,2021-12-15,29,2,0,
1,2,2021-12-15,31,19,0,
2,3,2021-12-15,25,24,0,
3,4,2021-12-15,11,6,0,
4,5,2021-12-15,4,5,0,
...,...,...,...,...,...,...
92,93,2021-12-15,19,31,0,
93,94,2021-12-15,2,29,0,
94,95,2021-12-15,24,25,0,
95,96,2021-12-15,30,16,0,


In [829]:
partidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 97 entries, 0 to 96
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 97 non-null     int64  
 1   fecha              97 non-null     object 
 2   equipo_local       97 non-null     int64  
 3   equipo_visistante  97 non-null     int64  
 4   finalizado         97 non-null     int64  
 5   ganador            0 non-null      float64
dtypes: float64(1), int64(4), object(1)
memory usage: 4.7+ KB


In [830]:
partidos.count()

id                   97
fecha                97
equipo_local         97
equipo_visistante    97
finalizado           97
ganador               0
dtype: int64

Miramos si hay nulos

In [831]:
equipos.isna().sum()

id         0
nombre     0
pais       0
puntaje    0
dtype: int64

Eliminamos la última columna

In [832]:
partidos = partidos.drop(['ganador'], axis=1)
partidos

Unnamed: 0,id,fecha,equipo_local,equipo_visistante,finalizado
0,1,2021-12-15,29,2,0
1,2,2021-12-15,31,19,0
2,3,2021-12-15,25,24,0
3,4,2021-12-15,11,6,0
4,5,2021-12-15,4,5,0
...,...,...,...,...,...
92,93,2021-12-15,19,31,0
93,94,2021-12-15,2,29,0
94,95,2021-12-15,24,25,0
95,96,2021-12-15,30,16,0


Miramos si hay nulos

In [833]:
partidos.isna().sum()

id                   0
fecha                0
equipo_local         0
equipo_visistante    0
finalizado           0
dtype: int64

Miramos la columna 'finalizado', porque creo que solo hay valores de 0, por lo tanto es inútil

In [834]:
partidos['finalizado'].unique()

array([0], dtype=int64)

Miramos la columna 'fecha', porque creo que todos tienen la misma fecha, por lo tanto no lo necesitamos

In [835]:
partidos['fecha'].unique()

array(['2021-12-15'], dtype=object)

Todos los valores de la columna 'finalizado' son cero, por lo tanto eliminamos esa columna

In [836]:
partidos = partidos.drop(['finalizado', 'fecha'], axis=1)
partidos

Unnamed: 0,id,equipo_local,equipo_visistante
0,1,29,2
1,2,31,19
2,3,25,24
3,4,11,6
4,5,4,5
...,...,...,...
92,93,19,31
93,94,2,29
94,95,24,25
95,96,30,16


In [837]:
cuotas

Unnamed: 0,id,local,empate,visitante,partido_id
0,1,1.40,2.97,5.80,1
1,2,5.73,5.08,3.86,2
2,3,5.45,5.99,5.34,3
3,4,1.95,5.08,4.78,4
4,5,4.44,5.99,4.61,5
...,...,...,...,...,...
93,94,5.80,2.97,1.40,94
94,95,5.34,5.99,5.45,95
95,96,5.91,4.06,3.20,96
96,97,1.40,2.97,5.80,1


In [838]:
cuotas.isna().sum()

id            0
local         0
empate        0
visitante     0
partido_id    0
dtype: int64

Eliminamos las últimas dos filas de Cuotas

In [839]:
cuotas = cuotas.drop([96],axis=0)
cuotas

Unnamed: 0,id,local,empate,visitante,partido_id
0,1,1.40,2.97,5.80,1
1,2,5.73,5.08,3.86,2
2,3,5.45,5.99,5.34,3
3,4,1.95,5.08,4.78,4
4,5,4.44,5.99,4.61,5
...,...,...,...,...,...
92,93,3.86,5.08,5.73,93
93,94,5.80,2.97,1.40,94
94,95,5.34,5.99,5.45,95
95,96,5.91,4.06,3.20,96


In [840]:
type(cuotas)

pandas.core.frame.DataFrame

In [841]:
type(partidos)

pandas.core.frame.DataFrame

Vamos a revisar el dataFrame de apuesta

In [842]:
apuesta

Unnamed: 0,id,fecha,monto,equipo_ganador_id,partido,cliente,ganacia
0,1,2021-12-15,300.0,2.0,1,88,891.0
1,2,2021-12-15,300.0,29.0,1,88,891.0
2,3,2021-12-15,300.0,2.0,1,88,891.0
3,4,2021-12-15,300.0,29.0,1,88,891.0
4,5,2021-12-15,300.0,2.0,1,88,891.0
5,6,2021-12-15,300.0,2.0,1,88,891.0
6,7,2021-12-15,300.0,29.0,1,88,891.0
7,8,2021-12-15,300.0,,1,88,891.0
8,9,2021-12-15,300.0,,1,88,891.0
9,10,2021-12-15,300.0,,1,88,891.0


In [843]:
apuesta.isna().sum()

id                   0
fecha                0
monto                0
equipo_ganador_id    7
partido              0
cliente              0
ganacia              0
dtype: int64

Como vemos no obtenemos información interesante porque únicamente tenemos el ejemplo de 20 filas, donde lo único interesante es `equipo_ganador_id`, y en 7/20 filas es nulo

Vamos a unir varios DataFrame para enterner mejor la información

In [844]:
unido = pd.concat([partidos, cuotas], axis= 1)
unido

Unnamed: 0,id,equipo_local,equipo_visistante,id.1,local,empate,visitante,partido_id
0,1.0,29.0,2.0,1.0,1.40,2.97,5.80,1.0
1,2.0,31.0,19.0,2.0,5.73,5.08,3.86,2.0
2,3.0,25.0,24.0,3.0,5.45,5.99,5.34,3.0
3,4.0,11.0,6.0,4.0,1.95,5.08,4.78,4.0
4,5.0,4.0,5.0,5.0,4.44,5.99,4.61,5.0
...,...,...,...,...,...,...,...,...
93,94.0,2.0,29.0,94.0,5.80,2.97,1.40,94.0
94,95.0,24.0,25.0,95.0,5.34,5.99,5.45,95.0
95,96.0,30.0,16.0,96.0,5.91,4.06,3.20,96.0
96,97.0,29.0,2.0,,,,,


In [845]:
unido.isna().sum()

id                   1
equipo_local         1
equipo_visistante    1
id                   1
local                1
empate               1
visitante            1
partido_id           1
dtype: int64

Eliminamos las últimas dos filas de `unido`

In [846]:
unido = unido.drop([96, 97],axis=0)
unido

Unnamed: 0,id,equipo_local,equipo_visistante,id.1,local,empate,visitante,partido_id
0,1.0,29.0,2.0,1.0,1.40,2.97,5.80,1.0
1,2.0,31.0,19.0,2.0,5.73,5.08,3.86,2.0
2,3.0,25.0,24.0,3.0,5.45,5.99,5.34,3.0
3,4.0,11.0,6.0,4.0,1.95,5.08,4.78,4.0
4,5.0,4.0,5.0,5.0,4.44,5.99,4.61,5.0
...,...,...,...,...,...,...,...,...
91,92.0,5.0,4.0,92.0,4.61,5.99,4.44,92.0
92,93.0,19.0,31.0,93.0,3.86,5.08,5.73,93.0
93,94.0,2.0,29.0,94.0,5.80,2.97,1.40,94.0
94,95.0,24.0,25.0,95.0,5.34,5.99,5.45,95.0


Eliminamos la columnas repetidas de `ID`

In [847]:
unido.columns

Index(['id', 'equipo_local', 'equipo_visistante', 'id', 'local', 'empate',
       'visitante', 'partido_id'],
      dtype='object')

In [848]:
unido.columns = ['id', 'equipo_local', 'equipo_visistante','id_2', 'cuota_local', 'cuota_visitante', 'cuota_empate', 'partido_id']

In [849]:
unido = unido.drop(['id_2', 'partido_id'], axis=1)
unido

Unnamed: 0,id,equipo_local,equipo_visistante,cuota_local,cuota_visitante,cuota_empate
0,1.0,29.0,2.0,1.40,2.97,5.80
1,2.0,31.0,19.0,5.73,5.08,3.86
2,3.0,25.0,24.0,5.45,5.99,5.34
3,4.0,11.0,6.0,1.95,5.08,4.78
4,5.0,4.0,5.0,4.44,5.99,4.61
...,...,...,...,...,...,...
91,92.0,5.0,4.0,4.61,5.99,4.44
92,93.0,19.0,31.0,3.86,5.08,5.73
93,94.0,2.0,29.0,5.80,2.97,1.40
94,95.0,24.0,25.0,5.34,5.99,5.45


Empezamos el estudio de datos con esta tabla porque es la única que nos proporciona los datos interesantes

In [850]:
unido.describe()

Unnamed: 0,id,equipo_local,equipo_visistante,cuota_local,cuota_visitante,cuota_empate
count,96.0,96.0,96.0,96.0,96.0,96.0
mean,48.5,16.5,16.5,4.305312,5.194375,4.305313
std,27.856777,9.281561,9.281561,1.366733,0.843506,1.366733
min,1.0,1.0,1.0,1.4,2.72,1.4
25%,24.75,8.75,8.75,3.3725,5.08,3.3725
50%,48.5,16.5,16.5,4.855,5.34,4.855
75%,72.25,24.25,24.25,5.3675,5.8,5.3675
max,96.0,32.0,32.0,5.99,5.99,5.99


### Creación de datos sintéticos

In [851]:
import random

Vamos a crear un dataFrame que contenga los valores de la cuota_local, cuota_visitante y cuota_empate

In [852]:
cuotas = unido[['cuota_local', 'cuota_visitante', 'cuota_empate']]
cuotas

Unnamed: 0,cuota_local,cuota_visitante,cuota_empate
0,1.40,2.97,5.80
1,5.73,5.08,3.86
2,5.45,5.99,5.34
3,1.95,5.08,4.78
4,4.44,5.99,4.61
...,...,...,...
91,4.61,5.99,4.44
92,3.86,5.08,5.73
93,5.80,2.97,1.40
94,5.34,5.99,5.45


In [853]:
cuotas.describe()

Unnamed: 0,cuota_local,cuota_visitante,cuota_empate
count,96.0,96.0,96.0
mean,4.305312,5.194375,4.305313
std,1.366733,0.843506,1.366733
min,1.4,2.72,1.4
25%,3.3725,5.08,3.3725
50%,4.855,5.34,4.855
75%,5.3675,5.8,5.3675
max,5.99,5.99,5.99


Vamos a calcular la media, la desviación típica y el mínimo y el máximo de cada columna de cuotas

In [854]:
promedios = cuotas.mean()
desviaciones = cuotas.std()
minimos = cuotas.min()
maximos = cuotas.max()


In [855]:
df_nuevo = pd.DataFrame(columns=unido.columns)

for i in range(10000):
    id_partido = i + 96
    id_equipo_local = random.randint(1, 32)
    id_equipo_visitante = random.randint(1, 32)

    # Genera valores aleatorios para las cuotas de acuerdo a la distribución normal de los datos de entrenamiento con valores entre los máximos y mínimos de las cuotas
    valor_local = np.random.normal(promedios['cuota_local'], desviaciones['cuota_local'])
    valor_visitante = np.random.normal(promedios['cuota_visitante'], desviaciones['cuota_visitante'])
    valor_empate = np.random.normal(promedios['cuota_empate'], desviaciones['cuota_empate'])

    # Asegura que los valores generados estén entre los máximos y mínimos de las cuotas
    valor_local = max(min(valor_local, maximos['cuota_local']), minimos['cuota_local'])
    valor_visitante = max(min(valor_visitante, maximos['cuota_visitante']), minimos['cuota_visitante'])
    valor_empate = max(min(valor_empate, maximos['cuota_empate']), minimos['cuota_empate'])

    # Crea una fila con los datos generados
    fila = {
            'id': id_partido,
            'equipo_local': id_equipo_local,
            'equipo_visitante': id_equipo_visitante,
            'cuota_local': valor_local,
            'cuota_visitante': valor_visitante,
            'cuota_empate': valor_empate,
        }

    if fila['equipo_local'] != fila['equipo_visitante']: # Evita que el equipo local y el visitante sean el mismo
        df_nuevo = df_nuevo.append(fila, ignore_index=True)
df_nuevo

Unnamed: 0,id,equipo_local,equipo_visistante,cuota_local,cuota_visitante,cuota_empate,equipo_visitante
0,96.0,27.0,,5.353975,5.401897,4.668826,32.0
1,97.0,30.0,,1.400000,5.020011,4.497891,2.0
2,98.0,25.0,,5.990000,5.811471,2.208324,28.0
3,99.0,17.0,,3.711428,4.997210,5.615794,19.0
4,100.0,26.0,,5.587754,5.229666,5.366201,15.0
...,...,...,...,...,...,...,...
9695,10090.0,23.0,,5.051126,2.720000,4.435872,9.0
9696,10091.0,32.0,,5.570105,4.347695,4.344740,8.0
9697,10092.0,18.0,,5.101342,3.624697,2.702109,13.0
9698,10093.0,7.0,,4.346434,5.666138,3.136477,5.0


Renombramos las columnas y eliminamos la columna del equipo visitante que es inútil

In [856]:
df_nuevo.columns = ['id', 'equipo_local', 'equipo_elim', 'cuota_local', 'cuota_visitante', 'cuota_empate', 'equipo_visistante']
df_nuevo = df_nuevo.drop(['equipo_elim'], axis=1)
df_nuevo


Unnamed: 0,id,equipo_local,cuota_local,cuota_visitante,cuota_empate,equipo_visistante
0,96.0,27.0,5.353975,5.401897,4.668826,32.0
1,97.0,30.0,1.400000,5.020011,4.497891,2.0
2,98.0,25.0,5.990000,5.811471,2.208324,28.0
3,99.0,17.0,3.711428,4.997210,5.615794,19.0
4,100.0,26.0,5.587754,5.229666,5.366201,15.0
...,...,...,...,...,...,...
9695,10090.0,23.0,5.051126,2.720000,4.435872,9.0
9696,10091.0,32.0,5.570105,4.347695,4.344740,8.0
9697,10092.0,18.0,5.101342,3.624697,2.702109,13.0
9698,10093.0,7.0,4.346434,5.666138,3.136477,5.0


Unimos este dataframe con el anterior

In [857]:
df = pd.concat([unido, df_nuevo], ignore_index=True)
print(df)

           id  equipo_local  equipo_visistante  cuota_local  cuota_visitante  \
0         1.0          29.0                2.0     1.400000         2.970000   
1         2.0          31.0               19.0     5.730000         5.080000   
2         3.0          25.0               24.0     5.450000         5.990000   
3         4.0          11.0                6.0     1.950000         5.080000   
4         5.0           4.0                5.0     4.440000         5.990000   
...       ...           ...                ...          ...              ...   
9791  10090.0          23.0                9.0     5.051126         2.720000   
9792  10091.0          32.0                8.0     5.570105         4.347695   
9793  10092.0          18.0               13.0     5.101342         3.624697   
9794  10093.0           7.0                5.0     4.346434         5.666138   
9795  10094.0          22.0                3.0     4.709351         4.706197   

      cuota_empate  
0         5.800000

In [858]:
df = df.drop_duplicates(subset='id', keep='first')

In [859]:
df

Unnamed: 0,id,equipo_local,equipo_visistante,cuota_local,cuota_visitante,cuota_empate
0,1.0,29.0,2.0,1.400000,2.970000,5.800000
1,2.0,31.0,19.0,5.730000,5.080000,3.860000
2,3.0,25.0,24.0,5.450000,5.990000,5.340000
3,4.0,11.0,6.0,1.950000,5.080000,4.780000
4,5.0,4.0,5.0,4.440000,5.990000,4.610000
...,...,...,...,...,...,...
9791,10090.0,23.0,9.0,5.051126,2.720000,4.435872
9792,10091.0,32.0,8.0,5.570105,4.347695,4.344740
9793,10092.0,18.0,13.0,5.101342,3.624697,2.702109
9794,10093.0,7.0,5.0,4.346434,5.666138,3.136477


## Data splitting

In [860]:
# Separa las características (X) y las etiquetas (y) del conjunto de datos de entrenamiento
X = df.drop(columns= ['cuota_local', 'cuota_visitante', 'cuota_empate'])
y = df[['cuota_local', 'cuota_visitante', 'cuota_empate']]

Separamos los datos en un train and test set utilizando [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html?highlight=train_test_split#sklearn.model_selection.train_test_split). 


In [861]:
from sklearn.model_selection import train_test_split

Dividimos los datos en conjuntos de entrenamiento:

In [862]:
# Your code here
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## Scalers/transformers

Creamos un escalador para transformar las variables intependientes

No utilizamos PowerTransformer porque utiliza una distribución normal, cosa que nosotros no queremos ya que al generar los datos, ya hemos utilizado una función que hace que sigan una distribución normal. 
Por ello, vamos a utilizar `StandardScaler` que es utilizado para estandarizar los datos restando la media y dividiendo por la desviación estándar, y esto ayuda a asegurar que todas las características tengan un rango similar y estén en la misma escala.

In [863]:
from sklearn.preprocessing import PowerTransformer, StandardScaler


pt = StandardScaler()
pt.fit(X_train)

In [864]:
X_train_scaled = pt.transform(X_train)
X_test_scaled = pt.transform(X_test)

Ahora transformamos las variables dependientes. 

In [865]:
y_train_scaled = np.log(y_train)
y_test_scaled = np.log(y_test)

Ahora definimos una función para guardar el modelo

In [866]:
import pickle

def save_scaler(amount, filename):
    import os
    if not os.path.exists("scalers"):
        os.mkdir("scalers/")
    filename = "scalers/" + filename
    with open(filename, "wb") as f:
        pickle.dump(amount, f)

In [867]:
save_scaler(pt, filename = "pt.pkl")

## Creamos el modelo de regresión lineal

Ahora que tenemos escalados los datos, hacemos el modelo de regresión

In [868]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()

In [869]:
# Your code here
lr.fit(X_train, y_train)

In [870]:
# Your code here
def save_model(amount, filename):
    import os
    if not os.path.exists("models"):
        os.mkdir("models/")
    filename = "models/" + filename
    with open(filename, "wb") as f:
        pickle.dump(amount, f)

In [871]:
save_model(lr, 'lm.pkl')

In [872]:
# Your code here
y_train_pred = np.exp(lr.predict(X_train))
y_test_pred = np.exp(lr.predict(X_test))

In [873]:
# Your code here
lr.coef_

array([[ 5.82888207e-06,  2.36482058e-03,  1.81308103e-03],
       [ 1.02338931e-06,  9.00829235e-04, -7.67272902e-04],
       [-1.65310925e-06,  1.51792704e-03, -2.45158895e-03]])

In [874]:
# Your code here
lr.intercept_

array([4.15067657, 5.10563962, 4.28430486])

## Probamos el modelo

In [875]:
#Importamos Abstract Base Class
from abc import ABC, abstractmethod
class CuotaStrategy(ABC):
    #En el constructor, descargamos los datos y los preprocesamos
    def __init__(self):
        self.scaler = pickle.load(open("scalers/pt.pkl", "rb"))
        self.model = pickle.load(open("models/lm.pkl", "rb"))

    #En el método calcular_cuota, recibimos los ids de los equipos y devolvemos las cuotas
    def calcular_cuota(self, local_id, visitante_id):

        data = [[local_id, visitante_id]]
        data_scaled = self.scaler.transform(data)
        cuotas_pred = np.exp(self.model.predict(data_scaled))
        return cuotas_pred

## Error analysis

In [876]:
y_train_local = y_train.iloc[:,0]
y_train_visitante = y_train.iloc[:,1]
y_train_empate = y_train.iloc[:,2]


In [877]:
y_test_local = y_test.iloc[:,0]
y_test_visitante = y_test.iloc[:,1]
y_test_empate = y_test.iloc[:,2]

In [878]:
y_train_pred_local = list(map(lambda x: x[0], y_train_pred))
y_train_pred_visitante = list(map(lambda x: x[1], y_train_pred))
y_train_pred_empate = list(map(lambda x: x[2], y_train_pred))

In [879]:
y_test_pred_local = list(map(lambda x: x[0], y_test_pred))
y_test_pred_visitante = list(map(lambda x: x[1], y_test_pred))
y_test_pred_empate = list(map(lambda x: x[2], y_test_pred))

In [880]:
def model_evaluation(y_train,y_train_pred,y_test,y_test_pred, k = 0):
    '''
    Function to evaluate a regression model and return a dataframe with the error matrics
    in train and test sets
    Inputs:
    X_train_scaled: dataframe with scaled features for the train set
    X_test_scaled: dataframe with scaled features for the test set
    y_train: dataframe dependent features for the train set
    y_train: dataframe dependent features for the test set
    k: number of parameters in the model
    '''

    from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

    # Computing the mean error (ME) for the train and test sets.
    ME_train = round(np.mean( y_train - y_train_pred ),2)
    ME_test  = round(np.mean( y_test  - y_test_pred ),2)

    # Computing the mean absolute error (MAE) for the train and test sets.
    MAE_train = round(mean_absolute_error(y_train, y_train_pred),2)
    MAE_test  = round(mean_absolute_error(y_test , y_test_pred),2)

    # Computing the mean squared error (MSE) for the train and test sets.
    MSE_train = round(mean_squared_error(y_train, y_train_pred),2)
    MSE_test  = round(mean_squared_error(y_test , y_test_pred),2)

    # Computing the root mean squared error (MSE) for the train and test sets.
    RMSE_train = round(np.sqrt( MSE_train ),2)
    RMSE_test  = round(np.sqrt( MSE_test  ),2)

    # Computing the mean absolute percentual error (MAPE) for the train and test sets.
    MAPE_train = round(np.mean( np.abs( ( y_train - y_train_pred ) / y_train ) ),2)
    MAPE_test  = round(np.mean( np.abs( ( y_test  - y_test_pred  ) / y_test  ) ),2)

    # Computing the R2 for the train and test sets.
    R2_train = round(r2_score(y_train, y_train_pred),2)
    R2_test  = round(r2_score(y_test , y_test_pred),2)

    # Computing the R2_adjusted for the train and test sets.
    R2adj_train = ( 1. - (1. - R2_train ) ) * ( ( y_train.shape[0] - 1 )/( y_train.shape[0] - ( k + 1) ))
    R2adj_test  = ( 1. - (1. - R2_test  ) ) * ( ( y_test.shape[0]  - 1 )/( y_test.shape[0]  - ( k + 1) ))

    R2adj_train = round(R2adj_train,2)
    R2adj_test  = round(R2adj_test,2)

    df = pd.DataFrame({'Set': ['Train','Test'], 'ME': [ME_train, ME_test],
                       'MAE': [MAE_train, MAE_test], 'MSE': [MSE_train, MSE_test],
                       'RMSE': [RMSE_train,RMSE_test],'MAPE': [MAPE_train, MAPE_test],
                       'R2': [R2_train, R2_test], 'R2_adjusted':[R2adj_train, R2adj_test]})

    return df

In [881]:
model_evaluation(y_train_local,y_train_pred_local,y_test_local,y_test_pred_local, k = 0)

Unnamed: 0,Set,ME,MAE,MSE,RMSE,MAPE,R2,R2_adjusted
0,Train,-65.83,65.83,4340.12,65.88,17.44,-2939.05,-2939.05
1,Test,-65.83,65.83,4340.67,65.88,17.72,-2822.44,-2822.44


In [882]:
results_train_local = pd.DataFrame({'y_train_local':y_train_local, 'y_train_pred_local':y_train_pred})
results_test_local = pd.DataFrame({'y_test_local' :y_test_local, 'y_test_pred_local':y_test_pred_local})
results_local = pd.concat([results_train_local,results_test_local],axis=0)

ValueError: Data must be 1-dimensional

In [None]:
results_local

In [None]:
model_evaluation(y_train_local,y_train_pred,y_test,y_test_pred, k = 0)

Transformamos y_train_pred e y_test_pred en dataframe

In [None]:
y_test_pred = pd.DataFrame(y_test_pred, columns=['cuota_local_pred', 'cuota_visitante_pred', 'cuota_empate_pred'])
print(y_test_pred)