# Regresión logística

## Análisis de los 4 factores del éxito del baloncesto

### Estudio de los partidos del Obradoiro CAB

In [1]:
# importamos libreria pandas y train_test_split
import pandas as pd
from sklearn.model_selection import train_test_split

In [2]:
# cargamos los datos del archivo 4factors3.csv y comprobamos que cargaron correctamente
data=pd.read_csv('4factors3.csv')
data.head()

Unnamed: 0,eFG%,TO%,OR%,FTR,eFG%op,TO%op,OR%op,FTRop,¿Win?
0,0.582,0.144,0.241,0.164,0.39,0.158,0.176,0.254,1
1,0.571,0.118,0.32,0.446,0.551,0.176,0.25,0.254,1
2,0.669,0.168,0.5,0.262,0.5,0.196,0.194,0.203,1
3,0.658,0.285,0.217,0.211,0.409,0.149,0.195,0.333,1
4,0.649,0.117,0.154,0.228,0.531,0.131,0.229,0.141,1


Analizamos los datos: tenemos 9 columnas, las 4 primeras hacen referencia al Obradoiro y las 4 siguientes al oponente. Por último la columna ¿Win? es 1 si ganó el Obradoiro y 0 si perdió.

In [9]:
# tamaño de la muestra
data.shape

(20, 9)

Tenemos 20 filas y 9 columnas

In [10]:
# descripción de los datos
data.describe()

Unnamed: 0,eFG%,TO%,OR%,FTR,eFG%op,TO%op,OR%op,FTRop,¿Win?
count,20.0,20.0,20.0,20.0,20.0,20.0,20.0,20.0,20.0
mean,0.5608,0.16615,0.30075,0.22455,0.5425,0.16035,0.27365,0.23075,0.65
std,0.072754,0.047595,0.100205,0.089183,0.092759,0.038717,0.084191,0.099788,0.48936
min,0.358,0.074,0.154,0.07,0.39,0.109,0.133,0.031,0.0
25%,0.52275,0.13925,0.209,0.15875,0.472,0.1355,0.21525,0.17825,0.0
50%,0.571,0.1595,0.322,0.2335,0.527,0.15,0.2545,0.205,1.0
75%,0.5955,0.194,0.357,0.26675,0.61625,0.1785,0.333,0.27075,1.0
max,0.669,0.285,0.5,0.446,0.711,0.266,0.444,0.492,1.0


Nos devuelve el valor medio, desviación, mínimo, máximo y los percentiles 25%,50% y 75%

In [15]:
# medias en las victorias vs derrotas
data.groupby(['¿Win?']).mean()

Unnamed: 0_level_0,eFG%,TO%,OR%,FTR,eFG%op,TO%op,OR%op,FTRop
¿Win?,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,0.504714,0.176714,0.256429,0.207,0.608143,0.145857,0.286714,0.235286
1,0.591,0.160462,0.324615,0.234,0.507154,0.168154,0.266615,0.228308


Podemos ver como para las victorias tenemos que tener casi 0.60 en eFG% y que pesa más el rebote ofensivo que los balones perdidos y el factor del tiro libre.

### Los 4 factores

eFG%: factor de tiro<br>
TO%: balones perdidos<br>
OR%: rebote ofensivo<br>
FTR: factor de tiro libre<br>
https://basketanalisis.com/2017/10/22/los-four-factors-en-la-liga-endesa/

Estos 4 factores se basan en lo que Dean Oliver llamó "los 4 factores de éxito en el baloncesto". Según Oliver, el tiro es el factor más importante, seguido de las pérdidas de balón, los rebotes ofensivos y los tiros libres. Estos factores se pueden aplicar tanto a la ofensiva como a la defensa de un equipo, lo que en cierto sentido nos da ocho factores.
En este análisis calcularemos el peso de los 8 factores, tanto los ofensivos como los defensivos.

Oliver colocó un cierto conjunto de pesos en cada una de las cuatro categorías para determinar el valor de cada factor con respecto a una victoria. Los pesos son:<br>

    40% en Porcentaje de tiro
    25% en pérdidas de balón
    20% en rebotes
    15% en la tasa de tiro libre

La pregunta es si estas tasas realmente capturan las tendencias ganadoras de un equipo ACB en la temporada anterior.

El modelo que haremos servir para aproximar los pesos de cada factor es la regresión lineal, donde se aproximan los pesos de cada coeficiente para calcular el número total de victorias por esta temporada.

WINS = X1.eFG% + X2.TOR + X3.ORR + X4.FRT + X5.eFG%opp + X6.TORopp + X7.ORRopp + X8.FRTopp

Tenemos que calcular X1,... X8 que son los coeficientes para nuestro modelo:

In [4]:
# cargamos los datos de entrada (X) y la posible salida (Y)
X=data[['eFG%','TO%','OR%','FTR','eFG%op','TO%op','OR%op','FTRop']]
Y=data['¿Win?']

In [70]:
# separamos los datos de entrenamiento (train) y los de test (test)
x_train,x_test,y_train,y_test=train_test_split(X,Y,test_size=0.3, random_state=0)

In [71]:
#comprobamos que se cargaron correctamente y vemos el reparto
x_train.shape

(14, 8)

In [72]:
x_test.shape

(6, 8)

De los 20 registros, vamos a ussar 14 para hacer el modelo (entrenamiento) y 6 para comprobar la calidad de nuestro modelo (test)

In [27]:
# importamos las librerias para hacer la regresión
from sklearn.linear_model import LogisticRegression

In [73]:
# creamos modelo con sklearn
clf = LogisticRegression(random_state=0, solver='lbfgs',multi_class='multinomial').fit(x_train,y_train)

Mostramos los coeficientes de nuestro modelo

In [74]:
clf.coef_

array([[ 0.26764878, -0.04320605,  0.32458249, -0.0005823 , -0.38534135,
         0.08117206,  0.02506671, -0.02655273]])

### Cáculo del error

Para calcular el error cometido usaremos los datos guardados para test. Primero descargamos la librería metrics:

In [32]:
from sklearn import metrics

In [75]:
# calculamos la salida con nuestro modelo
y_pred=clf.predict(x_test)

Probabilidad de acertar:

In [76]:
metrics.accuracy_score(y_test,y_pred)

0.6666666666666666

Mostramos el valor real (y_test) y la predicción de nuestro modelo (y_pred)

In [77]:
'realidad:',list(y_test),'predicción:',list(y_pred)

('realidad:', [0, 1, 1, 0, 1, 1], 'predicción:', [1, 1, 1, 1, 1, 1])

Hacemos una <b>validación cruzada</b> para mejorar la predicción

In [44]:
# libreria cross_validate
from sklearn.model_selection import cross_val_score

In [86]:
#validacion cruzada
scores = cross_val_score(clf, X, Y, cv=3)
scores

array([0.625     , 0.66666667, 0.66666667])

In [87]:
scores.mean()

0.6527777777777777

Errores de hacer 3 validaciones y error medio

### Conclusiones

Si vemos los coeficientes tenemos:
eFG%: factor de tiro: 0.26764878 --> 23,2%<br>
TO%: balones perdidos: -0.04320605 --> 3,7%<br>
OR%: rebote ofensivo: 0.32458249 --> 28,1%<br>
FTR: factor de tiro libre: -0.0005823 --> 0,1%<br>
eFG%op: factor de tiro oponente: -0.38534135 --> 33,4%<br>
TO%op: balones perdidos oponente: 0.08117206 --> 7,0%<br>
OR%op: rebote ofensivo oponente: 0.02506671 --> 2,2%<br>
FTRop: factor de tiro libre oponente: -0.02655273 --> 2,3%


Se puede observar que el mayor peso para conseguir la victoria es tener un buen rebote ofensivo y un buen factor de tiro.Afecta más a la victoria los balores perdidos por el oponente que los propios.<br>
(porcentaje calculado con la suma de los valores absolutos)