# Caso de Estudio - Estadísticas del Basketball

La NBA guarda estadísticos sobre los juegos entre los diferentes equipos y tenemos una base de datos llamada `NBA_2016_games.csv` disponible (en partes) en:

[https://www.basketball-reference.com/leagues/NBA_2016_games.html](https://www.basketball-reference.com/leagues/NBA_2016_games.html)

El dataset de este estudio será sobre los partidos entre equipos y el análisis de si ganará el equipo local o el equipo visitante. El dataset se basa en `Schedule and Results` y le damos para cada mes en exportar como CSV.

Recolectamos la información de los partidos de la temporada del 2016, obteniendo `1,316` registros para cada partido.

## 1. Cargar los datos de los partidos

In [19]:
import pandas as pd

games = pd.read_csv("data/basketball/NBA_2016_games.csv")

games.sample(10)

Unnamed: 0,Date,Start (ET),Visitor/Neutral,PTS,Home/Neutral,PTS.1,Unnamed: 6,Unnamed: 7,Attend.,Arena,Notes
1034,Sat Mar 19 2016,8:00p,Los Angeles Clippers,102,Memphis Grizzlies,113,Box Score,,18119,FedEx Forum,
414,Mon Dec 21 2015,8:00p,Charlotte Hornets,95,Houston Rockets,102,Box Score,,18236,Toyota Center,
281,Thu Dec 3 2015,10:00p,Boston Celtics,114,Sacramento Kings,97,Box Score,,18660,Mexico City Arena,at Mexico City Mexico
63,Wed Nov 4 2015,8:00p,Orlando Magic,114,Houston Rockets,119,Box Score,OT,16735,Toyota Center,
1205,Mon Apr 11 2016,7:30p,Washington Wizards,120,Brooklyn Nets,111,Box Score,,14653,Barclays Center,
1314,Thu Jun 16 2016,9:00p,Golden State Warriors,101,Cleveland Cavaliers,115,Box Score,,20562,Quicken Loans Arena,
1258,Sun Apr 24 2016,6:00p,Atlanta Hawks,95,Boston Celtics,104,Box Score,OT,18624,TD Garden,
820,Sat Feb 20 2016,8:00p,New York Knicks,103,Minnesota Timberwolves,95,Box Score,,16663,Target Center,
212,Tue Nov 24 2015,10:00p,Chicago Bulls,93,Portland Trail Blazers,88,Box Score,,19393,Moda Center,
399,Sat Dec 19 2015,7:30p,Chicago Bulls,91,New York Knicks,107,Box Score,,19812,Madison Square Garden (IV),


## 2. Renombrar las columnas para manipularlas fácilmente

In [20]:
games.columns = ["DATE", "START", "VISITOR_TEAM", "VISITOR_POINTS", "HOME_TEAM", "HOME_POINTS", "SCORE_TYPE", "OVER_TIME", "USERS", "ARENA", "NOTES"]

games.head()

Unnamed: 0,DATE,START,VISITOR_TEAM,VISITOR_POINTS,HOME_TEAM,HOME_POINTS,SCORE_TYPE,OVER_TIME,USERS,ARENA,NOTES
0,Tue Oct 27 2015,8:00p,Cleveland Cavaliers,95,Chicago Bulls,97,Box Score,,21957,United Center,
1,Tue Oct 27 2015,8:00p,Detroit Pistons,106,Atlanta Hawks,94,Box Score,,19187,Philips Arena,
2,Tue Oct 27 2015,10:30p,New Orleans Pelicans,95,Golden State Warriors,111,Box Score,,19596,Oracle Arena,
3,Wed Oct 28 2015,7:00p,Washington Wizards,88,Orlando Magic,87,Box Score,,18846,Amway Center,
4,Wed Oct 28 2015,7:30p,Philadelphia 76ers,95,Boston Celtics,112,Box Score,,18624,TD Garden,


## 3. Reducir y reordenar las columnas

Reemplazamos el dataframe con solo las columnas indicadas en ese orden, ahora el dataframe tendrá solo estas columnas en ese orden. A esto se le conoce como enmascarar el dataset.

In [21]:
# data[ mask ]
# mask - ["col1", "col2", ..., "colN"]
games = games[ ["DATE", "START", "HOME_TEAM", "HOME_POINTS", "VISITOR_TEAM", "VISITOR_POINTS"] ]

games.head()

Unnamed: 0,DATE,START,HOME_TEAM,HOME_POINTS,VISITOR_TEAM,VISITOR_POINTS
0,Tue Oct 27 2015,8:00p,Chicago Bulls,97,Cleveland Cavaliers,95
1,Tue Oct 27 2015,8:00p,Atlanta Hawks,94,Detroit Pistons,106
2,Tue Oct 27 2015,10:30p,Golden State Warriors,111,New Orleans Pelicans,95
3,Wed Oct 28 2015,7:00p,Orlando Magic,87,Washington Wizards,88
4,Wed Oct 28 2015,7:30p,Boston Celtics,112,Philadelphia 76ers,95


## 4. Creamos una nueva columna llamada `HOME_WIN`

Valdrá True si ganó el local (los puntos del local son mayores a los del visitante).

In [22]:
games["HOME_WIN"] = games["HOME_POINTS"] > games["VISITOR_POINTS"]

games.head()

Unnamed: 0,DATE,START,HOME_TEAM,HOME_POINTS,VISITOR_TEAM,VISITOR_POINTS,HOME_WIN
0,Tue Oct 27 2015,8:00p,Chicago Bulls,97,Cleveland Cavaliers,95,True
1,Tue Oct 27 2015,8:00p,Atlanta Hawks,94,Detroit Pistons,106,False
2,Tue Oct 27 2015,10:30p,Golden State Warriors,111,New Orleans Pelicans,95,True
3,Wed Oct 28 2015,7:00p,Orlando Magic,87,Washington Wizards,88,False
4,Wed Oct 28 2015,7:30p,Boston Celtics,112,Philadelphia 76ers,95,True


Podemos observar que 44% de los juegos el local gana

In [23]:
games["HOME_WIN"].mean() * 100

59.42249240121581

Recuerda que siempre podemos transformar una columna en otra por reemplazo de valores a través del mapeo.

In [24]:
games["WINNER"] = games["HOME_WIN"].map({
    True: "HOME",
    False: "VISITOR"
})

games.head()

Unnamed: 0,DATE,START,HOME_TEAM,HOME_POINTS,VISITOR_TEAM,VISITOR_POINTS,HOME_WIN,WINNER
0,Tue Oct 27 2015,8:00p,Chicago Bulls,97,Cleveland Cavaliers,95,True,HOME
1,Tue Oct 27 2015,8:00p,Atlanta Hawks,94,Detroit Pistons,106,False,VISITOR
2,Tue Oct 27 2015,10:30p,Golden State Warriors,111,New Orleans Pelicans,95,True,HOME
3,Wed Oct 28 2015,7:00p,Orlando Magic,87,Washington Wizards,88,False,VISITOR
4,Wed Oct 28 2015,7:30p,Boston Celtics,112,Philadelphia 76ers,95,True,HOME


## 5. Generamos dos nuevas columnas de información que nos digan si el equipo local ganó su último partido y si el equipo visitante ganó su último partido

In [25]:
games[ (games["HOME_TEAM"] == "Chicago Bulls") | (games["VISITOR_TEAM"] == "Chicago Bulls") ]

Unnamed: 0,DATE,START,HOME_TEAM,HOME_POINTS,VISITOR_TEAM,VISITOR_POINTS,HOME_WIN,WINNER
0,Tue Oct 27 2015,8:00p,Chicago Bulls,97,Cleveland Cavaliers,95,True,HOME
5,Wed Oct 28 2015,7:30p,Brooklyn Nets,100,Chicago Bulls,115,False,VISITOR
24,Fri Oct 30 2015,7:30p,Detroit Pistons,98,Chicago Bulls,94,True,HOME
42,Sun Nov 1 2015,7:00p,Chicago Bulls,92,Orlando Magic,87,True,HOME
52,Tue Nov 3 2015,7:00p,Charlotte Hornets,130,Chicago Bulls,105,True,HOME
...,...,...,...,...,...,...,...,...
1156,Tue Apr 5 2016,8:00p,Memphis Grizzlies,108,Chicago Bulls,92,True,HOME
1174,Thu Apr 7 2016,8:00p,Miami Heat,106,Chicago Bulls,98,True,HOME
1190,Sat Apr 9 2016,8:30p,Chicago Bulls,105,Cleveland Cavaliers,102,True,HOME
1207,Mon Apr 11 2016,8:00p,New Orleans Pelicans,116,Chicago Bulls,121,False,VISITOR


In [30]:
from collections import defaultdict

# El diccionario retiene un booleano
# para un partido (clave - equipo, valor - si ganó)
# Memoria: EQUIPO -> GANÓ SU JUEGO ANTERIOR
won_last = defaultdict(bool) # { "Chicago Bulls": True, ... }

for index, row in games.iterrows():
    home_team = row["HOME_TEAM"]
    visitor_team = row["VISITOR_TEAM"]

    # Nota: Primero consultamos el diccionario, para saber
    #       si el equipo local ganó su último partido
    #       y si el equipo visitante ganó su último partido

    # Guardar la columna HOME_WON_LAST
    games.at[index, "HOME_WON_LAST"] = won_last[home_team]
    # Guardar la columna VISITOR_WON_LAST
    games.at[index, "VISITOR_WON_LAST"] = won_last[visitor_team]

    print("{} vs {}".format(home_team, visitor_team), end=" ")

    # Nota: Actualizamos el diccionario con la información
    #       de si ganó el local o el visitante, este partido.
    #       En la siguiente iteración, el diccionario
    #       recuperará valores del partido anterior.
    #       Esto crea una memoria, de si ganó su último juego
    #       cada uno de los equipos.

    if row["HOME_WIN"]:
        print("GANA LOCAL")
        won_last[home_team] = True
        won_last[visitor_team] = False
    else:
        print("GANA VISITANTE")
        won_last[home_team] = False
        won_last[visitor_team] = True

Chicago Bulls vs Cleveland Cavaliers GANA LOCAL
Atlanta Hawks vs Detroit Pistons GANA VISITANTE
Golden State Warriors vs New Orleans Pelicans GANA LOCAL
Orlando Magic vs Washington Wizards GANA VISITANTE
Boston Celtics vs Philadelphia 76ers GANA LOCAL
Brooklyn Nets vs Chicago Bulls GANA VISITANTE
Detroit Pistons vs Utah Jazz GANA LOCAL
Toronto Raptors vs Indiana Pacers GANA LOCAL
Miami Heat vs Charlotte Hornets GANA LOCAL
Milwaukee Bucks vs New York Knicks GANA VISITANTE
Oklahoma City Thunder vs San Antonio Spurs GANA LOCAL
Memphis Grizzlies vs Cleveland Cavaliers GANA VISITANTE
Houston Rockets vs Denver Nuggets GANA VISITANTE
Phoenix Suns vs Dallas Mavericks GANA VISITANTE
Portland Trail Blazers vs New Orleans Pelicans GANA LOCAL
Sacramento Kings vs Los Angeles Clippers GANA VISITANTE
Los Angeles Lakers vs Minnesota Timberwolves GANA VISITANTE
Indiana Pacers vs Memphis Grizzlies GANA VISITANTE
New York Knicks vs Atlanta Hawks GANA VISITANTE
Los Angeles Clippers vs Dallas Mavericks GAN

In [31]:
games.sample(10)

Unnamed: 0,DATE,START,HOME_TEAM,HOME_POINTS,VISITOR_TEAM,VISITOR_POINTS,HOME_WIN,WINNER,HOME_WON_LAST,VISITOR_WON_LAST
1259,Sun Apr 24 2016,8:30p,Detroit Pistons,98,Cleveland Cavaliers,100,False,VISITOR,False,True
1014,Thu Mar 17 2016,8:00p,Atlanta Hawks,116,Denver Nuggets,98,True,HOME,True,False
266,Tue Dec 1 2015,10:00p,Portland Trail Blazers,112,Dallas Mavericks,115,False,VISITOR,False,False
775,Mon Feb 8 2016,7:00p,Philadelphia 76ers,92,Los Angeles Clippers,98,False,VISITOR,True,True
1314,Thu Jun 16 2016,9:00p,Cleveland Cavaliers,115,Golden State Warriors,101,True,HOME,True,False
1136,Fri Apr 1 2016,10:30p,Phoenix Suns,99,Washington Wizards,106,False,VISITOR,False,False
21,Fri Oct 30 2015,7:00p,Philadelphia 76ers,71,Utah Jazz,99,False,VISITOR,False,False
174,Thu Nov 19 2015,7:30p,Miami Heat,116,Sacramento Kings,109,True,HOME,False,False
1122,Thu Mar 31 2016,7:00p,Houston Rockets,100,Chicago Bulls,103,False,VISITOR,True,True
1016,Thu Mar 17 2016,8:00p,Milwaukee Bucks,96,Memphis Grizzlies,86,True,HOME,False,False


Si inspeccionamos los partidos de un equipo en particular, podemos observar que dependiendo si gana su encuentro anterior, para su próximo partido, traerá una derrota o victoria, según esté jugando de local o de visitante.

El dataset ahora contiene la información de sí el equipo local trae una victoria o derrota anterior y si el equipo visitante trae o no una victoria.

In [33]:
games[ (games["HOME_TEAM"] == "Memphis Grizzlies") | (games["VISITOR_TEAM"] == "Memphis Grizzlies") ]

Unnamed: 0,DATE,START,HOME_TEAM,HOME_POINTS,VISITOR_TEAM,VISITOR_POINTS,HOME_WIN,WINNER,HOME_WON_LAST,VISITOR_WON_LAST
11,Wed Oct 28 2015,8:00p,Memphis Grizzlies,76,Cleveland Cavaliers,106,False,VISITOR,False,False
17,Thu Oct 29 2015,7:00p,Indiana Pacers,103,Memphis Grizzlies,112,False,VISITOR,False,False
35,Sat Oct 31 2015,8:00p,Memphis Grizzlies,101,Brooklyn Nets,91,True,HOME,True,False
50,Mon Nov 2 2015,10:30p,Golden State Warriors,119,Memphis Grizzlies,69,True,HOME,True,True
57,Tue Nov 3 2015,10:00p,Sacramento Kings,89,Memphis Grizzlies,103,False,VISITOR,False,False
...,...,...,...,...,...,...,...,...,...,...
1226,Wed Apr 13 2016,10:30p,Golden State Warriors,125,Memphis Grizzlies,104,True,HOME,True,False
1236,Sun Apr 17 2016,8:00p,San Antonio Spurs,106,Memphis Grizzlies,74,True,HOME,True,False
1242,Tue Apr 19 2016,9:30p,San Antonio Spurs,94,Memphis Grizzlies,68,True,HOME,True,False
1251,Fri Apr 22 2016,9:30p,Memphis Grizzlies,87,San Antonio Spurs,96,False,VISITOR,False,True


# 6. Reducimos nuevamente el dataset de análisis, para extraer las `X` y las `y` para la clasificación posterior

Nos centramos en nuestro estudio solo en 3 columnas, si el equipo local trae una victoria o derrota, si el visitante trae una victoria o derrota y si el equipo local gana.

¿Podemos con esta información predecir si el equipo local ganará, sabiendo que el equipo local y visitante traen o no una victoria?

In [36]:
data = games[ ["HOME_WON_LAST", "VISITOR_WON_LAST", "HOME_WIN"] ]

data.sample(10)

Unnamed: 0,HOME_WON_LAST,VISITOR_WON_LAST,HOME_WIN
871,True,True,False
878,True,True,True
450,False,False,False
1011,True,True,False
403,False,False,True
680,True,False,True
818,False,False,False
193,True,False,True
1314,True,False,True
621,True,False,False


## 7. Construimos la matriz `X` y el vector `y` para entrenar un estimador que clasifique nuestros resultados

In [37]:
X = data[ ["HOME_WON_LAST", "VISITOR_WON_LAST"] ].values.astype(int) # matriz 1316x2
y = data["HOME_WIN"].values.astype(int) # vector 1316

X, y

(array([[0, 0],
        [0, 0],
        [0, 0],
        ...,
        [1, 0],
        [1, 0],
        [0, 1]]),
 array([1, 0, 1, ..., 0, 1, 0]))

## 8. Creamos un clasificador basado en árboles de decisión para a partir de `X` predecir `y`

In [40]:
from sklearn.tree import  DecisionTreeClassifier

clf = DecisionTreeClassifier()

clf.fit(X, y)

clf.predict([
    [0, 0],
    [1, 0],
    [0, 1],
    [1, 1]
])

array([1, 1, 1, 1])

In [44]:
from sklearn.model_selection import cross_val_score

cross_val_score(DecisionTreeClassifier(), X, y, scoring='accuracy').mean() * 100

59.42245650420554

In [45]:
from sklearn.neighbors import KNeighborsClassifier

cross_val_score(KNeighborsClassifier(), X, y, scoring='accuracy').mean() * 100

55.93011867726696

In [46]:
from sklearn.neural_network import MLPClassifier

cross_val_score(MLPClassifier(), X, y, scoring='accuracy').mean() * 100

59.42245650420554

In [47]:
from sklearn.svm import SVC

cross_val_score(SVC(), X, y, scoring='accuracy').mean() * 100

59.42245650420554

## 9. Diseñar una nueva estrategia para aumentar la información

Podemos intentar cargar información adicional, por ejemplo, usar datos de la temporada anterior, para saber en qué posición quedó cada equipo, de esta manera podríamos aumentar información, diciendo si el local estaba en una posición en la tabla final respecto al visitante. Esta información nueva podría mejorar las predicciones.

In [52]:
# Recuperar las posiciones de cada equipo (NBA_2015_standings.csv)

standings = pd.read_csv("data/basketball/NBA_2015_standings.csv")

standings = standings[ ["Rk", "Team"] ]

standings

Unnamed: 0,Rk,Team
0,1,Golden State Warriors
1,2,Atlanta Hawks
2,3,Houston Rockets
3,4,Los Angeles Clippers
4,5,Memphis Grizzlies
5,6,San Antonio Spurs
6,7,Cleveland Cavaliers
7,8,Portland Trail Blazers
8,9,Chicago Bulls
9,10,Dallas Mavericks


In [53]:
games.head()

Unnamed: 0,DATE,START,HOME_TEAM,HOME_POINTS,VISITOR_TEAM,VISITOR_POINTS,HOME_WIN,WINNER,HOME_WON_LAST,VISITOR_WON_LAST
0,Tue Oct 27 2015,8:00p,Chicago Bulls,97,Cleveland Cavaliers,95,True,HOME,False,False
1,Tue Oct 27 2015,8:00p,Atlanta Hawks,94,Detroit Pistons,106,False,VISITOR,False,False
2,Tue Oct 27 2015,10:30p,Golden State Warriors,111,New Orleans Pelicans,95,True,HOME,False,False
3,Wed Oct 28 2015,7:00p,Orlando Magic,87,Washington Wizards,88,False,VISITOR,False,False
4,Wed Oct 28 2015,7:30p,Boston Celtics,112,Philadelphia 76ers,95,True,HOME,False,False


In [55]:
for index, row in games.iterrows():

    home_team = row["HOME_TEAM"]
    visitor_team = row["VISITOR_TEAM"]

    home_rank = standings[ (standings["Team"] == home_team) ]["Rk"].values[0]
    visitor_rank = standings[ (standings["Team"] == visitor_team) ]["Rk"].values[0]

    games.at[index, "HOME_RANK"] = home_rank
    games.at[index, "VISITOR_RANK"] = visitor_rank
    games.at[index, "HOME_HIGHER_VISITOR"] = home_rank < visitor_rank

games.sample(10)

Unnamed: 0,DATE,START,HOME_TEAM,HOME_POINTS,VISITOR_TEAM,VISITOR_POINTS,HOME_WIN,WINNER,HOME_WON_LAST,VISITOR_WON_LAST,HOME_RANK,VISITOR_RANK,HOME_HIGHER_VISITOR
36,Sat Oct 31 2015,10:00p,Portland Trail Blazers,90,Phoenix Suns,101,False,VISITOR,False,True,8.0,17.0,True
474,Wed Dec 30 2015,7:00p,Orlando Magic,100,Brooklyn Nets,93,True,HOME,True,True,26.0,18.0,False
1029,Sat Mar 19 2016,7:00p,Indiana Pacers,111,Oklahoma City Thunder,115,False,VISITOR,False,True,19.0,14.0,False
1179,Fri Apr 8 2016,7:00p,Philadelphia 76ers,102,New York Knicks,109,False,VISITOR,True,False,28.0,29.0,True
1021,Fri Mar 18 2016,7:30p,Detroit Pistons,115,Sacramento Kings,108,True,HOME,False,False,23.0,25.0,True
870,Sat Feb 27 2016,8:00p,Chicago Bulls,95,Portland Trail Blazers,103,False,VISITOR,False,False,9.0,8.0,False
475,Wed Dec 30 2015,7:30p,Boston Celtics,104,Los Angeles Lakers,112,False,VISITOR,True,False,16.0,27.0,True
165,Wed Nov 18 2015,7:00p,Orlando Magic,104,Minnesota Timberwolves,101,True,HOME,False,True,26.0,30.0,True
674,Tue Jan 26 2016,7:00p,Indiana Pacers,89,Los Angeles Clippers,91,False,VISITOR,False,False,19.0,4.0,False
56,Tue Nov 3 2015,8:30p,Dallas Mavericks,91,Toronto Raptors,102,False,VISITOR,True,True,10.0,11.0,True


## 10. Volvemos a construir un clasificador, pero ahora usando más columnas de información

Tener más columnas no siempre significará que la información sea valiosa. Es más valioso para un árbol de decisión saber si el equipo local tiene mejor rango que el visitante, versus, darle al árbol de decisión el rango de cada equipo. Hay cosas que el árbol de decisión no podrá inferir (cómo quién es superior) y en lugar de mejorar los resultados, podrían entorpecer.

In [63]:
X = games[ ["HOME_WON_LAST", "VISITOR_WON_LAST", "HOME_RANK", "VISITOR_RANK", "HOME_HIGHER_VISITOR"] ].values

y = games["HOME_WIN"].values

cross_val_score(DecisionTreeClassifier(), X, y, scoring="accuracy").mean()

0.5911942620117525

In [64]:
X = games[ ["HOME_WON_LAST", "VISITOR_WON_LAST", "HOME_HIGHER_VISITOR"] ].values

y = games["HOME_WIN"].values

cross_val_score(DecisionTreeClassifier(), X, y, scoring="accuracy").mean()

0.6177670238506741

In [65]:
from sklearn.neural_network import MLPClassifier

X = games[ ["HOME_WON_LAST", "VISITOR_WON_LAST", "HOME_RANK", "VISITOR_RANK", "HOME_HIGHER_VISITOR"] ].values

y = games["HOME_WIN"].values

cross_val_score(MLPClassifier(), X, y, scoring="accuracy").mean()

0.6489140453969352