# Caso de Estudio - Estadísticas del Basketball

La NBA guarda estadísticos sobre los juegos entre los diferentes equipos y tenemos una base de datos llamada `NBA_2016_games.csv` disponible (en partes) en:

[https://www.basketball-reference.com/leagues/NBA_2016_games.html](https://www.basketball-reference.com/leagues/NBA_2016_games.html)

El dataset de este estudio será sobre los partidos entre equipos y el análisis de si ganará el equipo local o el equipo visitante. El dataset se basa en `Schedule and Results` y le damos para cada mes en exportar como CSV.

Recolectamos la información de los partidos de la temporada del 2016, obteniendo `1,316` registros para cada partido.

## 1. Cargar los datos de los partidos

In [10]:
import pandas as pd

games = pd.read_csv("https://raw.githubusercontent.com/dragonnomada/kryteria-deep-learning/main/data/basketball/NBA_2016_games.csv")

games.sample(10)

Unnamed: 0,Date,Start (ET),Visitor/Neutral,PTS,Home/Neutral,PTS.1,Unnamed: 6,Unnamed: 7,Attend.,Arena,Notes
15,Wed Oct 28 2015,10:00p,Los Angeles Clippers,111,Sacramento Kings,104,Box Score,,17458,Sleep Train Arena,
4,Wed Oct 28 2015,7:30p,Philadelphia 76ers,95,Boston Celtics,112,Box Score,,18624,TD Garden,
10,Wed Oct 28 2015,8:00p,San Antonio Spurs,106,Oklahoma City Thunder,112,Box Score,,18203,Chesapeake Energy Arena,
11,Wed Oct 28 2015,8:00p,Cleveland Cavaliers,106,Memphis Grizzlies,76,Box Score,,18119,FedEx Forum,
24,Fri Oct 30 2015,7:30p,Chicago Bulls,94,Detroit Pistons,98,Box Score,OT,16035,The Palace of Auburn Hills,
9,Wed Oct 28 2015,8:00p,New York Knicks,122,Milwaukee Bucks,97,Box Score,,18717,BMO Harris Bradley Center,
35,Sat Oct 31 2015,8:00p,Brooklyn Nets,91,Memphis Grizzlies,101,Box Score,,16013,FedEx Forum,
27,Fri Oct 30 2015,8:30p,Brooklyn Nets,75,San Antonio Spurs,102,Box Score,,18418,AT&T Center,
8,Wed Oct 28 2015,7:30p,Charlotte Hornets,94,Miami Heat,104,Box Score,,19724,AmericanAirlines Arena,
18,Thu Oct 29 2015,8:00p,Atlanta Hawks,112,New York Knicks,101,Box Score,,19812,Madison Square Garden (IV),


## 2. Renombrar las columnas para manipularlas fácilmente

In [11]:
games.columns = ["DATE", "START", "VISITOR_TEAM", "VISITOR_POINTS", "HOME_TEAM", "HOME_POINTS", "SCORE_TYPE", "OVER_TIME", "USERS", "ARENA", "NOTES"]

games.head()

Unnamed: 0,DATE,START,VISITOR_TEAM,VISITOR_POINTS,HOME_TEAM,HOME_POINTS,SCORE_TYPE,OVER_TIME,USERS,ARENA,NOTES
0,Tue Oct 27 2015,8:00p,Cleveland Cavaliers,95,Chicago Bulls,97,Box Score,,21957,United Center,
1,Tue Oct 27 2015,8:00p,Detroit Pistons,106,Atlanta Hawks,94,Box Score,,19187,Philips Arena,
2,Tue Oct 27 2015,10:30p,New Orleans Pelicans,95,Golden State Warriors,111,Box Score,,19596,Oracle Arena,
3,Wed Oct 28 2015,7:00p,Washington Wizards,88,Orlando Magic,87,Box Score,,18846,Amway Center,
4,Wed Oct 28 2015,7:30p,Philadelphia 76ers,95,Boston Celtics,112,Box Score,,18624,TD Garden,


## 3. Reducir y reordenar las columnas

Reemplazamos el dataframe con solo las columnas indicadas en ese orden, ahora el dataframe tendrá solo estas columnas en ese orden. A esto se le conoce como enmascarar el dataset.

In [12]:
# data[ mask ]
# mask - ["col1", "col2", ..., "colN"]
games = games[ ["DATE", "START", "HOME_TEAM", "HOME_POINTS", "VISITOR_TEAM", "VISITOR_POINTS"] ]

games.head()

Unnamed: 0,DATE,START,HOME_TEAM,HOME_POINTS,VISITOR_TEAM,VISITOR_POINTS
0,Tue Oct 27 2015,8:00p,Chicago Bulls,97,Cleveland Cavaliers,95
1,Tue Oct 27 2015,8:00p,Atlanta Hawks,94,Detroit Pistons,106
2,Tue Oct 27 2015,10:30p,Golden State Warriors,111,New Orleans Pelicans,95
3,Wed Oct 28 2015,7:00p,Orlando Magic,87,Washington Wizards,88
4,Wed Oct 28 2015,7:30p,Boston Celtics,112,Philadelphia 76ers,95


## 4. Creamos una nueva columna llamada `HOME_WIN`

Valdrá True si ganó el local (los puntos del local son mayores a los del visitante).

In [13]:
games["HOME_WIN"] = games["HOME_POINTS"] > games["VISITOR_POINTS"]

games.head()

Unnamed: 0,DATE,START,HOME_TEAM,HOME_POINTS,VISITOR_TEAM,VISITOR_POINTS,HOME_WIN
0,Tue Oct 27 2015,8:00p,Chicago Bulls,97,Cleveland Cavaliers,95,True
1,Tue Oct 27 2015,8:00p,Atlanta Hawks,94,Detroit Pistons,106,False
2,Tue Oct 27 2015,10:30p,Golden State Warriors,111,New Orleans Pelicans,95,True
3,Wed Oct 28 2015,7:00p,Orlando Magic,87,Washington Wizards,88,False
4,Wed Oct 28 2015,7:30p,Boston Celtics,112,Philadelphia 76ers,95,True


Podemos observar que 44% de los juegos el local gana

In [15]:
games["HOME_WIN"].mean() * 100

44.73684210526316

Recuerda que siempre podemos transformar una columna en otra por reemplazo de valores a través del mapeo.

In [17]:
games["WINNER"] = games["HOME_WIN"].map({
    True: "HOME",
    False: "VISITOR"
})

games.head()

Unnamed: 0,DATE,START,HOME_TEAM,HOME_POINTS,VISITOR_TEAM,VISITOR_POINTS,HOME_WIN,WINNER
0,Tue Oct 27 2015,8:00p,Chicago Bulls,97,Cleveland Cavaliers,95,True,HOME
1,Tue Oct 27 2015,8:00p,Atlanta Hawks,94,Detroit Pistons,106,False,VISITOR
2,Tue Oct 27 2015,10:30p,Golden State Warriors,111,New Orleans Pelicans,95,True,HOME
3,Wed Oct 28 2015,7:00p,Orlando Magic,87,Washington Wizards,88,False,VISITOR
4,Wed Oct 28 2015,7:30p,Boston Celtics,112,Philadelphia 76ers,95,True,HOME


## 5. Generamos dos nuevas columnas de información que nos digan si el equipo local ganó su último partido y si el equipo visitante ganó su último partido

In [18]:
games[ (games["HOME_TEAM"] == "Chicago Bulls") | (games["VISITOR_TEAM"] == "Chicago Bulls") ]

Unnamed: 0,DATE,START,HOME_TEAM,HOME_POINTS,VISITOR_TEAM,VISITOR_POINTS,HOME_WIN,WINNER
0,Tue Oct 27 2015,8:00p,Chicago Bulls,97,Cleveland Cavaliers,95,True,HOME
5,Wed Oct 28 2015,7:30p,Brooklyn Nets,100,Chicago Bulls,115,False,VISITOR
24,Fri Oct 30 2015,7:30p,Detroit Pistons,98,Chicago Bulls,94,True,HOME
