# Taller Plotly - NBA

La NBA es la máxima competición de baloncesto masculino en Estados Unidos. Está compuesta por 30 equipos divididos en dos conferencias (Este y Oeste). Cada equipo disputa 82 partidos de temporada regular. Luego los 8 mejores equipos de cada conferencia disputan un formato de eliminación directa. Finalmente los ganadores de cada conferencia se enfrentan en la final por el titulo. Analizaremos los datos de los jugadores de la NBA en la temporada 2014-2015, en la cual se coronaron los Golden State Warriors ante los Cleveland Cavaliers. 

En este taller se propone una serie de ejercicios con el objetivo de visualizar qué efectos influyen en el rendimiento de un jugador (Posición, edad, experiencia, efectividad). Por ejemplo, un jugador de perfil defensivo tendrá un alto número de rebotes, robos y bloqueos por partido; mientras un jugador de perfil ofensivo tendrá un alto porcentaje de tiros encestados sobre tiros intentados. El taller está compuesto por 5 ejercicios, que usarán diferentes herramientas de Plot.ly. Usted deberá completar las celdas de código dónde sea necesario. 

**NOTA: LOS COMANDOS PARA GRAFICAR UNA FIGURA DEBERÍAN IR TODOS EN UNA MISMA CELDA. AL SEPARARLOS EN CELDAS DISTINTAS PUEDE CAUSAR QUE NO SE GRAFIQUE NADA.**

### Instalación

Es necesario instalar plotly y cufflinks para crear gráficos directamente desde los DataFrames de Pandas. 
Instale las librerías desde su línea de comandos usando:

    pip install plotly==3.9.0
    pip install cufflinks==0.15

In [0]:
!pip install plotly==3.9.0
!pip install cufflinks==0.15



### Importar y configurar

In [0]:
import pandas as pd
import numpy as np
%matplotlib inline

In [4]:
import cufflinks as cf
print(cf.__version__)

0.15


In [0]:
import plotly.graph_objs as go
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot

In [6]:
init_notebook_mode(connected=True)

In [0]:
def configure_plotly_browser_state():
  import IPython
  display(IPython.core.display.HTML('''
        <script src="/static/components/requirejs/require.js"></script>
        <script>
          requirejs.config({
            paths: {
              base: '/static/base',
              plotly: 'https://cdn.plot.ly/plotly-latest.min.js?noext',
            },
          });
        </script>
        '''))

## Carga de Datos

**IMPORTANTE:** Primero debe cargar el archivo **'nba_players_stats.csv'** en su directorio de Colab. 

In [0]:
nba_players = pd.read_csv('nba_players_stats.csv')

A continuación observamos el DataFrame que contiene la información de casi 490 jugadores que estuvieron involucrados en la temporada 2014-2015 de la NBA.

In [9]:
nba_players.head()

Unnamed: 0,Name,Games Played,MIN,PTS,FGM,FGA,FG%,3PM,3PA,3P%,FTM,FTA,FT%,OREB,DREB,REB,AST,STL,BLK,TOV,PF,EFF,AST/TOV,STL/TOV,Age,Birth_Place,Birthdate,Collage,Experience,Height,Pos,Team,Weight,BMI
0,AJ Price,26,324,133,51,137,37.2,15,57,26.3,16,24,66.7,6,26,32,46,7,0,14,15,110,3.29,0.5,29.0,us,"October 7, 1986",University of Connecticut,5,185.0,PG,PHO,81.45,23.798393
1,Aaron Brooks,82,1885,954,344,817,42.1,121,313,38.7,145,174,83.3,32,134,166,261,54,15,157,189,791,1.66,0.34,30.0,us,"January 14, 1985",University of Oregon,6,180.0,PG,CHI,72.45,22.361111
2,Aaron Gordon,47,797,243,93,208,44.7,13,48,27.1,44,61,72.1,46,123,169,33,21,22,38,83,318,0.87,0.55,20.0,us,"September 16, 1995",University of Arizona,R,202.5,PF,ORL,99.0,24.142661
3,Adreian Payne,32,740,213,91,220,41.4,1,9,11.1,30,46,65.2,48,114,162,30,19,9,44,88,244,0.68,0.43,24.0,us,"February 19, 1991",Michigan State University,R,205.0,PF,ATL,106.65,25.377751
4,Al Horford,76,2318,1156,519,965,53.8,11,36,30.6,107,141,75.9,131,413,544,244,68,98,100,121,1530,2.44,0.68,29.0,do,"June 3, 1986",University of Florida,7,205.0,C,ATL,110.25,26.234384


In [0]:
nba_players.columns

Index(['Name', 'Games Played', 'MIN', 'PTS', 'FGM', 'FGA', 'FG%', '3PM', '3PA',
       '3P%', 'FTM', 'FTA', 'FT%', 'OREB', 'DREB', 'REB', 'AST', 'STL', 'BLK',
       'TOV', 'PF', 'EFF', 'AST/TOV', 'STL/TOV', 'Age', 'Birth_Place',
       'Birthdate', 'Collage', 'Experience', 'Height', 'Pos', 'Team', 'Weight',
       'BMI'],
      dtype='object')

## Descripción de cada variable

- Name: Nombre del jugador
- Games Played: Juegos disputados sobre un máximo de 82 juegos de la temporada regular.
- MIN: Minutos disputados en la temporada.
- PTS: Puntos anotados en la temporada.
- FGM: Tiros anotados. Aquí un disparo se cuenta igual tanto desde afuera de la línea de 3, como dentro de esta.
- FGA: Tiros intentados.
- FG%: FGM/FGA.
- 3PM: Tiros de 3 puntos anotados.
- 3PA: Tiros de 3 puntos intentados.
- 3P%: 3PM/3PA.
- FTM: Tiros libres anotados.
- FTA: Tiros libres intentados.
- FT%: FTM/FTA.
- OREB: Rebotes ofensivos.
- OREB: Rebotes defensivos.
- AST: Asistencias.
- STL: Robos de balón.
- BLK: Bloqueos de balón.
- TOV: Pérdidas de balón.
- PF: Faltas personales.
- EFF: Eficiencia.
- AST/TOV: Porcentaje de asistencias por pérdida.
- STL/TOV: Porcentaje de robos por pérdida.
- Age: Edad al finalizar la temporada 2014-2015 (Abril 2015).
- Birth_Place: Lugar de nacimiento.
- *Collage*: College, universidad de la cual salió el jugador.
- Experience: Indicador de experiencia del jugador.
- Height: Altura del jugador en cm.
- Pos: Posición. Valores posibles: PG, SG, SF, PF, C. [Posiciones](https://es.wikipedia.org/wiki/Posiciones_del_baloncesto)
- Team: Equipo con el que terminó disputando la temporada.
- Weight: Peso en kg.
- BMI: Body Mass Index. Índice de masa corporal.

# TALLER

## 1. ¿Cómo se comporta el número de tiros encestados con respecto a la edad de un jugador?

La efectividad de lanzamientos al aro se mide con la estadística ```FG%```, y la vamos a comparar con la edad del jugador. Con el objetivo de evaluar si la edad influye en la efectivdad de lanzamientos al aro. Vale la pena anotar que aquí no se cuentan los tiros libres.

In [22]:
# Escriba su código aquí
configure_plotly_browser_state()

nba_players.iplot(kind='scatter',x='Age',y='FG%',mode='markers',bestfit=True,
                  bestfit_colors=['blue'],xTitle='Edad',yTitle = 'Efectividad de lanzamientos al aro')


Method .ptp is deprecated and will be removed in a future version. Use numpy.ptp instead.



Debe obtener el siguiente resultado:
[click aquí](https://drive.google.com/file/d/1HfjGBiZRsYbo3Rf8RqR1J30IFk5TOkum/view)

## 2. ¿Cómo está distribuída la edad de los jugadores? ¿Cómo está distribuída la edad promedio por equipos?

La NBA admite jugadores desde los 19 años, los cuales si mantienen un buen nivel, pueden durar hasta 15 temporadas. Para este punto, estamos interesados en observar como está distribuída la edad de los jugadores de la NBA. De igual forma, observaremos cuál es la edad promedio de las plantillas de cada equipo.

In [24]:
# Histograma por edad
# Escriba su código aquí

configure_plotly_browser_state()
nba_players['Age'].iplot(kind='hist',xTitle='Edad',yTitle = 'Frecuencia de Edad')

Debe obtener el siguiente resultado:
[click aquí](https://drive.google.com/file/d/1AVdky3k6p83Zbu5YgyCxaGF72ZX5vfnl/view)

In [0]:
# Edad promedio por equipo
df = nba_players.groupby(['Team']).mean()


In [51]:
# Escriba su código aquí
configure_plotly_browser_state()

df['Age'].iplot(kind='bar',yTitle='Edad Promedio',xTitle = 'Equipo')

Debe obtener el siguiente resultado:
[click aquí](https://drive.google.com/file/d/1vCKR4wLLBitUfoJE1McjOQN7fbJfI_nR/view)

## 3. ¿Se relacionan las asistencias con la cantidad de perdidas de balón de un jugador? ¿Varían por posición?

El baloncesto cuenta con 5 posiciones tradicionales: Point Guard o Base en español (Stephen Curry, Magic Johnson), Shooting Guard o Escolta (Kobe Bryant, Michael Jordan), Small Forward o Alero (Kevin Durant, Lebron James), Power Forward o Ala-Pivot (Dennis Rodman) y Center o Pivote (Shaquille O'Neal, Hakeem Olajuwon). Para facilidad del ejercicio, vamos a resumir estas posiciones en 3:
- Guardia
- Alero
- Pivot o Poste

Los guardias por lo general son quienes llevan el balón y reparten el juego. Por lo tanto deben tener un alto número de asistencias y robos. Sin embargo, también tienden a **perder el balón** (Turnover en inglés). A continuación se hace un análisis de cómo se comporta el número de pérdidas con respecto a la cantidad de asistencias de un jugador. 

In [52]:
nba_players['Short Pos'] = float('NaN')

nba_players.loc[nba_players['Pos'] == 'PG', 'Short Pos'] = 'G'
nba_players.loc[nba_players['Pos'] == 'SG', 'Short Pos'] = 'G'
nba_players.loc[nba_players['Pos'] == 'SF', 'Short Pos'] = 'F'
nba_players.loc[nba_players['Pos'] == 'PF', 'Short Pos'] = 'F'
nba_players.loc[nba_players['Pos'] == 'C', 'Short Pos'] = 'C'
nba_players.head()

Unnamed: 0,Name,Games Played,MIN,PTS,FGM,FGA,FG%,3PM,3PA,3P%,FTM,FTA,FT%,OREB,DREB,REB,AST,STL,BLK,TOV,PF,EFF,AST/TOV,STL/TOV,Age,Birth_Place,Birthdate,Collage,Experience,Height,Pos,Team,Weight,BMI,Short Pos,MPP
0,AJ Price,26,324,133,51,137,37.2,15,57,26.3,16,24,66.7,6,26,32,46,7,0,14,15,110,3.29,0.5,29.0,us,"October 7, 1986",University of Connecticut,5,185.0,PG,PHO,81.45,23.798393,G,12.461538
1,Aaron Brooks,82,1885,954,344,817,42.1,121,313,38.7,145,174,83.3,32,134,166,261,54,15,157,189,791,1.66,0.34,30.0,us,"January 14, 1985",University of Oregon,6,180.0,PG,CHI,72.45,22.361111,G,22.987805
2,Aaron Gordon,47,797,243,93,208,44.7,13,48,27.1,44,61,72.1,46,123,169,33,21,22,38,83,318,0.87,0.55,20.0,us,"September 16, 1995",University of Arizona,R,202.5,PF,ORL,99.0,24.142661,F,16.957447
3,Adreian Payne,32,740,213,91,220,41.4,1,9,11.1,30,46,65.2,48,114,162,30,19,9,44,88,244,0.68,0.43,24.0,us,"February 19, 1991",Michigan State University,R,205.0,PF,ATL,106.65,25.377751,F,23.125
4,Al Horford,76,2318,1156,519,965,53.8,11,36,30.6,107,141,75.9,131,413,544,244,68,98,100,121,1530,2.44,0.68,29.0,do,"June 3, 1986",University of Florida,7,205.0,C,ATL,110.25,26.234384,C,30.5


Para este caso, crearemos un DataFrame donde solo tendremos en cuenta a los jugadores con más de 20 minutos por partido. Es decir aquellos jugadores principales de cada nómina.

In [0]:
nba_players['MPP'] = nba_players['MIN'] / nba_players['Games Played']

top_players = nba_players.loc[nba_players.MPP > 20]

In [72]:
df = top_players.copy()
df = df.loc[df['Short Pos'] == 'G']
df.head()

Unnamed: 0,Name,Games Played,MIN,PTS,FGM,FGA,FG%,3PM,3PA,3P%,FTM,FTA,FT%,OREB,DREB,REB,AST,STL,BLK,TOV,PF,EFF,AST/TOV,STL/TOV,Age,Birth_Place,Birthdate,Collage,Experience,Height,Pos,Team,Weight,BMI,Short Pos,MPP
1,Aaron Brooks,82,1885,954,344,817,42.1,121,313,38.7,145,174,83.3,32,134,166,261,54,15,157,189,791,1.66,0.34,30.0,us,"January 14, 1985",University of Oregon,6,180.0,PG,CHI,72.45,22.361111,G,22.987805
6,Alan Anderson,74,1744,545,195,440,44.3,73,210,34.8,82,101,81.2,31,173,204,83,56,5,60,148,569,1.38,0.93,33.0,us,"October 16, 1982",Michigan State University,5,195.0,SG,NJN,99.0,26.035503,G,23.567568
7,Alec Burks,27,899,374,121,300,40.3,26,68,38.2,106,129,82.2,19,95,114,82,17,5,52,64,338,1.58,0.33,24.0,us,"July 20, 1991",University of Colorado,3,195.0,SG,UTA,96.3,25.325444,G,33.296296
30,Anthony Morrow,74,1806,790,285,615,46.3,141,325,43.4,79,89,88.8,40,155,195,60,54,11,38,135,732,1.58,1.42,30.0,us,"September 27, 1985",Georgia Institute of Technology,6,192.5,SG,OKC,94.5,25.501771,G,24.405405
35,Arron Afflalo,78,2502,1035,375,884,42.4,118,333,35.4,167,198,84.3,27,220,247,129,41,7,116,167,803,1.11,0.35,30.0,us,"October 15, 1985","University of California, Los Angeles",7,192.5,SG,POR,94.5,25.501771,G,32.076923


In [73]:
# Escriba su código aquí
configure_plotly_browser_state()
df.iplot(kind='scatter', x='AST', y='TOV', yTitle='Perdidas',xTitle = 'Asistencias',mode='markers')


Debe obtener el siguiente resultado:
[click aquí](https://drive.google.com/file/d/1APEuqPB5XTv-g2gFGVzK16z5nJcwYK9-/view)

## 4. ¿Cómo se comportan las estadísticas por equipo de porcentaje de triples y porcentaje de tiros anotados? ¿Cómo varían por posición (Guardia, Alero y Pívot)?

El porcentaje de triples por posición permite saber qué tan buen juego externo tiene un equipo. Es deseable que jugadores altos tengan un triple, porque esto le da variantes ofensivas a los técnicos. Para este punto, primero agruparemos las estadísticas de los jugadores por `Team` y `ShortPos`. Luego calcularemos el promedio sobre esas agrupaciones:

In [0]:
team_df = top_players.groupby(['Team', 'Short Pos'])
mean_stats_team = team_df.mean()

De esta forma tendremos el promedio de cada estadística, por posición y por equipo.

In [66]:
mean_stats_team.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Games Played,MIN,PTS,FGM,FGA,FG%,3PM,3PA,3P%,FTM,FTA,FT%,OREB,DREB,REB,AST,STL,BLK,TOV,PF,EFF,AST/TOV,STL/TOV,Age,Height,Weight,BMI,MPP
Team,Short Pos,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1
ATL,C,76.0,2318.0,1156.0,519.0,965.0,53.8,11.0,36.0,30.6,107.0,141.0,75.9,131.0,413.0,544.0,244.0,68.0,98.0,100.0,121.0,1530.0,2.44,0.68,29.0,205.0,110.25,26.234384,30.5
ATL,F,58.333333,1773.0,771.333333,284.0,601.0,45.9,66.0,176.333333,28.733333,137.333333,188.0,70.366667,95.333333,272.666667,368.0,123.666667,81.0,31.666667,95.0,147.666667,913.0,1.196667,0.82,27.666667,201.666667,104.7,25.74675,29.045385
ATL,G,74.0,2323.0,1036.5,350.0,743.5,47.35,146.0,328.0,41.75,190.5,218.5,88.0,22.5,221.5,244.0,354.5,88.5,36.5,156.0,139.5,1182.5,2.165,0.55,30.5,191.25,89.55,24.456713,31.380274
BOS,C,64.0,1424.0,656.0,251.0,528.0,47.5,61.0,175.0,34.9,93.0,136.0,68.4,92.0,211.0,303.0,109.0,64.0,39.0,98.0,213.0,753.0,1.11,0.65,24.0,210.0,107.1,24.285714,22.25
BOS,F,70.0,1747.5,818.0,327.5,695.5,47.15,30.5,108.0,28.2,132.5,171.5,76.7,143.0,276.5,419.5,119.0,42.5,37.0,80.5,146.5,948.5,1.485,0.525,26.5,201.25,114.75,28.328618,25.262195
BOS,G,70.333333,1987.333333,898.333333,314.666667,762.0,40.533333,114.666667,323.333333,35.333333,154.333333,191.666667,76.8,46.666667,158.666667,205.333333,209.0,79.333333,12.666667,114.0,167.666667,806.0,1.846667,0.75,24.0,182.5,87.75,26.356016,28.092912
CHA,C,65.0,1992.0,1082.0,486.0,1010.0,48.1,2.0,5.0,40.0,108.0,165.0,65.5,99.0,449.0,548.0,113.0,47.0,84.0,68.0,139.0,1225.0,1.66,0.69,30.0,205.0,130.05,30.945866,30.646154
CHA,F,66.5,1811.0,587.5,217.0,488.5,44.45,47.5,132.5,17.9,106.0,150.5,70.7,83.5,317.5,401.0,88.5,49.5,37.0,61.5,130.5,786.0,1.445,0.815,25.5,200.0,105.525,26.386586,27.472145
CHA,G,67.75,1996.75,877.25,324.0,809.5,39.875,66.75,217.25,28.7,162.5,199.25,79.35,33.0,203.0,236.0,297.0,56.0,18.75,127.5,130.75,835.25,2.35,0.48,27.75,187.5,91.6875,26.007521,29.504863
CHI,C,67.0,2049.0,485.0,190.0,427.0,44.5,0.0,2.0,0.0,105.0,174.0,60.3,219.0,427.0,646.0,312.0,48.0,74.0,123.0,203.0,1136.0,2.54,0.39,30.0,207.5,103.5,24.038322,30.58209


En este caso, deseamos conocer solo el porcentaje promedio de triples por equipo. Esta operación se puede hacer usando ```pd.unstack()```. [Unstack](https://pandas.pydata.org/pandas-docs/stable/reshaping.html) convierte los valores únicos de un índice en columnas de un DataFrame.

In [0]:
team_3p_mean = team_df.mean()['3P%']


In [108]:
team_3p_mean.head()

Team  Short Pos
ATL   C            30.600000
      F            28.733333
      G            41.750000
BOS   C            34.900000
      F            28.200000
Name: 3P%, dtype: float64

In [0]:
team_3p_mean = team_3p_mean.unstack(level=-1)

In [0]:
team_3p_mean.reset_index(inplace=True)

In [111]:
team_3p_mean.head()

Short Pos,Team,C,F,G
0,ATL,30.6,28.733333,41.75
1,BOS,34.9,28.2,35.333333
2,CHA,40.0,17.9,28.7
3,CHI,0.0,29.625,34.75
4,CLE,33.3,36.05,41.1


In [116]:
# Escriba su código aquí
configure_plotly_browser_state()

team_3p_mean.iplot(kind='bar', x= 'Team', y = ['C','F','G'],title='Promedio de Triples por Equipo y Posición',
                   yTitle='3P%',xTitle = 'Equipo')


Debe obtener el siguiente resultado:
[click aquí](https://drive.google.com/file/d/1u-G2YdUXIwM7QLEo7LjtAvWXcoKdyk6i/view)



## 5. ¿Cómo se comporta el porcentaje de triples con respecto a la altura del jugador?

In [123]:
# Escriba su código aquí
configure_plotly_browser_state()
nba_players.iplot(kind='scatter',x='Height',y='3P%',mode='markers',
                  xTitle='Altura',yTitle = '3P%', title='Porcentaje de Triples vs Altura')

Debe obtener el siguiente resultado:
[click aquí](https://drive.google.com/file/d/1sXs7C2sg6_nbuHiAc9q_7OeNuULrJ5wb/view)