## Desafío 2 - Introducción a Big Data
### Gustavo Morales

In [1]:
import requests
import random
import pandas as pd
import numpy as np
from pprint import pprint

<div class="alert alert-block alert-info">
<center><b>Ejercicio 1: </b>Ingesta de datos semiestructurados</center>
</div>

**`R →`** Haremos la consulta a la API y revisaremos que retorne una conexión exitosa (código HTTP 200):

In [2]:
response = requests.get('https://www.balldontlie.io/api/v1/games/?per_page=100')
response

<Response [200]>

Guardamos la respuesta en formato JSON, y revisamos los campos asociados a los datos y metadata para confirmar que sea una variable semiestructurada:

In [3]:
json = response.json()
json.keys()

dict_keys(['data', 'meta'])

In [4]:
pprint(json['meta'])

{'current_page': 1,
 'next_page': 2,
 'per_page': 100,
 'total_count': 48754,
 'total_pages': 488}


In [5]:
pprint(random.choice(json['data']))

{'date': '2019-04-02T00:00:00.000Z',
 'home_team': {'abbreviation': 'SAS',
               'city': 'San Antonio',
               'conference': 'West',
               'division': 'Southwest',
               'full_name': 'San Antonio Spurs',
               'id': 27,
               'name': 'Spurs'},
 'home_team_score': 117,
 'id': 49085,
 'period': 4,
 'postseason': False,
 'season': 2018,
 'status': 'Final',
 'time': '     ',
 'visitor_team': {'abbreviation': 'ATL',
                  'city': 'Atlanta',
                  'conference': 'East',
                  'division': 'Southeast',
                  'full_name': 'Atlanta Hawks',
                  'id': 1,
                  'name': 'Hawks'},
 'visitor_team_score': 111}


In [6]:
print("El campo de datos 'data' es de tipo %s y tiene largo %d." %(type(json['data']), len(json['data'])))

El campo de datos 'data' es de tipo <class 'list'> y tiene largo 100.


<div class="alert alert-block alert-info">
<center><b>Ejercicio 2: </b>Organización de los datos</center>
</div>

**`R →`** Haremos una función para transformar el JSON a diccionario, para así mapear la base de datos a ese diccionario:

In [7]:
def game_json_to_dict(json_data):
    d = {
        'season' : json_data['season'],
        'period' : json_data['period'],
        'home' : json_data['home_team']['full_name'],
        'home_conference' : json_data['home_team']['conference'],
        'home_division' : json_data['home_team']['division'],
        'visitor' : json_data['visitor_team']['full_name'],
        'visitor_conference' : json_data['visitor_team']['conference'],
        'visitor_division' : json_data['visitor_team']['division'],
        'home_score' : json_data['home_team_score'],
        'visitor_score' : json_data['visitor_team_score'],
        'home_differential' : json_data['home_team_score'] - json_data['visitor_team_score'],
        'visitor_differential' : json_data['visitor_team_score'] - json_data['home_team_score']
    }
    return d

In [8]:
df = pd.DataFrame.from_dict(list(map(game_json_to_dict, json['data'])))

In [9]:
df.head(2)

Unnamed: 0,season,period,home,home_conference,home_division,visitor,visitor_conference,visitor_division,home_score,visitor_score,home_differential,visitor_differential
0,2018,4,Boston Celtics,East,Atlantic,Charlotte Hornets,East,Southeast,126,94,32,-32
1,2018,4,Boston Celtics,East,Atlantic,LA Clippers,West,Pacific,112,123,-11,11


<div class="alert alert-block alert-info">
<center><b>Ejercicio 3: </b>El efecto de jugar de local</center>
</div>

**`R →`** Luego de generar las dos columnas basado en el puntaje diferencial de cada partido, agruparé por la variable `home`, y la suma de `home_win` la ordenaré según corresponda. Análogamente repetiré lo mismo para `visit` y `visit_win`.

In [10]:
df['home_win'] = np.where(df['home_differential'] >= 1, 1, 0)
df['visitor_win'] = np.where(df['visitor_differential'] >= 1, 1, 0)
df['draw'] = np.where(df['home_differential'] == 0, 1, 0)

In [11]:
df.head(2)

Unnamed: 0,season,period,home,home_conference,home_division,visitor,visitor_conference,visitor_division,home_score,visitor_score,home_differential,visitor_differential,home_win,visitor_win,draw
0,2018,4,Boston Celtics,East,Atlantic,Charlotte Hornets,East,Southeast,126,94,32,-32,1,0,0
1,2018,4,Boston Celtics,East,Atlantic,LA Clippers,West,Pacific,112,123,-11,11,0,1,0


`→` Primeros y últimos 5 equipos en cuanto a desempeño por jugar de **local**:

In [12]:
df.groupby(['home'])['home_win'].sum().sort_values(ascending=False).head(5)

home
Washington Wizards    4
Philadelphia 76ers    4
Detroit Pistons       4
Indiana Pacers        4
Orlando Magic         4
Name: home_win, dtype: int64

In [13]:
df.groupby(['home'])['home_win'].sum().sort_values(ascending=True).head(5)

home
Phoenix Suns             0
Oklahoma City Thunder    0
Charlotte Hornets        0
New York Knicks          0
Atlanta Hawks            1
Name: home_win, dtype: int64

`→` Primeros y últimos 5 equipos en cuanto a desempeño por jugar de **visita**:

In [14]:
df.groupby(['visitor'])['visitor_win'].sum().sort_values(ascending=False).head(5)

visitor
Orlando Magic         4
LA Clippers           3
Washington Wizards    2
Los Angeles Lakers    2
Boston Celtics        2
Name: visitor_win, dtype: int64

In [15]:
df.groupby(['visitor'])['visitor_win'].sum().sort_values(ascending=True).head(5)

visitor
Atlanta Hawks             0
Sacramento Kings          0
Phoenix Suns              0
New York Knicks           0
Minnesota Timberwolves    0
Name: visitor_win, dtype: int64

<div class="alert alert-block alert-info">
<center><b>Ejercicio 4: </b>Obteniendo el porcentaje de ganar local y de visita</center>
</div>

**`R →`** Aquí agruparé por `home`/`visit`, y calcularé la frecuencia porcentual de los partidos ganados de cada uno.

In [16]:
sl = df.groupby(['home'])['home_win'].value_counts('%', sort=False)  # 0 → local lost; 1 → local won
sl

home                    home_win
Atlanta Hawks           0           0.800000
                        1           0.200000
Boston Celtics          0           0.250000
                        1           0.750000
Brooklyn Nets           0           0.666667
                        1           0.333333
Charlotte Hornets       0           1.000000
Chicago Bulls           0           0.800000
                        1           0.200000
Cleveland Cavaliers     0           0.500000
                        1           0.500000
Dallas Mavericks        0           0.333333
                        1           0.666667
Denver Nuggets          1           1.000000
Detroit Pistons         1           1.000000
Golden State Warriors   0           0.250000
                        1           0.750000
Houston Rockets         0           0.333333
                        1           0.666667
Indiana Pacers          0           0.333333
                        1           0.666667
Los Angeles Lakers    

In [17]:
sv = df.groupby(['visitor'])['visitor_win'].value_counts('%', sort=False)  # 0 → visitor lost; 1 → visitor won
sv

visitor                 visitor_win
Atlanta Hawks           0              1.000000
Boston Celtics          0              0.333333
                        1              0.666667
Brooklyn Nets           0              0.333333
                        1              0.666667
Charlotte Hornets       0              0.714286
                        1              0.285714
Chicago Bulls           0              0.750000
                        1              0.250000
Cleveland Cavaliers     0              1.000000
Dallas Mavericks        0              1.000000
Denver Nuggets          0              0.666667
                        1              0.333333
Detroit Pistons         0              0.500000
                        1              0.500000
Golden State Warriors   0              0.500000
                        1              0.500000
Houston Rockets         0              0.500000
                        1              0.500000
Indiana Pacers          1              1.000000
LA C

¿Qué equipos tienen iguales chances de ganar como visitante o local? → Dice "como visitante **o** local", por lo tanto contaré ambas ocurrencias tal que la fracción sea 0.5 y entregaré el nombre de equipo si ocurre tanto en un caso como en el otro:

In [18]:
df_ = pd.concat([sl, sv], axis=1)

In [19]:
set(list(filter(None, [row.name[0] if (row['home_win'] == 0.5 or row['visitor_win'] == 0.5) else '' for (idx, row) in df_.iterrows()])))

{'Cleveland Cavaliers',
 'Detroit Pistons',
 'Golden State Warriors',
 'Houston Rockets',
 'Los Angeles Lakers',
 'Oklahoma City Thunder',
 'Toronto Raptors',
 'Utah Jazz',
 'Washington Wizards'}

<div class="alert alert-block alert-danger">
<center>FIN DESAFIO 1</center>
</div>