In [None]:
import pandas as pd
import os

In [None]:
path = 'input/nba_2021.csv'
os.makedirs('./input', exist_ok=True)

# Extraindo a tabela presente na página citada.
resultados = pd.read_html("https://www.basketball-reference.com/leagues/NBA_2021_games-january.html")[0]

# Transformando a tabela extraída em um recurso csv, com base no caminho
# passado.
resultados.to_csv(path)

# Copiando como df a tabela csv gerada.
df = resultados.copy()

df.head()

Unnamed: 0,Date,Start (ET),Visitor/Neutral,PTS,Home/Neutral,PTS.1,Unnamed: 6,Unnamed: 7,Attend.,Arena,Notes
0,"Fri, Jan 1, 2021",7:00p,Memphis Grizzlies,108,Charlotte Hornets,93,Box Score,,0,Spectrum Center,
1,"Fri, Jan 1, 2021",7:00p,Miami Heat,83,Dallas Mavericks,93,Box Score,,0,American Airlines Center,
2,"Fri, Jan 1, 2021",7:00p,Boston Celtics,93,Detroit Pistons,96,Box Score,,0,Little Caesars Arena,
3,"Fri, Jan 1, 2021",7:30p,Atlanta Hawks,114,Brooklyn Nets,96,Box Score,,0,Barclays Center,
4,"Fri, Jan 1, 2021",8:00p,Chicago Bulls,96,Milwaukee Bucks,126,Box Score,,0,Fiserv Forum,


In [None]:
# Renomeando as colunas do df:

colunas = {
    'Date': 'data',
    'Start (ET)': 'horario',
    'Visitor/Neutral': 'visitante/neutro',
    'PTS': 'pts_visit',
    'Home/Neutral': 'casa/neutro',
    'PTS.1': 'pts_casa',
    'Unnamed: 6': 'a',
    'Unnamed: 7': 'b',
    'Attend.': 'publico',
    'Notes': 'anotaçoes'
}

df = df.rename(columns=colunas)

In [None]:
df.head()

Unnamed: 0,data,horario,visitante/neutro,pts_visit,casa/neutro,pts_casa,a,b,publico,Arena,anotaçoes
0,"Fri, Jan 1, 2021",7:00p,Memphis Grizzlies,108,Charlotte Hornets,93,Box Score,,0,Spectrum Center,
1,"Fri, Jan 1, 2021",7:00p,Miami Heat,83,Dallas Mavericks,93,Box Score,,0,American Airlines Center,
2,"Fri, Jan 1, 2021",7:00p,Boston Celtics,93,Detroit Pistons,96,Box Score,,0,Little Caesars Arena,
3,"Fri, Jan 1, 2021",7:30p,Atlanta Hawks,114,Brooklyn Nets,96,Box Score,,0,Barclays Center,
4,"Fri, Jan 1, 2021",8:00p,Chicago Bulls,96,Milwaukee Bucks,126,Box Score,,0,Fiserv Forum,


In [None]:
df["data"] = pd.to_datetime(df.data)

In [None]:
df.head()

Unnamed: 0,data,horario,visitante/neutro,pts_visit,casa/neutro,pts_casa,a,b,publico,Arena,anotaçoes
0,2021-01-01,7:00p,Memphis Grizzlies,108,Charlotte Hornets,93,Box Score,,0,Spectrum Center,
1,2021-01-01,7:00p,Miami Heat,83,Dallas Mavericks,93,Box Score,,0,American Airlines Center,
2,2021-01-01,7:00p,Boston Celtics,93,Detroit Pistons,96,Box Score,,0,Little Caesars Arena,
3,2021-01-01,7:30p,Atlanta Hawks,114,Brooklyn Nets,96,Box Score,,0,Barclays Center,
4,2021-01-01,8:00p,Chicago Bulls,96,Milwaukee Bucks,126,Box Score,,0,Fiserv Forum,


In [None]:
# Definindo como índice a data, que facilitatá no manejo da análise do df:

df = df.set_index("data")

df.head()

Unnamed: 0_level_0,horario,visitante/neutro,pts_visit,casa/neutro,pts_casa,a,b,publico,Arena,anotaçoes
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2021-01-01,7:00p,Memphis Grizzlies,108,Charlotte Hornets,93,Box Score,,0,Spectrum Center,
2021-01-01,7:00p,Miami Heat,83,Dallas Mavericks,93,Box Score,,0,American Airlines Center,
2021-01-01,7:00p,Boston Celtics,93,Detroit Pistons,96,Box Score,,0,Little Caesars Arena,
2021-01-01,7:30p,Atlanta Hawks,114,Brooklyn Nets,96,Box Score,,0,Barclays Center,
2021-01-01,8:00p,Chicago Bulls,96,Milwaukee Bucks,126,Box Score,,0,Fiserv Forum,


In [None]:
# dropando as colunas que não serão de interesse, criando
# um outro dataframe no processo:

df_2 = df.drop(['horario','a','b','publico','anotaçoes'], axis=1)

df_2.head()

Unnamed: 0_level_0,visitante/neutro,pts_visit,casa/neutro,pts_casa,Arena
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2021-01-01,Memphis Grizzlies,108,Charlotte Hornets,93,Spectrum Center
2021-01-01,Miami Heat,83,Dallas Mavericks,93,American Airlines Center
2021-01-01,Boston Celtics,93,Detroit Pistons,96,Little Caesars Arena
2021-01-01,Atlanta Hawks,114,Brooklyn Nets,96,Barclays Center
2021-01-01,Chicago Bulls,96,Milwaukee Bucks,126,Fiserv Forum


In [None]:
# Criando uma nova coluna que armazena o total de pontos
# realizados por um time dentro e fora de casa.

df_2["total"] = (df["pts_casa"] + df["pts_visit"])

df_2.head()

Unnamed: 0_level_0,visitante/neutro,pts_visit,casa/neutro,pts_casa,Arena,total
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2021-01-01,Memphis Grizzlies,108,Charlotte Hornets,93,Spectrum Center,201
2021-01-01,Miami Heat,83,Dallas Mavericks,93,American Airlines Center,176
2021-01-01,Boston Celtics,93,Detroit Pistons,96,Little Caesars Arena,189
2021-01-01,Atlanta Hawks,114,Brooklyn Nets,96,Barclays Center,210
2021-01-01,Chicago Bulls,96,Milwaukee Bucks,126,Fiserv Forum,222


In [None]:
# Criando uma coluna que me retorna qual tipo foi o vencedor ou o
# perdedor em cada data. Para tanto, irei dispor de uma função,
# que analisa todas as linhas a partir de uma estrutura condicional
# e com base nela aplica o resultado aos times, que será de
# vencedor ou perdedor.

def det_vencedor(df_2):

    if df_2['pts_visit'] < df_2['pts_casa']:
        df_2['ganhador'] = 'casa'

    else:
        df_2['ganhador'] = 'visitante'

    return df_2

In [None]:
df_2 = df_2.apply(det_vencedor, axis=1)

df_2.head()

Unnamed: 0_level_0,visitante/neutro,pts_visit,casa/neutro,pts_casa,Arena,total,ganhador
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2021-01-01,Memphis Grizzlies,108,Charlotte Hornets,93,Spectrum Center,201,visitante
2021-01-01,Miami Heat,83,Dallas Mavericks,93,American Airlines Center,176,casa
2021-01-01,Boston Celtics,93,Detroit Pistons,96,Little Caesars Arena,189,casa
2021-01-01,Atlanta Hawks,114,Brooklyn Nets,96,Barclays Center,210,visitante
2021-01-01,Chicago Bulls,96,Milwaukee Bucks,126,Fiserv Forum,222,casa


In [None]:
# Calculando o percentual de vitórias:

percentual_vitorias = df_2.ganhador.value_counts(normalize=True).round(2)
percentual_vitorias.to_frame()

Unnamed: 0,ganhador
casa,0.53
visitante,0.47


**Método de encadeamento:**

Por meio dele conseguimos realizar o código de modo procedural, sem que se construa em partes separadas, facilitando a legibilidade e fluides de leitura do código a partir de seu encadeamento, que pode se dar por meio do método assing (atribuição) ou pipe. Vejamos:

* **Assign:**

`.assign()` faz a mesma coisa que o `=`, ou seja,

`df['data'] = pd.to_datetime(df['data'])` é a mesma coisa que `df.assign(data = lambda x: pd.to_datetime(x.data))`

Nota-se que dentro da função (ou método) assing estamos passando uma função anônima, o lambda, de tal modo que o x armazenará o valor do objeto que está chamando o assing, que nesse caso será o dataframe.

* **Pipe:**

Pipe
Dá pra fazer bastante coisa com as funções internas do pandas/python, mas as vezes a gente precisa usar alguma função criada por nós mesmos, e para isso que serve o `.pipe()` e tem a funcionalidade parecida com o `%>%` (leia-se pipe) do R.
Onde o resultado da função a esquerda entra como primeiro parâmetro na função da direita.


#### Em R
``` R

sqrt(sum(x))

x %>% sum() %>% sqrt()

```

In [None]:
path = 'input/nba_2021.csv'
os.makedirs('./input', exist_ok=True)

# Extraindo a tabela presente na página citada.
resultados = pd.read_html("https://www.basketball-reference.com/leagues/NBA_2021_games-january.html")[0]

# Transformando a tabela extraída em um recurso csv, com base no caminho
# passado.
resultados.to_csv(path)

# Copiando como df a tabela csv gerada.
df = resultados.copy()

df.head()

Unnamed: 0,Date,Start (ET),Visitor/Neutral,PTS,Home/Neutral,PTS.1,Unnamed: 6,Unnamed: 7,Attend.,Arena,Notes
0,"Fri, Jan 1, 2021",7:00p,Memphis Grizzlies,108,Charlotte Hornets,93,Box Score,,0,Spectrum Center,
1,"Fri, Jan 1, 2021",7:00p,Miami Heat,83,Dallas Mavericks,93,Box Score,,0,American Airlines Center,
2,"Fri, Jan 1, 2021",7:00p,Boston Celtics,93,Detroit Pistons,96,Box Score,,0,Little Caesars Arena,
3,"Fri, Jan 1, 2021",7:30p,Atlanta Hawks,114,Brooklyn Nets,96,Box Score,,0,Barclays Center,
4,"Fri, Jan 1, 2021",8:00p,Chicago Bulls,96,Milwaukee Bucks,126,Box Score,,0,Fiserv Forum,


In [None]:
# Criando uma coluna que me retorna qual tipo foi o vencedor ou o
# perdedor em cada data. Para tanto, irei dispor de uma função,
# que analisa todas as linhas a partir de uma estrutura condicional
# e com base nela aplica o resultado aos times, que será de
# vencedor ou perdedor.

import numpy as np

def det_vencedor(df):
    df['ganhador'] = np.where(df['pts_visit']<df['pts_casa'], 'casa', 'visitante')
    return df

# O método np.where() abriga uma estrutura condicional no qual compara
# os pontos de visitante e de casa em cada linha, segundo a condição de
# tal modo que se essa é satisfeita na nova coluna criada retorna o valor
# de casa, enquanto, se for o contrário, visitante.

In [None]:
df = (df.rename(columns=colunas)
    .assign(data = lambda x: pd.to_datetime(x.data))
    .set_index('data')
    .drop(['horario','a','b','publico','anotaçoes'], axis=1)
    .assign(total = lambda x: x['pts_visit'] + x['pts_casa'])
    .pipe(det_vencedor)
)
df.head()

Unnamed: 0_level_0,visitante/neutro,pts_visit,casa/neutro,pts_casa,Arena,total,ganhador
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2021-01-01,Memphis Grizzlies,108,Charlotte Hornets,93,Spectrum Center,201,visitante
2021-01-01,Miami Heat,83,Dallas Mavericks,93,American Airlines Center,176,casa
2021-01-01,Boston Celtics,93,Detroit Pistons,96,Little Caesars Arena,189,casa
2021-01-01,Atlanta Hawks,114,Brooklyn Nets,96,Barclays Center,210,visitante
2021-01-01,Chicago Bulls,96,Milwaukee Bucks,126,Fiserv Forum,222,casa


**For e List Comprehension:**

List comprehension é uma construção sintática em algumas linguagens de programação, incluindo Python, que permite criar listas de maneira concisa e elegante. Em Python, list comprehension é uma maneira de criar listas usando uma única linha de código. Sua estrutura básica é a seguinte:

```
[expressão for item in iterável if condição]

```

* expressão: A expressão que define os elementos da lista.

* item: A variável que toma os valores do iterável.

* iterável: Uma sequência de elementos, como uma lista, tupla, ou string, sobre a qual você está iterando.

* condição (opcional): Uma condição que filtra os elementos a serem incluídos na lista.

In [None]:
df_aux = pd.DataFrame({'A': np.arange(10, 101, 10),
                       'B': np.arange(1, 11, 1)})

df_aux

Unnamed: 0,A,B
0,10,1
1,20,2
2,30,3
3,40,4
4,50,5
5,60,6
6,70,7
7,80,8
8,90,9
9,100,10


In [None]:
# Usando For e List Comprehension:

for a in df_aux["A"]:

  print(a)

10
20
30
40
50
60
70
80
90
100


In [None]:
# O zip é um método que consegue passar de modo segmentado
# cada item do ciclo for com a sua respectiva porção interável.

for a, b in zip(df_aux["A"], df_aux["B"]):

  print(a,b)

10 1
20 2
30 3
40 4
50 5
60 6
70 7
80 8
90 9
100 10


In [None]:
# List comprehension:

# Nota-se que por meio dele conseguimos realizar todo um código
# numa única linha. Ainda que possa parecer besteira, uma vez
# que poderíamos contrair o mesmo resultado de uma outra forma,
# a sua utilização se relaciona ao tempo dispendido para se chegar
# no resultado esperado. Podemos comparar isso com o método mágico
# %timeit.

[print(a,b) for a,b in zip(df_aux["A"], df_aux["B"])]

10 1
20 2
30 3
40 4
50 5
60 6
70 7
80 8
90 9
100 10


[None, None, None, None, None, None, None, None, None, None]

In [None]:
def soma_par(df):

  if df["B"] % 2 == 0:

    return df["B"] + df["A"]

  else:

    return 0

In [None]:
# Somando apenas os valores pares, ignorando aqueles que são ímpares:

%timeit [a + b if b % 2 == 0 else 0 for a,b in zip(df_aux['A'],
                                                   df_aux['B'])]

%timeit df_aux.apply(soma_par,
                     axis=1)

%timeit df_aux.apply(lambda df: df["B"] + df["A"] if df["B"] % 2 == 0 else 0,
                     axis = 1)

# Podemos ver aqui que ambas abordagens apresentam o mesmo resultado, por inferência,
# porém o tempo de execução de cada qual varia, sendo o list comprehension mais
# rápido.


13.4 µs ± 3.54 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)
545 µs ± 90.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
662 µs ± 98.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


**Barra de progresso:**

Constitui-se de uma barra de progresso que indica o quão o código está próximo de produzir o resultado esperado.

In [None]:
# Necessita-se instalar o tqdm.

!pip install tqdm



In [None]:
# Importar e aplicar no pandas o tqdm.

from tqdm import tqdm

tqdm.pandas()

In [None]:
df_aux.progress_apply(lambda df: df["B"] + df["A"] if df["B"] % 2 == 0 else 0,
                     axis = 1)

# A barra é visível logo abaixo.

100%|██████████| 10/10 [00:00<00:00, 2389.92it/s]


0      0
1     22
2      0
3     44
4      0
5     66
6      0
7     88
8      0
9    110
dtype: int64

**Pandas Profiling para exploração de dados.**



In [None]:
!pip install ydata-profiling



In [None]:
import os
from ydata_profiling import ProfileReport



ImportError: cannot import name 'Buffer' from 'typing_extensions' (/usr/local/lib/python3.10/dist-packages/typing_extensions.py)