<a href="https://colab.research.google.com/github/andrepinhofig/Santander-Bootcamp-2023_ETL_com_Python/blob/main/NBA_Players_Stats_ETL_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Santander Dev Week 2023 (ETL com Python)**

---



# **Contruindo um Pipeline ETL com Python - Analisando Estatísticas da NBA 2023**

Este é um desafio de projeto do **Santander Bootcamp 2023 - Ciência de Dados com Python.**

O projeto modelo tem o título **Explorando IA Generativa em um Pipeline de ETL com Python.**

[Clique para ver o notebook do projeto modelo](https://colab.research.google.com/drive/1SF_Q3AybFPozCcoFBptDSFbMk-6IVGF-?usp=sharing#scrollTo=k5fA5OrXt1a3)

##  **Meu projeto**
Foi pego um dataset no Kaggle ([NBA PLayes Stats 2023](https://www.kaggle.com/datasets/amirhosseinmirzaie/nba-players-stats2023-season)) com as estatisticas dos jogadores da NBA na temporada 2023.

O desafio foi:

*   Extrair esses dados do dataset CSV baixado do Kaggle.
*   Realizar algumas transformações (Renomear colunas, exclusão de algumas colulas, ocultar o index do DataFrame, listar os 10 maiores pontuadores de 3 pontos, de 2 pontos e de lance livre).
*   Carregar essas informações listadas em 3 novos arquivos CSV diferentes.


# Extract

In [50]:
#Importando a biblioteca pandas
import pandas as pd

In [51]:
#Carregando o arquivo CSV
df = pd.read_csv('2023_nba_player_stats.csv')

#Visualizando as primeiras linhas para verificar os dados
df.head(5)

Unnamed: 0,PName,POS,Team,Age,GP,W,L,Min,PTS,FGM,...,REB,AST,TOV,STL,BLK,PF,FP,DD2,TD3,+/-
0,Jayson Tatum,SF,BOS,25,74,52,22,2732.2,2225,727,...,649,342,213,78,51,160,3691,31,1,470
1,Joel Embiid,C,PHI,29,66,43,23,2284.1,2183,728,...,670,274,226,66,112,205,3706,39,1,424
2,Luka Doncic,PG,DAL,24,66,33,33,2390.5,2138,719,...,569,529,236,90,33,166,3747,36,10,128
3,Shai Gilgeous-Alexander,PG,OKC,24,68,33,35,2416.0,2135,704,...,329,371,192,112,65,192,3425,3,0,149
4,Giannis Antetokounmpo,PF,MIL,28,63,47,16,2023.6,1959,707,...,742,359,246,52,51,197,3451,46,6,341


# Transform

In [52]:
#Mostrar somente as colunas que interessam para a analise
df_coluna = df[['PName','Team','Age','Min','FGM','FGA','FG%','3PM','3PA','3P%','FTM','FTA','FT%']]
df_coluna.head(5)

Unnamed: 0,PName,Team,Age,Min,FGM,FGA,FG%,3PM,3PA,3P%,FTM,FTA,FT%
0,Jayson Tatum,BOS,25,2732.2,727,1559,46.6,240,686,35.0,531,622,85.4
1,Joel Embiid,PHI,29,2284.1,728,1328,54.8,66,200,33.0,661,771,85.7
2,Luka Doncic,DAL,24,2390.5,719,1449,49.6,185,541,34.2,515,694,74.2
3,Shai Gilgeous-Alexander,OKC,24,2416.0,704,1381,51.0,58,168,34.5,669,739,90.5
4,Giannis Antetokounmpo,MIL,28,2023.6,707,1278,55.3,47,171,27.5,498,772,64.5


In [53]:
#Renomear colunas
df_renomeado = df_coluna.rename(columns={
    "PName": "Nome",
    "Team": "Time",
    "Age": "Idade",
    "Min": "Min",
    "FGM": "2P",
    "FGA": "T2P",
    "FG%": "%2P",
    "3PM": "3P",
    "3PA": "T3P",
    "3P%": "%3P",
    "FTM": "LL",
    "FTA": "TLL",
    "FT%": "%LL",
    })
df_renomeado.head(5)

Unnamed: 0,Nome,Time,Idade,Min,2P,T2P,%2P,3P,T3P,%3P,LL,TLL,%LL
0,Jayson Tatum,BOS,25,2732.2,727,1559,46.6,240,686,35.0,531,622,85.4
1,Joel Embiid,PHI,29,2284.1,728,1328,54.8,66,200,33.0,661,771,85.7
2,Luka Doncic,DAL,24,2390.5,719,1449,49.6,185,541,34.2,515,694,74.2
3,Shai Gilgeous-Alexander,OKC,24,2416.0,704,1381,51.0,58,168,34.5,669,739,90.5
4,Giannis Antetokounmpo,MIL,28,2023.6,707,1278,55.3,47,171,27.5,498,772,64.5


In [54]:
#Ver os tipos das variáveis, para saber se é necessario alguma alteração.
df_renomeado.dtypes

Nome      object
Time      object
Idade      int64
Min      float64
2P         int64
T2P        int64
%2P      float64
3P         int64
T3P        int64
%3P      float64
LL         int64
TLL        int64
%LL      float64
dtype: object

In [55]:
#Verificar os 10 maiores pontuadores de cestas de 3 pontos
df_coluna_3P = df_renomeado[['Nome','Time','Idade','Min','3P','T3P','%3P']]
maiores_pontuadores_3P = df_coluna_3P.nlargest(10, '3P')
df_modified_3P=maiores_pontuadores_3P.set_index("Nome")

#Verificar os 10 maiores pontuadores de cestas de 2 pontos
df_coluna_2P = df_renomeado[['Nome','Time','Idade','Min','2P','T2P','%2P']]
maiores_pontuadores_2P = df_coluna_2P.nlargest(10, '2P')
df_modified_2P=maiores_pontuadores_2P.set_index("Nome")

#Verificar os 10 maiores pontuadores de cestas de lance livre
df_coluna_LL = df_renomeado[['Nome','Time','Idade','Min','LL','TLL','%LL']]
maiores_pontuadores_LL = df_coluna_LL.nlargest(10, 'LL')
df_modified_LL=maiores_pontuadores_LL.set_index("Nome")

#Visualizando os resultados dos 10 maiores pontuadores de cestas de 3 pontos
print("Os 10 maiores pontuadores de 3 pontos:")
print(df_modified_3P)

#Visualizando os resultados dos 10 maiores pontuadores de cestas de 2 pontos
print("\nOs 10 maiores pontuadores de 2 pontos:")
print(df_modified_2P)

#Visualizando os resultados dos 10 maiores pontuadores de cestas de lance livre
print("\nOs 10 maiores pontuadores de lance livre:")
print(df_modified_LL)


Os 10 maiores pontuadores de 3 pontos:
                 Time  Idade     Min   3P  T3P   %3P
Nome                                                
Klay Thompson     GSW     33  2278.9  301  731  41.2
Buddy Hield       IND     30  2481.9  288  677  42.5
Stephen Curry     GSW     35  1941.2  273  639  42.7
Donovan Mitchell  CLE     26  2432.4  245  635  38.6
Damian Lillard    POR     32  2106.6  244  658  37.1
Jayson Tatum      BOS     25  2732.2  240  686  35.0
Malik Beasley     LAL     26  2093.1  235  658  35.7
Julius Randle     NYK     28  2737.3  218  636  34.3
Jordan Poole      GSW     23  2458.1  214  637  33.6
Anthony Edwards   MIN     21  2841.5  213  578  36.9

Os 10 maiores pontuadores de 2 pontos:
                        Time  Idade     Min   2P   T2P   %2P
Nome                                                        
Joel Embiid              PHI     29  2284.1  728  1328  54.8
Jayson Tatum             BOS     25  2732.2  727  1559  46.6
Luka Doncic              DAL     24  2390

# Load

In [56]:
# Salvando os dados visualizados e transformados em um arquivo CSV
df_modified_3P.to_csv("Top10_3_Pontos.csv")
df_modified_2P.to_csv("Top10_2_Pontos.csv.csv")
df_modified_LL.to_csv("Top10_LL_Pontos.csv.csv")