<p style ="text-align:center">
    <img src="http://epecora.com.br/DataFiles/BannerUFPR.png" width="700" alt="PPGOLD/PPGMNE Python:INTRO"  />
</p>


# **Pandas**

Neste notebook cobriremos os seguintes tópicos:

1. [Introdução ao Pandas](#intro)
2. [Leitura de Dados](#data)
3. [Operações Básicas de Manipulação](#oper)
4. [Tratamento de Valores Ausentes e Duplicados](#treat)

<a id="intro"></a>
# **Introdução ao Pandas**

**O que é o Pandas?**

O Pandas é uma biblioteca de código aberto que fornece ferramentas rápidas, flexíveis e expressivas para análise e manipulação de dados estruturados (principalmente em formato de tabela). Ele se destaca pela facilidade de uso e pela alta performance ao lidar com grandes volumes de dados, sendo amplamente utilizado em ciência de dados.

Pandas combina as melhores funcionalidades de várias ferramentas, como SQL (sintaxe de consultas), Excel (manipulação de tabelas) e arrays do NumPy (alta performance em operações numéricas). Seus principais objetivos incluem:
- Manipulação eficiente de grandes conjuntos de dados;
- Ferramentas para análise e agregação de dados;
- Integração fácil com bibliotecas de visualização e aprendizado de máquina, como Matplotlib, Seaborn e Scikit-learn.

**Estruturas de Dados do Pandas**

A biblioteca Pandas é construída em torno de duas principais estruturas de dados:
- `Series`: Uma estrutura de dados unidimensional, similar a um array do NumPy ou a uma lista do Python, mas com a capacidade de ter um índice associado. Cada elemento em uma Series tem um rótulo, que é o índice, o que permite um acesso mais eficiente.

Exemplo de `Series`:

In [1]:
import pandas as pd

s = pd.Series([1, 3, 5, 7, 9])
print(s)

0    1
1    3
2    5
3    7
4    9
dtype: int64


- `DataFrame`: A estrutura mais importante do Pandas, o `DataFrame`, é uma tabela bidimensional com dados organizados em linhas e colunas, semelhante a uma planilha ou a uma tabela SQL. Cada coluna em um DataFrame é uma `Series`, e o `DataFrame` é composto por uma coleção de `Series` alinhadas por índice.

Exemplo de `DataFrame`:

In [2]:
data = {
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Idade': [23, 35, 45],
    'Cidade': ['Curitiba','São Paulo', 'Rio de Janeiro']
}

df = pd.DataFrame(data)
print(df)

     Nome  Idade          Cidade
0     Ana     23        Curitiba
1   Bruno     35       São Paulo
2  Carlos     45  Rio de Janeiro


<a id="data"></a>
# **Leitura de Dados**

A leitura de dados é o primeiro passo em qualquer fluxo de trabalho de análise de dados. O Pandas facilita a importação de dados de várias fontes e formatos para um DataFrame, que é a estrutura de dados principal utilizada ao longo da análise.

**Arquivos CSV**

O formato CSV (Comma-Separated Values) é um dos formatos de dados mais comuns, utilizado amplamente para armazenar dados tabulares.

In [3]:
nba_file = "https://raw.githubusercontent.com/EduPekUfpr/PythonProject/refs/heads/main/Dados/nba.csv" #caminho do arquivo

df_nba = pd.read_csv(nba_file)
print(df_nba.head())  # Exibe as primeiras 5 linhas do DataFrame

            Name            Team  Number Position   Age Height  Weight  \
0  Avery Bradley  Boston Celtics     0.0       PG  25.0    6-2   180.0   
1    Jae Crowder  Boston Celtics    99.0       SF  25.0    6-6   235.0   
2   John Holland  Boston Celtics    30.0       SG  27.0    6-5   205.0   
3    R.J. Hunter  Boston Celtics    28.0       SG  22.0    6-5   185.0   
4  Jonas Jerebko  Boston Celtics     8.0       PF  29.0   6-10   231.0   

             College     Salary  
0              Texas  7730337.0  
1          Marquette  6796117.0  
2  Boston University        NaN  
3      Georgia State  1148640.0  
4                NaN  5000000.0  


A função read_csv tem varios parâmetros, dentre os mais importantes temos:
- sep: Especifica o delimitador, caso o arquivo não utilize vírgulas;
- header: Indica a linha que contém os nomes das colunas;
- names: Define manualmente os nomes das colunas;
- index_col: Define uma coluna específica como índice do DataFrame;
- usecols: Carrega apenas as colunas especificadas;
- dtype: Especifica o tipo de dado para as colunas.

**Outros tipos de arquivo**

O pandas pode ler outros tipos de arquivo alem do CSV. Entre eles temos:
- Arquivos Excel, utilizando a função read_excel();
- Arquivos JSON, utilizando a função read_json();
- Arquivos SQL, utilizando a função read_sql();
- Arquivos HTML, utilizando a função read_html().

<a id="oper"></a>
# **Operações Básicas de Manipulação**

Após a leitura dos dados, o próximo passo é manipular esses dados para que fiquem prontos para análise. O Pandas fornece uma ampla gama de operações que facilitam a seleção, filtragem, modificação, reorganização e agregação de dados. Vamos explorar essas operações em detalhes.

## Visualizando os Dados

Antes de realizar qualquer manipulação, é importante inspecionar o DataFrame para entender sua estrutura e conteúdo.

In [4]:
df_nba.head(10)  # Exibe as primeiras 10 linhas

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
5,Amir Johnson,Boston Celtics,90.0,PF,29.0,6-9,240.0,,12000000.0
6,Jordan Mickey,Boston Celtics,55.0,PF,21.0,6-8,235.0,LSU,1170960.0
7,Kelly Olynyk,Boston Celtics,41.0,C,25.0,7-0,238.0,Gonzaga,2165160.0
8,Terry Rozier,Boston Celtics,12.0,PG,22.0,6-2,190.0,Louisville,1824360.0
9,Marcus Smart,Boston Celtics,36.0,PG,22.0,6-4,220.0,Oklahoma State,3431040.0


In [5]:
df_nba.tail(10)  # Exibe as últimas 10 linhas

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
447,Rudy Gobert,Utah Jazz,27.0,C,23.0,7-1,245.0,,1175880.0
448,Gordon Hayward,Utah Jazz,20.0,SF,26.0,6-8,226.0,Butler,15409570.0
449,Rodney Hood,Utah Jazz,5.0,SG,23.0,6-8,206.0,Duke,1348440.0
450,Joe Ingles,Utah Jazz,2.0,SF,28.0,6-8,226.0,,2050000.0
451,Chris Johnson,Utah Jazz,23.0,SF,26.0,6-6,206.0,Dayton,981348.0
452,Trey Lyles,Utah Jazz,41.0,PF,20.0,6-10,234.0,Kentucky,2239800.0
453,Shelvin Mack,Utah Jazz,8.0,PG,26.0,6-3,203.0,Butler,2433333.0
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,,900000.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,,2900000.0
456,Jeff Withey,Utah Jazz,24.0,C,26.0,7-0,231.0,Kansas,947276.0


In [6]:
df_nba.columns # Retorna as colunas no formato de uma lista

Index(['Name', 'Team', 'Number', 'Position', 'Age', 'Height', 'Weight',
       'College', 'Salary'],
      dtype='object')

In [7]:
df_nba.info() #fornece um resumo conciso do DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 457 entries, 0 to 456
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Name      457 non-null    object 
 1   Team      457 non-null    object 
 2   Number    457 non-null    float64
 3   Position  457 non-null    object 
 4   Age       457 non-null    float64
 5   Height    457 non-null    object 
 6   Weight    457 non-null    float64
 7   College   371 non-null    object 
 8   Salary    442 non-null    float64
dtypes: float64(4), object(5)
memory usage: 32.3+ KB


In [8]:
#Retorna estatísticas descritivas para colunas numéricas por padrão,
#incluindo contagem, média, desvio padrão, valores mínimo e máximo, e percentis.\
df_nba.describe()

Unnamed: 0,Number,Age,Weight,Salary
count,457.0,457.0,457.0,442.0
mean,17.678337,26.938731,221.522976,4813441.0
std,15.96609,4.404016,26.368343,5158666.0
min,0.0,19.0,161.0,30888.0
25%,5.0,24.0,200.0,1044792.0
50%,13.0,26.0,220.0,2825093.0
75%,25.0,30.0,240.0,6500000.0
max,99.0,40.0,307.0,22970500.0


In [9]:
#Retorna estatísticas descritivas para colunas numéricas e não numéricas
df_nba.describe(include = 'all')

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
count,457,457,457.0,457,457.0,457,457.0,371,442.0
unique,457,30,,5,,18,,118,
top,Avery Bradley,New Orleans Pelicans,,SG,,6-9,,Kentucky,
freq,1,19,,102,,59,,22,
mean,,,17.678337,,26.938731,,221.522976,,4813441.0
std,,,15.96609,,4.404016,,26.368343,,5158666.0
min,,,0.0,,19.0,,161.0,,30888.0
25%,,,5.0,,24.0,,200.0,,1044792.0
50%,,,13.0,,26.0,,220.0,,2825093.0
75%,,,25.0,,30.0,,240.0,,6500000.0


## Selecionando Dados

Selecionar dados específicos é uma das operações mais comuns ao trabalhar com DataFrames.

In [10]:
df_nba['Team'] #Selecinando uma única coluna. Retorna uma series

Unnamed: 0,Team
0,Boston Celtics
1,Boston Celtics
2,Boston Celtics
3,Boston Celtics
4,Boston Celtics
...,...
452,Utah Jazz
453,Utah Jazz
454,Utah Jazz
455,Utah Jazz


In [11]:
df_nba[['Name', 'Team']] #Selecinando mais de uma coluna. Retorna um dataframe

Unnamed: 0,Name,Team
0,Avery Bradley,Boston Celtics
1,Jae Crowder,Boston Celtics
2,John Holland,Boston Celtics
3,R.J. Hunter,Boston Celtics
4,Jonas Jerebko,Boston Celtics
...,...,...
452,Trey Lyles,Utah Jazz
453,Shelvin Mack,Utah Jazz
454,Raul Neto,Utah Jazz
455,Tibor Pleiss,Utah Jazz


In [12]:
df_nba.iloc[0]  # Seleciona a primeira linha

Unnamed: 0,0
Name,Avery Bradley
Team,Boston Celtics
Number,0.0
Position,PG
Age,25.0
Height,6-2
Weight,180.0
College,Texas
Salary,7730337.0


In [13]:
df_nba.iloc[0:3]  # Seleciona as três primeiras linhas

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,


In [14]:
df_nba.iloc[0:3, 0:2]  # Seleciona as linhas de 0 a 2 e as colunas de 0 a 1

Unnamed: 0,Name,Team
0,Avery Bradley,Boston Celtics
1,Jae Crowder,Boston Celtics
2,John Holland,Boston Celtics


In [16]:
df_nba.loc[3]  # Seleciona a linha com índice 3

Unnamed: 0,3
Name,R.J. Hunter
Team,Boston Celtics
Number,28.0
Position,SG
Age,22.0
Height,6-5
Weight,185.0
College,Georgia State
Salary,1148640.0


In [17]:
df_nba.loc[0:2, 'Name':'Team']  # Seleciona as linhas de 0 a 2 e colunas de 'coluna1' a 'coluna3'

Unnamed: 0,Name,Team
0,Avery Bradley,Boston Celtics
1,Jae Crowder,Boston Celtics
2,John Holland,Boston Celtics


In [19]:
# Seleciona linhas onde o valor da coluna 'Teams' é 'Boston Celtics'
df_nba[df_nba['Team'] == 'Boston Celtics']

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
5,Amir Johnson,Boston Celtics,90.0,PF,29.0,6-9,240.0,,12000000.0
6,Jordan Mickey,Boston Celtics,55.0,PF,21.0,6-8,235.0,LSU,1170960.0
7,Kelly Olynyk,Boston Celtics,41.0,C,25.0,7-0,238.0,Gonzaga,2165160.0
8,Terry Rozier,Boston Celtics,12.0,PG,22.0,6-2,190.0,Louisville,1824360.0
9,Marcus Smart,Boston Celtics,36.0,PG,22.0,6-4,220.0,Oklahoma State,3431040.0


In [20]:
# Múltiplas condições com & (e lógico)
df_nba[(df_nba['Age'] > 24) & (df_nba['Weight'] < 200)]

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
11,Isaiah Thomas,Boston Celtics,4.0,PG,27.0,5-9,185.0,Washington,6912869.0
43,Sasha Vujacic,New York Knicks,18.0,SG,32.0,6-7,195.0,,947276.0
57,Ish Smith,Philadelphia 76ers,1.0,PG,27.0,6-0,175.0,Wake Forest,947276.0
71,Terrence Ross,Toronto Raptors,31.0,SF,25.0,6-7,195.0,Washington,3553917.0
...,...,...,...,...,...,...,...,...,...
385,Will Barton,Denver Nuggets,5.0,SF,25.0,6-6,175.0,Memphis,3533333.0
394,Jameer Nelson,Denver Nuggets,1.0,PG,34.0,6-0,190.0,Saint Joseph's,4345000.0
407,Ricky Rubio,Minnesota Timberwolves,9.0,PG,25.0,6-4,194.0,,12700000.0
436,Damian Lillard,Portland Trail Blazers,0.0,PG,25.0,6-3,195.0,Weber State,4236287.0


In [23]:
# Múltiplas condições com | (ou lógico)
df_nba[(df_nba['Team'] == 'Portland Trail Blazers') | (df_nba['Age'] == 'Toronto Raptors')]

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
427,Cliff Alexander,Portland Trail Blazers,34.0,PF,20.0,6-8,240.0,Kansas,525093.0
428,Al-Farouq Aminu,Portland Trail Blazers,8.0,SF,25.0,6-9,215.0,Wake Forest,8042895.0
429,Pat Connaughton,Portland Trail Blazers,5.0,SG,23.0,6-5,206.0,Notre Dame,625093.0
430,Allen Crabbe,Portland Trail Blazers,23.0,SG,24.0,6-6,210.0,California,947276.0
431,Ed Davis,Portland Trail Blazers,17.0,C,27.0,6-10,240.0,North Carolina,6980802.0
432,Maurice Harkless,Portland Trail Blazers,4.0,SF,23.0,6-9,215.0,St. John's,2894059.0
433,Gerald Henderson,Portland Trail Blazers,9.0,SG,28.0,6-5,215.0,Duke,6000000.0
434,Chris Kaman,Portland Trail Blazers,35.0,C,34.0,7-0,265.0,Central Michigan,5016000.0
435,Meyers Leonard,Portland Trail Blazers,11.0,PF,24.0,7-1,245.0,Illinois,3075880.0
436,Damian Lillard,Portland Trail Blazers,0.0,PG,25.0,6-3,195.0,Weber State,4236287.0


## Modificando e Criando Novas Colunas

Manipular as colunas de um DataFrame é uma tarefa comum e pode ser feita de diversas maneiras.

In [25]:
df_nba['Name_Pos'] = df_nba['Name'] + df_nba['Position'] #Adicionando uma nova coluna com base em uma operação

print(df_nba.head())

            Name            Team  Number Position   Age Height  Weight  \
0  Avery Bradley  Boston Celtics     0.0       PG  25.0    6-2   180.0   
1    Jae Crowder  Boston Celtics    99.0       SF  25.0    6-6   235.0   
2   John Holland  Boston Celtics    30.0       SG  27.0    6-5   205.0   
3    R.J. Hunter  Boston Celtics    28.0       SG  22.0    6-5   185.0   
4  Jonas Jerebko  Boston Celtics     8.0       PF  29.0   6-10   231.0   

             College     Salary         Name_Pos  
0              Texas  7730337.0  Avery BradleyPG  
1          Marquette  6796117.0    Jae CrowderSF  
2  Boston University        NaN   John HollandSG  
3      Georgia State  1148640.0    R.J. HunterSG  
4                NaN  5000000.0  Jonas JerebkoPF  


In [27]:
df_nba['Name_Pos'] = df_nba['Name'] + " " + df_nba['Position'] #Adicionando também valores constantes

print(df_nba.head())

            Name            Team  Number Position   Age Height  Weight  \
0  Avery Bradley  Boston Celtics     0.0       PG  25.0    6-2   180.0   
1    Jae Crowder  Boston Celtics    99.0       SF  25.0    6-6   235.0   
2   John Holland  Boston Celtics    30.0       SG  27.0    6-5   205.0   
3    R.J. Hunter  Boston Celtics    28.0       SG  22.0    6-5   185.0   
4  Jonas Jerebko  Boston Celtics     8.0       PF  29.0   6-10   231.0   

             College     Salary          Name_Pos  
0              Texas  7730337.0  Avery Bradley PG  
1          Marquette  6796117.0    Jae Crowder SF  
2  Boston University        NaN   John Holland SG  
3      Georgia State  1148640.0    R.J. Hunter SG  
4                NaN  5000000.0  Jonas Jerebko PF  


In [34]:
df_nba = df_nba.rename(columns={'Name_Pos': 'Name and Position'}) #renomeando colunas
print(df_nba.head())

            Name            Team  Number Position   Age Height  Weight  \
0  Avery Bradley  Boston Celtics     0.0       PG  25.0    6-2   180.0   
1    Jae Crowder  Boston Celtics    99.0       SF  25.0    6-6   235.0   
2   John Holland  Boston Celtics    30.0       SG  27.0    6-5   205.0   
3    R.J. Hunter  Boston Celtics    28.0       SG  22.0    6-5   185.0   
4  Jonas Jerebko  Boston Celtics     8.0       PF  29.0   6-10   231.0   

             College     Salary Name and Position   Weight_Kg  height_cm  
0              Texas  7730337.0  Avery Bradley PG   81.646560     187.96  
1          Marquette  6796117.0    Jae Crowder SF  106.594120     198.12  
2  Boston University        NaN   John Holland SG   92.986360     195.58  
3      Georgia State  1148640.0    R.J. Hunter SG   83.914520     195.58  
4                NaN  5000000.0  Jonas Jerebko PF  104.779752     208.28  


In [35]:
df_nba = df_nba.drop(columns=['Name and Position']) #eliminando colunas
print(df_nba.head())

            Name            Team  Number Position   Age Height  Weight  \
0  Avery Bradley  Boston Celtics     0.0       PG  25.0    6-2   180.0   
1    Jae Crowder  Boston Celtics    99.0       SF  25.0    6-6   235.0   
2   John Holland  Boston Celtics    30.0       SG  27.0    6-5   205.0   
3    R.J. Hunter  Boston Celtics    28.0       SG  22.0    6-5   185.0   
4  Jonas Jerebko  Boston Celtics     8.0       PF  29.0   6-10   231.0   

             College     Salary   Weight_Kg  height_cm  
0              Texas  7730337.0   81.646560     187.96  
1          Marquette  6796117.0  106.594120     198.12  
2  Boston University        NaN   92.986360     195.58  
3      Georgia State  1148640.0   83.914520     195.58  
4                NaN  5000000.0  104.779752     208.28  


In [28]:
df_nba['Weight_Kg'] = df_nba['Weight'].apply(lambda x: x * 0.453592) #Aplicando uma função a uma coluna
print(df_nba['Weight_Kg'].head())

0     81.646560
1    106.594120
2     92.986360
3     83.914520
4    104.779752
Name: Weight_Kg, dtype: float64


In [29]:
df_nba['Weight_Kg'] = df_nba['Weight']*0.453592 #Aplicando uma função a uma coluna sem usar o apply
print(df_nba['Weight_Kg'].head())

0     81.646560
1    106.594120
2     92.986360
3     83.914520
4    104.779752
Name: Weight_Kg, dtype: float64


In [31]:
import time

t = time.time()
for i in range(1000):
    df_nba['Weight_Kg'] = df_nba['Weight'].apply(lambda x: x * 0.453592)
print("Tempo com o apply:", time.time() - t)

t = time.time()
for i in range(1000):
    df_nba['Weight_Kg'] = df_nba['Weight']*0.453592
print("Tempo sem o apply:",time.time() - t)

#Tempos de execução utilizando e não utilizando o apply

Tempo com o apply: 0.36034131050109863
Tempo sem o apply: 0.23159003257751465


In [32]:
#import numpy as np

df_nba[['feet', 'inches']] = df_nba['Height'].str.split('-', expand=True).astype(int)
df_nba['feet_cm'] = df_nba['feet'] * 30.48
df_nba['inches_cm'] = df_nba['inches'] * 2.54
df_nba['height_cm'] = df_nba['feet_cm'] + df_nba['inches_cm']

df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,Name_Pos,Weight_Kg,feet,inches,feet_cm,inches_cm,height_cm
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0,Avery Bradley PG,81.64656,6,2,182.88,5.08,187.96
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0,Jae Crowder SF,106.59412,6,6,182.88,15.24,198.12
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,,John Holland SG,92.98636,6,5,182.88,12.7,195.58
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0,R.J. Hunter SG,83.91452,6,5,182.88,12.7,195.58
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0,Jonas Jerebko PF,104.779752,6,10,182.88,25.4,208.28


In [33]:
df_nba.drop(['feet','inches','feet_cm','inches_cm'], axis =1, inplace = True)
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,Name_Pos,Weight_Kg,height_cm
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0,Avery Bradley PG,81.64656,187.96
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0,Jae Crowder SF,106.59412,198.12
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,,John Holland SG,92.98636,195.58
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0,R.J. Hunter SG,83.91452,195.58
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0,Jonas Jerebko PF,104.779752,208.28


## Reorganizando Dados

Reorganizar e ordenar os dados pode ser necessário para facilitar a análise ou visualização.

In [36]:
df_sorted = df_nba.sort_values(by='Position', ascending=True)  # Ordenação crescente, False caso precise ser decrescente
df_sorted.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,Weight_Kg,height_cm
456,Jeff Withey,Utah Jazz,24.0,C,26.0,7-0,231.0,Kansas,947276.0,104.779752,213.36
135,Alan Williams,Phoenix Suns,15.0,C,23.0,6-8,260.0,UC Santa Barbara,83397.0,117.93392,203.2
321,Tiago Splitter,Atlanta Hawks,11.0,C,31.0,6-11,245.0,,9756250.0,111.13004,210.82
128,Alex Len,Phoenix Suns,21.0,C,22.0,7-1,260.0,Maryland,3807120.0,117.93392,215.9
322,Walter Tavares,Atlanta Hawks,22.0,C,24.0,7-3,260.0,,1000000.0,117.93392,220.98


In [37]:
df_sorted = df_nba.sort_values(by=['Position', 'Age'], ascending=[True, False])  # Ordem mista, primeiro ordena a primeira coluna e depois a segunda
df_sorted.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,Weight_Kg,height_cm
298,Tim Duncan,San Antonio Spurs,21.0,C,40.0,6-11,250.0,Wake Forest,5250000.0,113.398,210.82
420,Nazr Mohammed,Oklahoma City Thunder,13.0,C,38.0,6-10,250.0,Kentucky,222888.0,113.398,208.28
296,Matt Bonner,San Antonio Spurs,15.0,C,36.0,6-10,235.0,Florida,947276.0,106.59412,208.28
156,Pau Gasol,Chicago Bulls,16.0,C,35.0,7-0,250.0,,7448760.0,113.398,213.36
297,Boris Diaw,San Antonio Spurs,33.0,C,34.0,6-8,250.0,,7500000.0,113.398,203.2


In [38]:
df_reset = df_sorted.reset_index(drop = True) #reseta os indexes
df_reset.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,Weight_Kg,height_cm
0,Tim Duncan,San Antonio Spurs,21.0,C,40.0,6-11,250.0,Wake Forest,5250000.0,113.398,210.82
1,Nazr Mohammed,Oklahoma City Thunder,13.0,C,38.0,6-10,250.0,Kentucky,222888.0,113.398,208.28
2,Matt Bonner,San Antonio Spurs,15.0,C,36.0,6-10,235.0,Florida,947276.0,106.59412,208.28
3,Pau Gasol,Chicago Bulls,16.0,C,35.0,7-0,250.0,,7448760.0,113.398,213.36
4,Boris Diaw,San Antonio Spurs,33.0,C,34.0,6-8,250.0,,7500000.0,113.398,203.2


In [39]:
df_reindexed = df_nba.set_index('Name') #torna a coluna escolhida em index
df_reindexed.head()

Unnamed: 0_level_0,Team,Number,Position,Age,Height,Weight,College,Salary,Weight_Kg,height_cm
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0,81.64656,187.96
Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0,106.59412,198.12
John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,,92.98636,195.58
R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0,83.91452,195.58
Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0,104.779752,208.28


In [41]:
df_team_pos= df_reindexed[['Team','Position']]
df_team_pos.head()

Unnamed: 0_level_0,Team,Position
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Avery Bradley,Boston Celtics,PG
Jae Crowder,Boston Celtics,SF
John Holland,Boston Celtics,SG
R.J. Hunter,Boston Celtics,SG
Jonas Jerebko,Boston Celtics,PF


In [42]:
df_transposta = df_team_pos.T #transforma as linhas em colunas e as colunas em linhas
print(df_transposta)

Name       Avery Bradley     Jae Crowder    John Holland     R.J. Hunter  \
Team      Boston Celtics  Boston Celtics  Boston Celtics  Boston Celtics   
Position              PG              SF              SG              SG   

Name       Jonas Jerebko    Amir Johnson   Jordan Mickey    Kelly Olynyk  \
Team      Boston Celtics  Boston Celtics  Boston Celtics  Boston Celtics   
Position              PF              PF              PF               C   

Name        Terry Rozier    Marcus Smart  ... Rudy Gobert Gordon Hayward  \
Team      Boston Celtics  Boston Celtics  ...   Utah Jazz      Utah Jazz   
Position              PG              PG  ...           C             SF   

Name     Rodney Hood Joe Ingles Chris Johnson Trey Lyles Shelvin Mack  \
Team       Utah Jazz  Utah Jazz     Utah Jazz  Utah Jazz    Utah Jazz   
Position          SG         SF            SF         PF           PG   

Name      Raul Neto Tibor Pleiss Jeff Withey  
Team      Utah Jazz    Utah Jazz   Utah Jazz  

## Agrupamento de Dados

Para análises mais avançadas, muitas vezes é necessário agrupar e agregar dados.

In [43]:
#varias funções de agregação podem ser utilizadas, como mean(), count(), sum(), min(), max(), etc.

df_grouped = df_nba.groupby(['Position'])['Salary'].mean() # Média de todos os valores de salário para uma mesma posição
df_grouped

Unnamed: 0_level_0,Salary
Position,Unnamed: 1_level_1
C,5995001.0
PF,4562483.0
PG,5135555.0
SF,4614711.0
SG,4015824.0


In [44]:
df_grouped = df_nba.groupby(['Position'])['Salary'].count() # Conta de todos os valores de salário para uma mesma posição
df_grouped

Unnamed: 0_level_0,Salary
Position,Unnamed: 1_level_1
C,77
PF,97
PG,87
SF,83
SG,98


<a id="treat"></a>
# **Tratamento de Valores Ausentes e Duplicados**

Durante a análise de dados, é comum encontrar valores ausentes e dados duplicados. O tratamento adequado desses problemas é essencial para garantir a qualidade dos resultados da análise. O Pandas oferece diversas funções e métodos para identificar, lidar e substituir esses valores de maneira eficiente.

## Identificação de Valores Ausentes

Valores ausentes podem aparecer por vários motivos, como erros de coleta de dados ou ausência real de informação. No Pandas, valores ausentes são representados como `NaN` (Not a Number)

In [45]:
df_nba = pd.read_csv(nba_file)

In [46]:
df_nba.isnull() #encontra do DF os valores ausentes. Pode-se usar o isna() também

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,True
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...
452,False,False,False,False,False,False,False,False,False
453,False,False,False,False,False,False,False,False,False
454,False,False,False,False,False,False,False,True,False
455,False,False,False,False,False,False,False,True,False


In [47]:
df_nba.isnull().sum() #Somando os buleanos podemos saber a quantidade de ausentes

Unnamed: 0,0
Name,0
Team,0
Number,0
Position,0
Age,0
Height,0
Weight,0
College,86
Salary,15


## Remoção de Valores Ausentes

In [48]:
df_nba_noNA = df_nba.dropna() #remove as linhas em que alguma coluna tem valor ausente
df_nba_noNA.isnull().sum()

Unnamed: 0,0
Name,0
Team,0
Number,0
Position,0
Age,0
Height,0
Weight,0
College,0
Salary,0


In [49]:
df_nba_noNA.shape

(362, 9)

In [50]:
df_nba_noNA=df_nba.dropna(axis=1) #remove as colunas em que alguma linha tem valor ausente
df_nba_noNA.isnull().sum()

Unnamed: 0,0
Name,0
Team,0
Number,0
Position,0
Age,0
Height,0
Weight,0


In [51]:
df_nba_noNA.shape

(457, 7)

## Substituição de Valores Ausentes

In [52]:
#substitui valores nulos por algum valor estabelecido.
#Neste caso ZERO
df_nba.fillna(0)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,0,5000000.0
...,...,...,...,...,...,...,...,...,...
452,Trey Lyles,Utah Jazz,41.0,PF,20.0,6-10,234.0,Kentucky,2239800.0
453,Shelvin Mack,Utah Jazz,8.0,PG,26.0,6-3,203.0,Butler,2433333.0
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,0,900000.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,0,2900000.0


In [54]:
df_nba["Salary"].fillna(df_nba["Salary"].mean())

Unnamed: 0,Salary
0,7.730337e+06
1,6.796117e+06
2,4.813441e+06
3,1.148640e+06
4,5.000000e+06
...,...
452,2.239800e+06
453,2.433333e+06
454,9.000000e+05
455,2.900000e+06


In [55]:
df_nba["College"].fillna("UFPR")

Unnamed: 0,College
0,Texas
1,Marquette
2,Boston University
3,Georgia State
4,UFPR
...,...
452,Kentucky
453,Butler
454,UFPR
455,UFPR


In [56]:
df_nba.isnull().sum()

Unnamed: 0,0
Name,0
Team,0
Number,0
Position,0
Age,0
Height,0
Weight,0
College,86
Salary,15


In [58]:
df_nba["Salary"].fillna(df_nba["Salary"].mean(), inplace = True)
df_nba["College"].fillna("UFPR", inplace=True)
df_nba.isnull().sum()

Unnamed: 0,0
Name,0
Team,0
Number,0
Position,0
Age,0
Height,0
Weight,0
College,0
Salary,0


## Autores

<a href="https://www.linkedin.com/in/eduardopecora/" target="_blank">Eduardo Pecora</a>

<a href="https://www.linkedin.com/in/jo%C3%A3o-gabriel-santin-botelho-618244222/" target="_blank">João Gabriel Santin Botelho</a>


## Log de modificações

| Data | Versão | Modificado por | Descrição |
| ----------------- | ------- | ---------- | ---------------------------------- |
| 29-08-2024       | 1.0     | Eduardo Pecora & João Gabriel| Inicial               |

<hr>

## <h3 align="center"> (c) Liga Data Science/ UFPR 2024. All rights reserved. <h3/>