<p style ="text-align:center">
    <img src="http://epecora.com.br/DataFiles/BannerUFPR.png" width="700" alt="PPGOLD/PPGMNE Python:INTRO"  />
</p>

## Prof. Eduardo Pécora, Ph.D.

# **Pandas: Valores Ausentes**

Neste notebook cobriremos os seguintes tópicos:

1. [Valores Ausentes](#oper)

<a id="data"></a>
# **Leitura de Dados**

A leitura de dados é o primeiro passo em qualquer fluxo de trabalho de análise de dados. O Pandas facilita a importação de dados de várias fontes e formatos para um DataFrame, que é a estrutura de dados principal utilizada ao longo da análise.

**Arquivos CSV**

O formato CSV (Comma-Separated Values) é um dos formatos de dados mais comuns, utilizado amplamente para armazenar dados tabulares.

In [None]:
import pandas as pd

nba_file = "https://raw.githubusercontent.com/EduPekUfpr/PythonProject/refs/heads/main/Dados/nba.csv" #caminho do arquivo

df_nba = pd.read_csv(nba_file)
print(df_nba.head())  # Exibe as primeiras 5 linhas do DataFrame

            Name            Team  Number Position   Age Height  Weight  \
0  Avery Bradley  Boston Celtics     0.0       PG  25.0    6-2   180.0   
1    Jae Crowder  Boston Celtics    99.0       SF  25.0    6-6   235.0   
2   John Holland  Boston Celtics    30.0       SG  27.0    6-5   205.0   
3    R.J. Hunter  Boston Celtics    28.0       SG  22.0    6-5   185.0   
4  Jonas Jerebko  Boston Celtics     8.0       PF  29.0   6-10   231.0   

             College     Salary  
0              Texas  7730337.0  
1          Marquette  6796117.0  
2  Boston University        NaN  
3      Georgia State  1148640.0  
4                NaN  5000000.0  


<a id="treat"></a>
# **Tratamento de Valores Ausentes e Duplicados**

Durante a análise de dados, é comum encontrar valores ausentes e dados duplicados. O tratamento adequado desses problemas é essencial para garantir a qualidade dos resultados da análise. O Pandas oferece diversas funções e métodos para identificar, lidar e substituir esses valores de maneira eficiente.

## Identificação de Valores Ausentes

Valores ausentes podem aparecer por vários motivos, como erros de coleta de dados ou ausência real de informação. No Pandas, valores ausentes são representados como `NaN` (Not a Number)

In [None]:
df_nba.isnull() #encontra do DF os valores ausentes. Pode-se usar o isna() também

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,True
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...
452,False,False,False,False,False,False,False,False,False
453,False,False,False,False,False,False,False,False,False
454,False,False,False,False,False,False,False,True,False
455,False,False,False,False,False,False,False,True,False


In [None]:
df_nba.isnull().sum() #Somando os booleanos podemos saber a quantidade de ausentes

Unnamed: 0,0
Name,0
Team,0
Number,0
Position,0
Age,0
Height,0
Weight,0
College,84
Salary,11


## Remoção de Valores Ausentes

In [None]:
df_nba_noNA = df_nba.dropna() #remove as linhas em que alguma coluna tem valor ausente
df_nba_noNA.isnull().sum()

Unnamed: 0,0
Name,0
Team,0
Number,0
Position,0
Age,0
Height,0
Weight,0
College,0
Salary,0


In [None]:
df_nba_noNA.shape

(364, 9)

In [None]:
df_nba_noNA=df_nba.dropna(axis=1) #remove as colunas em que alguma linha tem valor ausente
df_nba_noNA.isnull().sum()

Unnamed: 0,0
Name,0
Team,0
Number,0
Position,0
Age,0
Height,0
Weight,0


In [None]:
df_nba_noNA.shape

(457, 7)

## Substituição de Valores Ausentes

In [None]:
#substitui valores nulos por algum valor estabelecido.
#Neste caso ZERO
df_nba.fillna(0)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,0,5000000.0
...,...,...,...,...,...,...,...,...,...
452,Trey Lyles,Utah Jazz,41.0,PF,20.0,6-10,234.0,Kentucky,2239800.0
453,Shelvin Mack,Utah Jazz,8.0,PG,26.0,6-3,203.0,Butler,2433333.0
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,0,900000.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,0,2900000.0


In [None]:
df_nba["Salary"].fillna(df_nba["Salary"].mean())

Unnamed: 0,Salary
0,7.730337e+06
1,6.796117e+06
2,4.842684e+06
3,1.148640e+06
4,5.000000e+06
...,...
452,2.239800e+06
453,2.433333e+06
454,9.000000e+05
455,2.900000e+06


In [None]:
df_nba["College"].fillna("UFPR")

Unnamed: 0,College
0,Texas
1,Marquette
2,Boston University
3,Georgia State
4,UFPR
...,...
452,Kentucky
453,Butler
454,UFPR
455,UFPR


In [None]:
df_nba.isnull().sum()

Unnamed: 0,0
Name,0
Team,0
Number,0
Position,0
Age,0
Height,0
Weight,0
College,84
Salary,11


In [None]:
df_nba["Salary"] = df_nba["Salary"].fillna(df_nba["Salary"].mean())
df_nba["College"]=df_nba["College"].fillna("UFPR")
df_nba.isnull().sum()

Unnamed: 0,0
Name,0
Team,0
Number,0
Position,0
Age,0
Height,0
Weight,0
College,0
Salary,0


## Fique Conectado

- [![YouTube](https://img.icons8.com/?size=40&id=19318&format=png&color=000000)](https://www.youtube.com/@LigaDataScience/videos)  
  Explore nossos vídeos educacionais e webinars sobre ciência de dados, machine learning e inteligência artificial. Inscreva-se para não perder nenhuma atualização!

- [![LinkedIn](https://img.icons8.com/?size=40&id=13930&format=png&color=000000)](https://www.linkedin.com/company/liga-data-science-ufpr/)  
  Siga-nos no LinkedIn para as últimas novidades, oportunidades de carreira e networking profissional no campo da ciência de dados.

- [![Instagram](https://img.icons8.com/?size=40&id=32323&format=png&color=000000)](https://www.instagram.com/ligadatascience/)  
  Confira nosso Instagram para conteúdos dos bastidores, destaques de eventos e o dia a dia da Liga Data Science. Faça parte da nossa jornada!
  
  ## Autores

<a href="https://www.linkedin.com/in/eduardopecora/" target="_blank">Eduardo Pecora</a>

<a href="https://www.linkedin.com/in/jo%C3%A3o-gabriel-santin-botelho-618244222/" target="_blank">João Gabriel Santin Botelho</a>

## Log de modificações

| Data | Versão | Modificado por | Descrição |
| ----------------- | ------- | ---------- | ---------------------------------- |
| 29-08-2024       | 1.0     | Eduardo Pecora & João Gabriel| Inicial               |

<hr>

## <h3 align="center"> (c) Liga Data Science/ UFPR 2024. All rights reserved. <h3/>