### Biblioteca Pandas: Limpeza e Tratamento de Dados

In [None]:
#!pip install pandas

In [None]:
import pandas as pd

**Criar um DataFrame**

Vamos criar  um DataFrame a partir de outro dicionário que contém nomes de países, quantidade de títulos mundiais, participações em copas, ano em que ganhou o primeiro título e continente o nde o país se encontra.


In [None]:
dicionario={'País':['Brasil','Uruguai','Bélgica','Inglaterra','Espanha','Holanda','Itália',
                    'Argentina','Alemanha','França','Croácia','Portugal','México','Japão','Suécia','Sérvia','Chile','Finlândia','França','Síria'],
           'Ano':[1958,1930,None,1966,2010,None,1934,1978,1954,1998,None,None,None,None,None,None,None,None,1998,None],
           'Titulos':[5,2,0,1,1,0,4,3,4,2,0,0,0,0,0,0,0,0,2,0],
           'Participações':[22,14,14,16,16,11,18,18,20,16,6,8,18,7,12,13,9,0,16,0],
            'Continentes':['América do Sul','América do Sul','Europa','Europa','Europa','Europa','Europa','América do Sul','Europa','Europa','Europa','Europa','América do Norte','Ásia','Europa','Europa','América do Sul','Europa','Europa','Ásia']
           }

dados = pd.DataFrame(dicionario)
print(dados)

'''
Obs.: O Pandas interpreta o ano como float porque há valores nulos (None) na coluna 'Ano',
o que resulta em uma coluna de tipo float.
'''

## 1. Tratamento de valores ausentes ##

Para lidar com valores ausentes em um DataFrame, podemos usar os métodos **.isna()**, **.fillna()** e **.dropna()**.

In [None]:
# Verificar quais valores são NaN (ausentes)

print("Valores ausentes no DataFrame")
print(dados.isna())

# isna() retorna um dataframe booleano indicando o status dos valores NaN

In [None]:
# Prencher valores NaN com um valor específico, por exemplo -1

dados.fillna(-1, inplace=True)
print(dados)

In [None]:
# Recriar df alterado
dicionario={'País':['Brasil','Uruguai','Bélgica','Inglaterra','Espanha','Holanda','Itália',
                    'Argentina','Alemanha','França','Croácia','Portugal','México','Japão','Suécia','Sérvia','Chile','Finlândia','França','Síria'],
           'Ano':[1958,1930,None,1966,2010,None,1934,1978,1954,1998,None,None,None,None,None,None,None,None,1998,None],
           'Titulos':[5,2,0,1,1,0,4,3,4,2,0,0,0,0,0,0,0,0,2,0],
           'Participações':[22,14,14,16,16,11,18,18,20,16,6,8,18,7,12,13,9,0,16,0],
            'Continentes':['América do Sul','América do Sul','Europa','Europa','Europa','Europa','Europa','América do Sul','Europa','Europa','Europa','Europa','América do Norte','Ásia','Europa','Europa','América do Sul','Europa','Europa','Ásia']
           }

dados = pd.DataFrame(dicionario)

In [None]:
# Remover linhas que possuam valores NaN
# dados.dropna(inplace=True) # caso deseje alterar o próprio df
dados2 = dados.dropna()
print(dados2)

## 2. Tratar dados duplicados ##

In [None]:
# Verificar dados duplicados: método .duplicated() (retorna índices e valores booleanos)

print(dados.duplicated())

In [None]:
# Verificar os dados na linha duplicada:

duplicadas = dados[dados.duplicated()] # passar retorno de duplicated() como índice
print(duplicadas)

In [None]:
# Remover duplicatas: método .drop_duplicates()

dados2 = dados.drop_duplicates() # inplace=True modifica o próprio df.
print(dados2)

### Criar outro dataframe para aplicar mais técnicas ###

In [None]:
temperaturas={'Hora':['00:00','00:01','00:02','00:03','00:04','00:05','00:06','00:07','00:08','00:09','00:10','00:11','00:12','00:13','00:14','00:15','00:16','00:17','00:18','00:19','00:20','00:21'],
           'Leitura':[14.5,14.5,14.6,14.7,14.6,14.6,14.7,14.7,None,14.8,14.8,14.8,14.9,14.9,15.0,15.0,None,15.1,15.1,15.1,15.2,15.2]
}

dados = pd.DataFrame(temperaturas)

print(dados)

'''
Note que há duas leituras ausentes: 8 e 16. Podem ter sido causadas por falhas
no sensor ou na comunicação.
'''

# Exportar DataFrame para CSV
dados.to_csv('temperaturas.csv', index=False)

In [None]:
# Verificar os tipos de dados das colunas

print(dados.dtypes)

Como tratar esses valores ausentes?  
Podemos usar algumas abordagens, tais como:  
1. Preencher com a média da coluna
2.  Remover as linhas com NaN
3. Preencher com Métodos de Interpolação
4. Valores Anteriores ou Posteriores
5. Valores Fixos

In [None]:
# 1. Preencher com a média dos outros valores da coluna

media = dados['Leitura'].mean()
dados['Leitura'].fillna(media, inplace=True)
print(dados)

# Mostrar a média de temperatura
media = dados['Leitura'].mean()
print(f'Média de temperatura: {media:.2f}')

In [None]:
# 2. Remover as linhas com NaN
dados = pd.read_csv('temperaturas.csv') # recarregar dataframe original

dados.dropna(inplace=True)
print(dados)

# Mostrar a média de temperatura
media = dados['Leitura'].mean()
print(f'Média de temperatura: {media:.2f}')

In [None]:
# 3. Preencher com Métodos de Interpolação (preenche com base em valores adjacentes)
dados = pd.read_csv('temperaturas.csv')

dados['Leitura'].interpolate(method='linear', inplace=True)
print(dados)

# Mostrar a média de temperatura
media = dados['Leitura'].mean()
print(f'Média de temperatura: {media:.2f}')

In [None]:
# 4. Preencher com Valores Anteriores ou Posteriores
dados = pd.read_csv('temperaturas.csv')

# Preenchimento com valor anterior (forward fill)
dados['Leitura'].fillna(method='ffill', inplace=True)  

# Preenchimento com valor posterior (backward fill)
# dados['Leitura'].fillna(method='bfill', inplace=True)  # descomentar para testar

print(dados)

# Mostrar a média de temperatura
media = dados['Leitura'].mean()
print(f'Média de temperatura: {media:.2f}')

In [None]:
# 5. Preencher com Valores Fixos
dados = pd.read_csv('temperaturas.csv')

# Usar o valor 15 (estimativa) para substituir valores NaN
dados.fillna(15, inplace=True)

print(dados)

# Mostrar a média de temperatura
media = dados['Leitura'].mean()
print(f'Média de temperatura: {media:.2f}')

In [None]:
# Criar DataFrame a partir de arquivo CSV: cotações de papel da bolsa de 100 dias
# Fonte dos dados (.csv): https://www.infomoney.com.br/cotacoes/b3/acao/vale-vale3/historico

dados = pd.read_csv('VALE3.csv')

print(dados)

## 0. Conversão de tipos de dados ## 

In [None]:
# Converter coluna de ano para int (está como float)

# Substituimos os valores nulos na coluna 'Ano' por um inteiro, como -1
dados['Ano'].fillna(-1, inplace=True)

# Convertemos a coluna 'Ano' para inteiros
dados['Ano'] = dados['Ano'].astype(int)

# Verificação
print(dados['Ano'].dtype)
print(dados)

## Importar arquivo CSV ##

Para importar um arquivo CSV para um DataFrame do Pandas, usamos a função read_csv().
Essa função permite que carregar dados de um arquivo CSV e convertê-los em um DataFrame.

Sintaxe:

***df = pd.read_csv('nome_do_arquivo.csv')***

Aqui, o arquivo "nome_do_arquivo.csv" deve estar no mesmo diretório em que o seu script Python está sendo executado. A função read_csv() lerá o arquivo e o converterá em um DataFrame.

Se o arquivo CSV estiver localizado em um diretório diferente, devemos especificar o caminho completo do arquivo:

***df = pd.read_csv('/caminho/completo/para/nome_do_arquivo.csv')***

Note que a função read_csv() possui muitos parâmetros que permitem personalizar a importação dos dados, como delimitadores, codificação, tratamento de valores ausentes, etc.

Recomendo consultar a documentação oficial do Pandas para obter mais informações sobre esses parâmetros e suas opções.

Vamos importar um DF em formato CSV. Após realizar modificações no arquivo copa.csv, vamos carregá-lo em um novo DF de nome "dados2".

Abrimos o arquivo CVS gerado (copa.csv) em um editor de textos e acrescentamos os dados a seguir:

Sérvia,,0,13  
Chile,,0,9

(não esqueça de dar enter na última linha).

In [None]:
# Método 1: Usando 'isna()'
linhas_nulas = dados2[dados2['Ano'].isna()]

# Método 2: Usando 'isnull()'
linhas_nulas = dados2[dados2['Ano'].isnull()]

print(linhas_nulas)

2. Outra maneira é simplesmente retornar as linhas que contém o valor '0' na coluna 'Títulos'. Vamos usar a mesma abordagem de criar uma máscara booleana usando uma condição de igualdade:

In [None]:
# Filtrar as linhas com valor 0 na coluna 'Titulos'
paises_sem_titulo = dados2[dados2['Titulos'] == 0]

print(paises_sem_titulo[['País','Titulos']])

In [None]:
# Substituir valores ausentes na coluna 'Ano' pelo valor zero
dados['Ano'] = dados['Ano'].fillna(0)

print(dados)

### Filtrar os países que ganharam ao menos um título. ###

Para filtrar os países que ganharam ao menos um título (ou seja, têm o valor da coluna "Titulos" maior que 0) no DataFrame, você podemos empregar a função query() do Pandas ou a indexação booleana.

In [None]:
# 1. Filtro com query()

# Filtrar os países que ganharam mais de um título usando query()
paises_com_mais_de_um_titulo = dados.query('Titulos > 0')

print(paises_com_mais_de_um_titulo)

In [None]:
# 2. Indexação booleana

# Filtrar os países que ganharam mais de um título usando indexação booleana
paises_com_mais_de_um_titulo = dados[dados['Titulos'] > 0]

print(paises_com_mais_de_um_titulo)

## Como agrupar os países por Continente? ##

Para agrupar os países por continente, vamos usar o df **dados2** que possui a coluna Continente, que representa o continente de cada país.
Empregaremos o método groupby() do Pandas. 

### Contar países por Continente ###

Para contar quantos países de cada continente estão no DataFrame, podemos usar o método value_counts() na coluna "Continente". Isso contará o número de ocorrências de cada valor na coluna e fornecerá a contagem de países para cada continente. 

O resultado será uma Série que mostra a contagem solicitada.

In [None]:
# Contar quantos países de cada continente estão no DataFrame
contagem_por_continente = dados2['Continente'].value_counts()

print(contagem_por_continente)
print()

# Converter a Série em um DataFrame e renomear as colunas: método reset_index()
contagem_por_continente_df = contagem_por_continente.reset_index()
contagem_por_continente_df.columns = ['Continente', 'Contagem']

print(contagem_por_continente_df)

### Soma de títulos por continente ###

Usaremos o método groupby() para agrupar os países por continente e calcular a soma total de títulos por continente. O resultado será um objeto Series que mostra a soma de títulos para cada continente.

In [None]:
# Agrupar os países por continente e calcular a soma de títulos por continente
grupo_continente = dados2.groupby('Continente')['Titulos'].sum()

print(grupo_continente)

### TODO: Estatísticas Descritivas: ###

Calcular a média, mediana, desvio padrão, máximo e mínimo para as colunas numéricas.