# Tutorial de Pandas
Este notebook foi criado para fornecer um tutorial abrangente sobre como usar a biblioteca Pandas em Python para manipulação de dados. Os tópicos abordados são:
1. Carregamento de arquivos CSV e Excel
2. Aplicação de funções e mapeamento
3. Ordenação e classificação
4. Valores Únicos, contadores de valores e pertinência
5. Interagindo com banco de dados
6. Tratando dados ausentes
7. Filtrando dados ausentes
8. Preenchendo dados ausentes
9. Removendo duplicatas
10. Transformando dados usando uma função ou um mapeamento
11. Substituindo Valores
12. Renomeando os eixos dos Índices
13. Detectando e filtrando valores discrepantes

Vamos começar!

In [None]:
# Importando a biblioteca Pandas
import pandas as pd

## 1. Carregamento de Arquivos CSV e Excel

Pandas fornece várias funções para ler dados tabulares como um DataFrame. As funções mais comumente usadas são `read_csv` para ler arquivos CSV e `read_excel` para ler arquivos Excel.

### Exemplo:
Vamos criar alguns arquivos de exemplo para demonstrar como carregar dados.

In [None]:
# Criando um DataFrame de exemplo e salvando como CSV e Excel
df_example = pd.DataFrame({'Nome': ['Mariana', 'Luis', 'Carlos','Luara', 'André', 'Filipe','Giovanna', 'Zara', 'Antonella'],
                           'Idade': [25, 30, 35, 18, 45, 70, 6, 160, 35],
                           'Profissão': ['Engenheiro', 'Médico', 'Professor','Cientista de Dados', 'Motorista', 'Técnico em Edificações','Cineasta', 'Bancário', 'Professor']})

# Salvando como CSV
df_example.to_csv('example.csv', index=False)

# Salvando como Excel
df_example.to_excel('example.xlsx', index=False)

In [None]:
# Carregando o arquivo CSV em um DataFrame
df_from_csv = pd.read_csv('example.csv')

# Carregando o arquivo Excel em um DataFrame
df_from_excel = pd.read_excel('example.xlsx')

# Exibindo os DataFrames
df_from_csv, df_from_excel

## 2. Aplicação de Funções e Mapeamento

Pandas oferece várias formas de aplicar funções e mapeamentos em um DataFrame. As funções `apply` e `applymap` são comumente usadas para este propósito.

### Exemplo:
Vamos aplicar algumas funções para manipular os dados.

In [None]:
# Função para dobrar a idade
def double_age(age):
    return age * 2

# Usando apply para aplicar a função a uma coluna
df_example['Idade Dobrada'] = df_example['Idade'].apply(double_age)

# Exibindo o DataFrame modificado
df_example

## 3. Ordenação e Classificação

Pandas fornece métodos como `sort_values` e `sort_index` para ordenar DataFrames. Você também pode usar `rank` para classificar os dados.

### Exemplo:
Vamos ordenar e classificar o DataFrame.

In [None]:
# Ordenando o DataFrame pela coluna 'Idade'
df_sorted_by_age = df_example.sort_values(by='Idade')
df_sorted_by_age

In [None]:
# Ordenando o DataFrame pelo índice
df_sorted_by_index = df_example.sort_index(ascending=False)
df_sorted_by_index

In [None]:
# Classificando a coluna 'Idade' e adicionando uma nova coluna 'Rank'
df_example['Rank'] = df_example['Idade'].rank()
df_example

## 4. Valores Únicos, Contadores de Valores e Pertinência

Pandas fornece métodos como `unique`, `value_counts` e `isin` para trabalhar com valores únicos, contadores de valores e pertinência, respectivamente.

### Exemplo:
Vamos explorar esses métodos.

In [None]:
# Obtendo valores únicos da coluna 'Profissão'
unique_professions = df_example['Profissão'].unique()
unique_professions

In [None]:
# Obtendo contadores de valores da coluna 'Profissão'
value_counts_professions = df_example['Profissão'].value_counts()
value_counts_professions

In [None]:
# Verificando a pertinência de certos valores na coluna 'Profissão'
is_profession_in_df = df_example['Profissão'].isin(['Engenheiro', 'Advogado', 'Professor'])
is_profession_in_df

## 5. Interagindo com Banco de Dados

Pandas pode interagir com diferentes tipos de bancos de dados. Você pode usar o método `read_sql` para ler dados diretamente de um banco de dados SQL para um DataFrame.

### Exemplo:
Vamos simular uma interação com um banco de dados SQLite.

In [None]:
# Importando a biblioteca SQLite
import sqlite3

In [None]:
# Criando uma conexão SQLite e um DataFrame de exemplo
conn = sqlite3.connect('example.db')
df_example.to_sql('people', conn, if_exists='replace', index=False)

In [None]:
# Lendo dados do banco de dados SQLite para um DataFrame
df_from_sql = pd.read_sql('SELECT * FROM people', conn)

In [None]:
# Fechando a conexão
conn.close()

In [None]:
# Exibindo o DataFrame
df_from_sql

## 6. Tratando Dados Ausentes

Dados ausentes são comuns em muitos conjuntos de dados. Pandas fornece métodos como `isna`, `notna` para detectar dados ausentes.

### Exemplo:
Vamos criar um DataFrame com alguns dados ausentes e usar esses métodos.

In [None]:
import numpy as np

In [None]:
# Criando um DataFrame com dados ausentes
df_with_na = pd.DataFrame({'A': [1, 2, np.nan, 4],
                           'B': [5, np.nan, np.nan, 8],
                           'C': [9, 10, 11, 12]})

In [None]:
# Detectando dados ausentes
is_na = df_with_na.isna()
is_na

In [None]:
# Detectando dados não ausentes
not_na = df_with_na.notna()
not_na

In [None]:
# Exibindo os DataFrames
df_with_na, is_na, not_na

## 7. Filtrando Dados Ausentes

Depois de identificar dados ausentes, você pode querer filtrá-los. Pandas oferece métodos como `dropna` para remover linhas ou colunas com dados ausentes.

### Exemplo:
Vamos filtrar os dados ausentes do DataFrame.

In [None]:
# Removendo todas as linhas onde pelo menos um elemento está ausente
df_dropped_na_rows = df_with_na.dropna()

In [None]:
# Removendo todas as colunas onde pelo menos um elemento está ausente
df_dropped_na_cols = df_with_na.dropna(axis=1)

In [None]:
# Exibindo os DataFrames
df_dropped_na_rows, df_dropped_na_cols

## 8. Preenchendo Dados Ausentes

Em vez de remover dados ausentes, você pode optar por preenchê-los com algum valor. Pandas oferece o método `fillna` para este propósito.

### Exemplo:
Vamos preencher os dados ausentes com zeros.

In [None]:
# Preenchendo todos os valores ausentes com zero
df_filled_na = df_with_na.fillna(0)

# Exibindo o DataFrame
df_filled_na

## 9. Removendo Duplicatas

DataFrames podem conter linhas duplicadas. Pandas oferece métodos como `duplicated` e `drop_duplicates` para identificar e remover duplicatas.

### Exemplo:
Vamos criar um DataFrame com algumas linhas duplicadas e usar esses métodos.

In [None]:
# Criando um DataFrame com linhas duplicadas
df_with_duplicates = pd.DataFrame({'A': [1, 2, 2, 3, 3, 3],
                                   'B': [4, 5, 5, 6, 6, 6]})
df_with_duplicates

In [None]:
# Identificando linhas duplicadas
is_duplicated = df_with_duplicates.duplicated()
is_duplicated

In [None]:
# Removendo linhas duplicadas
df_no_duplicates = df_with_duplicates.drop_duplicates()
df_no_duplicates

## 10. Transformando Dados Usando uma Função ou um Mapeamento

Você pode querer transformar dados com base em algum mapeamento ou função. Pandas oferece métodos como `map` e `replace` para este propósito.

### Exemplo:
Vamos transformar os dados de uma coluna usando um mapeamento.

In [None]:
# Criando um mapeamento para a coluna 'A'
mapping = {1: 'um', 2: 'dois', 3: 'três'}

# Usando map para transformar a coluna 'A'
df_with_mapping = df_with_duplicates['A'].map(mapping)

# Usando replace para transformar a coluna 'A'
df_with_replace = df_with_duplicates['A'].replace(mapping)

# Exibindo os DataFrames
df_with_mapping, df_with_replace

## 11. Substituindo Valores

Às vezes, você pode querer substituir valores específicos em um DataFrame. O método `replace` é útil para isso.

### Exemplo:
Vamos substituir alguns valores em um DataFrame.

In [None]:
# Criando um DataFrame de exemplo
df_replace_example = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

In [None]:
# Substituindo o valor 1 por 100 e o valor 6 por 600
df_replaced_values = df_replace_example.replace({1: 100, 6: 600})

In [None]:
# Exibindo o DataFrame
df_replaced_values

## 12. Renomeando os Eixos dos Índices

Você pode querer renomear os rótulos dos índices ou das colunas de um DataFrame. O método `rename` é útil para isso.

### Exemplo:
Vamos renomear algumas colunas e índices em um DataFrame.

In [None]:
# Renomeando colunas
df_renamed_columns = df_replace_example.rename(columns={'A': 'Coluna A', 'B': 'Coluna B'})
df_renamed_columns

In [None]:
# Renomeando índices
df_renamed_index = df_replace_example.rename(index={0: 'Linha 1', 1: 'Linha 2', 2: 'Linha 3'})
df_renamed_index

## 13. Detectando e Filtrando Valores Discrepantes

Valores discrepantes podem afetar a análise dos dados. Pandas oferece várias formas de identificar e filtrar esses valores.

### Exemplo:
Vamos criar um DataFrame com alguns valores discrepantes e filtrá-los.

In [None]:
# Criando um DataFrame com valores discrepantes
df_with_outliers = pd.DataFrame({'A': [1, 2, 3, 1000], 'B': [4, 5, 6, 2000]})
df_with_outliers

In [None]:
# Calculando o IQR para cada coluna
Q1 = df_with_outliers.quantile(0.25)
Q3 = df_with_outliers.quantile(0.75)
IQR = Q3 - Q1

# Definindo limites para filtrar outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Filtrando os outliers
df_filtered = df_with_outliers[~((df_with_outliers < lower_bound) | (df_with_outliers > upper_bound)).any(axis=1)]

# Exibindo o DataFrame filtrado
print(df_filtered)



## 7. Filtrando Dados Ausentes

Você pode usar métodos como `dropna` para remover linhas ou colunas contendo dados ausentes.

### Exemplo:
Vamos filtrar os dados ausentes do DataFrame.

In [None]:
# Removendo todas as linhas onde há pelo menos um valor ausente
df_dropped_na_rows = df_with_na.dropna()

# Removendo todas as colunas onde há pelo menos um valor ausente
df_dropped_na_cols = df_with_na.dropna(axis=1)

# Exibindo os DataFrames
df_dropped_na_rows, df_dropped_na_cols

## 8. Preenchendo Dados Ausentes

Pandas oferece o método `fillna` para preencher dados ausentes com um valor específico ou usando um método de preenchimento, como preenchimento para a frente (`ffill`) ou para trás (`bfill`).

### Exemplo:
Vamos preencher os dados ausentes do DataFrame.

In [None]:
# Preenchendo todos os valores ausentes com 0
df_filled_with_zero = df_with_na.fillna(0)

# Preenchendo valores ausentes para a frente
df_filled_forward = df_with_na.fillna(method='ffill')

# Preenchendo valores ausentes para trás
df_filled_backward = df_with_na.fillna(method='bfill')

# Exibindo os DataFrames
df_filled_with_zero, df_filled_forward, df_filled_backward

## 9. Removendo Duplicatas

Dados duplicados podem ser problemáticos na análise de dados. Pandas fornece métodos como `duplicated` e `drop_duplicates` para identificar e remover duplicatas.

### Exemplo:
Vamos criar um DataFrame com algumas linhas duplicadas e usar esses métodos.

In [None]:
# Criando um DataFrame com linhas duplicadas
df_with_duplicates = pd.DataFrame({'A': [1, 2, 2, 3, 4, 4],
                                   'B': [5, 6, 6, 7, 8, 8],
                                   'C': [9, 10, 10, 11, 12, 12]})

# Identificando linhas duplicadas
is_duplicated = df_with_duplicates.duplicated()

# Removendo linhas duplicadas
df_no_duplicates = df_with_duplicates.drop_duplicates()

# Exibindo os DataFrames
df_with_duplicates, is_duplicated, df_no_duplicates

## 10. Transformando Dados Usando uma Função ou um Mapeamento

Você pode transformar dados em um DataFrame usando funções personalizadas ou mapeamentos. Isso é útil para realizar transformações complexas em seus dados.

### Exemplo:
Vamos usar um mapeamento para transformar a coluna 'Profissão' do DataFrame.

In [None]:
# Mapeamento para transformar a coluna 'Profissão'
profession_mapping = {'Engenheira': 'Engenharia',
                      'Médico': 'Medicina',
                      'Professor': 'Educação'}

# Usando o método 'map' para aplicar o mapeamento
df_example['Área de Atuação'] = df_example['Profissão'].map(profession_mapping)

# Exibindo o DataFrame modificado
df_example

## 11. Substituindo Valores

O método `replace` é útil para substituir valores em um DataFrame. Você pode substituir um valor específico ou uma lista de valores.

### Exemplo:
Vamos substituir alguns valores no DataFrame.

In [None]:
# Substituindo a idade 25 por 26
df_example_replaced = df_example.replace({'Idade': 25}, 26)

# Substituindo múltiplos valores na coluna 'Profissão'
df_example_replaced = df_example_replaced.replace({'Profissão': {'Engenheira': 'Engenheiro', 'Médico': 'Doutor'}})

# Exibindo o DataFrame modificado
df_example_replaced

## 12. Renomeando os Eixos dos Índices

O método `rename` permite que você renomeie os rótulos dos índices ou das colunas de um DataFrame.

### Exemplo:
Vamos renomear algumas colunas e índices do DataFrame.

In [None]:
# Renomeando colunas
df_renamed_cols = df_example.rename(columns={'Nome': 'Nome Completo', 'Idade': 'Idade em Anos'})

# Renomeando índices
df_renamed_index = df_example.rename(index={0: 'Primeiro', 1: 'Segundo', 2: 'Terceiro'})

# Exibindo os DataFrames
df_renamed_cols, df_renamed_index

## 13. Detectando e Filtrando Valores Discrepantes

Valores discrepantes podem afetar significativamente a análise de dados. Você pode usar métodos como `describe` para obter estatísticas descritivas e identificar possíveis valores discrepantes.

### Exemplo:
Vamos criar um DataFrame com alguns valores discrepantes e identificá-los.

In [None]:
# Criando um DataFrame com valores discrepantes
df_with_outliers = pd.DataFrame({'A': [1, 2, 3, 4, 100],
                                 'B': [5, 6, 7, 8, 200],
                                 'C': [9, 10, 11, 12, 300]})

# Obtendo estatísticas descritivas
df_stats = df_with_outliers.describe()

# Filtrando valores que são maiores que a média + 2 * desvio padrão
outliers_filtered = df_with_outliers[(np.abs(df_with_outliers - df_with_outliers.mean()) <= 2 * df_with_outliers.std()).all(axis=1)]

# Exibindo os DataFrames
df_with_outliers, df_stats, outliers_filtered