# Tratamento de Dados com Python (Pandas)

### Cenário:
Recebemos um dataset de clientes com informações de compra.
Antes de realizar qualquer análise, precisamos garantir a qualidade desses dados.

Objetivo da aula:
- Diagnosticar problemas
- Corrigir inconsistências
- Preparar os dados para análise


## 1. Carregando os dados

Antes de limpar, precisamos entender o que recebemos.

In [None]:
# Execute esta célula para instalar as bibliotecas necessárias
!pip install pandas jupyter

In [None]:
import pandas as pd

df = pd.read_csv("./data/clientes_senac.csv")

# mostrando o conteúdo da variável
df

In [None]:
# Vejamos o se há algo de errado com o dataframe
df.info()

In [3]:
# Vejamos o impacto dos dados faltantes
df.isnull().sum()

id              0
nome            0
idade           2
email           0
valor_compra    2
data_compra     0
cidade          0
dtype: int64

## 2. Removendo espaços desnecessários

In [None]:
# Limpando os dados
df['nome'] = df['nome'].str.strip()
df['valor_compra'] = df['valor_compra'].astype(str).str.strip()

df

Unnamed: 0,id,nome,idade,email,valor_compra,data_compra,cidade
0,1,Ana Souza,29.0,ana@email.com,150.50,2025-01-10,Rio de Janeiro
1,2,Bruno Lima,,bruno@email.com,200,10/02/2025,Niterói
2,3,Carla Mendes,34.0,carla@email.com,350.75,2025/03/15,Rio de Janeiro
3,4,Daniel Alves,41.0,daniel@email.com,R$ 420,2025-04-20,Duque de Caxias
4,5,Eduarda Silva,27.0,eduarda@email.com,180.00,15-05-2025,Rio de Janeiro
5,6,Felipe Costa,19.0,felipe@email.com,90,2025-06-01,Niterói
6,7,Gabriela Rocha,31.0,gabriela@email.com,250.40,2025-07-12,Rio de Janeiro
7,8,Henrique Martins,,henrique@email.com,300.10,2025-08-03,São Gonçalo
8,9,Ana Souza,29.0,ana@email.com,150.50,2025-01-10,Rio de Janeiro
9,10,Isabela Santos,45.0,isabela@email.com,500,2025-09-25,Rio de Janeiro


## 3. Corrigindo valores monetários


In [None]:
# Convertendo os valores monetários
df['valor_compra'] = (
    df['valor_compra']
    .str.replace("R$", "", regex=False)
)

df['valor_compra'] = pd.to_numeric(df['valor_compra'], errors='coerce')

# df['valor_compra'].describe()

df[['valor_compra']]

Unnamed: 0,valor_compra
0,150.5
1,200.0
2,350.75
3,420.0
4,180.0
5,90.0
6,250.4
7,300.1
8,150.5
9,500.0


In [6]:
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id            16 non-null     int64  
 1   nome          16 non-null     str    
 2   idade         14 non-null     float64
 3   email         16 non-null     str    
 4   valor_compra  13 non-null     float64
 5   data_compra   16 non-null     str    
 6   cidade        16 non-null     str    
dtypes: float64(2), int64(1), str(4)
memory usage: 1.0 KB


## 4. Normalizando formatos de data com Regex

Vamos identificar padrões diferentes e convertê-los para o formato ISO (YYYY-MM-DD).

In [None]:
# --- Padronização de Datas com Regex ---

# Garantir que a coluna é do tipo string para aplicar regex
df['data_compra'] = df['data_compra'].astype(str)

# Padrão 1: dd/mm/yyyy -> yyyy-mm-dd
# Exemplo: 15/03/2025 -> 2025-03-15
df['data_compra'] = df['data_compra'].str.replace(
    r'^(\d{2})/(\d{2})/(\d{4})$',  # Captura: (Dia)/(Mês)/(Ano)
    r'\3-\2-\1',               # Substitui por: Ano-Mês-Dia
    regex=True
)

# Padrão 2: yyyy/mm/dd -> yyyy-mm-dd
# Exemplo: 2025/03/15 -> 2025-03-15
df['data_compra'] = df['data_compra'].str.replace(
    r'^(\d{4})/(\d{2})/(\d{2})$',  # Captura: (Ano)/(Mês)/(Dia)
    r'\1-\2-\3',               # Substitui por: Ano-Mês-Dia
    regex=True
)

# Padrão 3: dd-mm-yyyy -> yyyy-mm-dd
# Exemplo: 15-03-2025 -> 2025-03-15
df['data_compra'] = df['data_compra'].str.replace(
    r'^(\d{2})-(\d{2})-(\d{4})$',  # Captura: (Dia)-(Mês)-(Ano)
    r'\3-\2-\1',               # Substitui por: Ano-Mês-Dia
    regex=True
)

# Exibir as tabela após a formatação
df[['data_compra']]

Unnamed: 0,data_compra
0,2025-01-10
1,2025-02-10
2,2025-03-15
3,2025-04-20
4,2025-05-15
5,2025-06-01
6,2025-07-12
7,2025-08-03
8,2025-01-10
9,2025-09-25


In [8]:
df['data_compra'] = pd.to_datetime(
    df['data_compra'],
    errors='coerce'
)

df[['data_compra']]

Unnamed: 0,data_compra
0,2025-01-10
1,2025-02-10
2,2025-03-15
3,2025-04-20
4,2025-05-15
5,2025-06-01
6,2025-07-12
7,2025-08-03
8,2025-01-10
9,2025-09-25


## 5. Removendo registros duplicados


In [None]:
# Tratamento de dados duplicados
# keep=False é o segredo: ele marca TODAS as ocorrências como True (o original e a cópia)
# Se não usar keep=False, ele mostra apenas a repetição e esconde o original
duplicadas = df[df.duplicated(subset='email', keep=False)]
duplicadas

Unnamed: 0,id,nome,idade,email,valor_compra,data_compra,cidade
0,1,Ana Souza,29.0,ana@email.com,150.5,2025-01-10,Rio de Janeiro
8,9,Ana Souza,29.0,ana@email.com,150.5,2025-01-10,Rio de Janeiro
13,14,Natalia Pereira,33.0,natalia@email.com,,2025-12-15,Duque de Caxias
15,16,Natalia Pereira,33.0,natalia@email.com,,2025-12-15,Duque de Caxias


In [11]:
# Verificando o tamanho do DataFrame (linhas, colunas), antes de remover duplicadas
df.shape

(16, 7)

In [12]:
df.drop_duplicates(subset='email', inplace=True)

# Verificando o número de linhas após a remoção de duplicatas
df.shape

(14, 7)

## 6. Tratando valores ausentes

In [13]:
# Conta quantos valores nulos existem em cada coluna
df.isnull().sum()

id              0
nome            0
idade           2
email           0
valor_compra    2
data_compra     1
cidade          0
dtype: int64

In [14]:
# Preenchendo a idade vazia com a mediana das idades existentes
mediana_idade = df['idade'].median()
df['idade'] = df['idade'].fillna(mediana_idade)

# Preenchendo o valor de compra vazio com 0 (assumindo que não houve compra ou foi erro)
df['valor_compra'] = df['valor_compra'].fillna(0)


# Verificando se ainda sobrou algum nulo
df.isnull().sum()

id              0
nome            0
idade           0
email           0
valor_compra    0
data_compra     1
cidade          0
dtype: int64

In [15]:
# Remove linhas onde a data_compra ainda é nula (NaT)
df = df.dropna(subset=['data_compra'])

# Verifica o tamanho final da tabela
df.shape

(13, 7)

In [16]:
# Resultado final
df.info()
df

<class 'pandas.DataFrame'>
Index: 13 entries, 0 to 13
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   id            13 non-null     int64         
 1   nome          13 non-null     str           
 2   idade         13 non-null     float64       
 3   email         13 non-null     str           
 4   valor_compra  13 non-null     float64       
 5   data_compra   13 non-null     datetime64[us]
 6   cidade        13 non-null     str           
dtypes: datetime64[us](1), float64(2), int64(1), str(3)
memory usage: 832.0 bytes


Unnamed: 0,id,nome,idade,email,valor_compra,data_compra,cidade
0,1,Ana Souza,29.0,ana@email.com,150.5,2025-01-10,Rio de Janeiro
1,2,Bruno Lima,32.0,bruno@email.com,200.0,2025-02-10,Niterói
2,3,Carla Mendes,34.0,carla@email.com,350.75,2025-03-15,Rio de Janeiro
3,4,Daniel Alves,41.0,daniel@email.com,420.0,2025-04-20,Duque de Caxias
4,5,Eduarda Silva,27.0,eduarda@email.com,180.0,2025-05-15,Rio de Janeiro
5,6,Felipe Costa,19.0,felipe@email.com,90.0,2025-06-01,Niterói
6,7,Gabriela Rocha,31.0,gabriela@email.com,250.4,2025-07-12,Rio de Janeiro
7,8,Henrique Martins,32.0,henrique@email.com,300.1,2025-08-03,São Gonçalo
9,10,Isabela Santos,45.0,isabela@email.com,500.0,2025-09-25,Rio de Janeiro
10,11,João Pedro,38.0,joaopedro@email.com,275.9,2025-10-05,Niterói


## Atividade Prática!!

1. Baixar e Carregar o CSV
2. Remover as linhas com valores vazios
3. Corrigir valores monetários
4. Validar datas
5. Remover registros duplicados
6. Tratar valores ausentes

# Glossário de Funções e Métodos

Aqui está uma explicação detalhada das funções que utilizamos e como elas se conectam.

### Pandas (Manipulação de Dados)
- **`pd.read_csv()`**: Carrega um arquivo CSV para um DataFrame (tabela).
- **`df.head(n)`**: Mostra as primeiras `n` linhas.
- **`df.info()`**: Mostra o resumo técnico (tipos de dados, memória usada, nulos).
- **`df.isnull().sum()`**: Conta quantos valores vazios existem em cada coluna.
- **`df.duplicated()`**: Identifica linhas duplicadas.
- **`df.drop_duplicates()`**: Remove as linhas duplicadas.
- **`df.fillna(valor)`**: Preenche valores vazios (`NaN`) com um valor específico.

### Manipulação de Strings (.str)
- **`.astype(str)`**: Converte a coluna para texto.
- **`.str.strip()`**: Remove espaços em branco das extremidades.
- **`.str.replace(antigo, novo)`**: Substitui pedaços de texto.
  - Com `regex=True`, usa padrões inteligentes de busca.

### Conversão de Tipos
- **`pd.to_numeric(..., errors='coerce')`**: Converte para número. Se falhar (ex: texto "erro"), vira `NaN`.
- **`pd.to_datetime(..., errors='coerce')`**: Converte para data. Se falhar, vira `NaT` (Not a Time).