# 📘 Aula 6 – Limpeza e Organização de Dados com `pandas`
**Objetivos da Aula**:
- Identificar e tratar valores ausentes.
- Renomear colunas e padronizar nomes.
- Alterar o tipo de dados (casting).
- Filtrar e ordenar registros.
- Corrigir registros com erros ou duplicações.

## 🧠 Parte 1 – Por que limpar os dados?
Na prática, os dados podem ter:
- Erros de digitação
- Valores ausentes
- Formatos inconsistentes
- Colunas mal nomeadas

## 🧹 Parte 2 – Lidando com valores ausentes

In [None]:
import pandas as pd

df = pd.read_csv("vendas_ausente.csv", sep=";", decimal=",")
df.isnull()
df.isnull().sum()

In [None]:
df_sem_nulos = df.dropna()

In [None]:
df["quantidade"].fillna(0, inplace=True)
df["produto"].fillna("desconhecido", inplace=True)

## 🏷️ Parte 3 – Renomeando colunas

In [None]:
df.rename(columns={"valor_total": "receita_total"}, inplace=True)

In [None]:
df.columns = df.columns.str.lower().str.replace(" ", "_").str.normalize("NFKD").str.encode("ascii", errors="ignore").str.decode("utf-8")

## 🔄 Parte 4 – Alterar tipos de dados

In [None]:
df.dtypes

In [None]:
df["quantidade"] = pd.to_numeric(df["quantidade"])
df["data_venda"] = pd.to_datetime(df["data_venda"], errors='coerce')

## 🗂️ Parte 5 – Filtrar e ordenar dados

In [None]:
df[(df["produto"] == "Notebook") & (df["quantidade"] > 5)]

In [None]:
df.sort_values(by="valor_total", ascending=False)

## ♻️ Parte 6 – Remover duplicações

In [None]:
df.drop_duplicates(inplace=True)

## 📝 Parte 7 – Exercícios
### 🔹 Exercício 1
Carregue o arquivo `empregados.csv` e:
- Corrija os nomes das colunas
- Preencha salários ausentes com 0
- Ordene do maior para o menor salário

### 🔹 Exercício 2
Com o arquivo `estoque.csv`:
- Adicione coluna `valor_total` = quantidade × preço
- Remova produtos com quantidade igual a 0
- Calcule o valor total do estoque

### 🔹 Exercício 3
Com o arquivo `financeiro.csv`:
- Renomeie `mês` para `mes`
- Crie coluna `resultado` (receita - despesa)
- Calcule o saldo acumulado

## 🔁 Parte 8 – Revisão da Aula
| Tarefa                     | Comando                                |
|----------------------------|-----------------------------------------|
| Ver valores ausentes       | `df.isnull().sum()`                     |
| Remover ausentes           | `df.dropna()`                           |
| Preencher ausentes         | `df["coluna"].fillna(valor)`            |
| Renomear colunas           | `df.rename(columns={...})`             |
| Padronizar nomes           | `df.columns = df.columns.str.lower()`  |
| Converter tipo de dado     | `pd.to_numeric()` ou `pd.to_datetime()`|
| Filtrar linhas             | `df[condição]`                          |
| Ordenar                    | `df.sort_values(by="coluna")`         |
| Remover duplicatas         | `df.drop_duplicates()`                 |

## 🧩 Tarefa para Casa
Utilize o arquivo `financeiro.csv`:
1. Corrija o nome da coluna `mês` para `mes`.
2. Preencha valores ausentes com 0.
3. Crie a coluna `resultado` = receita - despesa.
4. Crie a coluna `situacao`, onde:
   - “lucro” se `resultado > 0`
   - “prejuízo” se `resultado < 0`
   - “equilíbrio” se `resultado == 0`
5. Exiba o total de meses com lucro, prejuízo e equilíbrio.

## 🧠 Complemento – Aprofundamento prático com `pandas`

### 🔍 Acessando e manipulando dados com `.loc` e `.iloc`

In [None]:
# Selecionar a primeira linha inteira
print(df.loc[0])

# Selecionar todas as vendas de Notebook
print(df.loc[df["produto"] == "Notebook"])

# Alterar o produto da primeira linha para 'Notebook'
df.loc[0, "produto"] = "Notebook"

In [None]:
# Selecionar a primeira linha (por posição)
print(df.iloc[0])

# Selecionar valor da linha 0 e coluna 2
print(df.iloc[0, 2])

# Selecionar as 5 primeiras linhas e 2 primeiras colunas
print(df.iloc[:5, :2])



### 🛠️ Usando `.apply()` para aplicar funções em colunas

In [None]:
# Criar nova coluna com classificação do valor_total

def classificar(valor):
    if valor >= 20000:
        return "alta"
    elif valor >= 10000:
        return "média"
    else:
        return "baixa"

# Antes de aplicar, preencher valores ausentes com 0 para evitar erro
valor_total_sem_nan = df["valor_total"].fillna(0)
df["categoria"] = valor_total_sem_nan.apply(classificar)
df[["valor_total", "categoria"]].head()

### 📊 Usando `.value_counts()` para contagens

In [None]:
# Quantidade de vendas por produto
print(df["produto"].value_counts())

# Se tiver a coluna 'situacao', mostrar total de cada tipo
if "situacao" in df.columns:
    print(df["situacao"].value_counts())