# üìò Aula 6 ‚Äì Limpeza e Organiza√ß√£o de Dados com `pandas`
**Objetivos da Aula**:
- Identificar e tratar valores ausentes.
- Renomear colunas e padronizar nomes.
- Alterar o tipo de dados (casting).
- Filtrar e ordenar registros.
- Corrigir registros com erros ou duplica√ß√µes.

## üß† Parte 1 ‚Äì Por que limpar os dados?
Na pr√°tica, os dados podem ter:
- Erros de digita√ß√£o
- Valores ausentes
- Formatos inconsistentes
- Colunas mal nomeadas

## üßπ Parte 2 ‚Äì Lidando com valores ausentes

In [None]:
import pandas as pd

df = pd.read_csv("vendas_ausente.csv", sep=";", decimal=",")
df.isnull()
df.isnull().sum()

In [None]:
df_sem_nulos = df.dropna()

In [None]:
df["quantidade"].fillna(0, inplace=True)
df["produto"].fillna("desconhecido", inplace=True)

## üè∑Ô∏è Parte 3 ‚Äì Renomeando colunas

In [None]:
df.rename(columns={"valor_total": "receita_total"}, inplace=True)

In [None]:
df.columns = df.columns.str.lower().str.replace(" ", "_").str.normalize("NFKD").str.encode("ascii", errors="ignore").str.decode("utf-8")

## üîÑ Parte 4 ‚Äì Alterar tipos de dados

In [None]:
df.dtypes

In [None]:
df["quantidade"] = pd.to_numeric(df["quantidade"])
df["data_venda"] = pd.to_datetime(df["data_venda"], errors='coerce')

## üóÇÔ∏è Parte 5 ‚Äì Filtrar e ordenar dados

In [None]:
df[(df["produto"] == "Notebook") & (df["quantidade"] > 5)]

In [None]:
df.sort_values(by="valor_total", ascending=False)

## ‚ôªÔ∏è Parte 6 ‚Äì Remover duplica√ß√µes

In [None]:
df.drop_duplicates(inplace=True)

## üìù Parte 7 ‚Äì Exerc√≠cios
### üîπ Exerc√≠cio 1
Carregue o arquivo `empregados.csv` e:
- Corrija os nomes das colunas
- Preencha sal√°rios ausentes com 0
- Ordene do maior para o menor sal√°rio

### üîπ Exerc√≠cio 2
Com o arquivo `estoque.csv`:
- Adicione coluna `valor_total` = quantidade √ó pre√ßo
- Remova produtos com quantidade igual a 0
- Calcule o valor total do estoque

### üîπ Exerc√≠cio 3
Com o arquivo `financeiro.csv`:
- Renomeie `m√™s` para `mes`
- Crie coluna `resultado` (receita - despesa)
- Calcule o saldo acumulado

## üîÅ Parte 8 ‚Äì Revis√£o da Aula
| Tarefa                     | Comando                                |
|----------------------------|-----------------------------------------|
| Ver valores ausentes       | `df.isnull().sum()`                     |
| Remover ausentes           | `df.dropna()`                           |
| Preencher ausentes         | `df["coluna"].fillna(valor)`            |
| Renomear colunas           | `df.rename(columns={...})`             |
| Padronizar nomes           | `df.columns = df.columns.str.lower()`  |
| Converter tipo de dado     | `pd.to_numeric()` ou `pd.to_datetime()`|
| Filtrar linhas             | `df[condi√ß√£o]`                          |
| Ordenar                    | `df.sort_values(by="coluna")`         |
| Remover duplicatas         | `df.drop_duplicates()`                 |

## üß© Tarefa para Casa
Utilize o arquivo `financeiro.csv`:
1. Corrija o nome da coluna `m√™s` para `mes`.
2. Preencha valores ausentes com 0.
3. Crie a coluna `resultado` = receita - despesa.
4. Crie a coluna `situacao`, onde:
   - ‚Äúlucro‚Äù se `resultado > 0`
   - ‚Äúpreju√≠zo‚Äù se `resultado < 0`
   - ‚Äúequil√≠brio‚Äù se `resultado == 0`
5. Exiba o total de meses com lucro, preju√≠zo e equil√≠brio.

## üß† Complemento ‚Äì Aprofundamento pr√°tico com `pandas`

### üîç Acessando e manipulando dados com `.loc` e `.iloc`

In [None]:
# Selecionar a primeira linha inteira
print(df.loc[0])

# Selecionar todas as vendas de Notebook
print(df.loc[df["produto"] == "Notebook"])

# Alterar o produto da primeira linha para 'Notebook'
df.loc[0, "produto"] = "Notebook"

In [None]:
# Selecionar a primeira linha (por posi√ß√£o)
print(df.iloc[0])

# Selecionar valor da linha 0 e coluna 2
print(df.iloc[0, 2])

# Selecionar as 5 primeiras linhas e 2 primeiras colunas
print(df.iloc[:5, :2])



### üõ†Ô∏è Usando `.apply()` para aplicar fun√ß√µes em colunas

In [None]:
# Criar nova coluna com classifica√ß√£o do valor_total

def classificar(valor):
    if valor >= 20000:
        return "alta"
    elif valor >= 10000:
        return "m√©dia"
    else:
        return "baixa"

# Antes de aplicar, preencher valores ausentes com 0 para evitar erro
valor_total_sem_nan = df["valor_total"].fillna(0)
df["categoria"] = valor_total_sem_nan.apply(classificar)
df[["valor_total", "categoria"]].head()

### üìä Usando `.value_counts()` para contagens

In [None]:
# Quantidade de vendas por produto
print(df["produto"].value_counts())

# Se tiver a coluna 'situacao', mostrar total de cada tipo
if "situacao" in df.columns:
    print(df["situacao"].value_counts())