# Limpeza de Dados com Pandas
O **Pandas** é uma biblioteca poderosa para manipulação e análise de dados. Sua estrutura principal, o *DataFrame*, permite trabalhar com dados tabulares de forma intuitiva, similar a uma planilha do Excel ou tabela SQL.

**Objetivos:**
- Criar e inspecionar um DataFrame.
- Identificar e tratar dados faltantes.
- Filtrar informações relevantes.

In [None]:
# Importando a biblioteca
import pandas as pd
import numpy as np # Usaremos numpy para criar dados nulos (NaN)

In [None]:
# 1. Criando um DataFrame com dados fictícios
dados = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Diana', 'Eduardo'],
    'Idade': [23, 35, np.nan, 29, 42],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'São Paulo', None, 'Curitiba'],
    'Salario': [5000, 7200, 4800, 6100, np.nan]
}

df = pd.DataFrame(dados)

# Exibindo as primeiras linhas
print("Visualizando o DataFrame:")
display(df) # Ou apenas 'df' se for a última linha da célula

In [None]:
# 2. Inspecionando os dados
# O método .info() ajuda a ver tipos de dados e valores nulos
print("Informações do DataFrame:")
df.info()

In [None]:
# 3. Tratando Dados Faltantes
# Verificando onde existem valores nulos (True indica valor faltante)
print("\nValores nulos por coluna:\n", df.isnull().sum())

# Preenchendo a idade faltante com a média das idades
media_idade = df['Idade'].mean()
df['Idade'] = df['Idade'].fillna(media_idade)

# Removendo linhas onde a Cidade é nula
df = df.dropna(subset=['Cidade'])

print("\nDataFrame após limpeza:")
display(df)

In [None]:
# 4. Filtragem Básica
# Selecionando apenas pessoas com salário maior que 6000 ou idade maior que 40
filtro = (df['Salario'] > 6000) | (df['Idade'] > 40)
resultado = df[filtro]

print("Resultado do filtro:")
display(resultado)