# Análise Exploratória de Dados (EDA)

A Análise Exploratória de Dados é um passo fundamental em qualquer projeto de ciência de dados ou IA. Neste notebook, aprenderemos técnicas para explorar e entender nossos dados.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuração de visualização
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')

## 1. Carregando e Inspecionando Dados

In [None]:
# Criando um dataset de exemplo
np.random.seed(42)
n_samples = 500

dados = pd.DataFrame({
    'idade': np.random.randint(18, 70, n_samples),
    'salario': np.random.randint(2000, 15000, n_samples),
    'anos_experiencia': np.random.randint(0, 30, n_samples),
    'satisfacao': np.random.randint(1, 11, n_samples),
    'departamento': np.random.choice(['TI', 'Vendas', 'RH', 'Marketing'], n_samples)
})

# Primeiras linhas
print("Primeiras linhas do dataset:")
dados.head()

In [None]:
# Informações gerais
print("Informações do dataset:")
dados.info()

In [None]:
# Estatísticas descritivas
print("Estatísticas descritivas:")
dados.describe()

## 2. Análise de Distribuições

In [None]:
# Histogramas das variáveis numéricas
fig, axes = plt.subplots(2, 2, figsize=(12, 8))
fig.suptitle('Distribuição das Variáveis Numéricas')

dados['idade'].hist(ax=axes[0, 0], bins=20, edgecolor='black')
axes[0, 0].set_title('Distribuição de Idade')

dados['salario'].hist(ax=axes[0, 1], bins=20, edgecolor='black')
axes[0, 1].set_title('Distribuição de Salário')

dados['anos_experiencia'].hist(ax=axes[1, 0], bins=20, edgecolor='black')
axes[1, 0].set_title('Distribuição de Anos de Experiência')

dados['satisfacao'].hist(ax=axes[1, 1], bins=10, edgecolor='black')
axes[1, 1].set_title('Distribuição de Satisfação')

plt.tight_layout()
plt.show()

## 3. Análise de Correlação

In [None]:
# Matriz de correlação
correlacao = dados[['idade', 'salario', 'anos_experiencia', 'satisfacao']].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlacao, annot=True, cmap='coolwarm', center=0)
plt.title('Matriz de Correlação')
plt.show()

## 4. Análise por Categorias

In [None]:
# Contagem por departamento
plt.figure(figsize=(10, 6))
dados['departamento'].value_counts().plot(kind='bar', edgecolor='black')
plt.title('Distribuição por Departamento')
plt.xlabel('Departamento')
plt.ylabel('Contagem')
plt.xticks(rotation=45)
plt.show()

In [None]:
# Salário médio por departamento
salario_por_dept = dados.groupby('departamento')['salario'].mean().sort_values(ascending=False)

plt.figure(figsize=(10, 6))
salario_por_dept.plot(kind='bar', edgecolor='black')
plt.title('Salário Médio por Departamento')
plt.xlabel('Departamento')
plt.ylabel('Salário Médio')
plt.xticks(rotation=45)
plt.show()

## 5. Detecção de Outliers

In [None]:
# Box plots para identificar outliers
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

dados.boxplot(column='idade', ax=axes[0])
axes[0].set_title('Outliers - Idade')

dados.boxplot(column='salario', ax=axes[1])
axes[1].set_title('Outliers - Salário')

dados.boxplot(column='anos_experiencia', ax=axes[2])
axes[2].set_title('Outliers - Anos de Experiência')

plt.tight_layout()
plt.show()

## Exercícios

1. Identifique valores ausentes no dataset
2. Crie um scatter plot relacionando salário e anos de experiência
3. Calcule a mediana de satisfação por departamento
4. Identifique quantos outliers existem na variável salário usando o método IQR

In [None]:
# Seu código aqui
