## 1️⃣ Análise Exploratória de Dados (EDA)

### 💡 Conceito
**EDA (Exploratory Data Analysis)** é o processo de explorar e resumir dados para extrair informações úteis. É usado por cientistas de dados para analisar e investigar conjuntos de dados e resumir suas principais características.


In [1]:
import pandas as pd
import numpy as np

In [7]:
# Exemplo simples de EDA
notas = [85, 90, 78, 92, 88, 76, 94, 82, 89, 91]
notas_array = np.array(notas) #transforma lista de em array

print(f"Dados das notas dos alunos: {notas}") #printa todas as notas
print(f"Média das notas: {notas_array.mean():.2f}") #média
print(f"Maior nota: {notas_array.max()}") #maior nota do conjunto de dados
print(f"Menor nota: {notas_array.min()}") #menor
print(f"Mediana das notas: {np.median(notas_array):.2f}") #mediana

Dados das notas dos alunos: [85, 90, 78, 92, 88, 76, 94, 82, 89, 91]
Média das notas: 86.50
Maior nota: 94
Menor nota: 76
Mediana das notas: 88.50


### 🏋️ Exercício 1
Complete o código abaixo para fazer uma EDA básica das vendas mensais:

In [2]:
vendas_mes = [1200, 1450, 1100, 1600, 1350, 1250, 1400]
vendas_array = np.array(vendas_mes)

# TODO: Calcule a média das vendas usando numpy
media_vendas = None  # Substitua por: vendas_array.mean()

# TODO: Encontre o mês com maior venda usando numpy
maior_venda = None   # Substitua por: vendas_array.max()

# TODO: Calcule a mediana usando numpy
mediana_vendas = None  # Substitua por: np.median(vendas_array)

print(f"Vendas mensais: {vendas_mes}")
print(f"Média de vendas: {vendas_array.mean()}")
print(f"Maior venda: {vendas_array.max()}")
print(f"Mediana de vendas: {np.median(vendas_array):.2f}")

Vendas mensais: [1200, 1450, 1100, 1600, 1350, 1250, 1400]
Média de vendas: 1335.7142857142858
Maior venda: 1600
Mediana de vendas: 1350.00


---

## 2️⃣ Tipos de Dados

### 💡 Conceito
Os dados vêm de diversas fontes: sensores, eventos, textos, imagens e vídeos. Existem diferentes tipos de dados estruturados:

- **Categóricos**: Conjunto específico de valores (cores, tipos)
- **Discretos**: Apenas valores inteiros (contagens)
- **Binários**: Apenas dois valores (0/1, True/False)
- **Contínuos**: Qualquer valor em um intervalo (altura, peso)
- **Ordinais**: Categóricos com ordem (avaliações 1-5)

In [3]:
# Dados Categóricos
cores = ["azul", "vermelho", "verde", "azul", "amarelo"]
print(f"Categóricos (cores): {cores}")

# Dados Discretos (contagens)
num_filhos = [0, 2, 1, 3, 0, 1, 2]
print(f"Discretos (número de filhos): {num_filhos}")

# Dados Binários
aprovado = [True, False, True, True, False]
print(f"Binários (aprovado/reprovado): {aprovado}")

# Dados Contínuos
alturas = [1.75, 1.68, 1.82, 1.70, 1.65]
print(f"Contínuos (alturas em metros): {alturas}")

# Dados Ordinais
avaliacoes = ["ruim", "bom", "excelente", "regular", "bom"]
print(f"Ordinais (avaliações): {avaliacoes}")

Categóricos (cores): ['azul', 'vermelho', 'verde', 'azul', 'amarelo']
Discretos (número de filhos): [0, 2, 1, 3, 0, 1, 2]
Binários (aprovado/reprovado): [True, False, True, True, False]
Contínuos (alturas em metros): [1.75, 1.68, 1.82, 1.7, 1.65]
Ordinais (avaliações): ['ruim', 'bom', 'excelente', 'regular', 'bom']


### 🏋️ Exercício 2
Classifique os tipos de dados abaixo:

In [4]:
dados_temperatura = [23.5, 25.1, 22.8, 26.3, 24.7]
dados_sexo = ["M", "F", "M", "F", "M"]
dados_estrelas = [1, 2, 3, 4, 5, 3, 4]
dados_possui_carro = [True, False, True, False, True]

print(f"a) Temperaturas são dados: {dados_temperatura} (contínuos)")
print(f"b) Sexo são dados: {dados_sexo} (categóricos)")  
print(f"c) Avaliação em estrelas são dados: {dados_estrelas} (ordinais)")
print(f"d) Possui carro são dados: {dados_possui_carro} (binários)")

a) Temperaturas são dados: [23.5, 25.1, 22.8, 26.3, 24.7] (contínuos)
b) Sexo são dados: ['M', 'F', 'M', 'F', 'M'] (categóricos)
c) Avaliação em estrelas são dados: [1, 2, 3, 4, 5, 3, 4] (ordinais)
d) Possui carro são dados: [True, False, True, False, True] (binários)


---

## 3️⃣ Dados Retangulares

### 💡 Conceito
**Dados retangulares** são organizados em tabelas (linhas e colunas), como planilhas Excel. No Python pandas, usamos **DataFrames**. 

- Cada linha = uma observação
- Cada coluna = uma variável

In [5]:
dados_estudantes = {
    'nome': ['Ana', 'João', 'Maria', 'Pedro', 'Carla'],
    'idade': [20, 22, 21, 23, 20],
    'nota': [8.5, 7.2, 9.1, 6.8, 8.9],
    'aprovado': [True, True, True, False, True]
}

tabela_estudantes = pd.DataFrame(dados_estudantes) #TRANFORMA O DATAFRAME EM TABELAS
print("📋 Exemplo de dados retangulares:")
tabela_estudantes

📋 Exemplo de dados retangulares:


Unnamed: 0,nome,idade,nota,aprovado
0,Ana,20,8.5,True
1,João,22,7.2,True
2,Maria,21,9.1,True
3,Pedro,23,6.8,False
4,Carla,20,8.9,True


In [9]:
print(f"\nForma dos dados: {tabela_estudantes.shape} (linhas, colunas)")
print(f"Colunas: {list(tabela_estudantes.columns)}")


Forma dos dados: (5, 4) (linhas, colunas)
Colunas: ['nome', 'idade', 'nota', 'aprovado']


### 🏋️ Exercício 3
Crie um DataFrame com dados de produtos:

In [25]:
# TODO: Complete o dicionário abaixo
# dados_produtos = {
#     'produto': ['Notebook', 'Mouse', 'Teclado', 'Monitor'],
#     'preco': [2500, 50, 150, 800],
#     'categoria': ['Eletrônico', 'acessórios', 'periféricos','Outros'],  # TODO: Adicione categorias como ['eletrônicos', 'acessórios', ...]
#     'em_estoque': ['True', 'False', 'True', 'False'],  # TODO: Adicione valores True/False
# }

dados_produtos = {
    'produto': ['Notebook', 'mouse', 'Teclado', 'Monitor'],
    'preco': [3000, 123, 147, 1240],
    'categoria': ['computadores', 'acessórios', 'periféricos', 'Ooutros'],
    'em_estoque': ['true', 'False', 'True','true'],
}

df_produtos = pd.DataFrame(dados_produtos)
df_produtos
# Descomente a linha abaixo após completar o dicionário
# df_produtos = pd.DataFrame(dados_produtos)
# df_produtos

Unnamed: 0,produto,preco,categoria,em_estoque
0,Notebook,3000,computadores,True
1,mouse,123,acessórios,False
2,Teclado,147,periféricos,True
3,Monitor,1240,Ooutros,True


---

## 4️⃣ Outros Tipos de Dados

### 💡 Conceito
Nem todo dado cabe em uma tabela! Existem outros tipos importantes:

- **Séries temporais**: dados medidos ao longo do tempo
- **Dados espaciais**: coordenadas geográficas, mapas
- **Redes (grafos)**: conexões e relacionamentos

In [None]:
# Exemplo de série temporal simples
datas = ['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04']
vendas_diarias = [100, 120, 90, 150]

print("📈 Série Temporal (vendas por dia):")
for data, venda in zip(datas, vendas_diarias):
    print(f"  {data}: {venda} unidades")

In [None]:
# Exemplo de dados espaciais
print("🗺️ Dados Espaciais (coordenadas de lojas):")
lojas_coordenadas = [
    ('Loja Centro', -1.4558, -48.4902),
    ('Loja Norte', -1.4200, -48.4500),
    ('Loja Sul', -1.4800, -48.5000)
]

for nome, lat, lon in lojas_coordenadas:
    print(f"  {nome}: ({lat}, {lon})")

### 🏋️ Exercício 4
Identifique o tipo de dado:

In [None]:
print("a) Temperaturas medidas de hora em hora: _________")
print("b) Localização GPS de delivery: _________")
print("c) Rede de amigos no Facebook: _________")
print("d) Tabela de funcionários com salários: _________")

---

## 5️⃣ Estimativas de Localização

### 💡 Conceito
Medidas que nos ajudam a entender onde os dados estão "centrados":

- **Média**: soma de todos os valores ÷ número de valores
- **Mediana**: valor do meio quando dados estão ordenados
- **Média aparada**: média excluindo valores extremos
- **Outlier**: valor muito diferente da maioria

In [29]:
from scipy.stats import trim_mean # Média Aparada

# Dados de exemplo: salários de funcionários
salarios = [3000, 3200, 2800, 3500, 2900, 3100, 15000, 3300]  # Note o outlier!
salarios_series = pd.Series(salarios)

print(f"💰 Salários: {salarios}")

# Calculando diferentes medidas usando pandas
print(f"Média: R$ {salarios_series.mean():.2f}")
print(f"Mediana: R$ {salarios_series.median():.2f}")

# Cálculo da média aparada removendo 20% dos valores (10% menores e 10% maiores)
media_aparada = trim_mean(salarios_series, proportiontocut=0.2)
print(f"Média Aparada: R$ {media_aparada:.2f}")

print(f"Salários ordenados: {sorted(salarios)}")

💰 Salários: [3000, 3200, 2800, 3500, 2900, 3100, 15000, 3300]
Média: R$ 4600.00
Mediana: R$ 3150.00
Média Aparada: R$ 3166.67
Salários ordenados: [2800, 2900, 3000, 3100, 3200, 3300, 3500, 15000]


In [30]:
# Identificando outlier usando pandas
print(f"🚨 Outlier detectado: R$ {salarios_series.max()} (muito diferente dos outros)")
print("A mediana é mais representativa que a média quando há outliers!")

🚨 Outlier detectado: R$ 15000 (muito diferente dos outros)
A mediana é mais representativa que a média quando há outliers!


### 🏋️ Exercício 5
Calcule as medidas para as idades:

In [None]:
idades = [25, 27, 23, 26, 24, 28, 45, 25, 26]  # Uma pessoa bem mais velha
idades_series = pd.Series(idades)

# TODO: Calcule a média usando pandas
media_idade = None  # idades_series.mean()

# TODO: Encontre a mediana usando pandas
mediana_idade = None  # idades_series.median()

# TODO: Identifique o outlier usando pandas
outlier_idade = None  # idades_series.max() ou idades_series.min()

# TODO: Calcule a média aparada
media_aparada = None  # trim_mean(idades_series, proportiontocut=0.2)

print(f"Idades: {idades}")
print(f"Média das idades: {media_idade}")
print(f"Mediana das idades: {mediana_idade}")
print(f"Média Aparada: {media_aparada}")
print(f"Possível outlier: {outlier_idade}")

## 6️⃣ Exercício Final - Prática Integrada

### 🎯 Desafio: Análise completa de dados de uma loja

Vamos aplicar todos os conceitos aprendidos!

In [None]:
# Dados da loja (misturando todos os conceitos)
dados_loja = {
    'produto': ['Smartphone', 'Fone', 'Carregador', 'Capa', 'Tablet'],
    'categoria': ['eletrônicos', 'acessórios', 'acessórios', 'acessórios', 'eletrônicos'],
    'preco': [800, 120, 45, 25, 600],
    'vendas_mes': [50, 200, 150, 300, 30],
    'avaliacao': [4, 5, 3, 4, 5],  # 1 a 5 estrelas
    'disponivel': [True, True, False, True, True]
}

print("🏪 DADOS DA LOJA:")
df_loja = pd.DataFrame(dados_loja)
df_loja

In [None]:
print(f"\n📊 Resumo estatístico dos dados:")
df_loja.describe()

### 📊 Exercício final:

In [None]:
# 1. Qual a média de preços dos produtos?
media_precos = None

# 2. Qual produto tem maior número de vendas?
idx_mais_vendido = None 
produto_mais_vendido = None

# 3. Quantos produtos estão disponíveis?
produtos_disponiveis = None

# 4. Qual a avaliação mediana dos produtos?
avaliacao_mediana = None

# 5. Calcule a média aparada dos preços
media_aparada_precos = None


print("Respostas:")
print(f"1. Média de preços: R$ {media_precos}")
print(f"2. Produto mais vendido: {produto_mais_vendido}")
print(f"3. Produtos disponíveis: {produtos_disponiveis}")
print(f"4. Avaliação mediana: {avaliacao_mediana}")
print(f"5. Média Aparada: R$ {media_aparada_precos}")

### 💡 Recapitulando o que aprendemos:
- ✅ **EDA**: Como explorar dados básicos
- ✅ **Tipos de dados**: Categóricos, discretos, contínuos, binários, ordinais
- ✅ **Dados retangulares**: DataFrames do pandas
- ✅ **Outros tipos**: Séries temporais, dados espaciais, redes
- ✅ **Estimativas**: Média, mediana, outliers