# Estruturas de Dados em Python para Ciência de Dados

Bem-vindo a este notebook interativo sobre **estruturas de dados** em Python, projetado para cientistas de dados iniciantes e intermediários. Aqui, você aprenderá a manipular **listas**, **tuplas**, **dicionários** e **sets**, que são fundamentais para organizar, processar e analisar dados em projetos de ciência de dados.

## Objetivos
- Dominar o uso de **listas** para armazenar e manipular dados sequenciais.
- Entender **dicionários** para mapear e organizar dados estruturados.
- Explorar **tuplas** para dados imutáveis e fixos.
- Utilizar **sets** para operações com elementos únicos e remoção de duplicatas.
- Aplicar visualizações com **matplotlib** para interpretar dados.
- Resolver exercícios práticos para consolidar o aprendizado.

## Pré-requisitos
- Conhecimento básico de Python (variáveis, loops, condicionais).
- Familiaridade com Jupyter Notebooks.
- Bibliotecas necessárias: `matplotlib` (para visualizações).

Vamos trabalhar com um dataset fictício de idades e profissões para contextualizar os exemplos!

## 1. Listas
Listas são coleções **ordenadas** e **mutáveis**, perfeitas para armazenar sequências de dados, como idades, preços ou resultados de experimentos. Elas suportam operações como adição, remoção e ordenação de elementos.

### Características
- Definidas com colchetes `[]`.
- Podem conter elementos de diferentes tipos (números, strings, etc.).
- Métodos úteis: `append()`, `remove()`, `sort()`, `pop()`.

Vamos criar uma lista de idades e realizar operações comuns.

In [None]:
# Exemplo 1: Manipulando uma lista de idades
idades = [22, 35, 28, 19, 22, 40]
print("Lista de idades:", idades)

# Adicionando uma nova idade
idades.append(45)
print("Após adicionar 45:", idades)

# Removendo um elemento
idades.remove(22)  # Remove a primeira ocorrência de 22
print("Após remover um 22:", idades)

# Calculando a média
media_idades = sum(idades) / len(idades)
print(f"Média das idades: {media_idades:.2f}")

# Ordenando a lista
idades.sort()
print("Idades ordenadas:", idades)

### Visualizando Listas
Vamos usar `matplotlib` para criar um histograma das idades, facilitando a visualização da distribuição.

In [None]:
import matplotlib.pyplot as plt

# Histograma das idades
plt.figure(figsize=(8, 6))
plt.hist(idades, bins=5, edgecolor='black', color='skyblue')
plt.title('Distribuição das Idades')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.grid(True, alpha=0.3)


## 2. Dicionários
Dicionários são estruturas **mutáveis** que mapeiam **chaves** a **valores**. São ideais para organizar dados estruturados, como contagens, configurações ou registros.

### Características
- Definidos com chaves `{}`.
- Chaves devem ser únicas e imutáveis (strings, números, tuplas).
- Valores podem ser de qualquer tipo.

Vamos criar um dicionário para contar idades por faixa etária e outro para mapear profissões.

In [None]:
# Exemplo 1: Contagem por faixa etária
faixas_etarias = {
    "18-25": 0,
    "26-35": 0,
    "36+": 0
}

for idade in idades:
    if 18 <= idade <= 25:
        faixas_etarias["18-25"] += 1
    elif 26 <= idade <= 35:
        faixas_etarias["26-35"] += 1
    else:
        faixas_etarias["36+"] += 1

print("Contagem por faixa etária:", faixas_etarias)

# Exemplo 2: Mapeando profissões
pessoas = {
    "Alice": {"idade": 22, "profissao": "Engenheira"},
    "Bob": {"idade": 35, "profissao": "Analista de Dados"},
    "Clara": {"idade": 28, "profissao": "Cientista"}
}

print("Profissão de Bob:", pessoas["Bob"]["profissao"])

# Adicionando uma nova pessoa
pessoas["David"] = {"idade": 40, "profissao": "Gerente"}
print("Após adicionar David:", pessoas)

### Visualizando Dicionários
Vamos criar um gráfico de barras para visualizar a contagem por faixa etária.

In [None]:
# Gráfico de barras
plt.figure(figsize=(8, 6))
plt.bar(faixas_etarias.keys(), faixas_etarias.values(), color='lightgreen', edgecolor='black')
plt.title('Contagem por Faixa Etária')
plt.xlabel('Faixa Etária')
plt.ylabel('Número de Pessoas')
plt.grid(True, alpha=0.3)


## 3. Tuplas
Tuplas são coleções **ordenadas** e **imutáveis**, úteis para dados que não devem ser alterados, como coordenadas, categorias ou configurações fixas.

### Características
- Definidas com parênteses `()`.
- Suportam indexação e fatiamento, como listas.
- Imutáveis: não podem ser modificadas após criadas.

Vamos usar tuplas para categorias etárias e coordenadas.

In [None]:
# Exemplo 1: Tupla de categorias
categorias = ("Jovem", "Adulto", "Idoso")
print("Categorias:", categorias)
print("Primeira categoria:", categorias[0])

# Exemplo 2: Tupla para coordenadas
localizacao = (40.7128, -74.0060)  # Latitude e longitude de Nova York
print("Coordenadas de Nova York:", localizacao)

# Tentativa de modificação (vai gerar erro)
try:
    categorias[0] = "Adolescente"
except TypeError as e:
    print("Erro ao tentar modificar a tupla:", e)

## 4. Sets
Sets são coleções **não ordenadas** de elementos **únicos**, perfeitas para remover duplicatas ou realizar operações de conjuntos (união, interseção).

### Características
- Definidos com chaves `{}` ou `set()`.
- Não permitem duplicatas.
- Suportam operações como `union()`, `intersection()`, `difference()`.

Vamos remover duplicatas e realizar operações com sets.

In [None]:
# Exemplo 1: Removendo duplicatas
idades_duplicadas = [22, 35, 22, 19, 35, 40]
idades_unicas = set(idades_duplicadas)
print("Idades únicas:", idades_unicas)

# Exemplo 2: Operações com sets
grupo1 = {"Alice", "Bob", "Clara"}
grupo2 = {"Bob", "David", "Emma"}

print("União (membros de ambos os grupos):", grupo1.union(grupo2))
print("Interseção (membros em comum):", grupo1.intersection(grupo2))
print("Diferença (membros apenas no grupo1):", grupo1.difference(grupo2))

## 5. Exercícios Práticos
Abaixo estão alguns exercícios para você praticar o uso das estruturas de dados. Tente resolvê-los antes de verificar as soluções.

### Exercício 1: Filtragem de Idades
Crie uma lista com as idades maiores que 30 a partir da lista `idades`.

### Exercício 2: Contagem de Profissões
Usando o dicionário `pessoas`, crie um novo dicionário que conte quantas pessoas têm cada profissão.

### Exercício 3: Conjuntos de Profissões
Crie dois sets com profissões de diferentes departamentos e encontre as profissões que aparecem em ambos.

In [None]:
# Solução Exercício 1
idades_acima_30 = [idade for idade in idades if idade > 30]
print("Idades acima de 30:", idades_acima_30)

# Solução Exercício 2
contagem_profissoes = {}
for pessoa in pessoas.values():
    profissao = pessoa["profissao"]
    contagem_profissoes[profissao] = contagem_profissoes.get(profissao, 0) + 1
print("Contagem de profissões:", contagem_profissoes)

# Solução Exercício 3
dept1 = {"Engenheira", "Analista de Dados", "Designer"}
dept2 = {"Analista de Dados", "Gerente", "Cientista"}
profissoes_comuns = dept1.intersection(dept2)
print("Profissões em ambos os departamentos:", profissoes_comuns)

## 6. Conclusão
Neste notebook, você aprendeu a usar **listas**, **dicionários**, **tuplas** e **sets** em Python, aplicando-os em exemplos práticos de ciência de dados. Além disso, exploramos visualizações com `matplotlib` e resolvemos exercícios para consolidar o aprendizado.

### Próximos Passos
- Experimente usar essas estruturas com datasets reais (ex.: CSV, JSON).
- Aprofunde-se em bibliotecas como `pandas` para manipulação avançada de dados.
- Explore operações mais complexas, como list comprehensions e nested dictionaries.

Continue praticando e manipulando dados para se tornar um cientista de dados mais confiante!