<a href="https://colab.research.google.com/github/TainaDr/pipeline_titanic/blob/main/etl_carga.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pipeline ETL com Titanic - Aula 04
## Trabalhando com Bancos de Dados

### Objetivos da Aula:
- Aprender o que é ETL (Extração, Transformação e Carga)
- Trabalhar com dados do Titanic
- Carregar dados em diferentes bancos de dados
- Comparar SQLite, MySQL e PostgreSQL

### O que vamos fazer:
1. Extrair dados da titanic
2. Limpar e organizar os dados
3. Salvar em bancos de dados
4. Fazer consultas simples


## Atividade 1: Instalação das Bibliotecas

Primeiro, vamos instalar as bibliotecas que vamos usar:


In [None]:
# Instalação das bibliotecas
%pip install pandas sqlalchemy pymysql psycopg2-binary


## Atividade 2: Importar as Bibliotecas

Agora vamos importar as bibliotecas que vamos usar no projeto:


In [None]:
import pandas as pd
import sqlite3
from datetime import datetime

print("Bibliotecas importadas com sucesso!")


## Atividade 3: EXTRAÇÃO - Baixar os Dados

Vamos baixar os dados do Titanic da internet:


In [None]:
# URL dos dados do Titanic
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'

# Carregar os dados


# Mostrar as primeiras linhas



## Atividade 4: Conhecendo os Dados

Vamos entender melhor os dados que temos:


In [None]:
# Informações básicas sobre os dados - utilize info() e describe()



## Atividade 5: Verificar Dados Faltantes

Vamos ver quais dados estão faltando:


In [None]:
# Verificar dados faltantes


# Calcular percentual relativo



## Atividade 6: TRANSFORMAÇÃO - Limpeza dos Dados

Agora vamos limpar e organizar os dados:


In [None]:
# Fazer uma cópia dos dados para trabalhar


# 1. Preencher idades faltantes com a média


# 2. Preencher embarque faltante com o mais comum


# 3. Preencher tarifa faltante com a média


# 4. Criar coluna para indicar se tem cabine



## Atividade 7: Criar Informações Extras

Vamos criar algumas informações extras úteis:


In [None]:
# Criar informações extras

# 1. Tamanho da família


# 2. Faixa etária


# 3. Categoria de tarifa


# 4. Adicionar data de processamento



## Atividade 8: Preparar Dados para o Banco

Vamos organizar os dados em tabelas menores:


In [None]:
# Dividir os dados em tabelas menores

# Tabela 1: Informações básicas dos passageiros


# Tabela 2: Informações de bilhete


# Tabela 3: Informações de família


# Tabela 4: Informações de cabine


print("Tabelas criadas:")
print(f"- Passageiros: {len(passageiros)} linhas")
print(f"- Bilhetes: {len(bilhetes)} linhas")
print(f"- Família: {len(familia)} linhas")
print(f"- Cabines: {len(cabines)} linhas")

## Atividade 9: CARGA - Salvar no SQLite (Banco Simples)

Vamos salvar os dados no SQLite, que é um banco de dados simples:


In [None]:
# Salvar no SQLite
print("Salvando dados no SQLite...")

# Conectar ao banco (será criado automaticamente)


# Salvar cada tabela


# Verificar se funcionou



## Atividade 10: Fazer Consultas no SQLite

Vamos fazer algumas consultas simples no banco:


In [None]:
# Fazer consultas no SQLite

# Consulta 1: Quantos sobreviveram?


# Consulta 2: Sobrevivência por sexo


# Consulta 3: Média de idade por classe



## Atividade 11: Configurar MySQL (Opcional)

Se você tiver o MySQL instalado, pode configurar aqui. Caso contrário, pule para a próxima atividade:


In [None]:
# Configuração do MySQL (OPCIONAL)
# Só execute se tiver MySQL instalado e configurado

# ALTERE ESTAS CONFIGURAÇÕES:
mysql_config = {
    'host': 'localhost',
    'user': 'root',
    'password': 'SUA_SENHA_AQUI',  # Coloque sua senha
    'database': 'titanic'
}

print("Configuração do MySQL definida")
print("ATENÇÃO: Altere a senha acima antes de usar!")
print("Se não tiver MySQL, pode pular esta parte")


## Atividade 12: Salvar no MySQL (Opcional)

Execute apenas se configurou o MySQL na atividade anterior:


In [None]:
# Salvar no MySQL (OPCIONAL)
# Descomente as linhas abaixo se quiser usar MySQL

"""
from sqlalchemy import create_engine

# Criar conexão
engine = create_engine(f"mysql+pymysql://{mysql_config['user']}:{mysql_config['password']}@{mysql_config['host']}")

# Criar banco de dados
with engine.connect() as conn:
    conn.execute(f"CREATE DATABASE IF NOT EXISTS {mysql_config['database']}")

# Conectar ao banco específico
engine = create_engine(f"mysql+pymysql://{mysql_config['user']}:{mysql_config['password']}@{mysql_config['host']}/{mysql_config['database']}")

# Salvar dados
passageiros.to_sql('passageiros', engine, if_exists='replace', index=False)
bilhetes.to_sql('bilhetes', engine, if_exists='replace', index=False)
familia.to_sql('familia', engine, if_exists='replace', index=False)
cabines.to_sql('cabines', engine, if_exists='replace', index=False)

print("Dados salvos no MySQL!")
"""

print("Código do MySQL está comentado")
print("Descomente se quiser usar o MySQL")


## Atividade 13: Comparar os Bancos de Dados

Vamos entender as diferenças entre os bancos:


In [None]:
# Comparação entre bancos de dados
print("=== COMPARAÇÃO DE BANCOS DE DADOS ===\n")

bancos = {
    'Característica': ['Tipo', 'Instalação', 'Uso', 'Complexidade', 'Melhor para'],
    'SQLite': ['Arquivo local', 'Não precisa', 'Simples', 'Baixa', 'Aprender/Testar'],
    'MySQL': ['Servidor', 'Precisa instalar', 'Web/Internet', 'Média', 'Sites/Aplicativos'],
    'PostgreSQL': ['Servidor', 'Precisa instalar', 'Empresas', 'Alta', 'Sistemas grandes']
}

comparacao = pd.DataFrame(bancos)
print(comparacao.to_string(index=False))

print("\n=== RESUMO ===")
print("- SQLite: Mais fácil para começar")
print("- MySQL: Muito usado em sites")
print("- PostgreSQL: Mais recursos avançados")
print("\nTodos fazem a mesma coisa básica: guardar dados!")
