#  Arquiteto de Dados da TechSoft Solutions

**Disciplina:** Análise Preditiva  
**Professora:** Vanessa de Oliveira Gil  

---

## 📋BRIEFING DA MISSÃO

Você foi contratado(a) como **Arquiteto(a) de Dados Senior** da TechSoft Solutions. A empresa cresceu 300% e precisa reestruturar sua arquitetura de dados.

### Sistema XP
- ⭐ Bronze (50 XP): Desafio básico
- ⭐⭐ Prata (100 XP): Desafio intermediário  
- ⭐⭐⭐ Ouro (150 XP): Desafio avançado
- 🏆 Meta: 500+ XP = Arquiteto Expert

In [2]:
# Sistema de pontuação XP
xp_tracker = {
    'fase_1_investigacao': 0,
    'fase_2_sql': 0,
    'fase_3_nosql': 0,
    'fase_4_arquitetura': 0,
    'total_xp': 0
}

def atualizar_xp(fase, pontos):
    xp_tracker[fase] += pontos
    xp_tracker['total_xp'] = sum([v for k,v in xp_tracker.items() if k != 'total_xp'])
    print(f"✅ +{pontos} XP | Total: {xp_tracker['total_xp']} XP")

    total = xp_tracker['total_xp']
    if total >= 500: print("🏆 ARQUITETO EXPERT!")
    elif total >= 400: print("🥇 ARQUITETO SENIOR!")
    elif total >= 300: print("🥈 ARQUITETO PLENO!")
    elif total >= 200: print("🥉 ARQUITETO JUNIOR!")

print("Sistema XP inicializado! ")

Sistema XP inicializado! 


---

#  FASE 1: INVESTIGAÇÃO

## 1.1 Recuperação dos Datasets Legados ⭐

**Execute a célula abaixo para recuperar os datasets da TechSoft:**

In [3]:
import pandas as pd
import numpy as np
import json
import xml.etree.ElementTree as ET
from datetime import datetime, timedelta

print("Recuperando datasets legados da TechSoft...")

# 1. VENDAS_LEGACY.CSV - Dados estruturados
np.random.seed(42)
vendas_data = {
    'mes': list(range(1, 25)),
    'vendas_valor': np.random.normal(350000, 80000, 24).astype(int),
    'num_clientes': np.random.poisson(60, 24),
    'chamados_suporte': np.random.poisson(95, 24),
    'satisfacao_cliente': np.round(np.random.normal(4.5, 0.3, 24), 1),
    'categoria_produto': np.random.choice(['Software', 'Consultoria', 'Suporte'], 24, p=[0.6, 0.3, 0.1]),
    'canal_venda': np.random.choice(['Online', 'Presencial'], 24, p=[0.7, 0.3]),
    'regiao': np.random.choice(['Norte', 'Sul', 'Leste', 'Oeste', 'Centro'], 24)
}

df_vendas = pd.DataFrame(vendas_data)
df_vendas['vendas_valor'] = np.abs(df_vendas['vendas_valor'])
df_vendas['satisfacao_cliente'] = np.clip(df_vendas['satisfacao_cliente'], 1.0, 5.0)
df_vendas.to_csv('vendas_legacy.csv', index=False)
print("✅ vendas_legacy.csv criado")

# 2. PRODUTOS_IMAGENS_METADATA.JSON
produtos_metadata = []
for i in range(1, 16):
    produto = {
        "produto_id": f"TECH{i:03d}",
        "nome": f"TechSoft Pro {i}",
        "categoria": np.random.choice(['Software', 'Consultoria', 'Suporte']),
        "imagem": {
            "filename": f"produto_{i:03d}.jpg",
            "metadata": {
                "width": int(np.random.choice([1920, 1280, 800])), # Convert to int
                "height": int(np.random.choice([1080, 720, 600])), # Convert to int
                "format": "JPEG",
                "size_bytes": int(np.random.randint(500000, 3000000)) # Convert to int
            },
            "features_ml": {
                "color_histogram": {
                    "red": np.random.randint(0, 255, 16).tolist(),
                    "green": np.random.randint(0, 255, 16).tolist(),
                    "blue": np.random.randint(0, 255, 16).tolist()
                },
                "brightness": round(np.random.uniform(0.2, 0.9), 2),
                "contrast": round(np.random.uniform(0.3, 0.8), 2)
            }
        },
        "created_at": (datetime.now() - timedelta(days=np.random.randint(1, 365))).isoformat()
    }
    produtos_metadata.append(produto)

with open('produtos_imagens_metadata.json', 'w', encoding='utf-8') as f:
    json.dump(produtos_metadata, f, indent=2, ensure_ascii=False)
print("✅ produtos_imagens_metadata.json criado")

# 3. SENSORES_AUDIO.LOG
log_lines = []
base_time = datetime.now() - timedelta(days=7)
for i in range(100):
    timestamp = (base_time + timedelta(minutes=i*15)).strftime("%Y-%m-%d %H:%M:%S")
    sensor_id = f"SENSOR_{np.random.randint(1, 8):03d}"
    volume_db = round(np.random.uniform(-25, 5), 1)
    location = np.random.choice(['sala_01', 'sala_02', 'corredor', 'laboratorio'])
    mfcc_values = [round(x, 2) for x in np.random.uniform(-50, 50, 13)]
    log_line = f"[{timestamp}] {sensor_id} | LOCATION={location} | VOLUME_DB={volume_db} | MFCC={mfcc_values}"
    log_lines.append(log_line)

with open('sensores_audio.log', 'w', encoding='utf-8') as f:
    f.write("\n".join(log_lines))
print("✅ sensores_audio.log criado")

# 4. CHAMADOS_SUPORTE.XML
root = ET.Element("chamados_suporte")
for i in range(1, 31):
    chamado = ET.SubElement(root, "chamado")
    chamado.set("id", str(i))
    ET.SubElement(chamado, "cliente").text = f"Cliente_{i:03d}"
    ET.SubElement(chamado, "produto_id").text = f"TECH{np.random.randint(1,16):03d}"
    ET.SubElement(chamado, "categoria").text = np.random.choice(['Bug', 'Feature', 'Suporte'])
    ET.SubElement(chamado, "prioridade").text = np.random.choice(['baixa', 'media', 'alta'])
    ET.SubElement(chamado, "satisfacao").text = str(np.random.randint(1, 6))

tree = ET.ElementTree(root)
tree.write('chamados_suporte.xml', encoding='utf-8', xml_declaration=True)
print("✅ chamados_supote.xml criado")

print("\nTODOS OS DATASETS RECUPERADOS!")
# atualizar_xp('fase_1_investigacao', 100)

Recuperando datasets legados da TechSoft...
✅ vendas_legacy.csv criado
✅ produtos_imagens_metadata.json criado
✅ sensores_audio.log criado
✅ chamados_supote.xml criado

TODOS OS DATASETS RECUPERADOS!


###  DESAFIO 1.2: Análise dos Dados Gerados (50 XP)

In [4]:
# Análise dos dados criados
print("ANÁLISE DOS DATASETS GERADOS")
print("="*50)

# CSV
print("\n1️⃣ VENDAS_LEGACY.CSV:")
df_vendas = pd.read_csv('vendas_legacy.csv')
print(f"   Shape: {df_vendas.shape}")
print(f"   Vendas médias: R$ {df_vendas['vendas_valor'].mean():,.0f}")
print("   Categorias:", df_vendas['categoria_produto'].value_counts().to_dict())

# JSON
print("\n2️⃣ PRODUTOS_IMAGENS_METADATA.JSON:")
with open('produtos_imagens_metadata.json', 'r') as f:
    produtos = json.load(f)
print(f"   Total produtos: {len(produtos)}")
print(f"   Brilho médio: {np.mean([p['imagem']['features_ml']['brightness'] for p in produtos]):.2f}")

# LOG
print("\n3️⃣ SENSORES_AUDIO.LOG:")
with open('sensores_audio.log', 'r') as f:
    logs = f.readlines()
print(f"   Total entradas: {len(logs)}")
print("   Exemplo:", logs[0].strip())

# XML
print("\n4️⃣ CHAMADOS_SUPORTE.XML:")
tree = ET.parse('chamados_suporte.xml')
root = tree.getroot()
print(f"   Total chamados: {len(root.findall('chamado'))}")

# atualizar_xp('fase_1_investigacao', 50)

ANÁLISE DOS DATASETS GERADOS

1️⃣ VENDAS_LEGACY.CSV:
   Shape: (24, 8)
   Vendas médias: R$ 338,188
   Categorias: {'Consultoria': 12, 'Software': 10, 'Suporte': 2}

2️⃣ PRODUTOS_IMAGENS_METADATA.JSON:
   Total produtos: 15
   Brilho médio: 0.52

3️⃣ SENSORES_AUDIO.LOG:
   Total entradas: 100
   Exemplo: [2025-08-11 19:33:34] SENSOR_002 | LOCATION=corredor | VOLUME_DB=-15.3 | MFCC=[np.float64(-30.05), np.float64(23.62), np.float64(2.98), np.float64(20.72), np.float64(26.78), np.float64(-41.27), np.float64(0.61), np.float64(43.2), np.float64(-17.94), np.float64(9.39), np.float64(-13.08), np.float64(-4.57), np.float64(4.86)]

4️⃣ CHAMADOS_SUPORTE.XML:
   Total chamados: 30


In [None]:
#  DESAFIO 1.3: Classificação dos Tipos de Dados (50 XP)

classificacao_dados = {
    'vendas_legacy.csv': {
        'tipo_principal': 'Misto (Numérico + Categórico)',
        'subtipo': 'Estruturado',
        'bd_recomendado': 'SQL',
        'justificativa': 'Dados tabulares com schema fixo, relacionamentos entre vendas-regiões-produtos, necessita de JOINs e agregações complexas para análise de crescimento e correlações.'
    },
    'produtos_imagens_metadata.json': {
        'tipo_principal': 'Misto (Numérico + Categórico)',
        'subtipo': 'Semi-estruturado',
        'bd_recomendado': 'NoSQL',
        'justificativa': 'Estrutura JSON aninhada com arrays de features ML, metadados flexíveis de imagem, ideal para agregar por características visuais e machine learning.'
    },
    'sensores_audio.log': {
        'tipo_principal': 'Numérico',
        'subtipo': 'Não-estruturado',
        'bd_recomendado': 'NoSQL',
        'justificativa': 'Dados de time-series com formato de log, MFCC arrays variáveis, necessita indexação temporal e agregações por sensor/localização para análise de padrões sonoros.'
    },
    'chamados_suporte.xml': {
        'tipo_principal': 'Categórico',
        'subtipo': 'Semi-estruturado',
        'bd_recomendado': 'SQL',
        'justificativa': 'Estrutura hierárquica mas fixa, relaciona com produtos e clientes, necessita de análises de satisfação, prioridades e categorização de problemas via queries relacionais.'
    }
}

print("COMPLETE A CLASSIFICAÇÃO ACIMA")
# print("Depois execute: atualizar_xp('fase_1_investigacao', 50)")

# CONFIGURE O AMBIENTE: Provisione os bancos de dados.

---

# FASE 2: DESIGN SQL

## 2.1 Schema PostgreSQL

In [None]:
#  DESAFIO 2.1: Criação do Schema SQL (100 XP)

schema_sql = """
-- SCHEMA TECHSOFT ANALYTICS
CREATE TABLE regioes (
    id SERIAL PRIMARY KEY,
    nome VARCHAR(50) UNIQUE NOT NULL,
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

CREATE TABLE produtos (
    id SERIAL PRIMARY KEY,
    produto_id VARCHAR(20) UNIQUE NOT NULL,
    nome VARCHAR(100) NOT NULL,
    categoria VARCHAR(50) NOT NULL,
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

CREATE TABLE vendas_mensais (
    id SERIAL PRIMARY KEY,
    mes INTEGER NOT NULL,
    vendas_valor DECIMAL(12,2) NOT NULL,
    num_clientes INTEGER NOT NULL,
    chamados_suporte INTEGER DEFAULT 0,
    satisfacao_cliente DECIMAL(3,2) CHECK (satisfacao_cliente BETWEEN 1.0 AND 5.0),
    categoria_produto VARCHAR(50) NOT NULL,
    canal_venda VARCHAR(20) NOT NULL,
    regiao_id INTEGER REFERENCES regioes(id),
    valor_por_cliente DECIMAL(10,2) GENERATED ALWAYS AS (vendas_valor / NULLIF(num_clientes, 0)) STORED,
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

-- Índices
CREATE INDEX idx_vendas_mes ON vendas_mensais(mes);
CREATE INDEX idx_vendas_categoria ON vendas_mensais(categoria_produto);

-- View para análise
CREATE VIEW view_vendas_detalhadas AS
SELECT v.*, r.nome as regiao_nome
FROM vendas_mensais v
LEFT JOIN regioes r ON v.regiao_id = r.id;
"""

print(" Schema SQL completo criado!")
print("Componentes: 3 tabelas, constraints, índices, view")
atualizar_xp('fase_2_sql', 100)

In [None]:
# 🎯 DESAFIO 2.2: Consultas SQL Avançadas (100 XP)

consultas_sql = """
-- 1. Crescimento mensal (Window Functions)
SELECT
    mes,
    vendas_valor,
    LAG(vendas_valor) OVER (ORDER BY mes) as anterior,
    ROUND(100.0 * (vendas_valor - LAG(vendas_valor) OVER (ORDER BY mes)) /
          LAG(vendas_valor) OVER (ORDER BY mes), 2) as crescimento_pct
FROM vendas_mensais ORDER BY mes;

-- 2. Ranking por satisfação
SELECT
    categoria_produto,
    AVG(satisfacao_cliente) as satisfacao_media,
    RANK() OVER (ORDER BY AVG(satisfacao_cliente) DESC) as ranking
FROM vendas_mensais
GROUP BY categoria_produto;

-- 3. Detecção de outliers (Z-score)
WITH stats AS (
    SELECT AVG(vendas_valor) as media, STDDEV(vendas_valor) as desvio
    FROM vendas_mensais
)
SELECT mes, vendas_valor,
       ABS((vendas_valor - stats.media) / stats.desvio) as z_score
FROM vendas_mensais, stats
WHERE ABS((vendas_valor - stats.media) / stats.desvio) > 2.0;

-- 4. Média móvel (Time Series)
SELECT mes, vendas_valor,
       AVG(vendas_valor) OVER (ORDER BY mes ROWS 2 PRECEDING) as media_movel_3
FROM vendas_mensais ORDER BY mes;
"""

print("Consultas SQL avançadas criadas!")
print("Incluem: Window Functions, Ranking, Outliers, Time Series")
# atualizar_xp('fase_2_sql', 100)

---

# FASE 3: DESIGN NoSQL

## 3.1 MongoDB - Documentos e Agregações

In [None]:
# DESAFIO 3.1: Modelagem MongoDB (100 XP)

# Modelo de documento para produtos/imagens
modelo_produto = {
    "_id": "ObjectId(...)",
    "produto_id": "TECH001",
    "categoria": "Software",
    "imagem": {
        "filename": "produto_001.jpg",
        "features_ml": {
            "brightness": 0.75,
            "contrast": 0.60,
            "color_histogram": {"red": [], "green": [], "blue": []}
        }
    },
    "analytics": {
        "brightness_score": "calculado",
        "color_dominance": "processado"
    }
}

# Modelo para sensores de áudio
modelo_sensor = {
    "_id": "ObjectId(...)",
    "sensor_id": "SENSOR_001",
    "timestamp": "ISODate",
    "location": "sala_01",
    "audio_features": {
        "volume_db": -15.5,
        "mfcc_coefficients": [],
        "mfcc_stats": {"mean": 0, "max": 0, "min": 0}
    }
}

print("📄 Modelos de documento criados!")
print("Estruturas: Produtos+imagens, Sensores+áudio")
atualizar_xp('fase_3_nosql', 100)

In [None]:
#  DESAFIO 3.2: Pipelines de Agregação (100 XP)

pipelines_mongodb = """
# Pipeline 1: Análise de cores por categoria
[
  {"$group": {
    "_id": "$categoria",
    "brightness_medio": {"$avg": "$imagem.features_ml.brightness"},
    "total_produtos": {"$sum": 1}
  }},
  {"$sort": {"brightness_medio": -1}}
]

# Pipeline 2: Sensores por localização e hora
[
  {"$group": {
    "_id": {
      "location": "$location",
      "hora": {"$hour": "$timestamp"}
    },
    "volume_medio": {"$avg": "$audio_features.volume_db"},
    "total_registros": {"$sum": 1}
  }},
  {"$match": {"total_registros": {"$gte": 5}}},
  {"$sort": {"volume_medio": -1}}
]

# Pipeline 3: Correlação features visuais
[
  {"$group": {
    "_id": "$categoria",
    "brightness_avg": {"$avg": "$analytics.brightness_score"},
    "contrast_avg": {"$avg": "$analytics.contrast_score"}
  }},
  {"$addFields": {
    "atratividade_score": {
      "$add": [
        {"$multiply": ["$brightness_avg", 0.6]},
        {"$multiply": ["$contrast_avg", 0.4]}
      ]
    }
  }}
]
"""

print(" Pipelines de agregação MongoDB criados!")
print("Incluem: Group by, Match, AddFields, Sort")
atualizar_xp('fase_3_nosql', 100)

---

# FASE 4: ARQUITETURA FINAL

## 4.1 Componentes e Integração

In [8]:
#  DESAFIO 4.1: Arquitetura TechSoft (150 XP)

componentes_arquitetura = {
    "Data Sources": ["ERP", "CMS", "Sensores IoT", "CRM"],
    "Ingestion": ["Kafka", "Airflow", "API Gateway"],
    "Storage": ["PostgreSQL", "MongoDB", "MinIO", "Redis"],
    "Processing": ["Spark", "Pandas", "TensorFlow"],
    "Access": ["FastAPI", "GraphQL", "Dashboards"],
    "Infrastructure": ["Docker", "Kubernetes", "Cloud"]
}

print("COMPONENTES DE ARQUITETURA:")
for camada, techs in componentes_arquitetura.items():
    print(f"  {camada}: {', '.join(techs)}")

# Demo de integração SQL + NoSQL
demo_integracao = """
import pandas as pd
from pymongo import MongoClient
from sqlalchemy import create_engine

# Conectar aos bancos
engine = create_engine('postgresql://user:password@postgres:5432/techsoft_db')
mongo = MongoClient('mongodb://user:password@mongo:27017/')
db = mongo.techsoft_analytics

# Extrair vendas (SQL)
df_vendas = pd.read_sql('SELECT * FROM view_vendas_detalhadas', engine)

# Extrair features visuais (NoSQL)
pipeline = [{"$group": {"_id": "$categoria", "brightness_avg": {"$avg": "$analytics.brightness_score"}}}]
features = list(db.produtos_imagens.aggregate(pipeline))
df_features = pd.DataFrame(features)

# Integrar datasets
df_integrado = df_vendas.merge(df_features, left_on='categoria_produto', right_on='_id')

# Análise híbrida: correlação vendas × características visuais
correlacao = np.corrcoef(df_integrado['vendas_valor'], df_integrado['brightness_avg'])[0,1]
print(f"Correlação Vendas × Brilho: {correlacao:.3f}")
"""

print("\n Demo de integração criada!")
print("Combina: SQL (vendas) + NoSQL (features) + Análise Python")
atualizar_xp('fase_4_arquitetura', 150)

COMPONENTES DE ARQUITETURA:
  Data Sources: ERP, CMS, Sensores IoT, CRM
  Ingestion: Kafka, Airflow, API Gateway
  Storage: PostgreSQL, MongoDB, MinIO, Redis
  Processing: Spark, Pandas, TensorFlow
  Access: FastAPI, GraphQL, Dashboards
  Infrastructure: Docker, Kubernetes, Cloud

 Demo de integração criada!
Combina: SQL (vendas) + NoSQL (features) + Análise Python
✅ +150 XP | Total: 150 XP


---

# AVALIAÇÃO FINAL

## Badge e Reflexão

In [9]:
def badge_final():
    total_xp = xp_tracker['total_xp']

    if total_xp >= 700: badge = "🏆 ARQUITETO EXPERT"
    elif total_xp >= 500: badge = "🥇 ARQUITETO SENIOR"
    elif total_xp >= 350: badge = "🥈 ARQUITETO PLENO"
    elif total_xp >= 200: badge = "🥉 ARQUITETO JUNIOR"
    else: badge = "📚 EM DESENVOLVIMENTO"

    print(f"\n🎖️ BADGE CONQUISTADO: {badge}")
    print(f"📊 XP Total: {total_xp}")

    return badge

# Execute para ver seu badge
badge_conquistado = badge_final()


🎖️ BADGE CONQUISTADO: 📚 EM DESENVOLVIMENTO
📊 XP Total: 150


In [10]:
#  REFLEXÃO FINAL: Agora você precisa fazer o report para o CTO da empresa

reflexao_cto = """
1. MAIOR PREOCUPAÇÃO TÉCNICA:
[Complete: Qual seria sua principal preocupação ao implementar esta arquitetura?
Exemplos: escalabilidade, segurança, custos, complexidade...]

2. IMPACTO NO NEGÓCIO:
[Complete: Como isso afetaria as operações da empresa?
Considere: riscos, tempo, equipe...]

3. ESTRATÉGIA DE MITIGAÇÃO:
[Complete: Como endereçaria essa preocupação?
Inclua: soluções técnicas, processos, governança...]
"""

print("COMPLETE SUA REFLEXÃO PARA O CTO:")
print(reflexao_cto)

# Após completar:
atualizar_xp('fase_4_arquitetura', 100)

COMPLETE SUA REFLEXÃO PARA O CTO:

1. MAIOR PREOCUPAÇÃO TÉCNICA:
[Complete: Qual seria sua principal preocupação ao implementar esta arquitetura?
Exemplos: escalabilidade, segurança, custos, complexidade...]

2. IMPACTO NO NEGÓCIO:
[Complete: Como isso afetaria as operações da empresa?
Considere: riscos, tempo, equipe...]

3. ESTRATÉGIA DE MITIGAÇÃO:
[Complete: Como endereçaria essa preocupação?
Inclua: soluções técnicas, processos, governança...]

✅ +100 XP | Total: 250 XP
🥉 ARQUITETO JUNIOR!


---

## 🔮 CONEXÃO COM A PRÓXIMA AULA

**Aula 4: Data Mining e Extração de Conhecimento**

Utilizaremos os dados da arquitetura projetada hoje:
- **vendas_legacy.csv** → Clustering de clientes  
- **produtos_imagens_metadata.json** → Análise de padrões visuais
- **Dados integrados** → Regras de associação



### 📤 ENTREGA: Salve este notebook e envie pelo TEAMS até o final da aula.
