# Metodologia e Ferramental

## Modelagem Relacional

A **modelagem relacional** é a forma mais tradicional de organizar dados em bancos de dados.  
Nela, as informações são armazenadas em **tabelas**, compostas por **linhas (registros)** e **colunas (atributos)**.

Cada tabela representa uma entidade do mundo real, como *Cliente*, *Produto* ou *Pedido*.  
Essas tabelas se relacionam entre si por meio de **chaves**:

- **Chave Primária (Primary Key)**: identifica de forma única cada registro da tabela  
- **Chave Estrangeira (Foreign Key)**: cria o vínculo entre tabelas diferentes  

Esse tipo de modelagem é muito usado em **sistemas transacionais**, como sistemas de cadastro, vendas, controle de estoque e aplicações web, pois garante **organização, integridade e consistência dos dados**.

No contexto deste projeto, os dados foram inicialmente modelados de forma relacional em planilhas (Google Sheets), simulando tabelas de um banco de dados, e posteriormente exportados para arquivos CSV.

---

## Modelagem Dimensional

A **modelagem dimensional** é uma forma de organizar os dados com foco em **análise e tomada de decisão**, muito utilizada em projetos de **Business Intelligence (BI)**.

Diferente da modelagem relacional, aqui os dados são organizados em dois tipos principais de tabelas:

- **Tabela Fato**: contém os dados numéricos que queremos analisar (ex: vendas, quantidade, valores)
- **Tabelas Dimensão**: armazenam informações descritivas que ajudam a entender os dados (ex: cliente, produto, tempo)

Esse modelo facilita responder perguntas como:
- Quanto vendemos?
- Em qual período?
- Para qual cliente?
- Qual produto teve melhor desempenho?

Neste notebook, vamos construir uma **tabela fato** a partir de dados vindos de diferentes tabelas (CSVs), utilizando operações de **join**, simulando um processo real de consolidação de dados para BI.

---

## Projeto de BI

Um **projeto de Business Intelligence (BI)** tem como objetivo transformar dados brutos em **informações úteis para análise e tomada de decisão**.

De forma simplificada, um projeto de BI segue estas etapas:

1. **Coleta dos dados**  
   Os dados podem vir de bancos de dados, planilhas, arquivos CSV, sistemas ou APIs.

2. **Tratamento e consolidação**  
   Os dados são limpos, organizados e integrados (joins), formando tabelas analíticas.

3. **Modelagem dos dados**  
   Aplicação da modelagem dimensional, com fatos e dimensões.

4. **Análise e visualização**  
   Os dados consolidados podem ser usados em relatórios, dashboards e indicadores.

Este notebook representa principalmente as etapas **2 e 3**, mostrando como os dados saem de arquivos CSV e são transformados em uma estrutura adequada para análise.

---

## Python para Engenharia de Dados

O **Python** é uma das linguagens mais utilizadas atualmente em **engenharia de dados**, análise de dados e ciência de dados, devido à sua sintaxe simples e grande quantidade de bibliotecas.

Neste projeto, utilizamos o Python como ferramenta para:
- Ler arquivos CSV
- Integrar dados de diferentes fontes
- Aplicar regras de negócio
- Criar a tabela fato

### Pandas

A principal biblioteca utilizada será o **pandas**, que permite trabalhar com dados em formato de tabela por meio de estruturas chamadas **DataFrames**.

Com o pandas é possível:
- Ler arquivos CSV (`read_csv`)
- Visualizar dados em formato tabular
- Realizar filtros e transformações
- Executar operações de **join** entre tabelas
- Criar novas colunas e métricas

O pandas funciona de forma semelhante a uma planilha, porém com muito mais poder e automação, sendo amplamente utilizado em projetos reais de dados.



## Codificação

### Acesso aos dados brutos

Em relação aos dados Brutos, dentro de um fluxo de engenharia de dados, poderiamos utilizar as mais diversas fontes de Dados como por exemplo:

- Planilhas
- arquivos csv
- APIs 
- Banco de Dados
- Data Lake
- Vídeos
- Imagens

Nessa célula estou fazendo a importação de bibliotecas Python. Destaco a biblioteca **pandas** por ser amplamente utilizada no mercado de engenharia de dados.

In [74]:
import pandas as pd
from pathlib import Path

Aqui estou manipulando os diretórios do Sistema Operacional.

In [75]:
# Use paths relativos para evitar problemas com backslashes em strings
base = Path('.')

raw_path = base / 'raw_data.csv'
capabilities_path = base / 'avaliacao - questoes_capabilities.csv'

Aqui estou criando variáveis que contém uma estrutura de dados chamado **dataframe**. São estruturas de dados que parecem planilhas de Excel/Google Sheets, contem a estrutura linhas x colunas com títulos que descrevem o conteúdo de cada coluna.

In [79]:

# Leitura dos dataframes
raw_df = pd.read_csv(raw_path)
cap_df = pd.read_csv(capabilities_path, encoding='utf-8')

Aqui estou exibindo as primeiras linhas do DataFrame resultante da leitura dos arquivos CSV

In [80]:

# Mostrar as primeiras linhas de cada um
print('raw_data.csv head:')
display(raw_df.head())
print('dimensões: ', raw_df.shape)
print('\navaliação-questoes_capabilities.csv head:')
display(cap_df.head())
print('dimensões: ', cap_df.shape)

raw_data.csv head:


Unnamed: 0,avaliacao,aluno,questao,resposta,comentarios_LLM,score,problema_principal
0,Diagnostica,D000,Q01,"Seria um grande avanço, visto que a escola nao...",A resposta reconhece o uso de Java em sistemas...,1,resposta_superficial
1,Diagnostica,D000,Q02,"A situação ""boa"" varia do cenario, ja que cada...",A resposta é genérica e não descreve situações...,1,resposta_superficial
2,Diagnostica,D000,Q03,"Seria importante por seu facil aprendizado, po...",Reconhece a importância do JavaScript no naveg...,1,resposta_superficial
3,Diagnostica,D000,Q04,Já programei em projetos pessoais,Indica experiência prática direta com programa...,3,sem_problema_relevante
4,Diagnostica,D000,Q05,Já utilizei em atividades da escola,"Demonstra contato prévio com banco de dados, m...",2,resposta_superficial


dimensões:  (475, 7)

avaliação-questoes_capabilities.csv head:


Unnamed: 0,questao,capability,descricao
0,Q01,POO5,Capacidade de abstração
1,Q01,POO7,Comunicação técnica
2,Q02,POO1,Lógica de programação
3,Q02,POO7,Comunicação técnica
4,Q03,POO6,Evolução e adaptação de soluções


dimensões:  (26, 3)


Alguns dados precisam ser tratados, nesse caso estou fazendo a conversão de Score para FLOAT (numero quebrado)

In [81]:
raw_df.groupby('questao')['aluno'].nunique().sort_values(ascending=False)


questao
Q01    25
Q02    25
Q03    25
Q04    25
Q05    25
Q06    25
Q07    25
Q08    25
Q09    25
Q10    25
Q11    25
Q12    25
Q13    25
Q14    25
Q15    25
Q16    25
Q17    25
Q18    25
Q19    25
Name: aluno, dtype: int64

In [82]:
raw_df['score'] = pd.to_numeric(raw_df['score'], errors='raise')

### Transformação e enriquecimento de Dados

Nesta etapa aplicamos regras de negócio para que seja possível limpar, tratar e enriquecer os dados. Normalmente, nesta etapa aplicamos conceitos de modelagem dimensional para reduzir ou aumentar os grãos dos dados.



Nesta etapa, vou criar um novo dataframe onde relacionamos os dois outros (tipo JOIN de SQL)

In [83]:
# Realizando o join entre os dataframes de respostas e capacidades
# A junção é feita com base na coluna 'questao_id', que existe em ambos os dataframes
join_resposta_capability_df = raw_df.merge(
    cap_df,
    on='questao',
    how='inner'
)

# Visualizando o resultado do join
display(join_resposta_capability_df.head())
join_resposta_capability_df.shape

Unnamed: 0,avaliacao,aluno,questao,resposta,comentarios_LLM,score,problema_principal,capability,descricao
0,Diagnostica,D000,Q01,"Seria um grande avanço, visto que a escola nao...",A resposta reconhece o uso de Java em sistemas...,1,resposta_superficial,POO5,Capacidade de abstração
1,Diagnostica,D000,Q01,"Seria um grande avanço, visto que a escola nao...",A resposta reconhece o uso de Java em sistemas...,1,resposta_superficial,POO7,Comunicação técnica
2,Diagnostica,D000,Q02,"A situação ""boa"" varia do cenario, ja que cada...",A resposta é genérica e não descreve situações...,1,resposta_superficial,POO1,Lógica de programação
3,Diagnostica,D000,Q02,"A situação ""boa"" varia do cenario, ja que cada...",A resposta é genérica e não descreve situações...,1,resposta_superficial,POO7,Comunicação técnica
4,Diagnostica,D000,Q03,"Seria importante por seu facil aprendizado, po...",Reconhece a importância do JavaScript no naveg...,1,resposta_superficial,POO6,Evolução e adaptação de soluções


(650, 9)

In [84]:
join_resposta_capability_df.shape

(650, 9)

Agora que fiz o JOIN, vou filtrar somente as colunas que eu preciso, aproveitando também para calcular a média de score por capabilities

In [85]:
# Criando dataframe final com média de score por aluno e capability

df_final = (
    join_resposta_capability_df
        .groupby(
            ['aluno', 'capability', 'descricao'],
            as_index=False
        )['score']
        .mean()
        .rename(columns={'score': 'media_score'})
)

# Visualizando o resultado final
display(df_final.head())

Unnamed: 0,aluno,capability,descricao,media_score
0,D000,BD1,Reconhecimento de conceitos de banco de dados,1.5
1,D000,BD2,Diferenciação entre SGBD e SQL,3.0
2,D000,BD3,Entendimento funcional da linguagem SQL,2.0
3,D000,BD4,"Diferenciação entre DDL, DML e consultas",0.0
4,D000,BD5,Pensamento relacional,1.0


In [86]:
df_final.shape

(400, 4)

In [88]:
df_final['media_score'] = (
    df_final['media_score']
        .map(lambda x: f'{x:.2f}'.replace('.', ','))
)

In [89]:
df_final['media_score'] = df_final['media_score'].astype(str)


Por fim, vou criar um novo arquivo csv para importar no Power BI 

In [90]:
# Salvando o dataframe final em CSV
df_final.to_csv(
    'avaliacao_capability_por_aluno.csv',
    index=False,
    encoding='utf-8'
)

print('Arquivo avalicao_capability_por_aluno.csv salvo com sucesso!')

Arquivo avalicao_capability_por_aluno.csv salvo com sucesso!
