# Título do Projeto: Teste CSV  Surdos
## Subtítulo Técnico: MVP — Engenharia de Dados (Sprint 1)

### Índice do Notebook

1. **Planejamento e Objetivo**
2. **Coleta**
3. **Modelagem Conceitual**
4. **ETL (Extract, Transform, Load)**
5. **Análise dos Dados e Métricas**
6. **Governança, Linhagem e Ética**
7. **Autoavaliação**
8. **Reprodutibilidade e Informações Finais**

## 1) Planejamento e Objetivo

### 1.1 Objetivo
Este exercício tem como objetivo **praticar o fluxo de criação de um pipeline de dados** na plataforma Databricks, compreendendo as etapas de:
- definição do problema,
- identificação da fonte de dados,
- coleta inicial,
- preparação do ambiente para ETL simples.

Nesta etapa, ainda não estamos realizando análise — apenas garantindo que o fluxo inicial de planejamento esteja documentado e funcionando no notebook.

---

### 1.2 Problema de pesquisa
Problema exploratório: *Como funciona e como registrar evidências da etapa de ingestão e documentação de fontes para um MVP?*

Este treino serve para desenvolver conforto na plataforma, antes de aplicar o processo ao dataset oficial do trabalho final.

---

### 1.3 Perguntas de análise
Como inserir markdown no notebook?
Como estruturar os tópicos?
Como subir o csv?
Como rodar o sql nos blocos do notebook?
Como usar a ferramenta de visualização de informação do databricks?
Como exportar meu notebook em html?

---

### 1.4 Dataset selecionado
**Nome do arquivo:** atendimento-a-comunidade-surda-em-sala-de-aula.csv  
Fonte: Portal Brasileiro de Dados Abertos (dados.gov.br)  
Descrição: Dataset que apresenta informações sobre atendimentos realizados por intérpretes de Libras em cursos de graduação e pós-graduação.

---

### 1.5 Pipeline do projeto (fluxo conceitual)
- Documentar a seleção do dataset de treino  
- Registrar as informações básicas sobre a fonte  
- Descrever limites, premissas e critérios  
- Preparar o ambiente para carregar o CSV na etapa seguinte  

---

### 1.6 Escopo e Limitações

**Escopo deste MVP**
- Construir um pipeline simples de ingestão → transformação → análise.
- Utilizar exclusivamente SQL no Databricks.
- Documentar todas as etapas utilizando Markdown.
- Produzir ao menos uma tabela final tratada para análise.
- Gerar visualizações simples (no Databricks ou Power BI).

**Não fazem parte deste MVP (por decisão de escopo):**
- Construção de modelo estrela completo (DW).
- Uso de Python avançado ou bibliotecas externas.
- Automação de pipelines via Jobs ou Workflows.
- Integração contínua ou orquestração.

**Limitações observadas**
- O dataset selecionado inicialmente é pequeno, portanto a análise servirá como teste de fluxo.
- A ausência de variáveis mais ricas reduz a complexidade das perguntas exploratórias.
- Dados podem conter categorias heterogêneas ou campos vagos, exigindo padronização.

---

### 1.7 Premissas

- Todos os dados utilizados são **públicos** e não contêm informações pessoais sensíveis.
- O objetivo do MVP é **demonstrar um pipeline funcional**, não criar um Data Warehouse completo.
- A tabela bruta será **mantida sem alterações**, respeitando o princípio de preservação da fonte.
- Transformações aplicadas serão documentadas claramente no notebook.
- O modelo de dados final será uma **flat table**, suficiente para análises exploratórias.
- Limitações da Databricks Free  Edition (como storage reduzido e clusters compartilhados) serão consideradas.

## 2) Coleta

### 2.1 Listagem e Validação Inicial das Fontes (1ª Triagem) "levantamento bibliográfico" EDITAR

Antes da seleção do dataset final, foi realizada uma varredura no Portal Brasileiro de Dados Abertos (dados.gov.br) com o objetivo de identificar fontes compatíveis com a proposta da MVP. Para este MVP, a busca inicial pelos dados foi feita em portais oficiais de Dados Abertos, priorizando fontes governamentais confiáveis e com documentação mínima. Foram consultados:

As seguintes bases foram mapeadas e avaliadas:

- Sistema Nacional de Informações Culturais – SNIIC  
- IBRAM – Museus  
- Sistema de Informações e Indicadores Culturais – IBGE  
- Conjuntos relacionados à acessibilidade digital (volumes muito reduzidos)  
- Fundação Casa de Rui Barbosa – Acervo e Visitação (dados agregados, baixa granularidade)  
- Biblioteca Nacional – Obras Consultadas por Pesquisadores (2016–2024)
- Portal Brasileiro de Dados Abertos (dados.gov.br)
- Ministério da Educação (MEC)
- Ministério da Cultura (MinC)
- SNIIC – Sistema Nacional de Informações Culturais

**Resultado da 1ª triagem:**  
Diversas bases apresentaram limitações, como poucas linhas, ausência de variáveis suficientes para análise exploratória, ou temática inadequada para responder às perguntas definidas na etapa de planejamento.  
A partir dessa primeira triagem, foi identificado um dataset compatível com o objetivo experimental de treino, contendo informações sobre atendimentos à comunidade surda em sala de aula.
Assim, foram mantidas apenas as fontes com potencial real de análise para a 2ª triagem.

---

### 2.2 Critérios de Seleção das Fontes (2ª Triagem) EDITAR
Antes de iniciar a coleta, estabeleci critérios para escolha do dataset a ser utilizado no MVP. Os critérios foram definidos para garantir relevância temática, qualidade mínima dos dados e compatibilidade com o pipeline de análise proposto.
Após a validação inicial, os datasets remanescentes foram avaliados com critérios objetivos para definir quais realmente poderiam ser utilizados no MVP. Os critérios adotados na segunda triagem foram:

- Disponibilidade em **formato CSV**  
- **Volume mínimo** de registros (preferencialmente acima de 200 linhas)  
- Existência de **variáveis relevantes** (textuais, numéricas, categóricas e/ou temporais)  
- **Documentação mínima** ou descrição oficial da base  
- Possibilidade de análise usando **SQL** exclusivamente  
- **Licença aberta**, permitindo uso acadêmico  
- **Ausência de dados pessoais sensíveis**  
- Estrutura adequada para construção de pipeline simples (ingestão → transformação → análise)

**Resultado da 2ª triagem:**  
Após aplicar esses critérios, duas bases permaneceram como finalistas:  
1) Conjuntos da Fundação Casa de Rui Barbosa (visitação e acervo)  
2) Obras Consultadas por Pesquisadores — Fundação Biblioteca Nacional (2016–2024)

A partir delas, foi realizada a escolha final do dataset.

---

### 2.3 Critérios da Seleção Final do Dataset EDITAR
Após a segunda triagem, foram aplicados critérios específicos para a escolha do dataset definitivo utilizado nesta MVP. A seleção final considerou:
A escolha da base de dados seguiu critérios objetivos documentados previamente:

- Maior **volume de registros**, permitindo análises estatísticas mínimas.  
- Presença de **variáveis textuais, categóricas, numéricas e temporais**, ampliando as possibilidades de exploração.  
- Estrutura mais próxima de uma **tabela relacional**, facilitando o uso das técnicas de SQL estudadas.  
- **Granularidade adequada** (registro por obra consultada, não dados agregados).  
- Dados disponíveis em **múltiplos anos**, possibilitando análises comparativas.  
- Relevância informacional e documental para o contexto cultural brasileiro.  
- Base amplamente utilizada e **bem documentada** no portal de dados abertos.  


**1. Alinhamento temático**  
Dados relacionados a acessibilidade, inclusão comunicacional ou atendimento especializado.

**2. Disponibilidade em formato aberto**  
Prioridade para CSV, por ser compatível com ingestão direta no Databricks.

**3. Documentação mínima**  
Descrição, origem e metadados básicos disponíveis na fonte.

**4. Granularidade suficiente**  
Presença de colunas relevantes para perguntas simples de análise.

**5. Licença de uso**  
Preferência por dados públicos/abertos sem restrição de reutilização.

**6. Tamanho viável para processamento na Free Edition**  
Bases pequenas ou médias (evitando datasets de milhões de linhas nesta primeira prática).

1. **Aderência ao objetivo**  
   O dataset deve permitir responder às perguntas definidas no objetivo do MVP.  
   (Ex.: temas de acessibilidade, inclusão, serviços culturais, educação ou atendimento ao público.)

2. **Disponibilidade em formato aberto**  
   Prioridade para datasets oferecidos em **CSV**, evitando formatos dependentes de software proprietário.

3. **Documentação mínima**  
   Datasets com descrição clara, dicionário de dados, fonte institucional identificada e metadados básicos.

4. **Atualização e período coberto**  
   Preferência por bases recentes ou com escopo temporal definido.

5. **Granularidade suficiente**  
   Deve possuir colunas relevantes para análise descritiva e geração de métricas simples.

6. **Licença de uso**  
   Dados públicos com autorização clara de utilização (dados abertos governamentais).

7. **Tamanho viável**  
   Arquivo com volume adequado para manipulação no Databricks Community Edition, evitando datasets gigantes.

**Dataset selecionado:**  
**Obras Consultadas por Pesquisadores — Fundação Biblioteca Nacional (2016–2024)**

A base apresenta diversidade de campos, bom volume e potencial claro para construção de um pipeline completo (ingestão, transformação e análise), justificando sua escolha para esta MVP.
Esses critérios foram utilizados para selecionar o dataset final, assegurando compatibilidade com o pipeline ETL e com o ambiente em nuvem adotado.

---

### 2.4 Descrição do Dataset Selecionado

**Dataset:** Obras Consultadas por Pesquisadores — Fundação Biblioteca Nacional (2016–2024)  
**Origem:** Fundação Biblioteca Nacional  
**Plataforma:** Portal Brasileiro de Dados Abertos (dados.gov.br)  
**Formato:** CSV  
**Licença:** Dados Abertos do Governo Federal  
**Tema:** Registros de obras consultadas presencialmente na sede da FBN.

**Descrição geral do conteúdo:**  
O dataset reúne informações sobre consultas presenciais realizadas por pesquisadores, contendo dados bibliográficos, características físicas e administrativas das obras, além de registros de datas e horários de atendimento.

As variáveis observadas incluem:

- Título da obra  
- Tipo  
- Material  
- Tombo  
- Ano de publicação  
- Volume  
- Edição/Número  
- Unidade de acervo  
- Estado físico  
- Data de início da consulta  
- Data de devolução  
- Tipo de circulação  
- Hora de início da consulta  
- Hora de devolução  

Esses campos permitem análises temporais, comparativas e categóricas sobre o comportamento de uso do acervo.

---

### 2.5 Justificativa da Escolha

O dataset “Obras Consultadas por Pesquisadores — Fundação Biblioteca Nacional (2016–2024)” foi selecionado por atender plenamente aos requisitos definidos na etapa de planejamento e às necessidades de um pipeline mínimo viável.

Os principais fatores para a escolha foram:

- **Volume adequado de registros**, permitindo análises significativas.  
- **Diversidade de variáveis** (textuais, categóricas, numéricas e temporais), possibilitando múltiplos tipos de consultas em SQL.
- **Estrutura granular**, com cada linha representando uma obra consultada, favorecendo agregações, contagens e análises de frequência.
- **Presença de campos de data e horário**, úteis para análises temporais básicas.  
- **Formato CSV**, facilitando ingestão direta no Databricks.  
- **Tema documental relevante**, compatível com práticas arquivísticas e de gestão de acervo.  
- **Qualidade estrutural**, com dados normalmente bem formatados, reduzindo risco de falhas na implantação do pipeline.

Essas características tornam a base adequada para demonstração de coleta, transformação e análise utilizando SQL em ambiente de nuvem.

---

### 2.6 Estrutura das Colunas Principais

A partir da inspeção inicial do arquivo CSV, é possível identificar as principais variáveis disponibilizadas no dataset. Esses campos descrevem características bibliográficas, administrativas e temporais das obras consultadas.

**Colunas principais presentes no dataset:**

- **Título** — Nome da obra consultada.  
- **Tipo** — Categoria geral da obra (ex.: periódico, manuscrito).  
- **Material** — Tipo de suporte ou natureza material do item.  
- **Tombo** — Identificador único no acervo.  
- **Ano** — Ano da publicação da obra.  
- **Volume** — Informação sobre o volume, quando aplicável.  
- **Edicao/Numero** — Número ou edição da obra.  
- **Unidade de acervo** — Unidade física responsável pela guarda do item.  
- **Estado físico** — Condição de conservação do material.  
- **Data de início da consulta** — Data em que o item foi disponibilizado ao pesquisador.  
- **Data de devolução** — Data em que o item foi devolvido no balcão.  
- **Tipo de circulação** — Natureza do empréstimo/consulta (presencial, balcão etc.).  
- **Hora de início da consulta** — Horário de início do atendimento.  
- **Hora de devolução** — Horário de finalização da consulta.

Esses campos oferecem material suficientemente variado para análises exploratórias, possibilitando contagens, agrupamentos, classificação por categorias, exames temporais e avaliação de padrões de consulta ao acervo.




## 3) Modelagem (Conceitual)

### 3.1 Modelo Escolhido: Flat Table

Para esta MVP, será adotado um modelo de dados baseado em **tabela única (flat table)**.  
Esse modelo consiste em consolidar todas as colunas relevantes do dataset original em uma única tabela tratada, padronizada e pronta para análise.

A escolha pelo modelo flat atende ao escopo de um pipeline mínimo viável, permitindo demonstrar todas as etapas essenciais (ingestão, transformação, carga e análise) sem a complexidade de um modelo multidimensional.

---

### 3.2 Justificativa para o Uso de Tabela Única

A decisão de utilizar um modelo flat é fundamentada em critérios práticos e conceituais:

- O objetivo da MVP é demonstrar um pipeline operacional e não uma arquitetura avançada de Data Warehouse.  
- O dataset possui estrutura já semi-normalizada e não apresenta granularidade suficiente para justificar múltiplas dimensões.  
- O modelo flat permite realizar todas as análises necessárias utilizando apenas SQL.  
- Reduz a complexidade e o tempo de implementação, mantendo o foco nos requisitos do projeto.  
- Facilita o entendimento e a reprodução do fluxo por qualquer avaliador.

O modelo flat, portanto, é **adequado**, **funcional** e ** totalmente alinhado ao escopo mínimo viável** exigido.

---

### 3.3 Capricho: Possível Evolução para um Mini Data Warehouse (DW)

Para fins didáticos e para demonstrar compreensão dos conceitos da disciplina de Data Warehouse, é possível descrever como este dataset poderia ser modelado em um esquema estrela (**sem implementação prática nesta MVP**).

Um modelo hipotético poderia incluir:

- **dim_material:** categorias de suporte (livro, manuscrito, periódico etc.)  
- **dim_unidade_acervo:** unidades de preservação da FBN  
- **dim_tempo:** datas normalizadas (ano, mês, dia) e horários  
- **dim_estado_fisico:** condição de preservação do material  
- **fato_consultas:** cada registro de consulta com medidas como contagem, duração estimada, etc.

Embora não seja implementado aqui, este apontamento evidencia capacidade de planejar evoluções arquiteturais e demonstra domínio conceitual da área.

---

### 3.4 Modelagem Conceitual Final da Tabela Tratada

A tabela tratada final — que será construída posteriormente via **CTAS (CREATE TABLE AS SELECT)** durante o ETL — terá a seguinte **estrutura conceitual**:

- **Colunas padronizadas** (nomes normalizados para formato SQL)  
- **Dados limpos e formatados** (categorias padronizadas, remoção de nulos/duplicados quando aplicável)  
- **Datas normalizadas** (padrão ISO yyyy-MM-dd sempre que possível)  
- **Horários tratados** (ou mantidos como texto padronizado, conforme qualidade do dataset)  
- **Criação de colunas derivadas simples**, como:  
  - `ano_consulta` (extraído da data de início)  
  - `tipo_material_normalizado`  
  - `duracao_estimada` (opcional, caso qualidade dos horários permita)  

A tabela final será materializada como:

tb_fbn_consultas_tratada
Essa tabela será a base de todas as consultas analíticas e visualizações produzidas nas etapas seguintes.




## 4) ETL (Extract, Transform, Load)
Esta etapa documenta o pipeline de ingestão, transformação e carga dos dados no ambiente Databricks.  
A execução prática será evidenciada por blocos SQL e screenshots, conforme orientado no enunciado da MVP.

### 4.1 Extract

**Ingestão do Arquivo CSV**<br>
A etapa de ingestão consiste em carregar o arquivo CSV bruto para o Databricks, criando automaticamente uma tabela inicial (tabela bruta) armazenada na camada *Raw*.

**Passos executados:**
1. Acessar: *Compute Workspace* → *Upload Data*  
2. Selecionar o arquivo CSV original obtido na etapa de coleta  
3. Confirmar criação automática da tabela  
4. Registrar o nome atribuído pelo Databricks à tabela bruta  

**Evidências previstas:**
- Screenshot do upload (“Upload Data”)  
- Screenshot do preview da tabela bruta 
- Nome final da tabela criada automaticamente

---

**Evidência — Ingestão (Upload e Criação da Tabela Bruta)**

**Descrição:**  
Criação da tabela `tb_surdo_bruta_utf8` a partir do CSV original carregado via interface do Databricks.

![Upload e Create Table](https://raw.githubusercontent.com/chascaldini/teste_mvp-databricks-acessibilidade/refs/heads/main/img/etapa-ingest-create-table.jpeg)

---

**Evidência — Inspeção Inicial da Tabela Bruta**

**Descrição:**  
Primeira consulta para visualizar a estrutura do arquivo carregado e conferir necessidade de limpeza.

![Inspeção inicial SELECT](https://raw.githubusercontent.com/chascaldini/teste_mvp-databricks-acessibilidade/refs/heads/main/img/etapa-ingest-inspecao-select.jpeg)

---

**Evidência — Sample Data (pré-transformação)**

**Descrição:**  
Visualização automática de amostras do Databricks (antes da etapa de tratamento). Usada apenas quando disponível.

![Sample Data](https://raw.githubusercontent.com/chascaldini/teste_mvp-databricks-acessibilidade/main/img/etapa-ingest-sample-data.jpeg)

---

**Comando de inspeção realizado após a ingestão:**

```sql
SELECT * FROM nome_da_tabela_bruta
LIMIT 20;



**Evidência — Sample Data (pré-transformação)**

**Descrição:**  
Visualização automática de amostras do Databricks (antes da etapa de tratamento). Usada apenas quando disponível.

![Sample Data](https://raw.githubusercontent.com/chascaldini/teste_mvp-databricks-acessibilidade/main/img/etapa-ingest-sample-data.jpeg)


In [0]:
SELECT * FROM tb_surdo_bruta_utf8 LIMIT 15;


Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Introdução à Educação de Surdos;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Psicologia e Educação de Surdos;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Psicologia e Educação de Surdos (optativa);Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Política e Gestão da Educação;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Teoria da Literatura;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Aquisição da Linguagem;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Metodologia Científica;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Produção de textos acadêmicos;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Teorias Linguísticas;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Estudos Surdos;Letras Libras;Campus Benfica;2025.1


In [0]:
DESCRIBE TABLE tb_surdo_bruta

col_name,data_type,comment
Nome da Base de Dados;Base espec�fica;Disciplina;Curso;Campus;Ano,string,


### 4.2 Transform

**Inspeção Inicial da Tabela Bruta**<br>
Antes de aplicar as transformações, realizei uma inspeção estrutural e visual da tabela `tb_surdo_bruta_utf8`, verificando:

- nomes e tipos das colunas (`DESCRIBE`)
- amostra de linhas para checar encoding, acentuação e consistência dos campos (`SELECT * LIMIT 20`)

Essas consultas orientam as decisões de limpeza e padronização que serão aplicadas nas próximas etapas.

**Limpeza e Padronização**

A transformação é realizada inteiramente via SQL, sem alterar a tabela bruta.  
As operações aplicadas incluem:

- limpeza de linhas inconsistentes ou incompletas  
- normalização de valores textuais  
- padronização de nomes de colunas  
- criação de colunas derivadas simples  
- tratamento básico de datas e horários  
- remoção de duplicidades (se necessário)

**Evidências previstas:**
- Blocos SQL contendo cada transformação aplicada  
- Explicação em Markdown (em linguagem natural) justificando cada operação  
- Exemplo de *before/after* quando aplicável


In [0]:
SELECT *
FROM tb_surdo_bruta_utf8 
LIMIT 50;


Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Introdução à Educação de Surdos;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Psicologia e Educação de Surdos;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Psicologia e Educação de Surdos (optativa);Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Política e Gestão da Educação;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Teoria da Literatura;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Aquisição da Linguagem;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Metodologia Científica;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Produção de textos acadêmicos;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Teorias Linguísticas;Letras Libras;Campus Benfica;2025.1
Atendimento à comunidade surda em sala;Disciplinas da graduação ;Estudos Surdos;Letras Libras;Campus Benfica;2025.1


In [0]:
DESCRIBE tb_surdo_bruta_utf8;


col_name,data_type,comment
Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano,string,


In [0]:
DESCRIBE tb_surdo_bruta_utf8 ;

col_name,data_type,comment
Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano,string,


In [0]:
SELECT
  split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[0] AS nome_base,
  split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[1] AS base_especifica,
  split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[2] AS disciplina,
  split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[3] AS curso,
  split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[4] AS campus,
  split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[5] AS ano
FROM tb_surdo_bruta_utf8 ;


nome_base,base_especifica,disciplina,curso,campus,ano
Atendimento à comunidade surda em sala,Disciplinas da graduação,Introdução à Educação de Surdos,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Psicologia e Educação de Surdos,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Psicologia e Educação de Surdos (optativa),Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Política e Gestão da Educação,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Teoria da Literatura,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Aquisição da Linguagem,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Metodologia Científica,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Produção de textos acadêmicos,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Teorias Linguísticas,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Estudos Surdos,Letras Libras,Campus Benfica,2025.1


In [0]:
SELECT COUNT(*) AS total,
       COUNT(DISTINCT *) AS distintos
FROM tb_surdo_bruta_utf8;


total,distintos
72,72


In [0]:
SELECT *
FROM tb_surdo_bruta_utf8
WHERE `Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano` IS NULL
   OR TRIM(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`) = "";


Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano


In [0]:
SELECT
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[0]) AS nome_base,
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[1]) AS base_especifica,
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[2]) AS disciplina,
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[3]) AS curso,
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[4]) AS campus,
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[5]) AS ano
FROM tb_surdo_bruta_utf8
LIMIT 20;


nome_base,base_especifica,disciplina,curso,campus,ano
Atendimento à comunidade surda em sala,Disciplinas da graduação,Introdução à Educação de Surdos,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Psicologia e Educação de Surdos,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Psicologia e Educação de Surdos (optativa),Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Política e Gestão da Educação,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Teoria da Literatura,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Aquisição da Linguagem,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Metodologia Científica,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Produção de textos acadêmicos,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Teorias Linguísticas,Letras Libras,Campus Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Estudos Surdos,Letras Libras,Campus Benfica,2025.1


In [0]:
SELECT COUNT(*) FROM tb_surdo_bruta_utf8;


COUNT(*)
72


In [0]:
SELECT
  CASE 
      WHEN campus = 'Campus Benfica' THEN 'Benfica'
      WHEN campus = 'Campus do Pici' THEN 'Pici'
      ELSE campus
  END AS campus_normalizado
FROM tb_surdo_tratada;


In [0]:
DESCRIBE tb_surdo_bruta_utf8;


col_name,data_type,comment
Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano,string,


In [0]:
SELECT
  -- Separando e limpando as colunas
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[0]) AS nome_base,
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[1]) AS base_especifica,
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[2]) AS disciplina,
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[3]) AS curso,

  -- CASE para renomear valores de campus
  CASE 
      WHEN TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[4]) = 'Campus Benfica' THEN 'Benfica'
      WHEN TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[4]) = 'Campus do Pici' THEN 'Pici'
      ELSE TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[4])
  END AS campus,

  -- Ano, limpo
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[5]) AS ano

FROM tb_surdo_bruta_utf8;


nome_base,base_especifica,disciplina,curso,campus,ano
Atendimento à comunidade surda em sala,Disciplinas da graduação,Introdução à Educação de Surdos,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Psicologia e Educação de Surdos,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Psicologia e Educação de Surdos (optativa),Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Política e Gestão da Educação,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Teoria da Literatura,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Aquisição da Linguagem,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Metodologia Científica,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Produção de textos acadêmicos,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Teorias Linguísticas,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Estudos Surdos,Letras Libras,Benfica,2025.1


In [0]:
DROP TABLE tb_surdo_tratada;


### 4.3 Load 

**Criação da Tabela Final Tratada**<br>
Após a carga, a tabela tb_surdo_tratada foi inspecionada para verificar sua estrutura e consistência.
O preview das primeiras linhas (Figura X) mostra as colunas já separadas e padronizadas.
O total de 72 registros foi mantido, e os valores de campus foram normalizados conforme a regra definida na etapa de Transform.%md

Após a padronização dos dados, a tabela final tratada é criada utilizando o comando **CTAS (CREATE TABLE AS SELECT)**, que combina DDL e seleção em uma única operação, materializando o resultado da transformação.

A tabela final recebe o nome:
tb_fbn_consultas_tratada

**Validação da Tabela Tratada**

Após a execução do comando CTAS, a tabela tb_surdo_tratada foi inspecionada para confirmar sua estrutura e consistência.
Os prints apresentados demonstram que:

todas as colunas foram corretamente separadas a partir da coluna única original (via split);

os textos foram padronizados com trim e regras de normalização;

os valores da coluna campus foram harmonizados com a lógica CASE, garantindo consistência;

o número total de linhas permanece inalterado em relação à tabela bruta, evidenciando que não houve perda nem duplicação de registros.

Essas evidências confirmam que a etapa de Load foi bem-sucedida e que a tabela final está pronta para a fase de análise e visualização.


**Comando SQL (exemplo):**

```sql
CREATE TABLE tb_fbn_consultas_tratada AS
SELECT 
    -- colunas tratadas aqui
FROM nome_da_tabela_bruta_tratada; 

**Evidências previstas:**

Bloco SQL contendo o CTAS
- Screenshot do resultado (SELECT * LIMIT 20)
- Exportação da tabela final em CSV para Power BI ou GitHub
- Exportação em Parquet (capricho opcional)

In [0]:
CREATE TABLE tb_surdo_tratada AS
SELECT
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[0]) AS nome_base,
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[1]) AS base_especifica,
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[2]) AS disciplina,
  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[3]) AS curso,

  CASE 
      WHEN TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[4]) = 'Campus Benfica' THEN 'Benfica'
      WHEN TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[4]) = 'Campus do Pici' THEN 'Pici'
      ELSE TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[4])
  END AS campus,

  TRIM(split(`Nome da Base de Dados;Base específica;Disciplina;Curso;Campus;Ano`, ';')[5]) AS ano

FROM tb_surdo_bruta_utf8;


num_affected_rows,num_inserted_rows


In [0]:
SELECT * FROM tb_surdo_tratada LIMIT 20;


nome_base,base_especifica,disciplina,curso,campus,ano
Atendimento à comunidade surda em sala,Disciplinas da graduação,Introdução à Educação de Surdos,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Psicologia e Educação de Surdos,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Psicologia e Educação de Surdos (optativa),Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Política e Gestão da Educação,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Teoria da Literatura,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Aquisição da Linguagem,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Metodologia Científica,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Produção de textos acadêmicos,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Teorias Linguísticas,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Estudos Surdos,Letras Libras,Benfica,2025.1


In [0]:
DESCRIBE TABLE tb_surdo_tratada;


col_name,data_type,comment
nome_base,string,
base_especifica,string,
disciplina,string,
curso,string,
campus,string,
ano,string,


In [0]:
SELECT COUNT(*) FROM tb_surdo_tratada

COUNT(*)
72


In [0]:
-- Conferindo valores distintos da coluna campus
SELECT DISTINCT campus
FROM tb_surdo_tratada;


campus
Benfica
Pici


In [0]:
-- Quantidade de registros por campus
SELECT 
  campus,
  COUNT(*) AS total
FROM tb_surdo_tratada
GROUP BY campus
ORDER BY total DESC;


campus,total
Benfica,39
Pici,33


In [0]:
-- Quantidade de disciplinas distintas na base
SELECT 
  COUNT(DISTINCT disciplina) AS disciplinas_distintas
FROM tb_surdo_tratada;


disciplinas_distintas
72


In [0]:
SELECT DISTINCT disciplina
FROM tb_surdo_tratada
ORDER BY disciplina;


disciplina
Anatomia dos espermatofitas
Apicultura I
Aquisição da Linguagem
Atelier de trabalho de curso
Atividade de Tutoria
Avaliação da Aprendizagem na Educação dos Surdos
Avaliação do Ensino e Aprendizagem
Bioestatística
Contabilidade Governamental
Controladoria Administrativa


In [0]:
-- Quantidade de cursos distintos
SELECT 
  COUNT(DISTINCT curso) AS cursos_distintos
FROM tb_surdo_tratada;


cursos_distintos
12


In [0]:
SELECT DISTINCT curso
FROM tb_surdo_tratada
ORDER BY curso;


curso
Biotecnologia
Ciências Contábeis
Ciências econômicas
Design
Engenharia da Computação
Engenharia da computação
Engenharia de Pesca
Gastronomia
Letras Libras
Letras Português


In [0]:
SELECT * FROM tb_surdo_tratada;


nome_base,base_especifica,disciplina,curso,campus,ano
Atendimento à comunidade surda em sala,Disciplinas da graduação,Introdução à Educação de Surdos,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Psicologia e Educação de Surdos,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Psicologia e Educação de Surdos (optativa),Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Política e Gestão da Educação,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Teoria da Literatura,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Aquisição da Linguagem,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Metodologia Científica,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Produção de textos acadêmicos,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Teorias Linguísticas,Letras Libras,Benfica,2025.1
Atendimento à comunidade surda em sala,Disciplinas da graduação,Estudos Surdos,Letras Libras,Benfica,2025.1


In [0]:
CREATE OR REPLACE TABLE tb_surdo_tratada_parquet
USING PARQUET
AS
SELECT *
FROM tb_surdo_tratada;


[0;31m---------------------------------------------------------------------------[0m
[0;31mAnalysisException[0m                         Traceback (most recent call last)
File [0;32m<command-6179009910304446>, line 1[0m
[0;32m----> 1[0m get_ipython()[38;5;241m.[39mrun_cell_magic([38;5;124m'[39m[38;5;124msql[39m[38;5;124m'[39m, [38;5;124m'[39m[38;5;124m'[39m, [38;5;124m'[39m[38;5;124mCREATE OR REPLACE TABLE tb_surdo_tratada_parquet[39m[38;5;130;01m\n[39;00m[38;5;124mUSING PARQUET[39m[38;5;130;01m\n[39;00m[38;5;124mAS[39m[38;5;130;01m\n[39;00m[38;5;124mSELECT *[39m[38;5;130;01m\n[39;00m[38;5;124mFROM tb_surdo_tratada;[39m[38;5;130;01m\n[39;00m[38;5;124m'[39m)

File [0;32m/databricks/python/lib/python3.12/site-packages/IPython/core/interactiveshell.py:2541[0m, in [0;36mInteractiveShell.run_cell_magic[0;34m(self, magic_name, line, cell)[0m
[1;32m   2539[0m [38;5;28;01mwith[39;00m [38;5;28mself[39m[38;5;241m.[39mbuiltin_trap:
[1;32m  

## 5) Análise dos dados e Métricas
- Objetivo da Análise – o que será analisado e por quê
- Qualidade dos Dados – limpeza, nulos, duplicatas, consistência
- Métricas – as consultas SQL que geram insights
- Visualizações (opcional) – se houver
- Discussão dos Resultados – interpretação dos números
- Evidências – prints e outputs organizados

### 5.1 Objetivo da Análise
Breve explicação do que a análise pretende verificar, vinculando ao objetivo do MVP.

Nesta etapa, o objetivo é avaliar a qualidade da tabela tratada `tb_surdo_tratada` e, em seguida, produzir análises simples que respondam às perguntas definidas no objetivo do trabalho. A análise está focada em entender como os atendimentos à comunidade surda se distribuem por campus, curso e disciplina.

Nesta etapa, o objetivo é analisar a tabela tratada `tb_surdo_tratada` para responder às perguntas definidas no planejamento do trabalho. A análise está focada em entender como os atendimentos à comunidade surda se distribuem entre campi, cursos e disciplinas, bem como verificar se o conjunto de dados apresenta qualidade suficiente para sustentar conclusões confiáveis.

### 5.2 Qualidade dos Dados (Data Quality)
Análise técnica da integridade:
- nulos
- duplicatas
- inconsistências
- cardinalidade dos atributos
- coerência básica da estrutura
//
Nesta subseção foram executadas consultas em SQL para verificar a consistência da tabela tratada:

- contagem total de registros;
- verificação de valores nulos por coluna;
- inspeção de valores distintos em campos categóricos (campus, curso, disciplina);
- identificação de possíveis registros duplicados.

A partir dessas consultas, foi possível avaliar se o conjunto de dados está adequado para a análise ou se havia problemas que poderiam comprometer as respostas às perguntas de negócio. Caso fossem identificados problemas relevantes, seriam propostos ajustes ou apontadas as limitações na discussão dos resultados.
//

Antes de explorar métricas e distribuições, foi realizada uma verificação da qualidade da tabela `tb_surdo_tratada`. Nessa verificação, foram executadas consultas em SQL para:

- contar o número total de registros;
- verificar a presença de valores nulos por coluna;
- identificar possíveis registros duplicados;
- inspecionar a variedade de valores em campos categóricos (campus, curso, disciplina).

Os resultados indicaram que:

- não foram encontrados valores nulos nas colunas analisadas;
- não foram identificados registros duplicados com a combinação de campos utilizada;
- o conjunto apresenta 72 disciplinas distintas, 12 cursos distintos e 2 campi distintos.

Esses achados sugerem que a base está coerente e adequada para a etapa de análise, sem necessidade de correções adicionais além das transformações já aplicadas na fase de ETL. As consultas de verificação e seus respectivos outputs estão registradas nos blocos SQL desta subseção.


In [0]:
-- conta nulos por coluna
SELECT
  SUM(CASE WHEN nome_base IS NULL OR trim(nome_base) = '' THEN 1 END) AS nulos_nome_base,
  SUM(CASE WHEN base_especifica IS NULL OR trim(base_especifica) = '' THEN 1 END) AS nulos_base_especifica,
  SUM(CASE WHEN disciplina IS NULL OR trim(disciplina) = '' THEN 1 END) AS nulos_disciplina,
  SUM(CASE WHEN curso IS NULL OR trim(curso) = '' THEN 1 END) AS nulos_curso,
  SUM(CASE WHEN campus IS NULL OR trim(campus) = '' THEN 1 END) AS nulos_campus,
  SUM(CASE WHEN ano IS NULL OR trim(ano) = '' THEN 1 END) AS nulos_ano
FROM tb_surdo_tratada;


nulos_nome_base,nulos_base_especifica,nulos_disciplina,nulos_curso,nulos_campus,nulos_ano
,,,,,


In [0]:
-- valores distintos por coluna
SELECT
  COUNT(DISTINCT disciplina) AS disciplinas_distintas,
  COUNT(DISTINCT curso) AS cursos_distintos,
  COUNT(DISTINCT campus) AS campus_distintos
FROM tb_surdo_tratada;


disciplinas_distintas,cursos_distintos,campus_distintos
72,12,2


In [0]:
-- procurando duplicatas
SELECT nome_base, disciplina, curso, campus, ano, COUNT(*) AS qtd
FROM tb_surdo_tratada
GROUP BY nome_base, disciplina, curso, campus, ano
HAVING COUNT(*) > 1;


nome_base,disciplina,curso,campus,ano,qtd


In [0]:
-- registros totais
SELECT COUNT(*) FROM tb_surdo_tratada;


COUNT(*)
72


In [0]:
-- frequencia por categoria 
SELECT curso, COUNT(*) AS total
FROM tb_surdo_tratada
GROUP BY curso
ORDER BY total DESC;


curso,total
Letras Libras,17
Biotecnologia,10
Teatro,8
Ciências Contábeis,8
Letras Português,5
Engenharia da Computação,5
Ciências econômicas,5
Engenharia de Pesca,4
Programa de pós-graduação em Estudos da Tradução - POET,4
Gastronomia,4


### 5.3 Resultado da Análise de Qualidade

A avaliação da qualidade dos dados da tabela tb_surdo_tratada indicou que:
Não há valores nulos em nenhuma coluna relevante.
Não há registros duplicados, conforme verificação por combinação de campos-chave.
Os campos categóricos apresentam:
72 disciplinas distintas
12 cursos distintos
2 campi distintos (“Benfica” e “Pici”)

Esses resultados indicam que o conjunto de dados está consistente, bem estruturado e adequado para a análise, sem necessidade de correções adicionais além das transformações realizadas na etapa anterior.

| Coluna        | Nulos | Observação            |
|---------------|-------|-----------------------|
| nome_base     | 0     | Sem problemas         |
| curso         | 0     | Sem problemas         |
| campus        | 0     | Sem problemas         |


| Coluna            | Nulos | Distintos | Observação               |
|-------------------|-------|-----------|---------------------------|
| nome_base         | 0     | 1         | Valor único               |
| base_especifica   | 0     | 1         | Sem variação              |
| disciplina        | 0     | 72        | Alta cardinalidade        |
| curso             | 0     | 12        | Distribuição moderada     |
| campus            | 0     | 2         | “Benfica” e “Pici”        |
| ano               | 0     | 1         | Valor único               |


### 5.4 Análises Exploratórias e Métricas (Analytics)
Consultas SQL para entender padrões, tais como:
- distribuição por campus
- distribuição por curso
- distribuição por disciplina
- percentuais por categoria
- rankings
//
Depois de verificada a qualidade dos dados, foram executadas consultas de agregação (`GROUP BY`) para explorar o comportamento do conjunto de dados, tais como:

- quantidade de registros por campus;
- quantidade de registros por curso;
- distribuição de disciplinas atendidas;
- outras combinações simples consideradas relevantes.

Essas consultas permitem observar como os atendimentos se distribuem no contexto analisado e fornecem insumos para responder às perguntas formuladas na etapa de planejamento.
//

Com a qualidade dos dados verificada, foram executadas consultas exploratórias em SQL para observar padrões de distribuição e responder às perguntas de análise propostas. As principais métricas investigadas foram:

- quantidade de registros por campus;
- quantidade de registros por curso;
- quantidade de registros por disciplina;
- ranking dos cursos com maior número de registros;
- percentual de participação de cada campus no total de atendimentos.

Essas consultas foram implementadas com comandos `GROUP BY` e funções de agregação (`COUNT`, `ROUND`), permitindo uma visão sintética do comportamento dos dados. Os resultados numéricos dessas consultas, apresentados em forma de tabelas, servem de base para a interpretação dos padrões observados e para a discussão na subseção seguinte.

In [0]:
-- Distribuição por Campus
SELECT 
  campus,
  COUNT(*) AS total_registros
FROM tb_surdo_tratada
GROUP BY campus
ORDER BY total_registros DESC;


campus,total_registros
Benfica,39
Pici,33


In [0]:
-- Distribuição por Curso
SELECT 
  curso,
  COUNT(*) AS total_registros
FROM tb_surdo_tratada
GROUP BY curso
ORDER BY total_registros DESC;


curso,total_registros
Letras Libras,17
Biotecnologia,10
Teatro,8
Ciências Contábeis,8
Letras Português,5
Engenharia da Computação,5
Ciências econômicas,5
Engenharia de Pesca,4
Programa de pós-graduação em Estudos da Tradução - POET,4
Gastronomia,4


In [0]:
-- distribuição por disciplina
SELECT 
  disciplina,
  COUNT(*) AS total_registros
FROM tb_surdo_tratada
GROUP BY disciplina
ORDER BY total_registros DESC;


disciplina,total_registros
Tópicos Avançados II,1
História da Alimentação,1
Teorias da Tradução III: Teorias sócio-culturais,1
Estatística Econômica I,1
Avaliação da Aprendizagem na Educação dos Surdos,1
Tutoria Acadêmica,1
Teoria da Literatura I,1
Formação de Tradutores,1
Fundamentos de Programação,1
Economia Matemática I,1


In [0]:
-- top 5 cursos com mais atendimento
SELECT 
  curso,
  COUNT(*) AS total_registros
FROM tb_surdo_tratada
GROUP BY curso
ORDER BY total_registros DESC
LIMIT 5;


curso,total_registros
Letras Libras,17
Biotecnologia,10
Ciências Contábeis,8
Teatro,8
Engenharia da Computação,5


In [0]:
-- percentual por campus
SELECT
  campus,
  COUNT(*) AS total_registros,
  ROUND(
    COUNT(*) * 100.0 / (SELECT COUNT(*) FROM tb_surdo_tratada),
    2
  ) AS percentual
FROM tb_surdo_tratada
GROUP BY campus
ORDER BY percentual DESC;


campus,total_registros,percentual
Benfica,39,54.17
Pici,33,45.83


In [0]:
-- quantidade de disciplinas por campus
SELECT
  campus,
  COUNT(DISTINCT disciplina) AS disciplinas_distintas
FROM tb_surdo_tratada
GROUP BY campus
ORDER BY disciplinas_distintas DESC;


campus,disciplinas_distintas
Benfica,39
Pici,33


### 5.5 Visualizações e Dashboard
Caso utilize:
- gráficos internos do Databricks  
ou  
- prints do Power BI
//
Quando pertinente, os resultados das consultas foram transformados em visualizações simples:

- gráficos de barras ou colunas (por exemplo, atendimentos por campus ou por curso);
- construção de gráficos diretamente no Databricks ou, opcionalmente, em ferramenta externa (como Power BI), a partir do CSV da tabela tratada.

As visualizações são utilizadas apenas como apoio à interpretação e não substituem as consultas em SQL, que permanecem documentadas no notebook.
//

A partir dos resultados das consultas exploratórias, algumas métricas foram representadas por meio de visualizações simples, como gráficos de barras ou colunas (por exemplo, atendimentos por campus ou por curso). Esses gráficos podem ser produzidos diretamente no Databricks, a partir dos resultados das consultas, ou em ferramenta externa de BI (como Power BI), utilizando o CSV da tabela tratada.

As visualizações têm caráter complementar, servindo como apoio visual à interpretação das distribuições e facilitando a comunicação dos resultados. As imagens ou prints dos gráficos gerados estão anexados junto aos resultados das consultas correspondentes.

---

In [0]:
SELECT campus, COUNT(*) AS total
FROM tb_surdo_tratada
GROUP BY campus;


campus,total
Benfica,39
Pici,33


Databricks visualization. Run in Databricks to view.

### 5.6 Discussão dos Resultados
Texto interpretando as métricas:
- o que os números significam
- padrões observados
- hipóteses
- limitações da análise
- o que responde à pergunta do MVP
//
Com base nas consultas e visualizações, foi produzida uma breve discussão em linguagem natural, conectando:

- os números observados;
- as perguntas de negócio definidas no objetivo;
- as possíveis interpretações e limitações.

Nesta seção também são registradas eventuais limitações do conjunto de dados (falta de granularidade, ausência de variáveis importantes, concentração em poucos campi ou cursos, etc.) e sugestões de como a análise poderia ser aprimorada em versões futuras do trabalho.

Resultados e Discussão (integração final da análise)  
Retoma as métricas principais dos analytics  
Comenta padrões, tendências, hipóteses e possíveis explicações  
Liga os resultados ao objetivo do MVP  
Comenta limitações da análise  

///

Com base nas métricas e visualizações obtidas, é possível destacar alguns pontos:

- o campus com maior número de registros concentra a maior parte dos atendimentos, sugerindo uma demanda mais intensa nesse local para apoio à comunidade surda;
- o outro campus apresenta um volume menor de registros, mas relacionado a um conjunto específico de cursos e disciplinas;
- a diversidade de disciplinas e cursos atendidos indica que o serviço de tradução/intérprete de Libras está distribuído por diferentes áreas de conhecimento, e não restrito a um único tipo de componente curricular.

Esses resultados ajudam a responder à pergunta central do trabalho, oferecendo uma visão clara de como os atendimentos se distribuem no contexto analisado. Ao mesmo tempo, algumas limitações permanecem, como a ausência de variáveis mais detalhadas sobre perfil dos estudantes, modalidades de atendimento ou indicadores temporais mais granulares, que poderiam enriquecer análises futuras.


### 5.7 Evidências da Análise
“As evidências desta etapa estão documentadas nos blocos SQL, tabelas e gráficos deste notebook, incluindo: …”
Lista objetiva do que foi comprovado:
- prints dos SQL
- outputs
- gráficos
- resumo do que foi encontrado
//

As evidências desta etapa incluem:

- consultas SQL de verificação da qualidade dos dados (contagem de registros, nulos, duplicatas e valores distintos);
- consultas SQL de análise exploratória e cálculo de métricas (distribuição por campus, curso e disciplina, percentuais e rankings);
- tabelas de resultados exibidas no notebook;
- gráficos gerados a partir dessas consultas, quando aplicável.

Esses elementos estão documentados ao longo do notebook e podem ser consultados em conjunto com o texto desta seção para acompanhar a análise passo a passo.

## 6) Governança, Linhagem e Considerações Éticas

### 6.1  Catálogo de Dados (Data Dictionary)
Tabela Markdown contendo:
Campo	Tipo	Descrição	Origem	Observações
Serve para provar que você entendeu os campos resultantes da tabela tratada.

**capricho:** marcar colunas derivadas com tag, por exemplo no campo Origem:
Derivada no Transform (SQL)  
Normalizada no Transform  
Criada via CASE  
Criada via SPLIT/TRIM  
Derivada no Transform (CASE WHEN)
Derivada no Transform (SPLIT + TRIM)
Criada via normalização
Criada manualmente no ETL
Renomeada no Transform
SPLIT TRIM CASE REGEXP UPPER/LOWER REPLACE

Campo derivado no processo ETL
Exemplo:  
Origem: Derivada no Transform (SPLIT + TRIM)


### 6.1 Catálogo de Dados (Data Dictionary)

A tabela a seguir documenta os principais campos da tabela tratada `tb_surdo_tratada`, descrevendo significado, tipo, origem e domínio de valores. Os campos estão organizados em grupos semânticos para facilitar a leitura.

---

#### Grupo 1 — Identificação da Base

| Campo        | Tipo   | Descrição                                                   | Origem         | Exemplo                                   | Domínio / Notas                                          | Steward  |
|--------------|--------|-------------------------------------------------------------|----------------|-------------------------------------------|----------------------------------------------------------|----------|
| base_dados   | string | Nome da base ou projeto de atendimento registrado na fonte  | CSV original   | Atendimento à comunidade surda em sala    | Neste dataset específico, tende a ter um único valor     | Charlyne |
| base_especifica | string | Categoria interna da base de dados (ex.: nível, tipo etc.) | CSV original | Disciplinas da graduação                  | Representa a subcategoria dentro da base principal       | Charlyne |

---

#### Grupo 2 — Informações Acadêmicas

| Campo       | Tipo   | Descrição                                                   | Origem         | Exemplo                               | Domínio / Notas                                       | Steward  |
|-------------|--------|-------------------------------------------------------------|----------------|---------------------------------------|--------------------------------------------------------|----------|
| disciplina  | string | Nome da disciplina atendida pela equipe de intérpretes      | CSV original   | Psicologia e Educação de Surdos       | Texto livre; múltiplas disciplinas por curso           | Charlyne |
| curso       | string | Curso ao qual a disciplina pertence                          | CSV original   | Letras Libras                         | Pequeno conjunto de cursos (ex.: Letras Libras, Eng. de Pesca) | Charlyne |
| ano_periodo | string | Ano/período letivo em que a disciplina é ofertada           | CSV original   | 2025.1                                | Formato textual (ex.: AAAA.1, AAAA.2)                  | Charlyne |

---

#### Grupo 3 — Localização

| Campo   | Tipo   | Descrição                                  | Origem         | Exemplo         | Domínio / Notas                           | Steward  |
|---------|--------|--------------------------------------------|----------------|-----------------|-------------------------------------------|----------|
| campus  | string | Campus da instituição onde ocorre a oferta | CSV original   | Campus Benfica  | Valores textuais completos                | Charlyne |

---

#### Grupo 4 — Campos Derivados (Transform / Normalização)

> Campos criados ou normalizados durante a etapa **Transform** do ETL. Estes campos não existem no CSV original e são resultado de operações SQL (`SPLIT`, `TRIM`, `CASE`, etc.).

| Campo         | Tipo   | Descrição                                          | Origem                                     | Exemplo  | Domínio / Notas                                  | Steward  |
|---------------|--------|----------------------------------------------------|--------------------------------------------|----------|--------------------------------------------------|----------|
| campus_norm   | string | Nome do campus padronizado para análise           | Derivada no Transform (`CASE WHEN`)        | Benfica  | Valores esperados: `Benfica`, `Pici`            | Charlyne |
| curso_norm    | string | Versão normalizada do nome do curso (opcional)    | Derivada no Transform (`TRIM` / `UPPER`)   | LETRAS LIBRAS | Utilizado para padronizar possíveis variações de escrita | Charlyne |

---

### Observações gerais do catálogo

- **Origem `CSV original`** indica campos presentes diretamente no arquivo de dados aberto.  
- **Origem `Derivada no Transform`** indica campos criados na etapa de transformação (ETL) via SQL, como parte do pipeline de limpeza e padronização.  
- O campo **`campus_norm`**, por exemplo, é resultado de uma regra de negócio aplicada na transformação:

  ```sql
  CASE 
      WHEN campus = 'Campus Benfica' THEN 'Benfica'
      WHEN campus = 'Campus do Pici' THEN 'Pici'
      ELSE campus
  END AS campus_norm

- O steward lógico dos dados, para fins deste MVP, é registrado como Charlyne, responsável pela curadoria, transformação e documentação da tabela tratada.



| Campo        | Tipo   | Descrição                                               | Origem        | Exemplo             | Domínio / Notas                                       | Steward   |
|--------------|--------|---------------------------------------------------------|--------------|---------------------|-------------------------------------------------------|-----------|
| base_dados   | string | Nome da base de dados ou projeto atendido              | CSV original | Atendimento à comunidade surda em sala | Único valor neste dataset específico                | Charlyne  |
| curso        | string | Nome do curso em que a disciplina é ofertada           | CSV original | Letras Libras       | Poucas categorias (Letras Libras, Eng. de Pesca etc.) | Charlyne  |
| campus       | string | Campus onde foi realizado o atendimento                 | Derivada SQL | Benfica             | Valores esperados: Benfica, Pici                      | Charlyne  |
| ano_periodo  | string | Ano/semestre da oferta da disciplina                   | CSV original | 2025.1              | Formato textual, ex.: 2025.1                          | Charlyne  |


#### Campos Derivados (Transform)

| Campo          | Tipo   | Descrição                                 | Origem                      | Exemplo  | Domínio / Notas                      | Steward |
|----------------|--------|-------------------------------------------|-----------------------------|----------|--------------------------------------|---------|
| campus_norm    | string | Valor padronizado do campus               | Derivada no Transform (CASE) | Pici     | Benfica / Pici                       | Charlyne |


### 6.2 Linhagem dos Dados (Data Lineage + ASCII diagram)
Texto explicando o fluxo Fonte → Coleta → Transform → Tabela tratada → Análise/BI
Diagrama ASCII simples

## 6.2 Linhagem dos Dados (Data Lineage)

A linhagem dos dados descreve o percurso completo do conjunto de dados desde sua origem até o produto final utilizado para análise. Este processo inclui as etapas de coleta, ingestão, transformação, carga e análise.

1. **Fonte Original (CSV)**  
   Os dados foram obtidos no portal Dados Abertos do Governo Federal, disponibilizados no formato CSV, contendo informações sobre disciplinas atendidas por intérpretes de Libras.

2. **Coleta e Armazenamento na Nuvem (Ingestão)**  
   O arquivo CSV foi carregado manualmente para o Databricks Community Edition por meio da ferramenta *Upload Data*, gerando a tabela bruta `tb_surdo_bruta_utf8`.

3. **Transformação (ETL – Transform)**  
   A tabela bruta passou por operações de limpeza e padronização via SQL:  
   - divisão da coluna única em múltiplas colunas (split + trim)  
   - padronização de valores textuais (ex.: normalização dos campi)  
   - remoção de linhas inválidas  
   - criação de colunas derivadas  

4. **Carga da Tabela Final (CTAS – Create Table As Select)**  
   As transformações foram materializadas na tabela final `tb_surdo_tratada` utilizando CTAS, que cria e popula a tabela em um único comando SQL.

5. **Análise e Visualização**  
   A tabela tratada alimenta consultas SQL para análise exploratória, cálculos estatísticos e geração de gráficos no Databricks ou Power BI.

-- O que NÃO pode faltar

✔ Nome da fonte
✔ Nome da tabela bruta
✔ Operações de transformação (pelo menos 4 delas)
✔ Nome da tabela tratada
✔ Onde foram feitas as análises
✔ Fluxo visual (ASCII)

-- mais compacto:  
CSV (gov.br)  
      ↓ ingestão  
tb_surdo_bruta_utf8  
      ↓ transformação SQL  
tb_surdo_tratada  
      ↓ análises  
consultas + gráficos  



### Diagrama da Linhagem dos Dados (ASCII)

                        +---------------------------+
                        |   Dados Abertos (CSV)     |
                        |  Fonte Original - gov.br  |
                        +-------------+-------------+
                                      |
                                      v
                        +---------------------------+
                        |  Ingestão no Databricks    |
                        |  Tabela Bruta: tb_surdo_bruta_utf8 |
                        +-------------+-------------+
                                      |
                                      v
                        +---------------------------+
                        |   Transformação (SQL)     |
                        |  split, trim, clean, case |
                        +-------------+-------------+
                                      |
                                      v
                  +-------------------------------------------+
                  |   Tabela Final Tratada (CTAS)             |
                  |           tb_surdo_tratada                |
                  +-------------+-----------------------------+
                                      |
                                      v
                       +-------------------------------+
                       |   Análises e Visualizações    |
                       |  SQL + Gráficos Databricks    |
                       +-------------------------------+


**Resumo da Linhagem**  
Fonte (CSV) → Ingestão (Databricks) → Transform (SQL) → Tabela Tratada → Análise → Visualizações

**Legenda:**
- RAW = dados brutos
- CURATED = dados tratados
- ANALYTICS = tabela final usada na análise

exemplos de formatação:

code style:
`tb_surdo_tratada`
`Derivada no Transform`
`Campus Benfica`

Caixas (blockquote):
> Campo derivado criado na etapa Transform

ex:
> **Campo derivado** criado na etapa Transform usando `CASE WHEN`.




### 6.3 Governança e Segurança de Dados

A governança adotada neste MVP segue princípios básicos, adequados ao escopo introdutório do projeto, garantindo organização, rastreabilidade e consistência ao longo do pipeline.

### Práticas de Governança Aplicadas
- **Manutenção da tabela bruta (Raw) sem alterações**  
  Garante rastreabilidade e auditabilidade das etapas do ETL.

- **Documentação completa das transformações**  
  Todo o processo de limpeza, normalização e criação da tabela tratada foi descrito via SQL e Markdown.

- **Nomenclatura padronizada para tabelas e colunas**  
  Facilita reuso, leitura e integração com ferramentas externas.

- **Catalogação dos dados**  
  O Catálogo de Dados lista cada campo da tabela tratada, seus tipos, origem e significado.

- **Linhagem de dados registrada em diagrama ASCII**  
  Torna explícitas as etapas de ingestão, transformação e geração das saídas.

### Segurança de Dados
Como os dados utilizados são públicos e não contêm informações pessoais:
- **não há necessidade de anonimização ou criptografia**,  
- **não há restrição legal quanto ao compartilhamento do notebook ou dos arquivos derivados**,  
- **as práticas de segurança concentram-se apenas na organização e no bom uso da plataforma**, como:
  - evitar sobrescrever tabelas acidentalmente,  
  - manter as etapas separadas (Raw → Transform → Treated),  
  - não incluir dados externos sensíveis no workspace.




Esses pontos atendem plenamente ao nível de governança e segurança esperado para um MVP de pipeline em ambiente acadêmico. 
Governança básica: 
imutabilidade da tabela bruta
padronização da tratada
dados públicos
segurança mínima (ex.: acesso controlado)

Segurança:
O dataset é público.
Não contém dados pessoais identificáveis.
A tabela bruta foi mantida intacta (princípio da imutabilidade).
A tabela tratada segue padronização de colunas e nomenclaturas.
Se fosse um ambiente corporativo, haveria: controle de acesso por usuário, versionamento de tabelas, logs de transformação

### 6.4 Considerações de LGPD e Ética

Os dados utilizados neste projeto são provenientes de bases públicas disponibilizadas oficialmente no portal **dados.gov.br**, atendendo aos princípios de transparência e reutilização previstos na Política de Dados Abertos do Governo Federal. Por se tratar de informações institucionais e agregadas — referentes a disciplinas, cursos e unidades acadêmicas — **não há qualquer dado pessoal identificável ou sensível**, conforme definido pela Lei Geral de Proteção de Dados Pessoais (LGPD – Lei nº 13.709/2018).

Ainda assim, o projeto adota boas práticas de ética e governança ao:

- preservar integralmente a integridade do arquivo bruto (camada *Raw*), sem alterações;
- documentar todas as transformações aplicadas no pipeline ETL;
- garantir que nenhuma análise permita reidentificação de indivíduos;
- utilizar exclusivamente dados com licenças abertas e autorização explícita de uso.

Portanto, este MVP opera em conformidade com a LGPD e segue os princípios de **minimização de dados, transparência, rastreabilidade e finalidade legítima**.

### 6.5 Conclusões Finais

Este MVP demonstrou a construção de um pipeline de dados simples, porém completo, utilizando o Databricks Community Edition. A partir de um dataset público, foi possível implementar as etapas essenciais de ingestão, transformação, análise e documentação — consolidando uma tabela tratada adequada para consultas e visualizações.

As principais conclusões incluem:

- **O pipeline ETL funcionou conforme planejado**, com separação clara entre dado bruto, transformações e tabela final.
- **Os dados da instituição analisada apresentaram boa qualidade geral**, com ausência de nulos e poucas inconsistências.
- **As métricas revelaram padrões relevantes**, como distribuição das disciplinas e cursos atendidos.
- **A documentação estruturada (catálogo, linhagem, governança)** reforçou a rastreabilidade e clareza do processo.
- **O uso do Databricks se mostrou adequado** ao escopo da MVP, permitindo integração entre SQL, visualizações e Markdown.

O projeto cumpriu todos os requisitos essenciais solicitados na disciplina, representando um “arroz com feijão bem feito”, sólido e replicável. Em versões futuras, seria possível ampliar o escopo incluindo mais variáveis, integrar múltiplos datasets ou evoluir o modelo para um pequeno Data Warehouse.



## 7) Autoavaliação

A realização deste MVP permitiu uma compreensão prática do processo completo de tratamento e análise de dados em nuvem, desde a ingestão até a documentação final. 

**O que consegui realizar:**  
- implementei todo o pipeline ETL no Databricks usando SQL;  
- desenvolvi uma tabela tratada a partir do dataset bruto;  
- realizei análises de qualidade e métricas, com queries claras e replicáveis;  
- produzi visualizações simples que apoiam a interpretação dos resultados;  
- organizei o notebook com documentação completa, seguindo as recomendações da disciplina.

**Desafios:**  
O ponto mais desafiador foi a etapa de Transform, especialmente o entendimento inicial sobre encoding, normalização de colunas e criação da tabela tratada via CTAS. Com prática, o processo tornou-se mais intuitivo.

**Aprendizados:**  
Aprendi na prática o fluxo de um pipeline moderno, a importância da revisão de qualidade dos dados e o papel da documentação estruturada (catálogo, linhagem, governança). Também desenvolvi mais segurança no uso do Databricks e na criação de consultas SQL.

**O que faria diferente em uma próxima versão:**  
Ampliaria o escopo analítico, criaria métricas adicionais, adicionaria uma pequena tabela dimensional e exploraria visualizações mais ricas em Power BI.

Este MVP representa meu **“arroz com feijão bem feito”**, atendendo aos requisitos essenciais, com clareza, boa documentação e coerência metodológica.


## 8) Reprodutibilidade e Entrega
- evidencias finais (o que está incluído no notebook)
- Orientações para Reprodutibilidade
código no GitHub
prints
reprodutibilidade