# Data Discovery - Investigando os Dados Brutos

**Autor:** Felipe Freire (Diretor de operações)
**Objetivo:** Este notebook serve como um ambiente de exploração para investigar os dados brutos, especificamente os valores únicos de colunas categóricas que precisam de limpeza e padronização.

**Workflow:**
1. Carregar o dataset **bruto** (`raw`).
2. Para cada coluna de interesse (`estado`, `etnia`, `genero`, etc.), usar `.unique()` e `.value_counts()` para listar todas as variações existentes.
3. Usar a saída desta análise para preencher os dicionários de mapeamento no script principal `src/analysis.py`.

In [2]:
import pandas as pd
import os

# --- Configuração dos Caminhos ---
# Esta célula garante que o notebook encontre os arquivos de dados corretamente
PROJECT_ROOT = os.path.abspath(os.path.join(os.getcwd(), '..')) # Sobe um nível para a pasta raiz do projeto
RAW_DATA_PATH = os.path.join(PROJECT_ROOT, 'data', 'raw', '20250916-div_inscricoes.csv')

# --- Carregando os Dados ---
# Sempre carregamos os dados brutos aqui para garantir que estamos vendo a "verdade" original
print(f"Carregando dados de: {RAW_DATA_PATH}")
df_raw = pd.read_csv(RAW_DATA_PATH)

print("\nDados carregados com sucesso!")
df_raw.head()

Carregando dados de: e:\TransDevsDataAnalysis\data\raw\20250916-div_inscricoes.csv

Dados carregados com sucesso!


Unnamed: 0,id,nome_completo,nascdt,email,telefone,cidade,estado,sabendo,conhecimento,computador,...,curso_slug,genero,etnia,pronome,logica_simples,s_link,s_atuacao,s_nivel_exp,s_tecnologias,s_ferramentas
0,1,Adrian Nenning,,adrian53nenning@gmail.com,55999078434,Três passos,RS,,,,...,transdevsbasico,,,,,,,,,
1,2,Ariel Troian,,arieltroian@outlook.com,51999124341,Triunfo,RS,,,,...,transdevsbasico,,,,,,,,,
2,3,Caio Soares,,csoares.dg@gmail.com,11994438573,São Paulo,SP,,,,...,transdevsbasico,,,,,,,,,
3,4,Felipe ferreira de barros,,felipefantinn@outlook.com,11977607201,Osasco,SP,,,,...,transdevsbasico,,,,,,,,,
4,5,Giovanni Montin Barbosa,,giovannimontinb@gmail.com,11918900957,São Paulo,SP,,,,...,transdevsbasico,,,,,,,,,


---
### Análise da Coluna `estado`

Vamos inspecionar os valores da coluna de estado para identificar inconsistências (ex: "SP" vs "São Paulo").

In [3]:
# .value_counts() é excelente pois mostra os valores e a frequência de cada um
print("Valores únicos e suas contagens para a coluna 'estado':")
print(df_raw['estado'].unique())

Valores únicos e suas contagens para a coluna 'estado':
['RS' 'SP' 'PB' 'BA' 'RJ' 'Portugal' 'SC' 'CE' 'GO' 'DF' 'PE' 'MG' 'Bahia'
 'AM' 'RO' 'RN' 'AL' 'ES' 'PR' nan 'PO' 'AC' 'Pará' 'PA' 'MA' 'Amazonas'
 'SE' 'BH' 'PI' 'Rio de Janeiro' 'São Paulo' 'Pernambuco' 'Ceará'
 'rio de janeiro' 'Lisboa' 'Mato Grosso' 'Rio De Janeiro' 'Santa Catarina'
 'Minas Gerais' 'Rondônia' 'Sao paulo' 'Maranhão' 'Paraná'
 'Distrito Federal' 'rj' 'santa catarina' 'Rio de janeiro' 'minas gerais'
 'Mato grosso' 'Mato Grosso do Sul' 'Para' 'Goiás' 'Minas gerais'
 'Rio Grande do Sul' 'Sao Paulo' 'Rio de janeieo' 'Rj' 'MS' 'rn' 'Paraíba'
 'são paulo' 'goiás' 'Espirito Santo' 'Piauí' 'Solteiro(a)' 'Recife'
 'Piaui' 'bahia' 'fasdfasd' 'asfa' 'Espírito Santo' 'fasdfasfd'
 'São paulo' 'Ba' 'Tocantins' 'Sp' 'Oizumi' 'Df' 'Esporo Santo'
 'Rio Grande do Norte' 'rio de Janeiro' 'Goias' 'Minaa Gerais'
 'SP - SÃO PAULO' 'Sergipe' 'Mg' 'Sc' 'SãoPaulo' 'Es' '17' 'Paraiba'
 'Mato-Grosso' 'Rs' 'rio grande do sul' 'rs' 'Alagoa

---
### Análise da Coluna `etnia`

Aqui, procuramos por variações como "etnia_branca", "[branca]", "Branca", além de valores nulos.

In [4]:
print("Valores únicos e suas contagens para a coluna 'etnia':")
print(df_raw['etnia'].value_counts(dropna=False)) # dropna=False também mostra a contagem de valores nulos (NaN)

Valores únicos e suas contagens para a coluna 'etnia':
etnia
etnia_branca                 657
NaN                          413
etnia_parda                  371
etnia_preta                  185
[]                           171
["branca"]                   134
["parda"]                     49
["preta"]                     37
etnia_indigena                28
etnia_amarela                 22
etnia_nao_quero_responder     12
etnia_outro                    8
["amarela"]                    6
["preta","parda"]              4
["indigena"]                   1
["nao_quero_responder"]        1
Name: count, dtype: int64


---
### Análise da Coluna `genero`

Investigamos a padronização das identidades de gênero declaradas.

In [5]:
print("Valores únicos e suas contagens para a coluna 'genero':")
print(df_raw['genero'].value_counts(dropna=False))

Valores únicos e suas contagens para a coluna 'genero':
genero
identidade_trans                           933
NaN                                        386
identidade_nao_binarie                     234
[]                                         174
["trans"]                                  164
identidade_cis                              87
["nao_binarie"]                             23
identidade_outro                            17
identidade_queer                            16
identidade_nao_sei                          15
["cis"]                                      8
identidade_nao_quero_responder               8
["trans","travesti"]                         7
["nao_binarie","queer"]                      5
["trans","nao_binarie"]                      5
["outro","Transmasculino"]                   4
["travesti"]                                 2
["intersexo - 46 x,y"]                       2
["Homem"]                                    1
["transmasculino","trans"]                  

In [6]:
# --- Análise da Coluna `atuacao` (Voluntariado) ---
print("\n" + "="*50)
print("Analisando dados de voluntariado para a coluna 'atuacao'")

# Carrega o dataset de voluntariado
RAW_VOLUNTARIADO_PATH = os.path.join(PROJECT_ROOT, 'data', 'raw', '20250916-div_voluntariado.csv')
df_vol_raw = pd.read_csv(RAW_VOLUNTARIADO_PATH)

print("\nValores únicos e suas contagens para a coluna 'atuacao':")
print(df_vol_raw['atuacao'].value_counts(dropna=False))


Analisando dados de voluntariado para a coluna 'atuacao'

Valores únicos e suas contagens para a coluna 'atuacao':
atuacao
["tecnologia"]                                                     96
["comunicacao"]                                                    23
["psicologia"]                                                     21
["parcerias"]                                                      15
["engajamento"]                                                    12
["outras"]                                                          5
["comunicacao","tecnologia"]                                        4
["comunicacao", "tecnologia"]                                       3
["tecnologia","outras"]                                             2
["tecnologia","comunicacao","outras"]                               2
["tecnologia","comunicacao"]                                        2
["engajamento","comunicacao","tecnologia"]                          1
["tecnologia","engajamento","parceri

In [7]:
# Adicione ao seu notebook para investigar
print("\n" + "="*50)
print("Verificando dados para o cruzamento de Gênero vs. Nível Profissional")

# Carrega o dataset final e processado
df_final = pd.read_csv('../data/processed/dados_consolidados_comunidade.csv')

# Cria uma tabela resumo
resumo_cruzamento = df_final.groupby('genero_padronizado').agg(
    total_de_pessoas=('person_id', 'count'),
    com_nivel_profissional=('professional_level_padronizado', 'count') # 'count' ignora valores nulos (NaN)
).reset_index()

print("\nComparativo de preenchimento:")
print(resumo_cruzamento)


Verificando dados para o cruzamento de Gênero vs. Nível Profissional



Comparativo de preenchimento:
      genero_padronizado  total_de_pessoas  com_nivel_profissional
0              Cisgênero                96                       0
1       Outra identidade                19                       0
2           Pessoa Trans              1118                      69
3  Preferiu não informar               843                     166
4                  Queer                23                       0
5               Travesti                 2                       1
