# Debug Questionário Socioeconômico FATEC

Este notebook foi criado para facilitar o debug dos problemas na leitura dos dados, especialmente no gráfico de top 15 cidades. Vamos explorar os dados passo a passo para identificar onde está o problema.

## 1. Importação de bibliotecas

In [13]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import json
import os
from collections import Counter
from IPython.display import display

# Configuração para exibir mais colunas e linhas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 50)
pd.set_option('display.width', 1000)

## 2. Leitura direta do arquivo Excel original

Primeiro, vamos ler o arquivo Excel diretamente para ver como os dados estão organizados originalmente.

In [14]:
# Caminho para o arquivo Excel - ajuste conforme necessário
root_path = os.path.abspath('').replace(os.path.basename(os.path.abspath('')), '')

print("root_path -=> ", root_path)
excel_file = os.path.join(root_path, "arquivos_de_trabalho\\Questionario-Socioeconomico-Fatec25-OFICIAL-1a32.xlsx")
print("excel_file -=> ", excel_file)

# Leitura direta do Excel
df_original = pd.read_excel(excel_file)

# Verificar as primeiras linhas
print(f"Dimensões do DataFrame: {df_original.shape}")
df_original.head()

root_path -=>  c:\Users\Heitor\Downloads\FATEC\Trabalho-Analise-de-Dados-Roland\
excel_file -=>  c:\Users\Heitor\Downloads\FATEC\Trabalho-Analise-de-Dados-Roland\arquivos_de_trabalho\Questionario-Socioeconomico-Fatec25-OFICIAL-1a32.xlsx
Dimensões do DataFrame: (32, 324)


Unnamed: 0,ID,Hora de início,Hora de conclusão,Email,Nome,Total de pontos,Comentários do teste,Hora da última modificação,Qual o seu curso?,Pontos – Qual o seu curso?,Comentários – Qual o seu curso?,Qual o período que cursa?*,Pontos – Qual o período que cursa?*,Comentários – Qual o período que cursa?*,Informe o número do seu RA:,Pontos – Informe o número do seu RA:,Comentários – Informe o número do seu RA:,Qual o estado você nasceu?*,Pontos – Qual o estado você nasceu?*,Comentários – Qual o estado você nasceu?*,Em qual cidade você reside?,Pontos – Em qual cidade você reside?,Comentários – Em qual cidade você reside?,Qual é o seu gênero?,Pontos – Qual é o seu gênero?,Comentários – Qual é o seu gênero?,Qual a sua data de nascimento?,Pontos – Qual a sua data de nascimento?,Comentários – Qual a sua data de nascimento?,Qual é o seu estado civil?,Pontos – Qual é o seu estado civil?,Comentários – Qual é o seu estado civil?,"Você possui alguma necessidade especial? (Caso tenha mais de uma, pode selecionar todas as opções que se aplicam)","Comentários – Você possui alguma necessidade especial? (Caso tenha mais de uma, pode selecionar todas as opções que se aplicam)","Pontos – Você possui alguma necessidade especial? (Caso tenha mais de uma, pode selecionar todas as opções que se aplicam)",Quantos filhos você tem?,Comentários – Quantos filhos você tem?,Pontos – Quantos filhos você tem?,Com quem você mora atualmente?,Comentários – Com quem você mora atualmente?,Pontos – Com quem você mora atualmente?,"Quantas pessoas, incluindo você, moram no seu domicílio?","Comentários – Quantas pessoas, incluindo você, moram no seu domicílio?","Pontos – Quantas pessoas, incluindo você, moram no seu domicílio?",Qual é a situação do domicílio em que você reside?,Comentários – Qual é a situação do domicílio em que você reside?,Pontos – Qual é a situação do domicílio em que você reside?,Há quanto tempo você mora neste domicílio?,Comentários – Há quanto tempo você mora neste domicílio?,Pontos – Há quanto tempo você mora neste domicílio?,Qual é a faixa de renda mensal da sua família?,Comentários – Qual é a faixa de renda mensal da sua família?,Pontos – Qual é a faixa de renda mensal da sua família?,Comentários – Quantos de cada um dos itens abaixo há em seu domicílio?,Pontos – Quantos de cada um dos itens abaixo há em seu domicílio?,Televisor,Comentários – Televisor,Pontos – Televisor,Vídeo cassete e(ou) DVD,Comentários – Vídeo cassete e(ou) DVD,Pontos – Vídeo cassete e(ou) DVD,Rádio,Comentários – Rádio,Pontos – Rádio,Automóvel,Comentários – Automóvel,Pontos – Automóvel,Motocicleta,Comentários – Motocicleta,Pontos – Motocicleta,Máquina de lavar roupa e(ou) tanquinho,Comentários – Máquina de lavar roupa e(ou) tanquinho,Pontos – Máquina de lavar roupa e(ou) tanquinho,Geladeira,Comentários – Geladeira,Pontos – Geladeira,Celular e(ou) Smartphone,Comentários – Celular e(ou) Smartphone,Pontos – Celular e(ou) Smartphone,Microcomputador de mesa/Desktop,Comentários – Microcomputador de mesa/Desktop,Pontos – Microcomputador de mesa/Desktop,Notebook,Comentários – Notebook,Pontos – Notebook,Comentários – No seu domicílio você tem:,Pontos – No seu domicílio você tem:,Telefone fixo,Comentários – Telefone fixo,Pontos – Telefone fixo,Internet,Comentários – Internet,Pontos – Internet,TV por assinatura e(ou) Serviços de Streaming,Comentários – TV por assinatura e(ou) Serviços de Streaming,Pontos – TV por assinatura e(ou) Serviços de Streaming,Empregada mensalista,Comentários – Empregada mensalista,Pontos – Empregada mensalista,Você trabalha?,Comentários – Você trabalha?,Pontos – Você trabalha?,Qual é seu vínculo com o emprego?,Comentários – Qual é seu vínculo com o emprego?,Pontos – Qual é seu vínculo com o emprego?,Qual a área do seu trabalho?,Comentários – Qual a área do seu trabalho?,Pontos – Qual a área do seu trabalho?,Qual é o seu regime de trabalho?,Comentários – Qual é o seu regime de trabalho?,Pontos – Qual é o seu regime de trabalho?,Em qual empresa você está atualmente contratado?,Comentários – Em qual empresa você está atualmente contratado?,Pontos – Em qual empresa você está atualmente contratado?,Você tem plano de saúde privado?,Comentários – Você tem plano de saúde privado?,Pontos – Você tem plano de saúde privado?,Qual é o grau de escolaridade da sua mãe?,Comentários – Qual é o grau de escolaridade da sua mãe?,Pontos – Qual é o grau de escolaridade da sua mãe?,Qual é o grau de escolaridade do seu pai?,Comentários – Qual é o grau de escolaridade do seu pai?,Pontos – Qual é o grau de escolaridade do seu pai?,"Na sua vida escolar, você estudou....","Pontos – Na sua vida escolar, você estudou....","Comentários – Na sua vida escolar, você estudou....",Pontos – Você utiliza microcomputadores/desktop?,Comentários – Você utiliza microcomputadores/desktop?,Em casa,Pontos – Em casa,Comentários – Em casa,No trabalho,Pontos – No trabalho,Comentários – No trabalho,Na escola,Pontos – Na escola,Comentários – Na escola,Em outros lugares,Pontos – Em outros lugares,Comentários – Em outros lugares,Pontos – Com qual finalidade você utiliza microcomputadores/desktop?,Comentários – Com qual finalidade você utiliza microcomputadores/desktop?,Para trabalhos profissionais,Pontos – Para trabalhos profissionais,Comentários – Para trabalhos profissionais,Para trabalhos escolares,Pontos – Para trabalhos escolares,Comentários – Para trabalhos escolares,"Para entretenimento (música, redes sociais,...)","Pontos – Para entretenimento (música, redes sociais,...)","Comentários – Para entretenimento (música, redes sociais,...)",Para comunicação por e-mail,Pontos – Para comunicação por e-mail,Comentários – Para comunicação por e-mail,Para operações bancárias,Pontos – Para operações bancárias,Comentários – Para operações bancárias,Para compras eletrônicas,Pontos – Para compras eletrônicas,Comentários – Para compras eletrônicas,Pontos – Você utiliza notebook?,Comentários – Você utiliza notebook?,Em casa2,Pontos – Em casa2,Comentários – Em casa2,No trabalho2,Pontos – No trabalho2,Comentários – No trabalho2,Na escola2,Pontos – Na escola2,Comentários – Na escola2,Em outros lugares2,Pontos – Em outros lugares2,Comentários – Em outros lugares2,Pontos – Com qual finalidade você utiliza notebook?,Comentários – Com qual finalidade você utiliza notebook?,Para trabalhos profissionais2,Pontos – Para trabalhos profissionais2,Comentários – Para trabalhos profissionais2,Para trabalhos escolares2,Pontos – Para trabalhos escolares2,Comentários – Para trabalhos escolares2,"Para entretenimento (música, redes sociais,...)2","Pontos – Para entretenimento (música, redes sociais,...)2","Comentários – Para entretenimento (música, redes sociais,...)2",Para comunicação por e-mail2,Pontos – Para comunicação por e-mail2,Comentários – Para comunicação por e-mail2,Para operações bancárias2,Pontos – Para operações bancárias2,Comentários – Para operações bancárias2,Para compras eletrônicas2,Pontos – Para compras eletrônicas2,Comentários – Para compras eletrônicas2,Pontos – Você utiliza smartphone?,Comentários – Você utiliza smartphone?,Em casa3,Pontos – Em casa3,Comentários – Em casa3,No trabalho3,Pontos – No trabalho3,Comentários – No trabalho3,Na escola3,Pontos – Na escola3,Comentários – Na escola3,Em outros lugares3,Pontos – Em outros lugares3,Comentários – Em outros lugares3,Pontos – Com qual finalidade você utiliza smartphone?,Comentários – Com qual finalidade você utiliza smartphone?,Para trabalhos profissionais3,Pontos – Para trabalhos profissionais3,Comentários – Para trabalhos profissionais3,Para trabalhos escolares3,Pontos – Para trabalhos escolares3,Comentários – Para trabalhos escolares3,"Para entretenimento (música, redes sociais,...)3","Pontos – Para entretenimento (música, redes sociais,...)3","Comentários – Para entretenimento (música, redes sociais,...)3",Para comunicação por e-mail3,Pontos – Para comunicação por e-mail3,Comentários – Para comunicação por e-mail3,Para operações bancárias3,Pontos – Para operações bancárias3,Comentários – Para operações bancárias3,Para compras eletrônicas3,Pontos – Para compras eletrônicas3,Comentários – Para compras eletrônicas3,Como você classifica seu conhecimento em informática?,Pontos – Como você classifica seu conhecimento em informática?,Comentários – Como você classifica seu conhecimento em informática?,Pontos – Qual o seu conhecimento em relação aos aplicativos à seguir:,Comentários – Qual o seu conhecimento em relação aos aplicativos à seguir:,Windowns,Pontos – Windowns,Comentários – Windowns,Linux,Pontos – Linux,Comentários – Linux,"Editores de textos (word, writer, ...)","Pontos – Editores de textos (word, writer, ...)","Comentários – Editores de textos (word, writer, ...)","Planilhas Eletrônicas (Excel, Cal, ...)","Pontos – Planilhas Eletrônicas (Excel, Cal, ...)","Comentários – Planilhas Eletrônicas (Excel, Cal, ...)","Apresentadores (PowerPoint, Impress, ...)","Pontos – Apresentadores (PowerPoint, Impress, ...)","Comentários – Apresentadores (PowerPoint, Impress, ...)",Sistemas de Gestão Empresarial,Pontos – Sistemas de Gestão Empresarial,Comentários – Sistemas de Gestão Empresarial,Pontos – Considerando seus conhecimentos sobre idiomas,Comentários – Considerando seus conhecimentos sobre idiomas,Inglês,Pontos – Inglês,Comentários – Inglês,Espanhol,Pontos – Espanhol,Comentários – Espanhol,Outros Idiomas,Pontos – Outros Idiomas,Comentários – Outros Idiomas,Pontos – Com que frequência você busca informações nos seguintes meios de comunicação?,Comentários – Com que frequência você busca informações nos seguintes meios de comunicação?,TV,Pontos – TV,Comentários – TV,Internet2,Pontos – Internet2,Comentários – Internet2,Revistas,Pontos – Revistas,Comentários – Revistas,Jornais,Pontos – Jornais,Comentários – Jornais,Rádio2,Pontos – Rádio2,Comentários – Rádio2,Redes Sociais,Pontos – Redes Sociais,Comentários – Redes Sociais,Conversas com Amigos,Pontos – Conversas com Amigos,Comentários – Conversas com Amigos,"Não considerando os livros acadêmicos, quantos livros você lê por ano (em média)?","Pontos – Não considerando os livros acadêmicos, quantos livros você lê por ano (em média)?","Comentários – Não considerando os livros acadêmicos, quantos livros você lê por ano (em média)?","Se você lê livros literários, qual(is) o(s) gênero(s) preferido(s)?","Pontos – Se você lê livros literários, qual(is) o(s) gênero(s) preferido(s)?","Comentários – Se você lê livros literários, qual(is) o(s) gênero(s) preferido(s)?",Você dedica parte do seu tempo para atividades voluntárias?,Pontos – Você dedica parte do seu tempo para atividades voluntárias?,Comentários – Você dedica parte do seu tempo para atividades voluntárias?,Qual religião você professa?,Pontos – Qual religião você professa?,Comentários – Qual religião você professa?,Quais fontes de entretenimento cultural você usa?,Pontos – Quais fontes de entretenimento cultural você usa?,Comentários – Quais fontes de entretenimento cultural você usa?,Estamos quase no fim! Como você ficou sabendo da FATEC Franca?,Pontos – Estamos quase no fim! Como você ficou sabendo da FATEC Franca?,Comentários – Estamos quase no fim! Como você ficou sabendo da FATEC Franca?,Por que você escolheu este curso?,Pontos – Por que você escolheu este curso?,Comentários – Por que você escolheu este curso?,Qual sua maior expectativa quanto ao curso?,Pontos – Qual sua maior expectativa quanto ao curso?,Comentários – Qual sua maior expectativa quanto ao curso?,Qual sua expectativa após se formar?,Pontos – Qual sua expectativa após se formar?,Comentários – Qual sua expectativa após se formar?,Você já estudou nesta instituição?,Pontos – Você já estudou nesta instituição?,Comentários – Você já estudou nesta instituição?,Você já fez algum curso técnico?,Pontos – Você já fez algum curso técnico?,Comentários – Você já fez algum curso técnico?,Qual meio de transporte você utiliza para ir à faculdade?,Pontos – Qual meio de transporte você utiliza para ir à faculdade?,Comentários – Qual meio de transporte você utiliza para ir à faculdade?,Escreva algumas linhas sobre sua história e seus sonhos de vida,Pontos – Escreva algumas linhas sobre sua história e seus sonhos de vida,Comentários – Escreva algumas linhas sobre sua história e seus sonhos de vida
0,1,2025-03-22 09:07:42,2025-03-22 09:12:12,gabriela.sousa14@fatec.sp.gov.br,GABRIELA SOUSA,,,,Análise e Desenvolvimento de Sistemas (ADS),,,Noturno,,,1090482423006,,,São Paulo (SP),,,Franca,,,Feminino,,,2000-03-08,,,Solteiro(a),,,Nenhuma;,,,Nenhum,,,Sozinho,,,1,,,Financiado,,,13 à 24 meses,,,"De R$ 1.518,01 até R$ 3.036,00",,,,,1,,,Nenhum,,,Nenhum,,,Nenhum,,,1,,,1,,,1,,,1,,,Nenhum,,,1,,,,,Não,,,Sim,,,Sim,,,Não,,,Sim,,,Sou registrado(a) no comércio,,,Trabalho na área do curso,,,Regime Integral,,,SOFTPOOL SISTEMAS,,,Tenho e é pago parcialmente pela empresa,,,Ensino Médio,,,Ensino fundamental II (6º ao 9º ano),,,Sempre na escola pública,,,,,Não,,,Sim,,,Sim,,,Sim,,,,,Sim,,,Sim,,,Não,,,Sim,,,Não,,,Não,,,,,Sim,,,Sim,,,Sim,,,Sim,,,,,Sim,,,Sim,,,Sim,,,Sim,,,Não,,,Sim,,,,,Sim,,,Sim,,,Sim,,,Sim,,,,,Sim,,,Sim,,,Sim,,,Sim,,,Sim,,,Sim,,,Avançado,,,,,Avançado,,,Intermediário,,,Avançado,,,Avançado,,,Avançado,,,Avançado,,,,,"Leio, escrevo e falo razoavelmente",,,Praticamente nulo,,,Praticamente nulo,,,,,Nunca,,,Muito,,,Nunca,,,Às vezes,,,Nunca,,,Às vezes,,,Às vezes,,,De 3 até 6,,,Romance;Outros:;,,,Não,,,Umbanda,,,Cinema;Exposições de arte;Filmes na internet;L...,,,Indicação de familiar/amigo,,,Este curso forma profissionais que são bem rem...,,,Obter novos conhecimentos;Obter competências p...,,,Conquistar vaga em empresa privada;Melhorar ca...,,,Não,,,"Sim, no SENAC",,,Moto;,,,Sempre fui uma pessoa independente e um dos me...,,
1,2,2025-03-22 09:23:35,2025-03-22 09:43:20,larissa.silva259@fatec.sp.gov.br,LARISSA SILVA,,,,Análise e Desenvolvimento de Sistemas (ADS),,,Noturno,,,1090482423011,,,São Paulo (SP),,,Franca,,,Feminino,,,2006-04-15,,,Solteiro(a),,,Nenhuma;,,,Nenhum,,,Com pais e(ou) parentes,,,3,,,Próprio,,,61 meses ou mais,,,"De R$ 3.036,01 até R$ 4.554,00",,,,,2,,,2,,,1,,,2,,,Nenhum,,,2,,,1,,,4 ou +,,,1,,,3,,,,,Não,,,Sim,,,Sim,,,Não,,,Não,,,Não trabalho,,,Não trabalho,,,Não trabalho,,,Não trabalho,,,Tenho e é um plano familiar,,,Pós-Graduação,,,Ensino Superior,,,Sempre em escola particular paga pela família,,,,,Não,,,Não,,,Sim,,,Não,,,,,Não,,,Sim,,,Não,,,Não,,,Não,,,Não,,,,,Sim,,,Não,,,Sim,,,Sim,,,,,Não,,,Sim,,,Sim,,,Sim,,,Sim,,,Sim,,,,,Sim,,,Não,,,Sim,,,Sim,,,,,Não,,,Sim,,,Sim,,,Sim,,,Sim,,,Sim,,,Pouco,,,,,Pouco,,,Nenhum,,,Intermediário,,,Intermediário,,,Intermediário,,,Nenhum,,,,,Praticamente nulo,,,Praticamente nulo,,,Praticamente nulo,,,,,Pouco,,,Sempre,,,Nunca,,,Nunca,,,Nunca,,,Pouco,,,Nunca,,,Mais de 10,,,Romance;Ficção;Biográfico;Outros:;,,,Sim,,,Espírita,,,Cinema;Filmes na internet;Literatura;Música;TV;,,,Indicação de familiar/amigo,,,Este curso é gratuito;Este curso é de média du...,,,Obter novos conhecimentos;Obter competências p...,,,Outra expectativa:;,,,Não,,,"Sim, em uma ETEC",,,Carro;,,,Ter uma vida estável,,
2,3,2025-03-22 09:37:26,2025-03-22 09:51:53,ryan.cruz2@fatec.sp.gov.br,RYAN CRUZ,,,,Análise e Desenvolvimento de Sistemas (ADS),,,Noturno,,,1090482423002,,,São Paulo (SP),,,Franca,,,Masculino,,,2005-06-09,,,Solteiro(a),,,Nenhuma;,,,Nenhum,,,Com pais e(ou) parentes,,,4,,,Alugado,,,25 à 48 meses,,,"De R$ 3.036,01 até R$ 4.554,00",,,,,2,,,Nenhum,,,Nenhum,,,1,,,Nenhum,,,1,,,1,,,3,,,Nenhum,,,1,,,,,Não,,,Sim,,,Sim,,,Não,,,Sim,,,Sou registrado(a) em empresa prestadora de ser...,,,Trabalho na área do curso,,,Regime Integral,,,Unimed Franca,,,Tenho e é pago integralmente pela empresa,,,Ensino Fundamental II (6º ao 9º ano),,,Nenhuma escolaridade,,,Sempre na escola pública,,,,,Não,,,Sim,,,Sim,,,Sim,,,,,Sim,,,Sim,,,Sim,,,Sim,,,Não,,,Sim,,,,,Sim,,,Sim,,,Sim,,,Sim,,,,,Sim,,,Sim,,,Sim,,,Sim,,,Sim,,,Sim,,,,,Sim,,,Sim,,,Sim,,,Sim,,,,,Sim,,,Sim,,,Sim,,,Sim,,,Sim,,,Sim,,,Intermediário,,,,,Intermediário,,,Nenhum,,,Intermediário,,,Intermediário,,,Intermediário,,,Intermediário,,,,,Leio e escrevo mas não falo,,,Leio e escrevo mas não falo,,,Praticamente nulo,,,,,Pouco,,,Sempre,,,Nunca,,,Nunca,,,Nunca,,,Às vezes,,,Pouco,,,Até 2,,,Ficção;Autoajuda;Outros:;,,,Não,,,Evangélica,,,Cinema;Filmes na internet;Música;TV;,,,Propaganda na escola que estudava,,,Este curso forma profissionais facilmente abso...,,,Obter novos conhecimentos;Obter competências p...,,,Melhorar cargo e salário na empresa que trabalho;,,,Não,,,"Sim, em outra instituição",,,Carro;Ônibus;,,,"Tenho 19 anos, busco me desenvolver e consolid...",,
3,4,2025-03-22 11:54:12,2025-03-22 12:02:12,eduardo.santos216@fatec.sp.gov.br,EDUARDO SANTOS,,,,Análise e Desenvolvimento de Sistemas (ADS),,,Noturno,,,1090482423038,,,Minas Gerais (MG),,,Capetinga,,,Masculino,,,2004-06-11,,,Solteiro(a),,,Nenhuma;,,,Nenhum,,,Com pais e(ou) parentes,,,5,,,Financiado,,,25 à 48 meses,,,"De R$ 4.554,01 até R$ 6.072,00",,,,,2,,,Nenhum,,,1,,,2,,,1,,,1,,,1,,,4 ou +,,,Nenhum,,,1,,,,,Não,,,Sim,,,Sim,,,Não,,,Sim,,,Sou registrado(a) em empresa pública (federal/...,,,Trabalho fora da área do curso,,,Regime Integral,,,Prefeitura Municipal de Capetinga,,,"Não tenho, uso o SUS",,,Ensino Fundamental I (1 ao 5º ano),,,Ensino fundamental I (1º ao 5º ano),,,Sempre na escola pública,,,,,Não,,,Não,,,Não,,,Não,,,,,Não,,,Não,,,Não,,,Não,,,Não,,,Não,,,,,Sim,,,Não,,,Sim,,,Sim,,,,,Sim,,,Sim,,,Sim,,,Sim,,,Sim,,,Sim,,,,,Sim,,,Sim,,,Sim,,,Sim,,,,,Não,,,Sim,,,Sim,,,Sim,,,Sim,,,Sim,,,Pouco,,,,,Pouco,,,Pouco,,,Pouco,,,Pouco,,,Pouco,,,Nenhum,,,,,Leio mas não escrevo e nem falo,,,Praticamente nulo,,,Praticamente nulo,,,,,Pouco,,,Muito,,,Nunca,,,Pouco,,,Nunca,,,Muito,,,Às vezes,,,Até 2,,,Ficção;Aventura;Autoajuda;,,,Sim,,,Católica,,,Música;,,,Indicação de familiar/amigo,,,Este curso forma profissionais que são bem rem...,,,Obter competências para exercício de uma profi...,,,Prestar concurso público;Ingressar na carreira...,,,Não,,,Não fiz,,,Ônibus;,,,Estou em busca de mais conhecimento e aprendiz...,,
4,5,2025-03-22 12:18:08,2025-03-22 12:30:16,silvio.peroni@fatec.sp.gov.br,SILVIO PERONI,,,,Análise e Desenvolvimento de Sistemas (ADS),,,Matutino,,,1090482421027,,,Minas Gerais (MG),,,Franca,,,Masculino,,,1964-07-08,,,Casado(a)/União Estável,,,Nenhuma;,,,4 ou mais,,,Com esposa(o) e (ou) filhos,,,4,,,Financiado,,,61 meses ou mais,,,"De R$ 4.554,01 até R$ 6.072,00",,,,,2,,,Nenhum,,,1,,,2,,,Nenhum,,,1,,,2,,,4 ou +,,,Nenhum,,,4 ou +,,,,,Não,,,Sim,,,Não,,,Não,,,Não,,,Não trabalho,,,Não trabalho,,,Não trabalho,,,Aposentado,,,Tenho e é um plano familiar,,,Nenhuma escolaridade,,,Nenhuma escolaridade,,,Sempre na escola pública,,,,,Sim,,,Não,,,Sim,,,Sim,,,,,Não,,,Não,,,Não,,,Não,,,Não,,,Não,,,,,Sim,,,Não,,,Sim,,,Sim,,,,,Não,,,Sim,,,Sim,,,Sim,,,Sim,,,Sim,,,,,Sim,,,Não,,,Sim,,,Sim,,,,,Não,,,Sim,,,Sim,,,Sim,,,Sim,,,Sim,,,Pouco,,,,,Pouco,,,Nenhum,,,Intermediário,,,Pouco,,,Pouco,,,Nenhum,,,,,Leio mas não escrevo e nem falo,,,"Leio, escrevo e falo bem",,,"Leio, escrevo e falo bem",,,,,Pouco,,,Às vezes,,,Nunca,,,Pouco,,,Pouco,,,Muito,,,Muito,,,Até 2,,,Outros:;,,,Sim,,,Católica,,,Filmes na internet;Música;,,,Propaganda na escola que estudava,,,Este curso forma profissionais que são bem rem...,,,Obter competências para exercício de uma profi...,,,Abrir meu próprio negócio;,,,Não,,,Não fiz,,,Caminhando;,,,Aposentado com 32 anos de magistério em matemá...,,


## 3. Análise das colunas e tipos de dados

In [15]:
# Listar todas as colunas
print("Colunas no DataFrame:")
for col in df_original.columns:
    print(f"- {col}")

Colunas no DataFrame:
- ID
- Hora de início
- Hora de conclusão
- Email
- Nome
- Total de pontos
- Comentários do teste
- Hora da última modificação
- Qual o seu curso?
- Pontos – Qual o seu curso?
- Comentários – Qual o seu curso?
- Qual o período que cursa?*
- Pontos – Qual o período que cursa?*
- Comentários – Qual o período que cursa?*
- Informe o número do seu RA:
- Pontos – Informe o número do seu RA:
- Comentários – Informe o número do seu RA:
- Qual o estado você nasceu?*
- Pontos – Qual o estado você nasceu?*
- Comentários – Qual o estado você nasceu?*
- Em qual cidade você reside?
- Pontos – Em qual cidade você reside?
- Comentários – Em qual cidade você reside?
- Qual é o seu gênero?
- Pontos – Qual é o seu gênero?
- Comentários – Qual é o seu gênero?
- Qual a sua data de nascimento?
- Pontos – Qual a sua data de nascimento?
- Comentários – Qual a sua data de nascimento?
- Qual é o seu estado civil?
- Pontos – Qual é o seu estado civil?
- Comentários – Qual é o seu estado ci

In [16]:
# Verificar tipos de dados
df_original.dtypes

ID                                                                                        int64
Hora de início                                                                   datetime64[ns]
Hora de conclusão                                                                datetime64[ns]
Email                                                                                    object
Nome                                                                                     object
                                                                                      ...      
Pontos – Qual meio de transporte você utiliza para ir à faculdade?                      float64
Comentários – Qual meio de transporte você utiliza para ir à faculdade?                 float64
Escreva algumas linhas sobre sua história e seus sonhos de vida                          object
Pontos – Escreva algumas linhas sobre sua história e seus sonhos de vida                float64
Comentários – Escreva algumas linhas sob

## 4. Verificação da coluna de cidades específicamente

In [17]:
# Nome da coluna que contém as cidades
cidade_col = 'Em qual cidade você reside?'

# Verificar se a coluna existe
if cidade_col in df_original.columns:
    print(f"A coluna '{cidade_col}' existe no DataFrame")
    
    # Contar valores únicos
    cidades_count = df_original[cidade_col].value_counts()
    print(f"\nTotal de cidades únicas: {len(cidades_count)}")
    
    # Exibir as top 15 cidades
    print("\nTop 15 cidades:")
    display(cidades_count.head(15))
    
    # Verificar se 'Franca' está presente
    if 'Franca' in cidades_count.index:
        print(f"\n'Franca' aparece {cidades_count['Franca']} vezes")
    else:
        print("\n'Franca' não aparece como valor na coluna")
        
        # Verificar se há valores semelhantes a Franca
        franca_like = [cidade for cidade in cidades_count.index if 'franca' in str(cidade).lower()]
        if franca_like:
            print(f"Valores semelhantes a 'Franca': {franca_like}")
else:
    print(f"A coluna '{cidade_col}' não existe. Colunas disponíveis: {df_original.columns}")
    
    # Procurar colunas relacionadas a cidades
    cidade_cols = [col for col in df_original.columns if 'cidade' in col.lower() or 'reside' in col.lower()]
    if cidade_cols:
        print(f"\nColunas possivelmente relacionadas a cidades: {cidade_cols}")

A coluna 'Em qual cidade você reside?' existe no DataFrame

Total de cidades únicas: 3

Top 15 cidades:


Em qual cidade você reside?
Franca                 30
Capetinga               1
Patrocínio Paulista     1
Name: count, dtype: int64


'Franca' aparece 30 vezes


## 5. Examinando valores individuais da coluna de cidades

In [18]:
# Examinar valores individuais para entender a estrutura
cidade_col = 'Em qual cidade você reside?'  # Ajuste se necessário

if cidade_col in df_original.columns:
    # Pegar exemplos de valores
    valores_unicos = df_original[cidade_col].unique()
    print(f"Exemplos de valores ({len(valores_unicos)} únicos):")
    for i, val in enumerate(valores_unicos[:20]):  # Primeiros 20 valores
        print(f"{i+1}. '{val}' (tipo: {type(val).__name__})")
        
    # Verificar se há valores nulos
    nulos = df_original[cidade_col].isna().sum()
    print(f"\nValores nulos: {nulos} ({nulos/len(df_original)*100:.2f}%)")
    
    # Verificar se há valores vazios
    vazios = (df_original[cidade_col] == '').sum()
    print(f"Strings vazias: {vazios} ({vazios/len(df_original)*100:.2f}%)")
    
    # Verificar espaços em branco
    if df_original[cidade_col].dtype == 'object':
        espacos = (df_original[cidade_col].str.strip() != df_original[cidade_col]).sum()
        print(f"Valores com espaços extras: {espacos}")

Exemplos de valores (3 únicos):
1. 'Franca' (tipo: str)
2. 'Capetinga' (tipo: str)
3. 'Patrocínio Paulista' (tipo: str)

Valores nulos: 0 (0.00%)
Strings vazias: 0 (0.00%)
Valores com espaços extras: 0


## 6. Simulando o processamento feito no sistema para identificar onde está o problema

In [19]:
# Simular o processo de conversão do Excel para JSON
def simular_processamento_excel(df):
    # Converter para lista de dicionários (estrutura original)
    json_data = df.to_dict(orient='records')
    
    # Extrair os nomes das colunas
    columns = list(df.columns)
    
    # Criar o dicionário onde a chave é o ID e o valor é a lista de dados
    resultado_json = {}
    for item in json_data:
        id_item = str(item.get('ID', ''))
        if id_item:  # Só adiciona se tiver um ID válido
            # Garantir que todos os campos estejam presentes e na ordem correta
            dados = [item.get(coluna, '') for coluna in columns[1:]]
            resultado_json[id_item] = dados
    
    return resultado_json, columns

# Simular o processo de reconstrução do DataFrame
def reconstruir_dataframe(resultado_json, columns):
    # Construir o DataFrame
    data = []
    for id_item, valores in resultado_json.items():
        if len(valores) == len(columns[1:]):  # Verificar consistência de dados
            row = {columns[0]: id_item}
            for i, col in enumerate(columns[1:]):
                row[col] = valores[i]
            data.append(row)
    
    df_reconstruido = pd.DataFrame(data)
    
    return df_reconstruido

# Executar a simulação
resultado_json, columns = simular_processamento_excel(df_original)
df_reconstruido = reconstruir_dataframe(resultado_json, columns)

# Comparar as dimensões
print(f"DataFrame original: {df_original.shape}")
print(f"DataFrame reconstruído: {df_reconstruido.shape}")

# Verificar os dados de cidade no DataFrame reconstruído
cidade_col = 'Em qual cidade você reside?'  # Ajuste se necessário

if cidade_col in df_reconstruido.columns:
    print(f"\nAnálise da coluna '{cidade_col}' no DataFrame reconstruído:")
    cidades_count_recon = df_reconstruido[cidade_col].value_counts()
    print(f"Total de cidades únicas: {len(cidades_count_recon)}")
    
    # Exibir as top 15 cidades
    print("\nTop 15 cidades (DataFrame reconstruído):")
    display(cidades_count_recon.head(15))

DataFrame original: (32, 324)
DataFrame reconstruído: (32, 324)

Análise da coluna 'Em qual cidade você reside?' no DataFrame reconstruído:
Total de cidades únicas: 3

Top 15 cidades (DataFrame reconstruído):


Em qual cidade você reside?
Franca                 30
Capetinga               1
Patrocínio Paulista     1
Name: count, dtype: int64

## 7. Comparando os dois DataFrames para identificar diferenças

In [20]:
# Comparar a coluna de cidades entre os dois DataFrames
cidade_col = 'Em qual cidade você reside?'  # Ajuste conforme necessário

if cidade_col in df_original.columns and cidade_col in df_reconstruido.columns:
    # Contar valores nos dois DataFrames
    orig_counts = df_original[cidade_col].value_counts()
    recon_counts = df_reconstruido[cidade_col].value_counts()
    
    # Verificar se há diferenças nos valores únicos
    orig_unique = set(df_original[cidade_col].unique())
    recon_unique = set(df_reconstruido[cidade_col].unique())
    
    # Valores presentes no original mas não no reconstruído
    only_in_orig = orig_unique - recon_unique
    if only_in_orig:
        print(f"Valores apenas no DataFrame original ({len(only_in_orig)}):")
        for val in list(only_in_orig)[:10]:  # Mostrar até 10 exemplos
            print(f"  - '{val}' (tipo: {type(val).__name__}) - Contagem: {orig_counts.get(val, 0)}")
    else:
        print("Não há valores exclusivos do DataFrame original")
    
    # Valores presentes no reconstruído mas não no original
    only_in_recon = recon_unique - orig_unique
    if only_in_recon:
        print(f"\nValores apenas no DataFrame reconstruído ({len(only_in_recon)}):")
        for val in list(only_in_recon)[:10]:  # Mostrar até 10 exemplos
            print(f"  - '{val}' (tipo: {type(val).__name__}) - Contagem: {recon_counts.get(val, 0)}")
    else:
        print("\nNão há valores exclusivos do DataFrame reconstruído")
    
    # Verificar contagens diferentes para o mesmo valor
    common = orig_unique.intersection(recon_unique)
    diff_counts = []
    
    for val in common:
        orig_count = orig_counts.get(val, 0)
        recon_count = recon_counts.get(val, 0)
        
        if orig_count != recon_count:
            diff_counts.append((val, orig_count, recon_count))
    
    if diff_counts:
        print(f"\nValores com contagens diferentes ({len(diff_counts)}):")
        for val, orig_count, recon_count in diff_counts[:10]:  # Mostrar até 10 exemplos
            print(f"  - '{val}': Original={orig_count}, Reconstruído={recon_count}")
    else:
        print("\nNão há valores com contagens diferentes entre os DataFrames")

Não há valores exclusivos do DataFrame original

Não há valores exclusivos do DataFrame reconstruído

Não há valores com contagens diferentes entre os DataFrames


## 8. Corrigindo o problema e gerando o gráfico correto

In [21]:
# Função para tratar a coluna de cidades
def tratar_cidades(df, coluna):
    if coluna not in df.columns:
        return df
    
    # Converter para string e remover espaços extras
    df[coluna] = df[coluna].astype(str).str.strip()
    
    # Padronizar valores conhecidos (exemplo)
    mapeamento = {
        'franca': 'Franca',
        'FRANCA': 'Franca',
        'Franca - SP': 'Franca',
        # Adicione outros mapeamentos conforme necessário
    }
    
    # Aplicar mapeamento
    for chave, valor in mapeamento.items():
        df.loc[df[coluna] == chave, coluna] = valor
    
    return df

# Aplicar tratamento
df_tratado = tratar_cidades(df_original.copy(), 'Em qual cidade você reside?')

# Verificar o resultado
cidade_col = 'Em qual cidade você reside?'
if cidade_col in df_tratado.columns:
    cidades_count_tratado = df_tratado[cidade_col].value_counts()
    print(f"Total de cidades únicas após tratamento: {len(cidades_count_tratado)}")
    
    # Exibir as top 15 cidades
    print("\nTop 15 cidades (após tratamento):")
    display(cidades_count_tratado.head(15))
    
    # Criar o gráfico correto
    top_15 = cidades_count_tratado.head(15)
    
    fig = px.bar(
        x=top_15.index,
        y=top_15.values,
        title="Top 15 Cidades de Residência (Corrigido)",
        labels={'x': 'Cidade', 'y': 'Contagem'}
    )
    
    fig.show()

Total de cidades únicas após tratamento: 3

Top 15 cidades (após tratamento):


Em qual cidade você reside?
Franca                 30
Capetinga               1
Patrocínio Paulista     1
Name: count, dtype: int64

## 9. Possíveis problemas e soluções para implementar no sistema

Baseado nas análises acima, podemos identificar alguns possíveis problemas na leitura e processamento dos dados:

1. **Problema de padronização**: Diferentes formas de escrever o mesmo nome de cidade (ex: 'Franca', 'FRANCA', 'franca', 'Franca - SP')
2. **Problema de tipos de dados**: Possível mistura de tipos na coluna (string, int, float)
3. **Problema de espaços extras**: Valores com espaços no início ou fim que afetam a contagem
4. **Problema no processamento JSON**: Possível perda ou alteração de dados durante a conversão

### Soluções recomendadas:

1. Adicionar uma etapa de limpeza e padronização para a coluna de cidades
2. Converter todos os valores para string antes de processar
3. Remover espaços extras com `.strip()`
4. Implementar um dicionário de mapeamento para padronizar valores conhecidos
5. Adicionar logs detalhados durante o processamento para facilitar a depuração

## 10. Proposta de correção para o sistema

In [22]:
# Mapeamento de cidades para padronização
# Adicione este código ao seu data_processing.py

def padronizar_cidades(df):
    """
    Padroniza nomes de cidades no DataFrame
    """
    cidade_col = 'Em qual cidade você reside?'
    if cidade_col not in df.columns:
        return df
    
    # Converter para string e remover espaços extras
    df[cidade_col] = df[cidade_col].astype(str).str.strip()
    
    # Criar mapeamento para padronização (minúsculo -> Formato Correto)
    mapeamento = {
        'franca': 'Franca',
        'FRANCA': 'Franca',
        'franca - sp': 'Franca',
        'francasp': 'Franca',
        'ribeirao preto': 'Ribeirão Preto',
        'ribeirao': 'Ribeirão Preto',
        'rp': 'Ribeirão Preto',
        'rib preto': 'Ribeirão Preto',
        'batatais': 'Batatais',
        'BATATAIS': 'Batatais',
        'sao joaquim da barra': 'São Joaquim da Barra',
        'sao joaquim': 'São Joaquim da Barra',
        # Adicione outros mapeamentos conforme necessário
    }
    
    # Aplicar mapeamento para valores exatos
    for chave, valor in mapeamento.items():
        df.loc[df[cidade_col].str.lower() == chave.lower(), cidade_col] = valor
    
    # Também poderia implementar uma lógica mais sofisticada usando similaridade de strings
    # para casos mais complexos
    
    return df

## 11. Implementação completa de correção

In [23]:
# Função atualizada para processar o Excel com tratamento de dados
def process_excel_file_improved(df_original):
    """
    Versão melhorada da função process_excel_file com tratamento de dados
    """
    try:
        # Tratar valores conforme necessário
        df = df_original.copy()
        
        # 1. Padronizar cidades
        cidade_col = 'Em qual cidade você reside?'
        if cidade_col in df.columns:
            # Converter para string e tratar valores nulos
            df[cidade_col] = df[cidade_col].fillna('Não informado')
            df[cidade_col] = df[cidade_col].astype(str).str.strip()
            
            # Criar mapeamento de padronização
            mapeamento = {
                'franca': 'Franca',
                'FRANCA': 'Franca',
                'franca - sp': 'Franca',
                # Adicione outros conforme necessário
            }
            
            # Aplicar mapeamento baseado em correspondência exata
            for chave, valor in mapeamento.items():
                df.loc[df[cidade_col].str.lower() == chave.lower(), cidade_col] = valor
        
        # 2. Outros tratamentos conforme necessário para outras colunas
        # ...
        
        # Converter para lista de dicionários
        json_data = df.to_dict(orient='records')
        
        # Extrair colunas
        columns = list(df.columns)
        
        # Criar o dicionário com ID como chave
        resultado_json = {}
        for item in json_data:
            id_item = str(item.get('ID', ''))
            if id_item:  # Só adiciona se tiver um ID válido
                # Garantir que todos os campos estejam presentes e na ordem correta
                dados = [item.get(coluna, '') for coluna in columns[1:]]
                resultado_json[id_item] = dados
        
        # Verificação final
        print(f"Processamento concluído. Registros: {len(resultado_json)}")
        
        # Verificar estado da coluna de cidades
        df_check = reconstruir_dataframe(resultado_json, columns)
        if cidade_col in df_check.columns:
            top_cities = df_check[cidade_col].value_counts().head(5).to_dict()
            print(f"Top 5 cidades após processamento: {top_cities}")
        
        return resultado_json, columns
        
    except Exception as e:
        print(f"Erro no processamento: {str(e)}")
        return None, None

# Testar a função melhorada
resultado_json_melhorado, columns_melhorado = process_excel_file_improved(df_original)

if resultado_json_melhorado:
    # Reconstruir o DataFrame
    df_melhorado = reconstruir_dataframe(resultado_json_melhorado, columns_melhorado)
    
    # Verificar o resultado
    cidade_col = 'Em qual cidade você reside?'
    if cidade_col in df_melhorado.columns:
        cidades_count_melhorado = df_melhorado[cidade_col].value_counts()
        print(f"\nTotal de cidades únicas após melhorias: {len(cidades_count_melhorado)}")
        
        # Exibir as top 15 cidades
        print("\nTop 15 cidades (após melhorias):")
        display(cidades_count_melhorado.head(15))
        
        # Criar o gráfico final correto
        top_15 = cidades_count_melhorado.head(15)
        
        fig = px.bar(
            x=top_15.index,
            y=top_15.values,
            title="Top 15 Cidades de Residência (Implementação Final)",
            labels={'x': 'Cidade', 'y': 'Contagem'}
        )
        
        fig.show()

Processamento concluído. Registros: 32
Top 5 cidades após processamento: {'Franca': 30, 'Capetinga': 1, 'Patrocínio Paulista': 1}

Total de cidades únicas após melhorias: 3

Top 15 cidades (após melhorias):


Em qual cidade você reside?
Franca                 30
Capetinga               1
Patrocínio Paulista     1
Name: count, dtype: int64

## 12. Resumo do Problema e Solução

2. Conversão de todos os valores para string e remoção de espaços extras.
3. Implementação de um dicionário de mapeamento para padronizar valores conhecidos.
4. Tratamento de valores nulos para evitar erros durante o processamento.
5. Verificações adicionais para garantir que os dados permaneçam consistentes durante a transformação JSON.

### Recomendações para o Sistema Principal:

1. **Atualizar o módulo data_processing.py**:
   - Adicionar a função `padronizar_cidades()` para normalizar os valores da coluna de cidades
   - Implementar esta função no fluxo de processamento do arquivo Excel
   
2. **Atualizar a função process_excel_file**:
   - Adicionar tratamento de dados para outras colunas problemáticas, se necessário
   - Incluir mais logs para depuração
   
3. **Verificações adicionais**:
   - Implementar verificações de consistência após o processamento dos dados
   - Adicionar alertas para casos onde os dados possam estar incorretos

Com essas alterações, o sistema deverá exibir corretamente o gráfico de cidades, mostrando Franca como a cidade com maior número de estudantes.

## 13. Verificação Avançada de Cidades

In [24]:
# Função avançada para detectar cidades similares
def detectar_cidades_similares(df, col_cidade, limiar=0.8):
    """Detecta cidades com nomes similares usando similaridade de strings"""
    try:
        from fuzzywuzzy import fuzz, process
        possui_fuzzy = True
    except ImportError:
        print("Biblioteca fuzzywuzzy não encontrada. Instalando via pip...")
        !pip install fuzzywuzzy python-Levenshtein
        from fuzzywuzzy import fuzz, process
        possui_fuzzy = True
    
    if not possui_fuzzy:
        print("Não foi possível realizar análise avançada sem a biblioteca de similaridade de strings")
        return {}
    
    # Obter valores únicos na coluna de cidades
    cidades = df[col_cidade].dropna().unique()
    cidades = [str(c).strip() for c in cidades]
    
    # Detectar similares
    similares = {}
    cidades_processadas = set()
    
    for cidade in cidades:
        if cidade in cidades_processadas:
            continue
            
        # Obter todas as cidades similares a esta
        matches = process.extractBests(cidade, cidades, score_cutoff=limiar*100)
        
        # Se encontrou mais de uma similar (a própria cidade + outras)
        if len(matches) > 1:
            grupo_similar = [match[0] for match in matches]
            # Contar ocorrências para decidir qual deve ser a forma "correta"
            contagens = {}
            for c in grupo_similar:
                contagens[c] = df[df[col_cidade] == c].shape[0]
            
            # A forma "correta" é a mais frequente
            forma_correta = max(contagens.items(), key=lambda x: x[1])[0]
            
            similares[forma_correta] = {
                'variantes': grupo_similar,
                'contagens': contagens,
                'total': sum(contagens.values())
            }
            
            # Marcar todas as variantes como processadas
            cidades_processadas.update(grupo_similar)
    
    return similares

# Testar a função (descomente se quiser executar - requer biblioteca adicional)
# similares = detectar_cidades_similares(df_original, 'Em qual cidade você reside?')
# print(f"Encontrados {len(similares)} grupos de cidades com nomes similares")
# for forma_correta, info in list(similares.items())[:5]:  # Mostrar primeiros 5 grupos
#    print(f"\nForma correta: {forma_correta} (Total: {info['total']})")
#    print(f"Variantes: {info['variantes']}")
#    print(f"Contagens: {info['contagens']}")

## 14. Exploração Visual dos Dados

In [25]:
# Visualização interativa das top cidades após padronização
def visualizar_distribuicao_cidades(df, col_cidade, top_n=15):
    # Aplicar padronização
    df_copy = df.copy()
    
    # Tratar coluna de cidades
    df_copy[col_cidade] = df_copy[col_cidade].fillna('Não informado')
    df_copy[col_cidade] = df_copy[col_cidade].astype(str).str.strip()
    
    # Padronizar nomes (insensível a maiúsculas/minúsculas)
    mapeamento = {
        'franca': 'Franca',
        'FRANCA': 'Franca',
        'franca/sp': 'Franca',
        'ribeirao preto': 'Ribeirão Preto',
        'ribeirao': 'Ribeirão Preto',
        'rib preto': 'Ribeirão Preto',
        'rib. preto': 'Ribeirão Preto',
        'batatais': 'Batatais',
        'sao joaquim da barra': 'São Joaquim da Barra',
        'sao joaquim': 'São Joaquim da Barra',
        'patrocinio paulista': 'Patrocínio Paulista',
        'igarapava': 'Igarapava',
        'orlândia': 'Orlândia',
        'orlandia': 'Orlândia',
        'pedregulho': 'Pedregulho',
        'cristais paulista': 'Cristais Paulista',
        'cristais': 'Cristais Paulista',
    }
    
    # Aplicar mapeamento
    for chave, valor in mapeamento.items():
        mask = df_copy[col_cidade].str.lower() == chave.lower()
        df_copy.loc[mask, col_cidade] = valor
    
    # Contar cidades
    city_counts = df_copy[col_cidade].value_counts().head(top_n)
    
    # Criar gráfico interativo
    fig = px.bar(
        x=city_counts.index,
        y=city_counts.values,
        title=f"Top {top_n} Cidades de Residência",
        labels={'x': 'Cidade', 'y': 'Número de Estudantes'},
        color=city_counts.values,
        color_continuous_scale='Viridis'
    )
    
    # Adicionar rótulos
    fig.update_traces(texttemplate='%{y}', textposition='outside')
    
    # Ajustar layout
    fig.update_layout(
        height=500,
        width=800,
        xaxis_tickangle=-45
    )
    
    return fig

# Criar visualização
fig = visualizar_distribuicao_cidades(df_original, 'Em qual cidade você reside?')
fig.show()

## 15. Verificação de Outros Campos Problemáticos

In [26]:
# Verificar outros campos que podem ter problemas similares de padronização
campos_para_verificar = [
    'Qual o seu curso?',
    'Qual o período que cursa?*',
    'Qual o estado você nasceu?*',
    'Qual o seu curso?'
]

for campo in campos_para_verificar:
    if campo in df_original.columns:
        valores_unicos = df_original[campo].value_counts()
        print(f"\n{'-'*50}\nCampo: {campo}\nValores únicos: {len(valores_unicos)}\nTop 10 valores:")
        display(valores_unicos.head(10))
    else:
        print(f"Campo '{campo}' não encontrado no DataFrame")


--------------------------------------------------
Campo: Qual o seu curso?
Valores únicos: 1
Top 10 valores:


Qual o seu curso?
Análise e Desenvolvimento de Sistemas (ADS)    32
Name: count, dtype: int64


--------------------------------------------------
Campo: Qual o período que cursa?*
Valores únicos: 2
Top 10 valores:


Qual o período que cursa?*
Noturno     23
Matutino     9
Name: count, dtype: int64


--------------------------------------------------
Campo: Qual o estado você nasceu?*
Valores únicos: 2
Top 10 valores:


Qual o estado você nasceu?*
São Paulo (SP)       30
Minas Gerais (MG)     2
Name: count, dtype: int64


--------------------------------------------------
Campo: Qual o seu curso?
Valores únicos: 1
Top 10 valores:


Qual o seu curso?
Análise e Desenvolvimento de Sistemas (ADS)    32
Name: count, dtype: int64

## 16. Criação de uma Solução Unificada

In [27]:
# Função completa para padronizar todos os campos problemáticos
def padronizar_dados(df):
    """Padroniza todos os campos que podem ter problemas de consistência"""
    df_padronizado = df.copy()
    
    # 1. Padronizar cidades
    cidade_col = 'Em qual cidade você reside?'
    if cidade_col in df_padronizado.columns:
        df_padronizado[cidade_col] = df_padronizado[cidade_col].fillna('Não informado')
        df_padronizado[cidade_col] = df_padronizado[cidade_col].astype(str).str.strip()
        
        mapeamento_cidades = {
            'franca': 'Franca',
            'FRANCA': 'Franca',
            'franca - sp': 'Franca',
            'franca/sp': 'Franca',
            'ribeirao preto': 'Ribeirão Preto',
            'ribeirao': 'Ribeirão Preto',
            'rib. preto': 'Ribeirão Preto',
            'rp': 'Ribeirão Preto',
            'rib preto': 'Ribeirão Preto',
            'batatais': 'Batatais',
            'BATATAIS': 'Batatais',
            'sao joaquim da barra': 'São Joaquim da Barra',
            'sao joaquim': 'São Joaquim da Barra',
            'patrocinio paulista': 'Patrocínio Paulista',
            'patrocinio': 'Patrocínio Paulista',
            'igarapava': 'Igarapava',
            'orlândia': 'Orlândia',
            'orlandia': 'Orlândia',
            'pedregulho': 'Pedregulho',
            'cristais paulista': 'Cristais Paulista',
            'cristais': 'Cristais Paulista',
            'ituverava': 'Ituverava',
        }
        
        for chave, valor in mapeamento_cidades.items():
            mask = df_padronizado[cidade_col].str.lower() == chave.lower()
            df_padronizado.loc[mask, cidade_col] = valor
    
    # 2. Padronizar curso
    curso_col = 'Qual o seu curso?'
    if curso_col in df_padronizado.columns:
        df_padronizado[curso_col] = df_padronizado[curso_col].fillna('Não informado')
        df_padronizado[curso_col] = df_padronizado[curso_col].astype(str).str.strip()
        
        mapeamento_cursos = {
            'ads': 'Análise e Desenvolvimento de Sistemas (ADS)',
            'análise e desenvolvimento': 'Análise e Desenvolvimento de Sistemas (ADS)',
            'analise e desenvolvimento': 'Análise e Desenvolvimento de Sistemas (ADS)',
            'analise e desenv. de sistemas': 'Análise e Desenvolvimento de Sistemas (ADS)',
            'gpi': 'Gestão de Produção Industrial (GPI)',
            'gestao de produção': 'Gestão de Produção Industrial (GPI)',
            'gestão de producao': 'Gestão de Produção Industrial (GPI)',
            'dsm': 'Desenvolvimento de Software Multiplataforma (DSM)',
            'desenvolvimento de software': 'Desenvolvimento de Software Multiplataforma (DSM)',
            'rh': 'Gestão de Recursos Humanos',
            'gestao de rh': 'Gestão de Recursos Humanos',
            'gestão de rh': 'Gestão de Recursos Humanos',
            'gestao empresarial': 'Gestão Empresarial (EAD)',
            'gestão empresarial': 'Gestão Empresarial (EAD)',
        }
        
        for chave, valor in mapeamento_cursos.items():
            mask = df_padronizado[curso_col].str.lower() == chave.lower()
            df_padronizado.loc[mask, curso_col] = valor
    
    # 3. Padronizar período
    periodo_col = 'Qual o período que cursa?*' if 'Qual o período que cursa?*' in df_padronizado.columns else 'Qual o período que cursa?'
    if periodo_col in df_padronizado.columns:
        df_padronizado[periodo_col] = df_padronizado[periodo_col].fillna('Não informado')
        df_padronizado[periodo_col] = df_padronizado[periodo_col].astype(str).str.strip()
        
        mapeamento_periodos = {
            'manha': 'Matutino',
            'manhã': 'Matutino',
            'matutino': 'Matutino',
            'noite': 'Noturno',
            'noturno': 'Noturno',
            'a distancia': 'EAD',
            'a distância': 'EAD',
            'ead': 'EAD',
            'ensino a distancia': 'EAD',
        }
        
        for chave, valor in mapeamento_periodos.items():
            mask = df_padronizado[periodo_col].str.lower() == chave.lower()
            df_padronizado.loc[mask, periodo_col] = valor
    
    # 4. Padronizar estado
    estado_col = 'Qual o estado você nasceu?*' if 'Qual o estado você nasceu?*' in df_padronizado.columns else 'Qual o estado você nasceu?'
    if estado_col in df_padronizado.columns:
        df_padronizado[estado_col] = df_padronizado[estado_col].fillna('Não informado')
        df_padronizado[estado_col] = df_padronizado[estado_col].astype(str).str.strip()
        
        # Padronizar estados (principalmente formato com ou sem a sigla)
        estados_map = {
            'são paulo': 'São Paulo (SP)',
            'sao paulo': 'São Paulo (SP)',
            'sp': 'São Paulo (SP)',
            'minas gerais': 'Minas Gerais (MG)',
            'mg': 'Minas Gerais (MG)',
            'rj': 'Rio de Janeiro (RJ)',
            'rio de janeiro': 'Rio de Janeiro (RJ)',
            # Adicione outros estados conforme necessário
        }
        
        for chave, valor in estados_map.items():
            mask = df_padronizado[estado_col].str.lower() == chave.lower()
            df_padronizado.loc[mask, estado_col] = valor
    
    return df_padronizado

# Aplicar padronização completa
df_final = padronizar_dados(df_original)

# Verificar resultado final para cidades
cidade_col = 'Em qual cidade você reside?'
if cidade_col in df_final.columns:
    cidades_count_final = df_final[cidade_col].value_counts()
    print(f"Total de cidades únicas após padronização completa: {len(cidades_count_final)}")
    
    # Exibir as top 15 cidades
    print("\nTop 15 cidades (após padronização completa):")
    display(cidades_count_final.head(15))
    
    # Criar o gráfico final
    top_15 = cidades_count_final.head(15)
    
    fig = px.bar(
        x=top_15.index,
        y=top_15.values,
        title="Top 15 Cidades de Residência (Solução Final)",
        labels={'x': 'Cidade', 'y': 'Contagem'},
        color=top_15.values,
        color_continuous_scale='Viridis'
    )
    
    # Adicionar rótulos de dados
    fig.update_traces(texttemplate='%{y}', textposition='outside')
    
    fig.show()

Total de cidades únicas após padronização completa: 3

Top 15 cidades (após padronização completa):


Em qual cidade você reside?
Franca                 30
Capetinga               1
Patrocínio Paulista     1
Name: count, dtype: int64

## 17. Conclusão e Recomendações Finais

### Conclusões

Neste notebook, realizamos uma análise detalhada do problema com o gráfico de cidades e identificamos as seguintes questões:

1. A inconsistência nos nomes de cidades era o principal problema, com a mesma cidade sendo registrada em formatos diferentes.
2. O processo de conversão entre formato Excel e JSON estava preservando essas inconsistências.
3. Não havia um processo de padronização para garantir nomes consistentes.

### Recomendações Finais

Para implementar a solução no sistema principal:

1. **Atualize o módulo data_processing.py** com a função `padronizar_dados()` completa, que trata todos os campos problemáticos.

2. **Integre essa função no fluxo de processamento** do arquivo Excel, logo após a leitura dos dados e antes da conversão para JSON.

3. **Implemente verificações de consistência** para confirmar que a padronização está funcionando corretamente.

4. **Adicione logs detalhados** para facilitar a depuração em caso de problemas futuros.

5. **Considere adicionar uma interface de administração** que permita ao usuário ver e corrigir manualmente inconsistências de dados.

A implementação dessas recomendações garantirá que o gráfico de cidades e outras visualizações baseadas em categorias textuais funcionem corretamente, mostrando Franca como a cidade mais comum, conforme esperado.