<a href="https://colab.research.google.com/github/Caoanferreira/Unimar/blob/main/Untitled6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [22]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os
import requests
import sys # Importar sys para sys.exit()
import unicodedata # Para a função slugify_column_name

--- 1. Importação e Organização dos Dados ---
 URL ATUALIZADA para baixar o arquivo CSV
 Esta URL foi encontrada via busca e aponta para a 3ª edição da EBT no dados.gov.br


In [23]:

file_url = 'https://dados.gov.br/dados/dataset/escala-brasil-transparente-ebt/resource/dd38f831-297c-473d-88b1-364230282b0e/download/dados_ebt_20170711.csv'
file_name = 'EBT_3a_Edicao.csv' # Nome do arquivo que será salvo localmente


Verificar se o arquivo já existe, se não, baixá-lo

In [24]:
if not os.path.exists(file_name):
    print(f"Arquivo '{file_name}' não encontrado. Tentando baixar de: {file_url}")
    try:
        response = requests.get(file_url)
        response.raise_for_status() # Levanta um erro para códigos de status HTTP ruins (4xx ou 5xx)
        with open(file_name, 'wb') as f:
            f.write(response.content)
        print(f"Arquivo '{file_name}' baixado com sucesso!")
    except requests.exceptions.RequestException as e:
        print(f"Erro ao baixar o arquivo: {e}")
        print("Por favor, verifique a URL ou sua conexão com a internet. A URL pode ter mudado novamente.")
        sys.exit(1) # Sai do script com código de erro
else:
    print(f"Arquivo '{file_name}' já existe. Prosseguindo com a importação.")


Arquivo 'EBT_3a_Edicao.csv' já existe. Prosseguindo com a importação.


 Tentar importar o CSV com diferentes configurações
 Definir uma lista de tentativas de configurações (separador, encoding)


In [25]:
csv_load_attempts = [
    { 'sep': ';', 'encoding': 'utf-8', 'on_bad_lines': 'skip'},
    { 'sep': ';', 'encoding': 'latin1', 'on_bad_lines': 'skip'},
    { 'sep': ',', 'encoding': 'utf-8', 'on_bad_lines': 'skip'},
    { 'sep': ',', 'encoding': 'latin1', 'on_bad_lines': 'skip'},
    # Adicionando engine='python' para maior robustez em casos de linhas malformadas
    { 'sep': ';', 'encoding': 'utf-8', 'engine': 'python', 'on_bad_lines': 'skip'},
    { 'sep': ';', 'encoding': 'latin1', 'engine': 'python', 'on_bad_lines': 'skip'},
    { 'sep': ',', 'encoding': 'utf-8', 'engine': 'python', 'on_bad_lines': 'skip'},
    { 'sep': ',', 'encoding': 'latin1', 'engine': 'python', 'on_bad_lines': 'skip'},
    # Adicionar tentativa com o delimitador tab, caso seja um TSV mascarado de CSV
    { 'sep': '\t', 'encoding': 'utf-8', 'on_bad_lines': 'skip'},
    { 'sep': '\t', 'encoding': 'latin1', 'on_bad_lines': 'skip'},
]

df = None
for attempt in csv_load_attempts:
    try:
        print(f"Tentando importar '{file_name}' com configurações: {attempt}")
        df = pd.read_csv(file_name, **attempt)
        if df.shape[1] > 1: # Verifica se o DataFrame tem mais de uma coluna, o que indica que o separador funcionou
            print(f"Dados importados com sucesso com separador '{attempt['sep']}' e encoding '{attempt['encoding']}' (linhas problemáticas puladas).")
            break # Sai do loop se a importação for bem-sucedida
        else:
            print("Importação resultou em apenas uma coluna. Tentando próxima configuração...")
            df = None # Reseta df para tentar a próxima configuração
    except pd.errors.ParserError as e:
        print(f"ParserError ao importar com {attempt}: {e}. Tentando próxima configuração.")
    except Exception as e:
        print(f"Erro inesperado ao importar com {attempt}: {e}. Tentando próxima configuração.")

if df is None:
    print("Todas as tentativas de importação falharam.")
    print("Por favor, verifique o arquivo CSV manualmente para identificar o separador correto, encoding e possíveis problemas de formatação.")
    sys.exit(1) # Sai do script com código de erro

print(f"Número de linhas: {df.shape[0]}, Número de colunas: {df.shape[1]}")
print("\nPrimeiras 5 linhas do dataset:")
print(df.head())
print("\nInformações sobre as colunas e tipos de dados:")
df.info()


Tentando importar 'EBT_3a_Edicao.csv' com configurações: {'sep': ';', 'encoding': 'utf-8', 'on_bad_lines': 'skip'}
Dados importados com sucesso com separador ';' e encoding 'utf-8' (linhas problemáticas puladas).
Número de linhas: 2, Número de colunas: 2

Primeiras 5 linhas do dataset:
  <!DOCTYPE html><html><head><script>(function(w,d,s,l,i){w[l]=w[l]||[]  \
0                new Date().getTime(),event:'gtm....                      
1                new Date().getTime(),event:'gtm....                      

               w[l].push({'gtm.start':  
0  var f=d.getElementsByTagName(s)[0],  
1  var f=d.getElementsByTagName(s)[0],  

Informações sobre as colunas e tipos de dados:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column                                                                 Non-Null Count  Dtype 
---  ------                                                                 --------------  ----- 
 0   <!DOCTYPE htm

2. Limpeza e Preparação dos Dados

In [26]:
# Renomear colunas para facilitar o uso: padroniza nomes (remove espaços, acentos, pontuação e converte para minúsculas)
def slugify_column_name(col_name):
    """Converte um nome de coluna para um formato 'slug' amigável (minúsculas, sem acentos, espaços por underline)."""
    col_name = str(col_name) # Garante que é string
    col_name = unicodedata.normalize('NFKD', col_name).encode('ascii', 'ignore').decode('utf-8')
    col_name = col_name.replace(' ', '_').replace('-', '_') # Substitui espaços e hífens por underscore
    col_name = ''.join(c for c in col_name if c.isalnum() or c == '_') # Remove caracteres não alfanuméricos exceto underscore
    return col_name.lower()

df.columns = [slugify_column_name(col) for col in df.columns]
# Mapeamento específico de algumas colunas após a padronização automática



Verificando se os nomes originais (chaves) batem com o que o slugify_column_name gerou

Adicionado tratamento para o caso de o nome da coluna original já ser um slug

In [27]:
col_mapping = {
    'ente_federativo': 'municipio_estado',
    'uf': 'estado',
    'tipo_ente': 'tipo_ente',
    'populacao': 'populacao',
    'nota_geral': 'nota_geral',
    'nota_transparencia_ativa': 'nota_transparencia_ativa',
    'nota_transparencia_passiva': 'nota_transparencia_passiva',
    'ranking_geral': 'ranking_geral',
    'ranking_uf': 'ranking_uf',
    'regiao': 'regiao'
}

 Renomear colunas: df.rename já lida com chaves que não existem no df
 Filtrar o mapeamento para incluir apenas colunas que existem no DataFrame

In [28]:
actual_col_mapping = {
    old_name: new_name for old_name, new_name in col_mapping.items()
    if old_name in df.columns and old_name != new_name # Só mapeia se o nome for diferente
}
df = df.rename(columns=actual_col_mapping)
print("\nColunas renomeadas com sucesso (e padronizadas)!")
print("Novas colunas do dataset:")
print(df.columns.tolist())
print("\nPrimeiras 5 linhas do dataset após renomear colunas:")
print(df.head())



Colunas renomeadas com sucesso (e padronizadas)!
Novas colunas do dataset:
['doctype_htmlhtmlheadscriptfunctionwdsliwlwl', 'wlpushgtmstart']

Primeiras 5 linhas do dataset após renomear colunas:
         doctype_htmlhtmlheadscriptfunctionwdsliwlwl  \
0                new Date().getTime(),event:'gtm....   
1                new Date().getTime(),event:'gtm....   

                        wlpushgtmstart  
0  var f=d.getElementsByTagName(s)[0],  
1  var f=d.getElementsByTagName(s)[0],  


Converter 'nota_geral' e outras notas para numérico, tratando erros

In [29]:
for col in ['nota_geral', 'nota_transparencia_ativa', 'nota_transparencia_passiva']:
    if col in df.columns:
        print(f"Processando coluna numérica: '{col}'")
        # Substituir vírgula por ponto para conversão para float
        # Garante que seja string antes de aplicar .str.replace
        df[col] = df[col].astype(str).str.replace(',', '.', regex=False)
        df[col] = pd.to_numeric(df[col], errors='coerce')
        # Preencher valores NaN (Not a Number) com a mediana
        df[col].fillna(df[col].median(), inplace=True)
    else:
        print(f"Aviso: Coluna de nota '{col}' não encontrada para processamento numérico.")


Aviso: Coluna de nota 'nota_geral' não encontrada para processamento numérico.
Aviso: Coluna de nota 'nota_transparencia_ativa' não encontrada para processamento numérico.
Aviso: Coluna de nota 'nota_transparencia_passiva' não encontrada para processamento numérico.


 Converter 'populacao' para numérico, tratando vírgulas e NaNs

In [30]:
if 'populacao' in df.columns:
    print(f"Processando coluna numérica: 'populacao'")
    df['populacao'] = df['populacao'].astype(str).str.replace(',', '.', regex=False) # Garante tratamento de vírgulas
    df['populacao'] = pd.to_numeric(df['populacao'], errors='coerce')
    df['populacao'].fillna(df['populacao'].median(), inplace=True)
else:
    print("Aviso: Coluna 'populacao' não encontrada para processamento numérico.")


Aviso: Coluna 'populacao' não encontrada para processamento numérico.


Remover linhas com valores ausentes em colunas críticas (se houver)
 Garante que as colunas existam antes de usá-las no subset


In [31]:
critical_columns = [col for col in ['municipio_estado', 'estado', 'tipo_ente', 'nota_geral'] if col in df.columns]
if critical_columns:
    print(f"\nRemovendo linhas com valores nulos nas colunas críticas: {critical_columns}")
    df.dropna(subset=critical_columns, inplace=True)
else:
    print("Atenção: Colunas críticas para dropna não encontradas. Verifique os nomes das colunas.")


print("\nApós limpeza e preparação:")
print(df.info())
print("\nValores nulos após tratamento:")
print(df.isnull().sum())


Atenção: Colunas críticas para dropna não encontradas. Verifique os nomes das colunas.

Após limpeza e preparação:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column                                       Non-Null Count  Dtype 
---  ------                                       --------------  ----- 
 0   doctype_htmlhtmlheadscriptfunctionwdsliwlwl  2 non-null      object
 1   wlpushgtmstart                               2 non-null      object
dtypes: object(2)
memory usage: 164.0+ bytes
None

Valores nulos após tratamento:
doctype_htmlhtmlheadscriptfunctionwdsliwlwl    0
wlpushgtmstart                                 0
dtype: int64


3. Análise Exploratória com Resumo Estatístico e Gráficos
Bloco de execução condicional para a análise e gráficos

In [32]:
if 'nota_geral' in df.columns:
    print("\n--- Resumo Estatístico da Nota Geral ---")
    print(df['nota_geral'].describe())
else:
    print("\nA coluna 'nota_geral' não foi encontrada para resumo estatístico.")

if 'tipo_ente' in df.columns and 'nota_geral' in df.columns:
    print("\n--- Notas Médias por Tipo de Ente ---")
    print(df.groupby('tipo_ente')['nota_geral'].mean().sort_values(ascending=False))
else:
    print("\nColunas 'tipo_ente' ou 'nota_geral' não encontradas para notas médias por tipo de ente.")

if 'regiao' in df.columns and 'nota_geral' in df.columns:
    print("\n--- Notas Médias por Região ---")
    print(df.groupby('regiao')['nota_geral'].mean().sort_values(ascending=False))
else:
    print("\nColunas 'regiao' ou 'nota_geral' não encontradas para notas médias por região.")

if 'nota_geral' in df.columns and 'municipio_estado' in df.columns and 'estado' in df.columns:
    print("\n--- Top 10 Entes Federativos com Maiores Notas Gerais ---")
    print(df.sort_values(by='nota_geral', ascending=False).head(10)[['municipio_estado', 'estado', 'nota_geral']])
    print("\n--- Top 10 Entes Federativos com Menores Notas Gerais ---")
    print(df.sort_values(by='nota_geral', ascending=True).head(10)[['municipio_estado', 'estado', 'nota_geral']])
else:
    print("\nColunas necessárias para o Top 10 (municipio_estado, estado, nota_geral) não encontradas.")



A coluna 'nota_geral' não foi encontrada para resumo estatístico.

Colunas 'tipo_ente' ou 'nota_geral' não encontradas para notas médias por tipo de ente.

Colunas 'regiao' ou 'nota_geral' não encontradas para notas médias por região.

Colunas necessárias para o Top 10 (municipio_estado, estado, nota_geral) não encontradas.


Gráficos de Visualização

In [33]:
plt.style.use('seaborn-v0_8-darkgrid') # Estilo mais moderno para os gráficos

if 'nota_geral' in df.columns:
    # Distribuição da Nota Geral
    plt.figure(figsize=(10, 6))
    sns.histplot(df['nota_geral'], bins=20, kde=True, color='skyblue')
    plt.title('Distribuição da Nota Geral da Escala Brasil Transparente', fontsize=16)
    plt.xlabel('Nota Geral', fontsize=12)
    plt.ylabel('Frequência', fontsize=12)
    plt.grid(axis='y', alpha=0.75)
    plt.show()
else:
    print("\nNão é possível gerar o gráfico de Distribuição da Nota Geral: coluna 'nota_geral' não encontrada.")

if 'tipo_ente' in df.columns and 'nota_geral' in df.columns:
    # Box Plot da Nota Geral por Tipo de Ente
    plt.figure(figsize=(10, 6))
    sns.boxplot(x='tipo_ente', y='nota_geral', data=df, palette='viridis')
    plt.title('Box Plot da Nota Geral por Tipo de Ente', fontsize=16)
    plt.xlabel('Tipo de Ente', fontsize=12)
    plt.ylabel('Nota Geral', fontsize=12)
    plt.show()
else:
    print("\nNão é possível gerar o Box Plot da Nota Geral por Tipo de Ente: colunas 'tipo_ente' ou 'nota_geral' não encontradas.")

if 'regiao' in df.columns and 'nota_geral' in df.columns:
    # Box Plot da Nota Geral por Região
    plt.figure(figsize=(12, 7))
    sns.boxplot(x='regiao', y='nota_geral', data=df, palette='plasma')
    plt.title('Box Plot da Nota Geral por Região', fontsize=16)
    plt.xlabel('Região', fontsize=12)
    plt.ylabel('Nota Geral', fontsize=12)
    plt.show()
else:
    print("\nNão é possível gerar o Box Plot da Nota Geral por Região: colunas 'regiao' ou 'nota_geral' não encontradas.")

if 'estado' in df.columns and 'nota_geral' in df.columns:
    # Gráfico de Barras das Notas Médias por Estado (Top 15)
    plt.figure(figsize=(14, 8))
    avg_nota_estado = df.groupby('estado')['nota_geral'].mean().sort_values(ascending=False).head(15)
    sns.barplot(x=avg_nota_estado.index, y=avg_nota_estado.values, palette='coolwarm')
    plt.title('Top 15 Estados com Maiores Notas Médias de Transparência', fontsize=16)
    plt.xlabel('Estado', fontsize=12)
    plt.ylabel('Nota Média Geral', fontsize=12)
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()
else:
    print("\nNão é possível gerar o gráfico de Barras das Notas Médias por Estado: colunas 'estado' ou 'nota_geral' não encontradas.")



Não é possível gerar o gráfico de Distribuição da Nota Geral: coluna 'nota_geral' não encontrada.

Não é possível gerar o Box Plot da Nota Geral por Tipo de Ente: colunas 'tipo_ente' ou 'nota_geral' não encontradas.

Não é possível gerar o Box Plot da Nota Geral por Região: colunas 'regiao' ou 'nota_geral' não encontradas.

Não é possível gerar o gráfico de Barras das Notas Médias por Estado: colunas 'estado' ou 'nota_geral' não encontradas.


Correlação entre Nota Geral e População (se a coluna 'populacao' estiver disponível e for numérica)

In [34]:
if 'populacao' in df.columns and 'nota_geral' in df.columns:
    plt.figure(figsize=(10, 6))
    sns.scatterplot(x='populacao', y='nota_geral', data=df, alpha=0.6, color='purple')
    plt.title('Correlação entre Nota Geral e População', fontsize=16)
    plt.xlabel('População', fontsize=12)
    plt.ylabel('Nota Geral', fontsize=12)
    plt.xscale('log') # Usar escala logarítmica para população devido à grande variação
    plt.grid(True, which="both", ls="--", c="0.7")
    plt.show()
    print(f"\nCoeficiente de Correlação entre Nota Geral e População: {df['nota_geral'].corr(df['populacao']):.2f}")
else:
    print("\nNão é possível gerar o gráfico de Correlação entre Nota Geral e População: colunas 'populacao' ou 'nota_geral' não encontradas.")



Não é possível gerar o gráfico de Correlação entre Nota Geral e População: colunas 'populacao' ou 'nota_geral' não encontradas.


Comparação entre Transparência Ativa e Passiva

In [35]:
if 'nota_transparencia_ativa' in df.columns and 'nota_transparencia_passiva' in df.columns:
    plt.figure(figsize=(10, 6))
    sns.scatterplot(x='nota_transparencia_ativa', y='nota_transparencia_passiva', data=df, alpha=0.6, color='teal')
    plt.title('Comparação entre Nota de Transparência Ativa e Passiva', fontsize=16)
    plt.xlabel('Nota de Transparência Ativa', fontsize=12)
    plt.ylabel('Nota de Transparência Passiva', fontsize=12)
    plt.grid(True, which="both", ls="--", c="0.7")
    plt.show()
    print(f"\nCoeficiente de Correlação entre Transparência Ativa e Passiva: {df['nota_transparencia_ativa'].corr(df['nota_transparencia_passiva']):.2f}")
else:
    print("\nNão é possível gerar o gráfico de Comparação entre Transparência Ativa e Passiva: colunas 'nota_transparencia_ativa' ou 'nota_transparencia_passiva' não encontradas.")



Não é possível gerar o gráfico de Comparação entre Transparência Ativa e Passiva: colunas 'nota_transparencia_ativa' ou 'nota_transparencia_passiva' não encontradas.
