In [None]:
# Importando bibliotecas python

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import openpyxl as xl

In [None]:
# Leitura do arquivo
df = pd.read_csv('instances/ICG_BRASIL_REGIOES_UFS_2024.csv')
df.head()


In [None]:
# Renomear colunas para facilitar a análise
df.rename(columns={
    'NU_ANO_CENSO': 'Ano',
    'UNIDGEO': 'Unidade_Geografica',
    'NO_CATEGORIA': 'Categoria_Localizacao',
    'NO_DEPENDENCIA': 'Dependencia_Administrativa',
    'EDU_BAS_CAT_1': 'Abaixo_do_Basico',
    'EDU_BAS_CAT_2': 'No_Basico',
    'EDU_BAS_CAT_3': 'No_Adequado',
    'EDU_BAS_CAT_4': 'No_Avancado',
    'EDU_BAS_CAT_5': 'Sem_Informacao',
    'EDU_BAS_CAT_6': 'Nao_Se_Aplica'
}, inplace=True)

# Verificar as novas colunas
df.head()


In [None]:
# Selecionar apenas colunas relevantes
colunas_relevantes = [
    'Unidade_Geografica',
    'Categoria_Localizacao',
    'Dependencia_Administrativa',
    'Abaixo_do_Basico',
    'No_Basico',
    'No_Adequado',
    'No_Avancado'
]

df_filtrado = df[colunas_relevantes]

# Salvar como novo CSV
df_filtrado.to_csv('instances/ICG_2024_Tratado.csv', index=False)


In [None]:
# Verificar estrutura do DataFrame
df.info()

# Verificar valores ausentes
df.isnull().sum()

# Preencher valores faltantes com zero (ou outro valor apropriado)
df.fillna(0, inplace=True)

# Selecionar colunas relevantes para análise
colunas_relevantes = [
    'Unidade_Geografica', 'Categoria_Localizacao', 'Dependencia_Administrativa',
    'Abaixo_do_Basico', 'No_Basico', 'No_Adequado', 'No_Avancado'
]
df = df[colunas_relevantes]

# Visualizar as primeiras linhas após tratamento
df.head()


In [None]:
# Estatísticas descritivas para as variáveis numéricas
df.describe()


In [None]:
# Média de indicadores por tipo de dependência administrativa
df.groupby('Dependencia_Administrativa')[['Abaixo_do_Basico', 'No_Basico', 'No_Adequado']].mean()

# Média de indicadores por categoria de localização (Urbana/Rural)
df.groupby('Categoria_Localizacao')[['Abaixo_do_Basico', 'No_Basico', 'No_Adequado']].mean()


In [None]:

# Boxplot: Distribuição de "Abaixo do Básico" por Dependência Administrativa
plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x='Dependencia_Administrativa', y='Abaixo_do_Basico')
plt.title('Distribuição do Indicador "Abaixo do Básico" por Dependência Administrativa')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


In [None]:
# Gráfico de barras: Média por categoria de localização
plt.figure(figsize=(10, 6))
df.groupby('Categoria_Localizacao')['Abaixo_do_Basico'].mean().plot(kind='bar', color='skyblue')
plt.ylabel('Média - Abaixo do Básico')
plt.title('Média do Indicador "Abaixo do Básico" por Localização')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()
