In [2]:
import pandas as pd
import json
import numpy as np

# Transformação dos dados TJ - Educação

## Carregar os dados

In [7]:
try:
    df = pd.read_csv("../data/data.csv")
except:
    years = [year for year in range(2015, 2024)]

    df = pd.DataFrame()
    for year in years:
        # Lê o arquivo csv correspondente ao ano
        aux = pd.read_csv(f'../data/{year}.csv', encoding='latin-1', sep=';')
        aux['ANO'] = year

        df = pd.concat([df, aux], ignore_index=True,).reset_index(drop=True)

    df.to_csv("../data/data.csv", index=False)

df.head()

Unnamed: 0,NO_MUNICIPIO,TP_DEPENDENCIA,TP_CATEGORIA_ESCOLA_PRIVADA,TP_LOCALIZACAO,TP_LOCALIZACAO_DIFERENCIADA,TP_REGULAMENTACAO,TP_OCUPACAO_PREDIO_ESCOLAR,IN_PREDIO_COMPARTILHADO,IN_AGUA_FILTRADA,IN_AGUA_POTAVEL,...,Unnamed: 129,ANO,IN_PROF_GESTAO,IN_ACESSIBILIDADE_ELEVADOR,IN_PROF_COORDENADOR,QT_PROF_COORDENADOR,IN_ALMOXARIFADO,IN_AREA_VERDE,IN_AUDITORIO,QT_MAT_FUND_INT
0,Almadina,3.0,0.0,1.0,0.0,1.0,1.0,0.0,1.0,0.0,...,,2015,,,,,,,,
1,Almadina,3.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,...,,2015,,,,,,,,
2,Almadina,3.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,...,,2015,,,,,,,,
3,Almadina,3.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,...,,2015,,,,,,,,
4,Almadina,3.0,0.0,2.0,0.0,1.0,3.0,0.0,1.0,0.0,...,,2015,,,,,,,,


## Processamento nos dados do DF

In [41]:
# Função para converter float para int
def float_to_int(value):
    try:
        return int(value)
    except:
        return "NaN"

# Converte as colunas para inteiros
for column in df.columns:
    if column != 'NO_MUNICIPIO':
        df[column] = df[column].apply(float_to_int)

    if 'Unnamed' in column:
        del df[column]

columns = df.columns
columns = [column for column in columns if column not in ['NO_MUNICIPIO', 'ANO']]
df = df[['NO_MUNICIPIO', 'ANO'] + columns]

# Preenche os valores NaN
df.fillna('NaN', inplace=True)

# Carrega o dicionário de categorias
dict_tp = json.load(open('../output/dict_categoria.json', 'r'))

columns = df.columns
columns = ['NO_MUNICIPIO', 'ANO'] + [column for column in columns if column in dict_tp.keys()]
df = df[columns]

# Loop para mapear as categorias
for key in dict_tp:
    # Verifica se a coluna existe no dataframe
    if key in df.columns:
        tmp = {}

        # Mapeia as categorias
        if 'categoria' in dict_tp[key]:
            for k, v in dict_tp[key]['categoria'].items():
                # Verifica se o valor é NaN
                if k == 'NaN':
                    tmp[k] = v

                    if '0' not in tmp.keys() and 0 not in tmp.keys():
                        tmp[0] = v
                else:
                    tmp['NaN'] = "Não aplicável"
                    tmp[int(k)] = v

            df[key] = df[key].map(tmp)

for column in df.columns:
    if column not in dict_tp.keys() and 'IN' in column:
        df[column] = df[column].map({0: 'Não', 1: 'Sim', 'NaN': 'Não aplicável'})

df.replace('NaN', "Não aplicável", inplace=True)

df.head()

Unnamed: 0,NO_MUNICIPIO,ANO,TP_DEPENDENCIA,TP_CATEGORIA_ESCOLA_PRIVADA,TP_LOCALIZACAO,TP_LOCALIZACAO_DIFERENCIADA,TP_REGULAMENTACAO,TP_OCUPACAO_PREDIO_ESCOLAR,IN_PREDIO_COMPARTILHADO,IN_AGUA_FILTRADA,...,QT_MAT_INF_PRE_INT,QT_DOC_INF,QT_DOC_INF_CRE,QT_DOC_INF_PRE,QT_TUR_INF,QT_TUR_INF_CRE,QT_TUR_INF_PRE,IN_PROF_GESTAO,IN_PROF_COORDENADOR,QT_PROF_COORDENADOR
0,Almadina,2015,Municipal,Não aplicável para escolas públicas,Urbana,Escola não está em área de localização diferen...,Sim,Próprio,Não,Sim,...,0,0,0,0,0,0,0,Não aplicável,Não aplicável,Não aplicável
1,Almadina,2015,Municipal,Não aplicável para escolas públicas,Rural,Escola não está em área de localização diferen...,Não,Não aplicável para escolas que não ocupam préd...,Não,Não,...,0,0,0,0,0,0,0,Não aplicável,Não aplicável,Não aplicável
2,Almadina,2015,Municipal,Não aplicável para escolas públicas,Rural,Escola não está em área de localização diferen...,Não,Não aplicável para escolas que não ocupam préd...,Não,Não,...,0,0,0,0,0,0,0,Não aplicável,Não aplicável,Não aplicável
3,Almadina,2015,Municipal,Não aplicável para escolas públicas,Rural,Escola não está em área de localização diferen...,Não,Não aplicável para escolas que não ocupam préd...,Não,Não,...,0,0,0,0,0,0,0,Não aplicável,Não aplicável,Não aplicável
4,Almadina,2015,Municipal,Não aplicável para escolas públicas,Rural,Escola não está em área de localização diferen...,Sim,Cedido,Não,Sim,...,0,0,0,0,0,0,0,Não aplicável,Não aplicável,Não aplicável


In [42]:
try:
    with open('../data/cities.txt', 'r') as fd:
        cities = fd.readlines()
        cities = [city.strip().replace("\n", "") for city in cities]

    print("Before", df.shape)
    df = df[df['NO_MUNICIPIO'].isin(cities)]
    print("After", df.shape)
except FileNotFoundError:
    print("Arquivo não encontrado")


Before (30944, 110)
After (10810, 110)


In [43]:
df.to_csv("../output/data.csv", index=False)
df.head()

Unnamed: 0,NO_MUNICIPIO,ANO,TP_DEPENDENCIA,TP_CATEGORIA_ESCOLA_PRIVADA,TP_LOCALIZACAO,TP_LOCALIZACAO_DIFERENCIADA,TP_REGULAMENTACAO,TP_OCUPACAO_PREDIO_ESCOLAR,IN_PREDIO_COMPARTILHADO,IN_AGUA_FILTRADA,...,QT_MAT_INF_PRE_INT,QT_DOC_INF,QT_DOC_INF_CRE,QT_DOC_INF_PRE,QT_TUR_INF,QT_TUR_INF_CRE,QT_TUR_INF_PRE,IN_PROF_GESTAO,IN_PROF_COORDENADOR,QT_PROF_COORDENADOR
0,Almadina,2015,Municipal,Não aplicável para escolas públicas,Urbana,Escola não está em área de localização diferen...,Sim,Próprio,Não,Sim,...,0,0,0,0,0,0,0,Não aplicável,Não aplicável,Não aplicável
1,Almadina,2015,Municipal,Não aplicável para escolas públicas,Rural,Escola não está em área de localização diferen...,Não,Não aplicável para escolas que não ocupam préd...,Não,Não,...,0,0,0,0,0,0,0,Não aplicável,Não aplicável,Não aplicável
2,Almadina,2015,Municipal,Não aplicável para escolas públicas,Rural,Escola não está em área de localização diferen...,Não,Não aplicável para escolas que não ocupam préd...,Não,Não,...,0,0,0,0,0,0,0,Não aplicável,Não aplicável,Não aplicável
3,Almadina,2015,Municipal,Não aplicável para escolas públicas,Rural,Escola não está em área de localização diferen...,Não,Não aplicável para escolas que não ocupam préd...,Não,Não,...,0,0,0,0,0,0,0,Não aplicável,Não aplicável,Não aplicável
4,Almadina,2015,Municipal,Não aplicável para escolas públicas,Rural,Escola não está em área de localização diferen...,Sim,Cedido,Não,Sim,...,0,0,0,0,0,0,0,Não aplicável,Não aplicável,Não aplicável


## Agrupar e converter dados para JSON

In [45]:
""" tmp = df[['ANO']].copy()
tmp =  tmp.rename(columns={'ANO': 'count'})
df = pd.concat([df, tmp], axis=1)

out_json = {}

columns = df.columns
columns = [column for column in columns if column not in ['NO_MUNICIPIO', 'ANO', 'count']]

for column in columns:
    groupby_df = df.groupby(['NO_MUNICIPIO', 'ANO', column],
                            as_index=False).agg({'count': 'count'})
    tmp = groupby_df.to_dict(orient='split')

    for i in range(len(tmp['data'])):
        municipio = tmp['data'][i][0]
        ano = tmp['data'][i][1]
        categoria = tmp['data'][i][2]
        count = tmp['data'][i][3]

        if municipio not in out_json:
            out_json[municipio] = {}

        if ano not in out_json[municipio]:
            out_json[municipio][ano] = {}

        if column not in out_json[municipio][ano]:
            out_json[municipio][ano][column] = {}

        out_json[municipio][ano][column][categoria] = count

json.dump(out_json, open('../output/data.json', 'w'), ensure_ascii=False) """

" tmp = df[['ANO']].copy()\ntmp =  tmp.rename(columns={'ANO': 'count'})\ndf = pd.concat([df, tmp], axis=1)\n\nout_json = {}\n\ncolumns = df.columns\ncolumns = [column for column in columns if column not in ['NO_MUNICIPIO', 'ANO', 'count']]\n\nfor column in columns:\n    groupby_df = df.groupby(['NO_MUNICIPIO', 'ANO', column],\n                            as_index=False).agg({'count': 'count'})\n    tmp = groupby_df.to_dict(orient='split')\n\n    for i in range(len(tmp['data'])):\n        municipio = tmp['data'][i][0]\n        ano = tmp['data'][i][1]\n        categoria = tmp['data'][i][2]\n        count = tmp['data'][i][3]\n\n        if municipio not in out_json:\n            out_json[municipio] = {}\n\n        if ano not in out_json[municipio]:\n            out_json[municipio][ano] = {}\n\n        if column not in out_json[municipio][ano]:\n            out_json[municipio][ano][column] = {}\n\n        out_json[municipio][ano][column][categoria] = count\n\njson.dump(out_json, open('../ou