# Imports

In [None]:
import sqlite3
import pandas as pd

# Criar tabela IES dos Microdados

In [None]:
conn = sqlite3.connect("IES.db")
cursor = conn.cursor()

cursor.execute("""
CREATE TABLE IES (
    NU_ANO_CENSO INTEGER,
    CO_IES INTEGER,
    CO_MUNICIPIO_IES INTEGER,

    NO_REGIAO_IES TEXT,
    NO_UF_IES TEXT,
    SG_UF_IES TEXT,
    NO_MUNICIPIO_IES TEXT,
    IN_CAPITAL_IES INTEGER,

    NO_IES TEXT,
    SG_IES TEXT,
    TP_ORGANIZACAO_ACADEMICA TEXT,
    TP_REDE TEXT,
    TP_CATEGORIA_ADMINISTRATIVA TEXT,

    QT_DOC_EXE INTEGER,
    QT_DOC_EX_0_29 INTEGER,
    QT_DOC_EX_30_34 INTEGER,
    QT_DOC_EX_35_39 INTEGER,
    QT_DOC_EX_40_44 INTEGER,
    QT_DOC_EX_45_49 INTEGER,
    QT_DOC_EX_50_54 INTEGER,
    QT_DOC_EX_55_59 INTEGER,
    QT_DOC_EX_60_MAIS INTEGER,
    QT_DOC_EX_AMARELA INTEGER,
    QT_DOC_EX_BRANCA INTEGER,
    QT_DOC_EX_COR_ND INTEGER,
    QT_DOC_TOTAL INTEGER,
    QT_DOC_EX_FEMI INTEGER,
    QT_DOC_EX_MASC INTEGER,
    QT_DOC_EX_PRETA INTEGER,
    QT_DOC_EX_PARDA INTEGER,
    QT_DOC_EX_INDIGENA INTEGER,
    PRIMARY KEY (NU_ANO_CENSO, CO_IES, CO_MUNICIPIO_IES)
);
""")

conn.commit()
conn.close()

## Popular tabela

In [None]:
csv_list = ['MICRODADOS_CADASTRO_IES_2013',
            'MICRODADOS_CADASTRO_IES_2014',
            'MICRODADOS_CADASTRO_IES_2015',
            'MICRODADOS_CADASTRO_IES_2016',
            'MICRODADOS_CADASTRO_IES_2017',
            'MICRODADOS_CADASTRO_IES_2018',
            'MICRODADOS_CADASTRO_IES_2019',
            'MICRODADOS_CADASTRO_IES_2020',
            'MICRODADOS_CADASTRO_IES_2021',
            'MICRODADOS_ED_SUP_IES_2022']

table_columns = ['NU_ANO_CENSO',
    'CO_IES',
    'CO_MUNICIPIO_IES',

    'NO_REGIAO_IES',
    'NO_UF_IES',
    'SG_UF_IES',
    'NO_MUNICIPIO_IES',
    'IN_CAPITAL_IES',

    'NO_IES',
    'SG_IES',
    'TP_ORGANIZACAO_ACADEMICA',
    'TP_REDE',
    'TP_CATEGORIA_ADMINISTRATIVA',

    'QT_DOC_EXE',
    'QT_DOC_EX_0_29',
    'QT_DOC_EX_30_34',
    'QT_DOC_EX_35_39',
    'QT_DOC_EX_40_44',
    'QT_DOC_EX_45_49',
    'QT_DOC_EX_50_54',
    'QT_DOC_EX_55_59',
    'QT_DOC_EX_60_MAIS',
    'QT_DOC_EX_AMARELA',
    'QT_DOC_EX_BRANCA',
    'QT_DOC_EX_COR_ND',
    'QT_DOC_TOTAL',
    'QT_DOC_EX_FEMI',
    'QT_DOC_EX_MASC',
    'QT_DOC_EX_PRETA',
    'QT_DOC_EX_PARDA',
    'QT_DOC_EX_INDIGENA']

In [None]:
tp_org_adad = {'1': 'Universidade',
    '2': 'Centro Universitário',
    '3': 'Faculdade',
    '4': 'Instituto Federal de Educação, Ciência e Tecnologia',
    '5': 'Centro Federal de Educação Tecnológica'}

tp_cat_adm = {'1': 'Pública Federal',
    '2': 'Pública Estadual',
    '3': 'Pública Municipal',
    '4': 'Privada com fins lucrativos',
    '5': 'Privada sem fins lucrativos',
    '6': 'Privada - Particular em sentido estrito',
    '7': 'Especial',
    '8': 'Privada comunitária',
    '9': 'Privada confessional'}

tp_rede = {'1': 'Pública',
    '2': 'Pública',
    '3': 'Pública',
    '4': 'Privada',
    '5': 'Privada',
    '6': 'Privada',
    '7': 'Especial',
    '8': 'Privada',
    '9': 'Privada'}

In [None]:
conn = sqlite3.connect('IES.db')
cursor = conn.cursor()

for csv_file in csv_list:
    try:
        df = pd.read_csv(csv_file + '.CSV', encoding='latin-1', low_memory=False, sep=';')

        for index, row in df.iterrows():
            placeholders = ', '.join(['?'] * len(table_columns))
            columns = ', '.join(table_columns)

            insert_query = f"INSERT INTO IES ({columns}) VALUES ({placeholders})"

            # Mapeamento dos tipos
            row['TP_ORGANIZACAO_ACADEMICA'] = tp_org_adad[str(row['TP_ORGANIZACAO_ACADEMICA'])]

            cat_adm = str(row['TP_CATEGORIA_ADMINISTRATIVA'])

            row['TP_CATEGORIA_ADMINISTRATIVA'] = tp_cat_adm[cat_adm]
            row['TP_REDE'] = tp_rede[cat_adm]

            data = tuple(row[col] for col in table_columns)

            try:
                cursor.execute(insert_query, data)
            except Exception as e:
                print(f"Error inserting data from {csv_file}.csv, row {index}: {e}")

        conn.commit()
        print(f"Data from {csv_file}.csv inserted successfully.")

    except Exception as e:
        print(f"An error occurred while processing {csv_file}.csv: {e}")

conn.close()

Data from MICRODADOS_CADASTRO_IES_2013.csv inserted successfully.
Data from MICRODADOS_CADASTRO_IES_2014.csv inserted successfully.
Data from MICRODADOS_CADASTRO_IES_2015.csv inserted successfully.
Data from MICRODADOS_CADASTRO_IES_2016.csv inserted successfully.
Data from MICRODADOS_CADASTRO_IES_2017.csv inserted successfully.
Data from MICRODADOS_CADASTRO_IES_2018.csv inserted successfully.
Data from MICRODADOS_CADASTRO_IES_2019.csv inserted successfully.
Data from MICRODADOS_CADASTRO_IES_2020.csv inserted successfully.
Data from MICRODADOS_CADASTRO_IES_2021.csv inserted successfully.
Data from MICRODADOS_ED_SUP_IES_2022.csv inserted successfully.


In [None]:
conn = sqlite3.connect('IES.db')
query = """
SELECT NO_IES, SG_IES, QT_DOC_EX_BRANCA, QT_DOC_EX_PRETA, QT_DOC_EX_PARDA
FROM IES
WHERE NO_UF_IES IN ('São Paulo', 'Rio de Janeiro') AND NU_ANO_CENSO = 2022
ORDER BY QT_DOC_EX_BRANCA + QT_DOC_EX_PRETA + QT_DOC_EX_PARDA DESC
LIMIT 30;
"""
df = pd.read_sql_query(query, conn)
print(df)
conn.close()

                                               NO_IES          SG_IES  \
0                           UNIVERSIDADE DE SÃO PAULO             USP   
1                               UNIVERSIDADE PAULISTA            UNIP   
2   INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...            IFSP   
3                     UNIVERSIDADE FEDERAL FLUMINENSE             UFF   
4              UNIVERSIDADE FEDERAL DO RIO DE JANEIRO            UFRJ   
5                   UNIVERSIDADE ESTADUAL DE CAMPINAS         UNICAMP   
6                   UNIVERSIDADE FEDERAL DE SÃO PAULO         UNIFESP   
7                          UNIVERSIDADE NOVE DE JULHO         UNINOVE   
8       PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO           PUCSP   
9   PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JAN...         PUC-RIO   
10               UNIVERSIDADE PRESBITERIANA MACKENZIE       MACKENZIE   
11  UNIVERSIDADE ESTADUAL PAULISTA JÚLIO DE MESQUI...           UNESP   
12                       UNIVERSIDADE ANHEMBI MORUM

# DTempo

In [None]:
conn = sqlite3.connect('IES.db')
cursor = conn.cursor()

cursor.execute("""
    SELECT DISTINCT NU_ANO_CENSO as ano, ROW_NUMBER() OVER (ORDER BY NU_ANO_CENSO) AS chave_tempo
    FROM IES
    ORDER BY NU_ANO_CENSO;
""")

results = cursor.fetchall()
dtempo_df = pd.DataFrame(results, columns=['ano', 'chave_tempo'])

dtempo_df.to_csv('DTempo.csv', index=False)

conn.close()

## Tabela auxiliar

In [None]:
conn = sqlite3.connect('IES.db')
cursor = conn.cursor()

cursor.execute('''
    CREATE TABLE DTempo (
        ano INTEGER,
        chave_tempo INTEGER PRIMARY KEY
    )
''')

conn.commit()

for index, row in dtempo_df.iterrows():
    cursor.execute('''
        INSERT INTO DTempo (ano, chave_tempo)
        VALUES (?, ?)
    ''', (int(row['ano']), int(row['chave_tempo'])))

conn.commit()
conn.close()

# DGeografica

In [None]:
conn = sqlite3.connect('IES.db')
cursor = conn.cursor()

cursor.execute("""
    SELECT
        NO_REGIAO_IES as regiao,
        NO_UF_IES as nome_uf,
        SG_UF_IES as sigla_uf,
        NO_MUNICIPIO_IES as municipio,
        IN_CAPITAL_IES as capital,
        CO_MUNICIPIO_IES,
        ROW_NUMBER() OVER (ORDER BY CO_MUNICIPIO_IES) AS chave_geografica
    FROM IES
    GROUP BY CO_MUNICIPIO_IES;
""")

results = cursor.fetchall()
dgeografica_df = pd.DataFrame(results, columns=['regiao', 'nome_uf', 'sigla_uf', 'municipio', 'capital', 'CO_MUNICIPIO_IES', 'chave_geografica'])
dgeografica_df_result = dgeografica_df.drop(columns=['CO_MUNICIPIO_IES'])

dgeografica_df_result.to_csv('DGeografica.csv', index=False)

conn.close()

NameError: name 'sqlite3' is not defined

## Tabela auxiliar

In [None]:
conn = sqlite3.connect('IES.db')
cursor = conn.cursor()

cursor.execute('''
    CREATE TABLE DGeografica (
        regiao TEXT,
        nome_uf TEXT,
        sigla_uf TEXT,
        municipio TEXT,
        capital INTEGER,
        CO_MUNICIPIO_IES INTEGER,
        chave_geografica INTEGER PRIMARY KEY
    )
''')

conn.commit()

for index, row in dgeografica_df.iterrows():
    cursor.execute('''
        INSERT INTO DGeografica (regiao, nome_uf, sigla_uf, municipio, capital, CO_MUNICIPIO_IES, chave_geografica)
        VALUES (?, ?, ?, ?, ?, ?, ?)
    ''', (row['regiao'], row['nome_uf'], row['sigla_uf'], row['municipio'], row['capital'], row['CO_MUNICIPIO_IES'], row['chave_geografica']))

conn.commit()
conn.close()

# DInstituicao

In [None]:
conn = sqlite3.connect('IES.db')
cursor = conn.cursor()

cursor.execute("""
    SELECT
        CO_IES,
        NO_IES as nome,
        SG_IES as sigla,
        TP_ORGANIZACAO_ACADEMICA as tipo_organizacao_academica,
        TP_REDE as tipo_rede,
        TP_CATEGORIA_ADMINISTRATIVA as tipo_categoria_adninistrativa,
        ROW_NUMBER() OVER (ORDER BY CO_IES) AS chave_instituicao
    FROM IES
    GROUP BY CO_IES;
""")

results = cursor.fetchall()
dinstituicao_df = pd.DataFrame(results, columns=['CO_IES', 'nome', 'sigla', 'tipo_organizacao_academica', 'tipo_rede', 'tipo_categoria_adninistrativa', 'chave_instituicao'])
dinstituicao_df_result = dinstituicao_df.drop(columns=['CO_IES'])

dinstituicao_df_result.to_csv('DInstituicao.csv', index=False)

conn.close()

## Tabela auxiliar

In [None]:
conn = sqlite3.connect('IES.db')
cursor = conn.cursor()

cursor.execute('''
    CREATE TABLE DInstituicao (
        nome TEXT,
        sigla TEXT,
        tipo_organizacao_academica TEXT,
        tipo_rede TEXT,
        tipo_categoria_adninistrativa TEXT,
        CO_IES INTEGER,
        chave_instituicao INTEGER PRIMARY KEY
    )
''')

conn.commit()

for index, row in dinstituicao_df.iterrows():
    cursor.execute('''
        INSERT INTO DInstituicao (nome, sigla, tipo_organizacao_academica, tipo_rede, tipo_categoria_adninistrativa, CO_IES, chave_instituicao)
        VALUES (?, ?, ?, ?, ?, ?, ?)
    ''', (row['nome'], row['sigla'], row['tipo_organizacao_academica'], row['tipo_rede'], row['tipo_categoria_adninistrativa'], row['CO_IES'], row['chave_instituicao']))

conn.commit()
conn.close()

# FDocentesIES

In [None]:
conn = sqlite3.connect('IES.db')
cursor = conn.cursor()

query = """
    SELECT
        dt.chave_tempo,
        dg.chave_geografica,
        di.chave_instituicao,

        i.QT_DOC_EXE,
        i.QT_DOC_EX_0_29,
        i.QT_DOC_EX_30_34,
        i.QT_DOC_EX_35_39,
        i.QT_DOC_EX_40_44,
        i.QT_DOC_EX_45_49,
        i.QT_DOC_EX_50_54,
        i.QT_DOC_EX_55_59,
        i.QT_DOC_EX_60_MAIS,
        i.QT_DOC_EX_AMARELA,
        i.QT_DOC_EX_BRANCA,
        i.QT_DOC_EX_COR_ND,
        i.QT_DOC_TOTAL,
        i.QT_DOC_EX_FEMI,
        i.QT_DOC_EX_MASC,
        i.QT_DOC_EX_PRETA,
        i.QT_DOC_EX_PARDA,
        i.QT_DOC_EX_INDIGENA
    FROM IES i
    JOIN DTempo dt ON i.NU_ANO_CENSO = dt.ano
    JOIN DGeografica dg ON i.CO_MUNICIPIO_IES = dg.CO_MUNICIPIO_IES
    JOIN DInstituicao di ON i.CO_IES = di.CO_IES
    ORDER BY chave_tempo, chave_geografica, chave_instituicao;
"""

cursor.execute(query)
results = cursor.fetchall()

columns = [
    'chave_tempo', 'chave_geografica', 'chave_instituicao', 'QT_DOC_EXE', 'QT_DOC_EX_0_29',
    'QT_DOC_EX_30_34', 'QT_DOC_EX_35_39', 'QT_DOC_EX_40_44', 'QT_DOC_EX_45_49',
    'QT_DOC_EX_50_54', 'QT_DOC_EX_55_59', 'QT_DOC_EX_60_MAIS', 'QT_DOC_EX_AMARELA',
    'QT_DOC_EX_BRANCA', 'QT_DOC_EX_COR_ND', 'QT_DOC_TOTAL', 'QT_DOC_EX_FEMI',
    'QT_DOC_EX_MASC', 'QT_DOC_EX_PRETA', 'QT_DOC_EX_PARDA', 'QT_DOC_EX_INDIGENA',
]

df_fact = pd.DataFrame(results, columns=columns)
df_fact.to_csv('FDocentesIES.csv', index=False)

conn.close()

# FMunicipio

## Area

In [None]:
df_municipios = pd.read_csv('BR_Municipios_2022.csv')

conn = sqlite3.connect('IES.db')
cursor = conn.cursor()

cursor.execute("""
CREATE TABLE area_mun (
    id_municipio INTEGER PRIMARY KEY,
    total_area REAL
);
""")

for index, row in df_municipios.iterrows():
    try:
        cursor.execute("INSERT INTO area_mun (id_municipio, total_area) VALUES (?, ?)", (row['CD_MUN'], row['AREA_KM2']))
    except Exception as e:
        print(f"Erro ao inserir dados: {e}")

conn.commit()
conn.close()

## Populacao

In [None]:
df_municipios = pd.read_csv('br_ibge_populacao_municipio.csv')

conn = sqlite3.connect('IES.db')
cursor = conn.cursor()

cursor.execute("""
CREATE TABLE populacao_mun (
    id_municipio INTEGER,
    ano INTEGER,
    total_populacao INTEGER,
    PRIMARY KEY (id_municipio, ano)
);
""")

for index, row in df_municipios.iterrows():
    try:
        cursor.execute("INSERT INTO populacao_mun (id_municipio, ano, total_populacao) VALUES (?, ?, ?)", (row['id_municipio'], row['ano'], row['populacao']))
    except Exception as e:
        print(f"Erro ao inserir dados: {e}")

conn.commit()
conn.close()

## JOIN Area, Populacao, DGeografica e DTempo

In [None]:
conn = sqlite3.connect('IES.db')
cursor = conn.cursor()

cursor.execute("""
SELECT
    g.chave_geografica,
    t.chave_tempo,
    am.total_area,
    pm.total_populacao
FROM area_mun am
JOIN populacao_mun pm ON am.id_municipio = pm.id_municipio
JOIN DTempo t ON pm.ano = t.ano
JOIN DGeografica g ON pm.id_municipio = g.CO_MUNICIPIO_IES
ORDER BY g.chave_geografica, t.chave_tempo;
""")

results = cursor.fetchall()
conn.close()

df = pd.DataFrame(results, columns=['chave_geografica', 'chave_tempo', 'total_area', 'total_populacao'])
df.to_csv('FMunicipio.csv', index=False)