In [49]:
import pandas as pd
import numpy as np

# Leitura dos datasets

## Fonte dos datasets

* PDA_Dados_Cursos_Graduacao_Brasil.csv -> https://dadosabertos.mec.gov.br/indicadores-sobre-ensino-superior
* PDA_Lista_Instituicoes_Ensino_Superior_do_Brasil_EMEC.csv -> https://dadosabertos.mec.gov.br/indicadores-sobre-ensino-superior
* ENADE 2022 -> https://download.inep.gov.br/educacao_superior/indicadores/resultados/2022/conceito_enade_2022.ods
* Percentual de Docentes com Pós-Graduação stricto sensu (2022) -> https://download.inep.gov.br/dados_abertos/indicadores_educacionais/percentual_de_docentes_com_pos_graduacao_stricto_sensu/percentual_docente_2022.zip

In [2]:
cursos = pd.read_csv('PDA_Dados_Cursos_Graduacao_Brasil.csv')
instituicoes = pd.read_csv('PDA_Lista_Instituicoes_Ensino_Superior_do_Brasil_EMEC.csv')
enade = pd.read_csv('conceito_enade_2022.csv')
perc_docente = pd.read_csv('PERC_DOCENTES_BRASIL_2022.csv')

# Transformação dos dados

## Percentual de docentes com pós-graduação stricto sensu

### Seleção das colunas

In [3]:
perc_docente_n = perc_docente[["CO_IES", "PERCENTUAL_MESTRADO", "PERCENTUAL_DOUTORADO"]].copy()

### Ajuste dos nomes das colunas

In [4]:
perc_docente_n = perc_docente_n.rename(columns={"CO_IES": "CODIGO_DA_IES"})

In [5]:
perc_docente_n

Unnamed: 0,CODIGO_DA_IES,PERCENTUAL_MESTRADO,PERCENTUAL_DOUTORADO
0,1,12.1,80.7
1,2,7.7,91.1
2,3,12.2,84.1
3,4,23.3,64.7
4,5,18.4,76.5
...,...,...,...
2586,25453,50.0,0.0
2587,25613,10.6,2.4
2588,25624,50.0,16.7
2589,25788,25.0,75.0


## Instituições de ensino superior 

### Remoção de instituições sem município

In [6]:
instituicoes = instituicoes.dropna(subset='CODIGO_MUNICIPIO_IBGE').reset_index(drop=True)
instituicoes["CODIGO_MUNICIPIO_IBGE"] = instituicoes["CODIGO_MUNICIPIO_IBGE"].astype(int)

### Seleção das colunas

In [7]:
instituicoes_n = instituicoes[["CODIGO_DA_IES", "NOME_DA_IES", "SIGLA", 
                               "CATEGORIA_DA_IES", "ORGANIZACAO_ACADEMICA", 
                               "SITUACAO_IES", "CODIGO_MUNICIPIO_IBGE"]].copy()

### Left join com dataset com dados sobre percentual de docente com pós stricto sensu

In [8]:
instituicoes_n = pd.merge(instituicoes_n, perc_docente_n, how='left', on='CODIGO_DA_IES')

In [9]:
instituicoes_n

Unnamed: 0,CODIGO_DA_IES,NOME_DA_IES,SIGLA,CATEGORIA_DA_IES,ORGANIZACAO_ACADEMICA,SITUACAO_IES,CODIGO_MUNICIPIO_IBGE,PERCENTUAL_MESTRADO,PERCENTUAL_DOUTORADO
0,21995,Faculdade de Tecnologia Senac Curitiba,,Privada,Faculdade,Ativa,4106902,20.0,10.0
1,1768,FACULDADE REGIONAL SERRANA,FUNPAC,Privada,Faculdade,Extinta,3205069,,
2,5701,UNIVERSIDADE DO ESTADO DO AMAPÁ,UEAP,Pública,Universidade,Ativa,1600303,33.3,46.8
3,23261,Faculdade São Judas de São Bernardo do Campo,,Privada,Faculdade,Ativa,3548708,60.0,36.0
4,4250,FACULDADE DE CIÊNCIAS GERENCIAIS ALVES FORTES ...,FACE ALFOR JF,Privada,Faculdade,Extinta,3136702,,
...,...,...,...,...,...,...,...,...,...
3865,5215,CENTRO UNIVERSITÁRIO PADRE ALBINO,,Privada,Centro Universitário,Ativa,3511102,34.2,41.6
3866,19210,Faculdades Integradas de Taguaí,FIT,Privada,Faculdade,Ativa,3553005,33.3,11.9
3867,2514,Faculdade de Ciências Educacionais do Rio Gran...,FACERN,Privada,Faculdade,Ativa,2408102,28.6,0.0
3868,18454,Faculdade Una de Sete Lagoas,Unaset,Privada,Faculdade,Ativa,3167202,57.1,14.3


### Ajuste dos nomes das colunas

In [10]:
instituicoes_n = instituicoes_n.rename(columns={'CODIGO_DA_IES': 'COD_INSTITUICAO',
                                                'NOME_DA_IES': 'NOME_INSTITUICAO',
                                                'SITUACAO_IES': 'SITUACAO',
                                                'CATEGORIA_DA_IES': 'CATEGORIA',
                                                'PERCENTUAL_MESTRADO': 'PERCENTUAL_DOCENTES_MESTRADO',
                                                'PERCENTUAL_DOUTORADO': 'PERCENTUAL_DOCENTES_DOUTORADO',
                                                'CODIGO_MUNICIPIO_IBGE': 'COD_MUNICIPIO'})

In [11]:
instituicoes_n

Unnamed: 0,COD_INSTITUICAO,NOME_INSTITUICAO,SIGLA,CATEGORIA,ORGANIZACAO_ACADEMICA,SITUACAO,COD_MUNICIPIO,PERCENTUAL_DOCENTES_MESTRADO,PERCENTUAL_DOCENTES_DOUTORADO
0,21995,Faculdade de Tecnologia Senac Curitiba,,Privada,Faculdade,Ativa,4106902,20.0,10.0
1,1768,FACULDADE REGIONAL SERRANA,FUNPAC,Privada,Faculdade,Extinta,3205069,,
2,5701,UNIVERSIDADE DO ESTADO DO AMAPÁ,UEAP,Pública,Universidade,Ativa,1600303,33.3,46.8
3,23261,Faculdade São Judas de São Bernardo do Campo,,Privada,Faculdade,Ativa,3548708,60.0,36.0
4,4250,FACULDADE DE CIÊNCIAS GERENCIAIS ALVES FORTES ...,FACE ALFOR JF,Privada,Faculdade,Extinta,3136702,,
...,...,...,...,...,...,...,...,...,...
3865,5215,CENTRO UNIVERSITÁRIO PADRE ALBINO,,Privada,Centro Universitário,Ativa,3511102,34.2,41.6
3866,19210,Faculdades Integradas de Taguaí,FIT,Privada,Faculdade,Ativa,3553005,33.3,11.9
3867,2514,Faculdade de Ciências Educacionais do Rio Gran...,FACERN,Privada,Faculdade,Ativa,2408102,28.6,0.0
3868,18454,Faculdade Una de Sete Lagoas,Unaset,Privada,Faculdade,Ativa,3167202,57.1,14.3


## Municípios

### Extração da lista de municípios a partir do dataset de cursos

In [12]:
municipios_cursos = cursos[["CODIGO_MUNICIPIO", "MUNICIPIO", "UF", "REGIAO"]
                            ].drop_duplicates().reset_index(drop=True)

### Extração da lista de municípios a partir do dataset de instituições

In [13]:
estados_regioes = {
    'AC': 'NORTE',
    'AL': 'NORDESTE',
    'AP': 'NORTE',
    'AM': 'NORTE',
    'BA': 'NORDESTE',
    'CE': 'NORDESTE',
    'DF': 'CENTRO-OESTE',
    'ES': 'SUDESTE',
    'GO': 'CENTRO-OESTE',
    'MA': 'NORDESTE',
    'MT': 'CENTRO-OESTE',
    'MS': 'CENTRO-OESTE',
    'MG': 'SUDESTE',
    'PA': 'NORTE',
    'PB': 'NORDESTE',
    'PR': 'SUL',
    'PE': 'NORDESTE',
    'PI': 'NORDESTE',
    'RJ': 'SUDESTE',
    'RN': 'NORDESTE',
    'RS': 'SUL',
    'RO': 'NORTE',
    'RR': 'NORTE',
    'SC': 'SUL',
    'SP': 'SUDESTE',
    'SE': 'NORDESTE',
    'TO': 'NORTE'
}

In [14]:
municipios_instituicoes = instituicoes[["CODIGO_MUNICIPIO_IBGE", "MUNICIPIO", "UF"]].drop_duplicates().reset_index(drop=True)
municipios_instituicoes["REGIAO"] = municipios_instituicoes.UF.apply(lambda x: estados_regioes[x])

### Ajuste dos nomes das colunas

In [15]:
municipios_cursos = municipios_cursos.rename(columns={'CODIGO_MUNICIPIO': 'COD_MUNICIPIO',
                                                      'MUNICIPIO': 'NOME_MUNICIPIO'})

In [16]:
municipios_instituicoes = municipios_instituicoes.rename(columns={'CODIGO_MUNICIPIO_IBGE': 'COD_MUNICIPIO',
                                                                  'MUNICIPIO': 'NOME_MUNICIPIO'})

### União dos datasets de municípios

In [17]:
municipios = pd.concat([municipios_cursos, municipios_instituicoes]).drop_duplicates().sort_values('NOME_MUNICIPIO').reset_index(drop=True)
municipios

Unnamed: 0,COD_MUNICIPIO,NOME_MUNICIPIO,UF,REGIAO
0,5200050,Abadia de Goiás,GO,CENTRO-OESTE
1,3100104,Abadia dos Dourados,MG,SUDESTE
2,5200100,Abadiânia,GO,CENTRO-OESTE
3,1500107,Abaetetuba,PA,NORTE
4,3100203,Abaeté,MG,SUDESTE
...,...,...,...,...
3435,3500600,Águas de São Pedro,SP,SUDESTE
3436,3200136,Águia Branca,ES,SUDESTE
3437,3501301,Álvares Machado,SP,SUDESTE
3438,2900504,Érico Cardoso,BA,NORDESTE


## ENADE

### Seleção das colunas

In [18]:
enade_n = enade[["Código da IES", "Código do Curso", "Conceito Enade (Contínuo)"]].copy()

### Ajuste dos nomes das colunas

In [19]:
enade_n = enade_n.rename(columns={"Código da IES": "CODIGO_IES", 
                       "Código do Curso": "CODIGO_CURSO",
                       "Conceito Enade (Contínuo)": "CONCEITO_ENADE"})

In [20]:
enade

Unnamed: 0,Ano,Código da Área,Área de Avaliação,Grau Acadêmico,Código da IES,Nome da IES*,Sigla da IES*,Organização Acadêmica,Categoria Administrativa,Código do Curso,...,Sigla da UF**,Nº de Concluintes Inscritos,Nº de Concluintes Participantes,Nota Bruta - FG,Nota Padronizada - FG,Nota Bruta - CE,Nota Padronizada - CE,Conceito Enade (Contínuo),Conceito Enade (Faixa),Observação
0,2022,2,DIREITO,Bacharelado,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Universidade,Pública Federal,1,...,MT,91,46,76.330,4.686,59.004,4.823,4.788,5,
1,2022,13,CIÊNCIAS ECONÔMICAS,Bacharelado,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Universidade,Pública Federal,2,...,MT,36,29,60.872,2.282,31.110,1.603,1.772,2,
2,2022,38,SERVIÇO SOCIAL,Bacharelado,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Universidade,Pública Federal,7,...,MT,57,46,59.419,3.163,55.754,3.508,3.421,4,
3,2022,22,CIÊNCIAS CONTÁBEIS,Bacharelado,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Universidade,Pública Federal,8,...,MT,84,73,59.404,3.800,27.146,3.227,3.370,4,
4,2022,1,ADMINISTRAÇÃO,Bacharelado,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Universidade,Pública Federal,13,...,MT,124,52,62.486,3.899,49.657,3.669,3.726,4,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9891,2022,2,DIREITO,Bacharelado,25282,UNIVERSIDADE FEDERAL DE JATAÍ,UFJ,Universidade,Pública Federal,120832,...,GO,56,47,73.082,4.313,54.453,4.222,4.244,5,
9892,2022,22,CIÊNCIAS CONTÁBEIS,Bacharelado,25352,Universidade Federal de Rondonópolis,UFR,Universidade,Pública Federal,21,...,MT,65,36,50.369,2.724,19.108,1.401,1.731,2,
9893,2022,18,PSICOLOGIA,Bacharelado,25352,Universidade Federal de Rondonópolis,UFR,Universidade,Pública Federal,84854,...,MT,22,21,66.447,3.144,67.380,3.755,3.601,4,
9894,2022,13,CIÊNCIAS ECONÔMICAS,Bacharelado,25352,Universidade Federal de Rondonópolis,UFR,Universidade,Pública Federal,123052,...,MT,41,33,54.600,1.443,31.330,1.640,1.590,2,


In [21]:
enade_n

Unnamed: 0,CODIGO_IES,CODIGO_CURSO,CONCEITO_ENADE
0,1,1,4.788
1,1,2,1.772
2,1,7,3.421
3,1,8,3.370
4,1,13,3.726
...,...,...,...
9891,25282,120832,4.244
9892,25352,21,1.731
9893,25352,84854,3.601
9894,25352,123052,1.590


## Cursos

### Seleção das colunas

In [22]:
cursos_n = cursos[["CODIGO_IES", "CODIGO_CURSO", "NOME_CURSO",
                   "GRAU", "MODALIDADE", "SITUACAO_CURSO",
                   "CARGA_HORARIA", "QT_VAGAS_AUTORIZADAS", 
                   "AREA_OCDE_CINE"]].copy()

### Left join com dataset com dados sobre ENADE 2022

In [23]:
cursos_n = pd.merge(cursos_n, enade_n, how='left', on=['CODIGO_IES', 'CODIGO_CURSO'])

### Ajuste dos nomes das colunas

In [24]:
cursos_n = cursos_n.rename(columns={'CODIGO_IES': 'COD_INSTITUICAO', 
                                    'CODIGO_CURSO': 'COD_CURSO',
                                    'QT_VAGAS_AUTORIZADAS': 'VAGAS_AUTORIZADAS',
                                    'SITUACAO_CURSO': 'SITUACAO',
                                    'AREA_OCDE_CINE': 'AREA_CURSO'})

In [25]:
cursos_n

Unnamed: 0,COD_INSTITUICAO,COD_CURSO,NOME_CURSO,GRAU,MODALIDADE,SITUACAO,CARGA_HORARIA,VAGAS_AUTORIZADAS,AREA_CURSO,CONCEITO_ENADE
0,4751,1556773,ENGENHARIA AGRONÔMICA,Bacharelado,Educação a Distância,Em atividade,4400,1000,Agronomia,
1,1491,1186955,LETRAS,Licenciatura,Educação a Distância,Em atividade,3992,3000,Formação de professor de língua/literatura ver...,
2,1472,99950,GEOGRAFIA,Licenciatura,Educação a Distância,Em atividade,3500,7620,Formação de professor de geografia,
3,221,1467998,EDUCAÇÃO FÍSICA,Bacharelado,Educação a Distância,Em atividade,3200,1200,Educação física,
4,1472,1516788,SERVIÇOS PENAIS,Tecnológico,Educação a Distância,Em atividade,1980,1500,Serviços penais,
...,...,...,...,...,...,...,...,...,...,...
902671,163,1518220,CIÊNCIA DE DADOS,Tecnológico,Educação a Distância,Em atividade,2086,2589,Ciência de dados,
902672,1491,1468267,MÚSICA,Licenciatura,Educação a Distância,Em atividade,3992,1700,Formação de professor de música,
902673,1491,1185929,CIÊNCIAS CONTÁBEIS,Bacharelado,Educação a Distância,Em atividade,3260,4500,Ciências contábeis,2.128
902674,298,97329,MARKETING,Tecnológico,Educação a Distância,Em atividade,1700,6000,Marketing,2.107


### Remoção de linhas duplicadas

In [26]:
cursos_n = cursos_n.drop_duplicates().reset_index(drop=True)
cursos_n

Unnamed: 0,COD_INSTITUICAO,COD_CURSO,NOME_CURSO,GRAU,MODALIDADE,SITUACAO,CARGA_HORARIA,VAGAS_AUTORIZADAS,AREA_CURSO,CONCEITO_ENADE
0,4751,1556773,ENGENHARIA AGRONÔMICA,Bacharelado,Educação a Distância,Em atividade,4400,1000,Agronomia,
1,1491,1186955,LETRAS,Licenciatura,Educação a Distância,Em atividade,3992,3000,Formação de professor de língua/literatura ver...,
2,1472,99950,GEOGRAFIA,Licenciatura,Educação a Distância,Em atividade,3500,7620,Formação de professor de geografia,
3,221,1467998,EDUCAÇÃO FÍSICA,Bacharelado,Educação a Distância,Em atividade,3200,1200,Educação física,
4,1472,1516788,SERVIÇOS PENAIS,Tecnológico,Educação a Distância,Em atividade,1980,1500,Serviços penais,
...,...,...,...,...,...,...,...,...,...,...
86252,1077,54772,PSICOLOGIA,Licenciatura,Educação Presencial,Extinto,4196,210,Formação de professor de psicologia,
86253,569,12020,COMUNICAÇÃO SOCIAL,Bacharelado,Educação Presencial,Extinto,2700,0,Comunicação social (redação e conteúdo),
86254,1042,1544956,ADMINISTRAÇÃO,Bacharelado,Educação Presencial,Em atividade,3000,50,Administração,
86255,376,1166015,LETRAS - PORTUGUÊS E INGLÊS,Licenciatura,Educação Presencial,Extinto,3620,270,Formação de professor de língua/literatura ver...,


## MUNICIPIO_has_CURSO

### Seleção das colunas

In [27]:
municipio_has_curso = cursos[["CODIGO_CURSO", "CODIGO_MUNICIPIO"]].drop_duplicates().copy()

In [28]:
municipio_has_curso[municipio_has_curso.CODIGO_CURSO == 1]

Unnamed: 0,CODIGO_CURSO,CODIGO_MUNICIPIO
720487,1,5103403


In [29]:
municipios[municipios.COD_MUNICIPIO == 5103403]

Unnamed: 0,COD_MUNICIPIO,NOME_MUNICIPIO,UF,REGIAO
957,5103403,Cuiabá,MT,CENTRO-OESTE


### Ajuste dos nomes das colunas

In [30]:
municipio_has_curso = municipio_has_curso.rename(columns={'CODIGO_CURSO': 'CURSO_COD_CURSO', 
                                                          'CODIGO_MUNICIPIO': 'MUNICIPIO_COD_MUNICIPIO'})

In [31]:
municipio_has_curso

Unnamed: 0,CURSO_COD_CURSO,MUNICIPIO_COD_MUNICIPIO
0,1556773,3541406
1,1186955,2516201
2,99950,2800308
3,1467998,4113205
4,1516788,2601706
...,...,...
902671,1518220,4300604
902672,1468267,2704302
902673,1185929,3554003
902674,97329,2601102


# Carregamento dos dados no banco

In [32]:
import mysql.connector

mydb = mysql.connector.connect(
  host="localhost",
  user="root",
  password="*****"
)

print(mydb)

<mysql.connector.connection_cext.CMySQLConnection object at 0x7fb207893790>


In [33]:
from sqlalchemy import create_engine

engine = create_engine("mysql+mysqlconnector://root:*****@localhost/mydb")


In [34]:
municipios.to_sql(name='MUNICIPIO', con=engine, schema='cursos_graduacao', if_exists='append', index=False)


3440

In [35]:
instituicoes_n.to_sql(name='INSTITUICAO', con=engine, schema='cursos_graduacao', if_exists='append', index=False)


3870

In [36]:
cursos_n.to_sql(name='CURSO', con=engine, schema='cursos_graduacao', if_exists='append', index=False, chunksize=25000, method=None)


86257

In [37]:
municipio_has_curso.to_sql(name='MUNICIPIO_has_CURSO', con=engine, schema='cursos_graduacao', if_exists='append', index=False, chunksize=25000, method=None)

902646