In [1]:
import pandas as pd
from unidecode import unidecode

In [2]:
excel_file_path_enade = 'dados/Conceito_Enade_2019.xlsx'
enade = pd.read_excel(excel_file_path_enade)

# Enade

### Funções

In [3]:
def remove_acentos(texto):
    return unidecode(str(texto))

In [4]:
def minusculo(texto):
    texto = texto.strip()
    texto = texto.replace('*', '')
    texto = texto.replace(' ', '_')
    return str(texto).lower()

In [5]:
def is_inteiro(valor):
    try:
        int_valor = int(valor)
        return True
    except (ValueError, TypeError):
        return False

In [6]:
def converter_para_int(valor):
    try:
        return int(valor)
    except ValueError:
        return 0

### Análise e limpeza dos dados

In [7]:
enade

Unnamed: 0,Ano,Código da Área,Área de Avaliação,Código da IES,Nome da IES,Sigla da IES,Organização Acadêmica,Categoria Administrativa,Código do Curso,Modalidade de Ensino,...,Sigla da UF,Nº de Concluintes Inscritos,Nº de Concluintes Participantes,Nota Bruta - FG,Nota Padronizada - FG,Nota Bruta - CE,Nota Padronizada - CE,Conceito Enade (Contínuo),Conceito Enade (Faixa),Observação
0,2019,5,MEDICINA VETERINÁRIA,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Universidade,Pública Federal,37,Educação Presencial,...,MT,23,20,42.8150,2.7573,57.8000,3.1363,3.0415,4,
1,2019,5,MEDICINA VETERINÁRIA,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Universidade,Pública Federal,100763,Educação Presencial,...,MT,46,39,42.1128,2.6390,55.7282,2.7652,2.7336,3,
2,2019,5,MEDICINA VETERINÁRIA,2,UNIVERSIDADE DE BRASÍLIA,UNB,Universidade,Pública Federal,18031,Educação Presencial,...,DF,129,119,50.6050,4.0697,59.0025,3.3516,3.5312,4,
3,2019,5,MEDICINA VETERINÁRIA,3,UNIVERSIDADE FEDERAL DE SERGIPE,UFS,Universidade,Pública Federal,1108067,Educação Presencial,...,SE,47,39,45.7744,3.2559,56.9667,2.9870,3.0542,4,
4,2019,5,MEDICINA VETERINÁRIA,3,UNIVERSIDADE FEDERAL DE SERGIPE,UFS,Universidade,Pública Federal,1321453,Educação Presencial,...,SE,28,25,43.5400,2.8795,51.7800,2.0580,2.2634,3,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8363,2019,6410,TECNOLOGIA EM SEGURANÇA NO TRABALHO,4169,Faculdade Estácio de Carapicuíba,ESTÁCIO CARAPICUÍBA,Faculdade,Privada com fins lucrativos,1130185,Educação Presencial,...,SP,7,0,,,,,,SC,
8364,2019,6410,TECNOLOGIA EM SEGURANÇA NO TRABALHO,4277,FACULDADE ESTÁCIO DO AMAZONAS - ESTÁCIO AMAZONAS,ESTÁCIO AMAZONAS,Faculdade,Privada com fins lucrativos,1056450,Educação Presencial,...,AM,1,1,,,,,,SC,
8365,2019,6410,TECNOLOGIA EM SEGURANÇA NO TRABALHO,4460,FACULDADE DOM PEDRO II DE TECNOLOGIA,FAB,Faculdade,Privada com fins lucrativos,1158603,Educação Presencial,...,BA,1,1,,,,,,SC,
8366,2019,6410,TECNOLOGIA EM SEGURANÇA NO TRABALHO,17115,FACULDADE TRÊS MARIAS,FTM,Faculdade,Privada com fins lucrativos,1183765,Educação Presencial,...,PB,8,8,30.5500,3.4211,35.4750,2.6227,2.8223,3,


#### Ajustando nomes das colunas e linhas

In [8]:
colunas = enade.columns
for coluna in colunas:
    print(coluna)

Ano
Código da Área
Área de Avaliação
Código da IES
Nome da IES
Sigla da IES
Organização Acadêmica
Categoria Administrativa
Código do Curso
Modalidade de Ensino
Código do Município
Município do Curso
Sigla da UF
Nº de Concluintes Inscritos
Nº  de Concluintes Participantes
Nota Bruta - FG
Nota Padronizada - FG
Nota Bruta - CE
Nota Padronizada - CE
Conceito Enade (Contínuo)
Conceito Enade (Faixa)
Observação


In [9]:
enade.columns = [minusculo(remove_acentos(col)) for col in enade.columns]

In [10]:
colunas_categoricas = enade.select_dtypes(include=['object']).columns
for coluna in colunas_categoricas:
    enade[coluna] = enade[coluna].apply(remove_acentos)
    enade[coluna] = enade[coluna].apply(minusculo)

In [11]:
colunas = enade.columns
for coluna in colunas:
    print(coluna)

ano
codigo_da_area
area_de_avaliacao
codigo_da_ies
nome_da_ies
sigla_da_ies
organizacao_academica
categoria_administrativa
codigo_do_curso
modalidade_de_ensino
codigo_do_municipio
municipio_do_curso
sigla_da_uf
no_de_concluintes_inscritos
no__de_concluintes_participantes
nota_bruta_-_fg
nota_padronizada_-_fg
nota_bruta_-_ce
nota_padronizada_-_ce
conceito_enade_(continuo)
conceito_enade_(faixa)
observacao


#### Ajustando dados da coluna conceito_enade_(faixa)

In [12]:
enade.shape

(8368, 22)

In [13]:
enade['conceito_enade_(faixa)'].unique()

array(['4', '3', '2', '5', '1', 'sc'], dtype=object)

In [14]:
# Limpando os dados para só manter as linhas em que 'conceito_enade_(faixa)' é inteiro e quem não é inteiro vira zero
enade['conceito_enade_(faixa)'] = enade['conceito_enade_(faixa)'].apply(converter_para_int)

In [15]:
enade['conceito_enade_(faixa)'].unique()

array([4, 3, 2, 5, 1, 0], dtype=int64)

In [16]:
enade.shape

(8368, 22)

#### Ajustando dados da coluna ano

In [17]:
enade.shape

(8368, 22)

In [18]:
enade['ano'].unique()

array([2019], dtype=int64)

In [19]:
# Limpando todos os dados que não seja do ano de 2022
enade_filtrado = enade.loc[enade['ano'] == 2019]

In [20]:
enade_filtrado['ano'].unique()

array([2019], dtype=int64)

In [21]:
enade.shape

(8368, 22)

#### Ajustando dados da coluna modalidade_de_ensino

In [22]:
enade_filtrado['modalidade_de_ensino'].unique()

array(['educacao_presencial', 'educacao_a_distancia'], dtype=object)

In [23]:
enade_filtrado.shape

(8368, 22)

In [24]:
enade_filtrado = enade_filtrado.loc[enade_filtrado['modalidade_de_ensino'] == 'educacao_presencial']

In [25]:
enade_filtrado['modalidade_de_ensino'].unique()

array(['educacao_presencial'], dtype=object)

In [26]:
enade_filtrado.shape

(8203, 22)

In [27]:
enade_filtrado

Unnamed: 0,ano,codigo_da_area,area_de_avaliacao,codigo_da_ies,nome_da_ies,sigla_da_ies,organizacao_academica,categoria_administrativa,codigo_do_curso,modalidade_de_ensino,...,sigla_da_uf,no_de_concluintes_inscritos,no__de_concluintes_participantes,nota_bruta_-_fg,nota_padronizada_-_fg,nota_bruta_-_ce,nota_padronizada_-_ce,conceito_enade_(continuo),conceito_enade_(faixa),observacao
0,2019,5,medicina_veterinaria,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,37,educacao_presencial,...,mt,23,20,42.8150,2.7573,57.8000,3.1363,3.0415,4,
1,2019,5,medicina_veterinaria,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,100763,educacao_presencial,...,mt,46,39,42.1128,2.6390,55.7282,2.7652,2.7336,3,
2,2019,5,medicina_veterinaria,2,universidade_de_brasilia,unb,universidade,publica_federal,18031,educacao_presencial,...,df,129,119,50.6050,4.0697,59.0025,3.3516,3.5312,4,
3,2019,5,medicina_veterinaria,3,universidade_federal_de_sergipe,ufs,universidade,publica_federal,1108067,educacao_presencial,...,se,47,39,45.7744,3.2559,56.9667,2.9870,3.0542,4,
4,2019,5,medicina_veterinaria,3,universidade_federal_de_sergipe,ufs,universidade,publica_federal,1321453,educacao_presencial,...,se,28,25,43.5400,2.8795,51.7800,2.0580,2.2634,3,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8363,2019,6410,tecnologia_em_seguranca_no_trabalho,4169,faculdade_estacio_de_carapicuiba,estacio_carapicuiba,faculdade,privada_com_fins_lucrativos,1130185,educacao_presencial,...,sp,7,0,,,,,,0,
8364,2019,6410,tecnologia_em_seguranca_no_trabalho,4277,faculdade_estacio_do_amazonas_-_estacio_amazonas,estacio_amazonas,faculdade,privada_com_fins_lucrativos,1056450,educacao_presencial,...,am,1,1,,,,,,0,
8365,2019,6410,tecnologia_em_seguranca_no_trabalho,4460,faculdade_dom_pedro_ii_de_tecnologia,fab,faculdade,privada_com_fins_lucrativos,1158603,educacao_presencial,...,ba,1,1,,,,,,0,
8366,2019,6410,tecnologia_em_seguranca_no_trabalho,17115,faculdade_tres_marias,ftm,faculdade,privada_com_fins_lucrativos,1183765,educacao_presencial,...,pb,8,8,30.5500,3.4211,35.4750,2.6227,2.8223,3,


#### Ajustando dados da coluna categoria_administrativa

In [28]:
enade_filtrado['categoria_administrativa'].unique()

array(['publica_federal', 'publica_estadual',
       'privada_sem_fins_lucrativos', 'publica_municipal',
       'privada_com_fins_lucrativos', 'especial'], dtype=object)

In [29]:
enade_filtrado.shape

(8203, 22)

In [30]:
categorias_desejadas = ['publica_federal', 'publica_estadual', 'publica_municipal']
enade_filtrado = enade_filtrado[enade_filtrado['categoria_administrativa'].isin(categorias_desejadas)]

In [31]:
enade_filtrado['categoria_administrativa'].unique()

array(['publica_federal', 'publica_estadual', 'publica_municipal'],
      dtype=object)

In [32]:
enade_filtrado.shape

(1973, 22)

In [33]:
enade_filtrado

Unnamed: 0,ano,codigo_da_area,area_de_avaliacao,codigo_da_ies,nome_da_ies,sigla_da_ies,organizacao_academica,categoria_administrativa,codigo_do_curso,modalidade_de_ensino,...,sigla_da_uf,no_de_concluintes_inscritos,no__de_concluintes_participantes,nota_bruta_-_fg,nota_padronizada_-_fg,nota_bruta_-_ce,nota_padronizada_-_ce,conceito_enade_(continuo),conceito_enade_(faixa),observacao
0,2019,5,medicina_veterinaria,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,37,educacao_presencial,...,mt,23,20,42.8150,2.7573,57.8000,3.1363,3.0415,4,
1,2019,5,medicina_veterinaria,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,100763,educacao_presencial,...,mt,46,39,42.1128,2.6390,55.7282,2.7652,2.7336,3,
2,2019,5,medicina_veterinaria,2,universidade_de_brasilia,unb,universidade,publica_federal,18031,educacao_presencial,...,df,129,119,50.6050,4.0697,59.0025,3.3516,3.5312,4,
3,2019,5,medicina_veterinaria,3,universidade_federal_de_sergipe,ufs,universidade,publica_federal,1108067,educacao_presencial,...,se,47,39,45.7744,3.2559,56.9667,2.9870,3.0542,4,
4,2019,5,medicina_veterinaria,3,universidade_federal_de_sergipe,ufs,universidade,publica_federal,1321453,educacao_presencial,...,se,28,25,43.5400,2.8795,51.7800,2.0580,2.2634,3,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8336,2019,6405,engenharia_florestal,5701,universidade_do_estado_do_amapa,ueap,universidade,publica_estadual,1146839,educacao_presencial,...,ap,15,6,44.2333,2.1413,40.3500,1.9868,2.0254,3,
8337,2019,6405,engenharia_florestal,15059,universidade_federal_do_oeste_do_para,ufopa,universidade,publica_federal,1186268,educacao_presencial,...,pa,46,42,45.7119,2.3895,39.9190,1.9165,2.0347,3,
8338,2019,6405,engenharia_florestal,23410,universidade_estadual_da_regiao_tocantina_do_m...,uemasul,universidade,publica_estadual,1208279,educacao_presencial,...,ma,36,33,48.6970,2.8905,37.5515,1.5300,1.8701,2,
8339,2019,6410,tecnologia_em_seguranca_no_trabalho,32,universidade_estadual_de_ciencias_da_saude_de_...,uncisal,universidade,publica_estadual,1428361,educacao_presencial,...,al,10,10,31.8200,3.8097,42.1600,5.0000,4.7024,5,


#### Criação do novo dataframe

In [34]:
colunas_desejadas = ['codigo_do_curso', 'conceito_enade_(faixa)']
enade_final = enade_filtrado[colunas_desejadas]

In [35]:
enade_final

Unnamed: 0,codigo_do_curso,conceito_enade_(faixa)
0,37,4
1,100763,3
2,18031,4
3,1108067,4
4,1321453,3
...,...,...
8336,1146839,3
8337,1186268,3
8338,1208279,2
8339,1428361,5


In [36]:
enade_final.rename({'codigo_do_curso': 'co_curso'}, axis=1, inplace=True)
enade_final.rename({'conceito_enade_(faixa)': 'enade_faixa'}, axis=1, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  enade_final.rename({'codigo_do_curso': 'co_curso'}, axis=1, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  enade_final.rename({'conceito_enade_(faixa)': 'enade_faixa'}, axis=1, inplace=True)


In [37]:
enade_final['co_curso'] = enade_final['co_curso'].astype(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  enade_final['co_curso'] = enade_final['co_curso'].astype(int)


In [38]:
enade_final.reset_index(drop=True, inplace=True)

In [39]:
enade_final

Unnamed: 0,co_curso,enade_faixa
0,37,4
1,100763,3
2,18031,4
3,1108067,4
4,1321453,3
...,...,...
1968,1146839,3
1969,1186268,3
1970,1208279,2
1971,1428361,5


#### Gravação dos dados em CSV

In [40]:
enade_final.to_csv('dados_processados/enade_2019.csv', index=False)