In [1]:
import pandas as pd
from unidecode import unidecode
#from pandas_profiling import ProfileReport quebrado

In [2]:
excel_file_path_enade = 'dados/conceito_enade_2022.xlsx'
enade = pd.read_excel(excel_file_path_enade)

# Enade

### Funções

In [3]:
def remove_acentos(texto):
    return unidecode(str(texto))

In [4]:
def minusculo(texto):
    texto = texto.strip()
    texto = texto.replace('*', '')
    texto = texto.replace(' ', '_')
    return str(texto).lower()

In [5]:
def is_inteiro(valor):
    try:
        int_valor = int(valor)
        return True
    except (ValueError, TypeError):
        return False

In [6]:
def converter_para_int(valor):
    try:
        return int(valor)
    except ValueError:
        return 0

### Análise e limpeza dos dados

In [7]:
enade

Unnamed: 0,Ano,Código da Área,Área de Avaliação,Grau Acadêmico,Código da IES,Nome da IES*,Sigla da IES*,Organização Acadêmica,Categoria Administrativa,Código do Curso,...,Sigla da UF**,Nº de Concluintes Inscritos,Nº de Concluintes Participantes,Nota Bruta - FG,Nota Padronizada - FG,Nota Bruta - CE,Nota Padronizada - CE,Conceito Enade (Contínuo),Conceito Enade (Faixa),Observação
0,2022,2,DIREITO,Bacharelado,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Universidade,Pública Federal,1,...,MT,91,46,76.330,4686,59.004,4823,4.788,5,
1,2022,13,CIÊNCIAS ECONÔMICAS,Bacharelado,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Universidade,Pública Federal,2,...,MT,36,29,60.872,2282,31.110,1603,1.772,2,
2,2022,38,SERVIÇO SOCIAL,Bacharelado,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Universidade,Pública Federal,7,...,MT,57,46,59.419,3163,55.754,3508,3.421,4,
3,2022,22,CIÊNCIAS CONTÁBEIS,Bacharelado,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Universidade,Pública Federal,8,...,MT,84,73,59.404,38,27.146,3227,3.370,4,
4,2022,1,ADMINISTRAÇÃO,Bacharelado,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Universidade,Pública Federal,13,...,MT,124,52,62.486,3899,49.657,3669,3.726,4,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9891,2022,88,TECNOLOGIA EM GASTRONOMIA,Tecnológico,3948,FACULDADE SENAC BLUMENAU,SENAC,Faculdade,Privada sem fins lucrativos,5001486,...,SC,16,10,43.190,1926,49.740,214,2.086,3,
9892,2022,88,TECNOLOGIA EM GASTRONOMIA,Tecnológico,17277,Faculdade SENAC Criciúma,Senac Criciúma,Faculdade,Privada sem fins lucrativos,5001495,...,SC,12,12,45.991,2223,55.641,2866,2.705,3,
9893,2022,103,TECNOLOGIA EM DESIGN DE INTERIORES,Tecnológico,14784,FACULDADE DE TECNOLOGIA SENAI CURITIBA,,Faculdade,Privada sem fins lucrativos,5001533,...,PR,7,7,47.185,1761,42.042,1739,1.744,2,
9894,2022,83,TECNOLOGIA EM DESIGN DE MODA,Tecnológico,1526,FACULDADE SENAI SÃO PAULO,SENAI SP,Faculdade,Privada sem fins lucrativos,5001538,...,SP,19,17,47.917,2267,59.670,1661,1.812,2,


#### Ajustando nomes das colunas e linhas

In [8]:
colunas = enade.columns
for coluna in colunas:
    print(coluna)

Ano
Código da Área
Área de Avaliação
Grau Acadêmico
Código da IES
Nome da IES*
Sigla da IES*
Organização Acadêmica
Categoria Administrativa
Código do Curso
Modalidade de Ensino
Código do Município**
Município do Curso**
Sigla da UF** 
Nº de Concluintes Inscritos
Nº  de Concluintes Participantes
Nota Bruta - FG
Nota Padronizada - FG
Nota Bruta - CE
Nota Padronizada - CE
Conceito Enade (Contínuo)
Conceito Enade (Faixa)
Observação


In [9]:
enade.columns = [minusculo(remove_acentos(col)) for col in enade.columns]

In [10]:
colunas_categoricas = enade.select_dtypes(include=['object']).columns
for coluna in colunas_categoricas:
    enade[coluna] = enade[coluna].apply(remove_acentos)
    enade[coluna] = enade[coluna].apply(minusculo)

In [11]:
colunas = enade.columns
for coluna in colunas:
    print(coluna)

ano
codigo_da_area
area_de_avaliacao
grau_academico
codigo_da_ies
nome_da_ies
sigla_da_ies
organizacao_academica
categoria_administrativa
codigo_do_curso
modalidade_de_ensino
codigo_do_municipio
municipio_do_curso
sigla_da_uf
no_de_concluintes_inscritos
no__de_concluintes_participantes
nota_bruta_-_fg
nota_padronizada_-_fg
nota_bruta_-_ce
nota_padronizada_-_ce
conceito_enade_(continuo)
conceito_enade_(faixa)
observacao


#### Ajustando dados da coluna conceito_enade_(faixa)

In [12]:
enade.shape

(9896, 23)

In [13]:
enade['conceito_enade_(faixa)'].unique()

array(['5', '2', '4', '3', 'sc', '1'], dtype=object)

In [14]:
# Limpando os dados para só manter as linhas em que 'conceito_enade_(faixa)' é inteiro e quem não é inteiro vira zero
enade['conceito_enade_(faixa)'] = enade['conceito_enade_(faixa)'].apply(converter_para_int)

In [15]:
enade['conceito_enade_(faixa)'].unique()

array([5, 2, 4, 3, 0, 1], dtype=int64)

In [16]:
enade.shape

(9896, 23)

#### Ajustando dados da coluna ano

In [17]:
enade.shape

(9896, 23)

In [18]:
enade['ano'].unique()

array([2022], dtype=int64)

In [19]:
# Limpando todos os dados que não seja do ano de 2022
enade_filtrado = enade.loc[enade['ano'] == 2022]

In [20]:
enade_filtrado['ano'].unique()

array([2022], dtype=int64)

In [21]:
enade_filtrado.shape

(9896, 23)

#### Ajustando dados da coluna modalidade_de_ensino

In [22]:
enade_filtrado['modalidade_de_ensino'].unique()

array(['educacao_presencial', 'educacao_a_distancia'], dtype=object)

In [23]:
enade_filtrado.shape

(9896, 23)

In [24]:
enade_filtrado = enade_filtrado.loc[enade_filtrado['modalidade_de_ensino'] == 'educacao_presencial']

In [25]:
enade_filtrado['modalidade_de_ensino'].unique()

array(['educacao_presencial'], dtype=object)

In [26]:
enade_filtrado.shape

(7947, 23)

In [27]:
enade_filtrado

Unnamed: 0,ano,codigo_da_area,area_de_avaliacao,grau_academico,codigo_da_ies,nome_da_ies,sigla_da_ies,organizacao_academica,categoria_administrativa,codigo_do_curso,...,sigla_da_uf,no_de_concluintes_inscritos,no__de_concluintes_participantes,nota_bruta_-_fg,nota_padronizada_-_fg,nota_bruta_-_ce,nota_padronizada_-_ce,conceito_enade_(continuo),conceito_enade_(faixa),observacao
0,2022,2,direito,bacharelado,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,1,...,mt,91,46,76.330,4686,59.004,4823,4.788,5,
1,2022,13,ciencias_economicas,bacharelado,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,2,...,mt,36,29,60.872,2282,31.110,1603,1.772,2,
2,2022,38,servico_social,bacharelado,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,7,...,mt,57,46,59.419,3163,55.754,3508,3.421,4,
3,2022,22,ciencias_contabeis,bacharelado,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,8,...,mt,84,73,59.404,38,27.146,3227,3.370,4,
4,2022,1,administracao,bacharelado,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,13,...,mt,124,52,62.486,3899,49.657,3669,3.726,4,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9891,2022,88,tecnologia_em_gastronomia,tecnologico,3948,faculdade_senac_blumenau,senac,faculdade,privada_sem_fins_lucrativos,5001486,...,sc,16,10,43.190,1926,49.740,214,2.086,3,
9892,2022,88,tecnologia_em_gastronomia,tecnologico,17277,faculdade__senac_criciuma,senac_criciuma,faculdade,privada_sem_fins_lucrativos,5001495,...,sc,12,12,45.991,2223,55.641,2866,2.705,3,
9893,2022,103,tecnologia_em_design_de_interiores,tecnologico,14784,faculdade_de_tecnologia_senai_curitiba,,faculdade,privada_sem_fins_lucrativos,5001533,...,pr,7,7,47.185,1761,42.042,1739,1.744,2,
9894,2022,83,tecnologia_em_design_de_moda,tecnologico,1526,faculdade_senai_sao_paulo,senai_sp,faculdade,privada_sem_fins_lucrativos,5001538,...,sp,19,17,47.917,2267,59.670,1661,1.812,2,


#### Ajustando dados da coluna categoria_administrativa

In [28]:
enade_filtrado['categoria_administrativa'].unique()

array(['publica_federal', 'publica_estadual',
       'privada_sem_fins_lucrativos', 'publica_municipal', 'especial',
       'privada_com_fins_lucrativos'], dtype=object)

In [29]:
enade_filtrado.shape

(7947, 23)

In [30]:
categorias_desejadas = ['publica_federal', 'publica_estadual', 'publica_municipal']
enade_filtrado = enade_filtrado[enade_filtrado['categoria_administrativa'].isin(categorias_desejadas)]

In [31]:
enade_filtrado['categoria_administrativa'].unique()

array(['publica_federal', 'publica_estadual', 'publica_municipal'],
      dtype=object)

In [32]:
enade_filtrado.shape

(1265, 23)

In [33]:
enade_filtrado

Unnamed: 0,ano,codigo_da_area,area_de_avaliacao,grau_academico,codigo_da_ies,nome_da_ies,sigla_da_ies,organizacao_academica,categoria_administrativa,codigo_do_curso,...,sigla_da_uf,no_de_concluintes_inscritos,no__de_concluintes_participantes,nota_bruta_-_fg,nota_padronizada_-_fg,nota_bruta_-_ce,nota_padronizada_-_ce,conceito_enade_(continuo),conceito_enade_(faixa),observacao
0,2022,2,direito,bacharelado,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,1,...,mt,91,46,76.330,4686,59.004,4823,4.788,5,
1,2022,13,ciencias_economicas,bacharelado,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,2,...,mt,36,29,60.872,2282,31.110,1603,1.772,2,
2,2022,38,servico_social,bacharelado,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,7,...,mt,57,46,59.419,3163,55.754,3508,3.421,4,
3,2022,22,ciencias_contabeis,bacharelado,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,8,...,mt,84,73,59.404,38,27.146,3227,3.370,4,
4,2022,1,administracao,bacharelado,1,universidade_federal_de_mato_grosso,ufmt,universidade,publica_federal,13,...,mt,124,52,62.486,3899,49.657,3669,3.726,4,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9866,2022,2,direito,bacharelado,18506,universidade_federal_do_oeste_da_bahia,ufob,universidade,publica_federal,5001356,...,ba,63,51,72.809,4282,54.054,4169,4.197,5,
9867,2022,2,direito,bacharelado,830,universidade_federal_do_amapa,unifap,universidade,publica_federal,5001360,...,ap,57,40,53.717,2089,39.577,2256,2.214,3,
9880,2022,93,tecnologia_em_gestao_comercial,tecnologico,22939,faculdade_de_tecnologia_de_araraquara,fatec_arq,faculdade,publica_estadual,5001415,...,sp,23,21,51.333,3324,58.457,3387,3.371,4,
9882,2022,93,tecnologia_em_gestao_comercial,tecnologico,23459,faculdade_de_tecnologia_de_adamantina,,faculdade,publica_estadual,5001430,...,sp,31,27,51.562,335,58.174,3355,3.354,4,


#### Criação do novo dataframe

In [34]:
colunas_desejadas = ['grau_academico', 'codigo_do_curso', 'conceito_enade_(faixa)']
enade_final = enade_filtrado[colunas_desejadas]

In [35]:
enade_final

Unnamed: 0,grau_academico,codigo_do_curso,conceito_enade_(faixa)
0,bacharelado,1,5
1,bacharelado,2,2
2,bacharelado,7,4
3,bacharelado,8,4
4,bacharelado,13,4
...,...,...,...
9866,bacharelado,5001356,5
9867,bacharelado,5001360,3
9880,tecnologico,5001415,4
9882,tecnologico,5001430,4


In [36]:
enade_final.rename({'codigo_do_curso': 'co_curso'}, axis=1, inplace=True)
enade_final.rename({'conceito_enade_(faixa)': 'enade_faixa'}, axis=1, inplace=True)
enade_final.rename({'grau_academico': 'tp_grau_academico'}, axis=1, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  enade_final.rename({'codigo_do_curso': 'co_curso'}, axis=1, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  enade_final.rename({'conceito_enade_(faixa)': 'enade_faixa'}, axis=1, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  enade_final.rename({'grau_academico': 'tp_grau_academico'}, axis=1, inplace=True)


In [37]:
enade_final['co_curso'] = enade_final['co_curso'].astype(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  enade_final['co_curso'] = enade_final['co_curso'].astype(int)


In [38]:
enade_final.reset_index(drop=True, inplace=True)

In [39]:
enade_final

Unnamed: 0,tp_grau_academico,co_curso,enade_faixa
0,bacharelado,1,5
1,bacharelado,2,2
2,bacharelado,7,4
3,bacharelado,8,4
4,bacharelado,13,4
...,...,...,...
1260,bacharelado,5001356,5
1261,bacharelado,5001360,3
1262,tecnologico,5001415,4
1263,tecnologico,5001430,4


#### Gravação dos dados em CSV

In [40]:
enade_final.to_csv('dados_processados/enade_final.csv', index=False)