In [1]:
import pandas as pd
import plotly.express as px

In [2]:
regiao_sudeste_cc = pd.read_csv('regiao-sudeste-cc.csv', sep=',')

print(regiao_sudeste_cc)

      Cod_curso  Cod_grupo_curso  Cod_regiao_curso Nota_geral  \
0           594             4004                 3       42,8   
1           594             4004                 3       57,2   
2           594             4004                 3       40,3   
3           594             4004                 3       62,5   
4           594             4004                 3       46,1   
...         ...              ...               ...        ...   
5026    5000356             4004                 3       52,7   
5027    5000356             4004                 3       44,1   
5028    5000356             4004                 3       54,8   
5029     104836             4004                 3        NaN   
5030     104836             4004                 3        NaN   

     Escolaridade_pai Escolaridade_mae Renda Tipo_escola Horas_estudos  
0                   F                C     B           A             C  
1                   F                E     C           B             E  


In [3]:
valores_nulos = regiao_sudeste_cc.isnull()
contagem = valores_nulos.sum()

print(contagem)

Cod_curso             0
Cod_grupo_curso       0
Cod_regiao_curso      0
Nota_geral          814
Escolaridade_pai    619
Escolaridade_mae    619
Renda               619
Tipo_escola         619
Horas_estudos       619
dtype: int64


In [4]:
regiao_sudeste_cc.dropna(inplace=True)

In [5]:
filtro = ['Nota_geral', 'Renda', 'Escolaridade_mae', 'Escolaridade_pai']
dados_explorados = regiao_sudeste_cc[filtro]

print(dados_explorados)

     Nota_geral Renda Escolaridade_mae Escolaridade_pai
0          42,8     B                C                F
1          57,2     C                E                F
2          40,3     B                B                B
3          62,5     B                D                D
4          46,1     F                D                E
...         ...   ...              ...              ...
5024       52,7     F                E                F
5025       55,2     C                D                D
5026       52,7     E                E                C
5027       44,1     E                D                E
5028       54,8     C                D                D

[4186 rows x 4 columns]


In [16]:
categorias = {
    'A': 'Renda baixa',
    'B': 'Média baixa',
    'C': 'Média alta',
    'D': 'Média alta',
    'E': 'Renda alta',
    'F': 'Renda alta',
    'G': 'Renda alta'
}

ordem_categorias = {'Renda baixa': 1, 'Média baixa': 2, 'Média alta': 3, 'Renda alta': 4}

dados_explorados['Nota_geral'] = pd.to_numeric(dados_explorados['Nota_geral'], errors='coerce')
dados_explorados = dados_explorados.dropna(subset=['Nota_geral'])

dados_explorados['Categoria'] = dados_explorados['Renda'].map(categorias)

#calcular as medianas das notas gerais para cada categoria de renda
medianas = dados_explorados.groupby('Categoria')['Nota_geral'].median().reset_index()

#ordenar os resultados com base nas medianas
medianas['ordem_categoria'] = medianas['Categoria'].map(ordem_categorias)
medianas = medianas.sort_values(by='ordem_categoria')


fig = px.box(dados_explorados, x='Categoria', y='Nota_geral', 
             labels={'Categoria': 'Renda', 'Nota_geral': 'Nota Geral'},
             category_orders={"Categoria": medianas['Categoria']})
fig.update_layout(title='Boxplot de Renda em relação à Nota Geral', title_x=0.5, title_y=0.95)
fig.show()

In [13]:
categorias = {
    'A': 'Nenhuma escolaridade',
    'B': 'Ensino fundamental',
    'C': 'Ensino fundamental',
    'D': 'Ensino médio',
    'E': 'Ensino superior',
    'F': 'Pós-graduação'
}

ordem_categorias = {'Nenhuma escolaridade': 1, 'Ensino fundamental': 2, 
                    'Ensino médio': 3, 'Ensino superior': 4, 'Pós-graduação': 5}

dados_explorados['Nota_geral'] = pd.to_numeric(dados_explorados['Nota_geral'], errors='coerce')
dados_explorados = dados_explorados.dropna(subset=['Nota_geral'])

dados_explorados['Categoria'] = dados_explorados['Escolaridade_mae'].map(categorias)

medianas = dados_explorados.groupby('Categoria')['Nota_geral'].median().reset_index()

medianas['ordem_categoria'] = medianas['Categoria'].map(ordem_categorias)
medianas = medianas.sort_values(by='ordem_categoria')

fig = px.box(dados_explorados, x='Categoria', y='Nota_geral', 
             labels={'Categoria': 'Escolaridade da Mãe', 'Nota_geral': 'Nota Geral'},
             category_orders={"Categoria": medianas['Categoria']})
fig.update_layout(title='Boxplot de Escolaridade da Mãe em relação à Nota Geral', title_x=0.5, title_y=0.95)
fig.show()

In [15]:
categorias = {
    'A': 'Nenhuma escolaridade',
    'B': 'Ensino fundamental',
    'C': 'Ensino fundamental',
    'D': 'Ensino médio',
    'E': 'Ensino superior',
    'F': 'Pós-graduação'
}

ordem_categorias = {'Nenhuma escolaridade': 1, 'Ensino fundamental': 2, 
                    'Ensino médio': 3, 'Ensino superior': 4, 'Pós-graduação': 5}

dados_explorados['Nota_geral'] = pd.to_numeric(dados_explorados['Nota_geral'], errors='coerce')
dados_explorados = dados_explorados.dropna(subset=['Nota_geral'])

dados_explorados['Categoria'] = dados_explorados['Escolaridade_pai'].map(categorias)

medianas = dados_explorados.groupby('Categoria')['Nota_geral'].median().reset_index()

medianas['ordem_categoria'] = medianas['Categoria'].map(ordem_categorias)
medianas = medianas.sort_values(by='ordem_categoria')

fig = px.box(dados_explorados, x='Categoria', y='Nota_geral', 
             labels={'Categoria': 'Escolaridade do Pai', 'Nota_geral': 'Nota Geral'},
             category_orders={"Categoria": medianas['Categoria']})
fig.update_layout(title='Boxplot de Escolaridade do Pai em relação à Nota Geral', title_x=0.5, title_y=0.95)
fig.show()