In [1]:
import pandas as pd
import plotly.express as px

In [2]:
regiao_sudeste_mat = pd.read_csv('regiao-sudeste-mat.csv', sep=',')

print(regiao_sudeste_mat)

      Cod_curso  Cod_grupo_curso  Cod_regiao_curso Nota_geral  \
0           624              702                 3        NaN   
1           624              702                 3       23,6   
2           624              702                 3         51   
3           624              702                 3       60,3   
4           624              702                 3       51,6   
...         ...              ...               ...        ...   
4633      89886              702                 3        NaN   
4634      89886              702                 3        NaN   
4635     105058              702                 3        NaN   
4636    1166014              702                 3        NaN   
4637    1166014              702                 3        NaN   

     Escolaridade_pai Escolaridade_mae Renda Tipo_escola Horas_estudos  
0                   E                E     E           A             B  
1                   D                D     A           A             C  


In [3]:
valores_nulos = regiao_sudeste_mat.isnull()
contagem = valores_nulos.sum()

print(contagem)

Cod_curso              0
Cod_grupo_curso        0
Cod_regiao_curso       0
Nota_geral          1028
Escolaridade_pai     746
Escolaridade_mae     746
Renda                746
Tipo_escola          746
Horas_estudos        746
dtype: int64


In [4]:
regiao_sudeste_mat.dropna(inplace=True)

In [5]:
filtro = ['Nota_geral', 'Renda', 'Escolaridade_mae', 'Escolaridade_pai']
dados_explorados = regiao_sudeste_mat[filtro]

print(dados_explorados)

     Nota_geral Renda Escolaridade_mae Escolaridade_pai
1          23,6     A                D                D
2            51     B                D                D
3          60,3     C                B                D
4          51,6     B                D                C
5          66,8     C                D                D
...         ...   ...              ...              ...
4579       21,9     B                D                E
4581       28,2     C                B                B
4582       44,3     B                B                C
4583         29     B                C                C
4585         14     A                B                A

[3555 rows x 4 columns]


In [9]:
categorias = {
    'A': 'Renda baixa',
    'B': 'Média baixa',
    'C': 'Média alta',
    'D': 'Média alta',
    'E': 'Renda alta',
    'F': 'Renda alta',
    'G': 'Renda alta'
}

ordem_categorias = {'Renda baixa': 1, 'Média baixa': 2, 'Média alta': 3, 'Renda alta': 4}

dados_explorados['Nota_geral'] = pd.to_numeric(dados_explorados['Nota_geral'], errors='coerce')
dados_explorados = dados_explorados.dropna(subset=['Nota_geral'])

dados_explorados['Categoria'] = dados_explorados['Renda'].map(categorias)

#calcular as medianas das notas gerais para cada categoria de renda
medianas = dados_explorados.groupby('Categoria')['Nota_geral'].median().reset_index()

#ordenar os resultados com base nas medianas
medianas['ordem_categoria'] = medianas['Categoria'].map(ordem_categorias)
medianas = medianas.sort_values(by='ordem_categoria')


fig = px.box(dados_explorados, x='Categoria', y='Nota_geral', 
             labels={'Categoria': 'Renda', 'Nota_geral': 'Nota Geral'},
             category_orders={"Categoria": medianas['Categoria']})
fig.update_layout(title='Boxplot de Renda em relação à Nota Geral', title_x=0.5, title_y=0.95)
fig.show()

In [7]:
categorias = {
    'A': 'Nenhuma escolaridade',
    'B': 'Ensino fundamental',
    'C': 'Ensino fundamental',
    'D': 'Ensino médio',
    'E': 'Ensino superior',
    'F': 'Pós-graduação'
}

ordem_categorias = {'Nenhuma escolaridade': 1, 'Ensino fundamental': 2, 
                    'Ensino médio': 3, 'Ensino superior': 4, 'Pós-graduação': 5}

dados_explorados['Nota_geral'] = pd.to_numeric(dados_explorados['Nota_geral'], errors='coerce')
dados_explorados = dados_explorados.dropna(subset=['Nota_geral'])

dados_explorados['Categoria'] = dados_explorados['Escolaridade_mae'].map(categorias)

medianas = dados_explorados.groupby('Categoria')['Nota_geral'].median().reset_index()

medianas['ordem_categoria'] = medianas['Categoria'].map(ordem_categorias)
medianas = medianas.sort_values(by='ordem_categoria')

fig = px.box(dados_explorados, x='Categoria', y='Nota_geral', 
             labels={'Categoria': 'Escolaridade da Mãe', 'Nota_geral': 'Nota Geral'},
             category_orders={"Categoria": medianas['Categoria']})
fig.update_layout(title='Boxplot de Escolaridade da Mãe em relação à Nota Geral', title_x=0.5, title_y=0.95)
fig.show()

In [8]:
categorias = {
    'A': 'Nenhuma escolaridade',
    'B': 'Ensino fundamental',
    'C': 'Ensino fundamental',
    'D': 'Ensino médio',
    'E': 'Ensino superior',
    'F': 'Pós-graduação'
}

ordem_categorias = {'Nenhuma escolaridade': 1, 'Ensino fundamental': 2, 
                    'Ensino médio': 3, 'Ensino superior': 4, 'Pós-graduação': 5}

dados_explorados['Nota_geral'] = pd.to_numeric(dados_explorados['Nota_geral'], errors='coerce')
dados_explorados = dados_explorados.dropna(subset=['Nota_geral'])

dados_explorados['Categoria'] = dados_explorados['Escolaridade_pai'].map(categorias)

medianas = dados_explorados.groupby('Categoria')['Nota_geral'].median().reset_index()

medianas['ordem_categoria'] = medianas['Categoria'].map(ordem_categorias)
medianas = medianas.sort_values(by='ordem_categoria')

fig = px.box(dados_explorados, x='Categoria', y='Nota_geral', 
             labels={'Categoria': 'Escolaridade do Pai', 'Nota_geral': 'Nota Geral'},
             category_orders={"Categoria": medianas['Categoria']})
fig.update_layout(title='Boxplot de Escolaridade do Pai em relação à Nota Geral', title_x=0.5, title_y=0.95)
fig.show()