# **Projeto: Quais fatores mais influenciam no desempenho de um aluno no ENEM e como podemos ajudá-lo a melhorar sua performance?**

**Integrantes:** Hellen Cristine Silva Rosa (RA00319076), João Victor Porto (RA00311353), Laura Gabriel Murayama (RA00319321), Maria Eduarda Bonel Iribarnegaray (RA00318891), Vinícius Ferreira de Mendonça (RA00319760), Vitória de Fátima Teixeira (RA00320578)

## **Análise dos dados filtrados**

In [1]:
# importing libraries
import pandas as pd
import plotly.express as px 
import plotly.graph_objects as go
import numpy as np

In [2]:
# importing dataframe
filtered_aggregated_df = pd.read_csv("../filtered_aggregated_df.csv")

In [3]:
filtered_aggregated_df.head()

Unnamed: 0,NU_INSCRICAO,MICRODADOS_TP_FAIXA_ETARIA,MICRODADOS_TP_SEXO,MICRODADOS_TP_COR_RACA,MICRODADOS_TP_ST_CONCLUSAO,MICRODADOS_TP_ANO_CONCLUIU,MICRODADOS_TP_ESCOLA,MICRODADOS_TP_ENSINO,MICRODADOS_IN_TREINEIRO,MICRODADOS_REGIAO_ESCOLA,...,MICRODADOS_TP_LINGUA,MICRODADOS_RENDA_PER_CAPITA,HABESTUDO_ST_MAT_PERC_APR,HABESTUDO_GES_TEMP_PLAN_EST,HABESTUDO_PRAT_EST_PES,HABESTUDO_TECN_TP_ACES,HABESTUDO_PROB_ROT_EST,HABESTUDO_DIF_INFR,HABESTUDO_AJUD_TERC,HABESTUDO_AVAL_PROP_EXP
0,210054479101,2,F,3,2,0,2,1.0,0,Centro-Oeste,...,1,303.0,3.5,2.66,4.63,2.0,2.0,3.0,2.5,0.0
1,210054480429,3,M,1,2,0,3,1.0,0,Norte,...,0,707.0,4.0,0.0,0.33,3.0,2.0,2.0,2.5,0.0
2,210054480874,3,F,3,2,0,2,1.0,0,Norte,...,1,909.0,3.35,2.66,7.0,4.0,7.0,3.0,4.5,0.25
3,210054481135,3,F,1,2,0,3,1.0,0,Norte,...,0,1818.0,3.1,5.01,7.66,4.0,8.0,2.0,4.5,0.25
4,210054481966,3,F,3,2,0,2,1.0,0,Norte,...,1,0.0,3.75,4.02,7.7,2.0,2.0,2.0,3.5,0.25


### Análise das variaveis

In [5]:
# grafico dos gêneros
gender = filtered_aggregated_df['MICRODADOS_TP_SEXO'].value_counts()
labels = gender.index
shape = gender.values

fig = px.pie(values=shape, names=labels, color_discrete_sequence=px.colors.sequential.RdBu)
fig.update_layout(title='Distribuição de gêneros')
fig.show()

In [6]:
# grafico de etnia
race = filtered_aggregated_df['MICRODADOS_TP_COR_RACA'].value_counts()
labels = race.index
shape = race.values

# transformando os valores numéricos para as legendas correspondentes
legend = {0: 'Não declarado', 1: 'Branca', 2: 'Preta', 3: 'Parda', 4: 'Amarela', 5: 'Indigena', 6: 'Não dispõe da informação'}
labels_text = [legend.get(valor, valor) for valor in labels]

fig = px.bar(x=labels_text, y=shape, color=labels_text, color_discrete_sequence=px.colors.sequential.RdBu)

fig.update_layout(title='Distribuição de Etnia', xaxis_title='Etnia', yaxis_title='Quantidade'
)

fig.show()


In [25]:
# grafico de faixa etaria
age = filtered_aggregated_df['MICRODADOS_TP_FAIXA_ETARIA'].value_counts()
labels = age.index
shape = age.values

# transformando os valores numéricos para as legendas correspondentes
legend = {1: 'Menor de 17 anos', 2: '17 anos', 3: '18 anos', 4: '19 anos', 5: '20 anos', 6: '21 anos', 
          7: '22 anos', 8: '23 anos', 9: '24 anos', 10: '25 anos', 11: 'Entre 26 e 30 anos', 12: 'Entre 31 e 35 anos', 
          13: 'Entre 36 e 40 anos', 14: 'Entre 41 e 45 anos', 15: 'Entre 46 e 50 anos', 16: 'Entre 51 e 55 anos', 17: 'Entre 56 e 60 anos', 
          18: 'Entre 66 e 70 anos', 19: 'Maior de 70 anos'}
labels_text = [legend.get(valor, valor) for valor in labels]

fig = go.Figure(data=[go.Bar(x=labels_text, y=shape, marker_color=px.colors.sequential.RdBu)])

fig.update_layout(title='Distribuição da faixa etária', xaxis_title='Faixa etária', yaxis_title='Quantidade', yaxis_type='log')

fig.show()



In [7]:
# grafico de tipo de escola
school = filtered_aggregated_df['MICRODADOS_TP_ESCOLA'].value_counts()
labels = school.index
shape = school.values

# transformando dos valores numéricos para as legendas correspondentes
legend = {1: 'Não respondeu', 2: 'Pública', 3: 'Privada'}
labels_text = [legend.get(valor, valor) for valor in labels]

fig = px.pie(values=shape, names=labels_text, color_discrete_sequence=px.colors.sequential.RdBu)
fig.update_layout(title='Tipo de escola')
fig.show()

In [8]:
# grafico sobre as regioes das escolas
region = filtered_aggregated_df['MICRODADOS_REGIAO_ESCOLA'].value_counts()
labels = region.index
shape = region.values

fig = px.pie(values=shape, names=labels, color_discrete_sequence=px.colors.sequential.RdBu)
fig.update_layout(title='Região das escolas')
fig.show()

In [9]:
filtered_aggregated_df.MICRODADOS_RENDA_PER_CAPITA.max()

inf

In [27]:
# grafico da renda per capita
income = filtered_aggregated_df['MICRODADOS_RENDA_PER_CAPITA']

# removendo valores infinitos
income = income.replace([float('inf'), float('-inf')], np.nan).dropna()

# definindo e agrupando as faixas de renda
faixas = np.arange(0, income.max() + 100, 100)
income_groups, _ = np.histogram(income, bins=faixas)

fig = go.Figure(data=[go.Bar(x=faixas[:-1], y=income_groups, marker_color=px.colors.sequential.RdBu)])

fig.update_layout(
    title='Distribuição de renda per capita',
    xaxis_title='Faixa de renda per capita',
    yaxis_title='Frequência'
)

fig.show()




### Análise das relações

In [11]:
# coletando os dados do genero
gender = filtered_aggregated_df['MICRODADOS_TP_SEXO'].value_counts()
gender_labels = gender.index
gender_shape = gender.values

# coletando os dados de tipo de escola
school = filtered_aggregated_df['MICRODADOS_TP_ESCOLA'].value_counts()
school_labels = school.index
school_shape = school.values

# mapeando os valores numéricos para as legendas correspondentes
gender_legend = {'M': 'Masculino', 'F': 'Feminino'}
school_legend = {1: 'Não respondeu', 2: 'Pública', 3: 'Privada'}
gender_labels_text = [gender_legend.get(valor, valor) for valor in gender_labels]
school_labels_text = [school_legend.get(valor, valor) for valor in school_labels]


fig = go.Figure()

# adicionando as barras empilhadas
for i in range(len(school_labels)):
    fig.add_trace(go.Bar(
        x=gender_labels_text,
        y=[filtered_aggregated_df[(filtered_aggregated_df['MICRODADOS_TP_SEXO'] == gender_labels[j]) &
                                  (filtered_aggregated_df['MICRODADOS_TP_ESCOLA'] == school_labels[i])].shape[0]
           for j in range(len(gender_labels))],
        name=school_labels_text[i],
        text=[f"{label}: {value}" for label, value in zip(gender_labels_text,
                                                         [filtered_aggregated_df[(filtered_aggregated_df['MICRODADOS_TP_SEXO'] == gender_labels[j]) &
                                                                                (filtered_aggregated_df['MICRODADOS_TP_ESCOLA'] == school_labels[i])].shape[0]
                                                          for j in range(len(gender_labels))])],
        hoverinfo='text',
        marker_color=px.colors.sequential.RdBu[i]
    ))

# criando grafico
fig.update_layout(barmode='stack', title='Relação entre gênero x tipo de Escola', xaxis_title='Gênero', yaxis_title='Quantidade', legend_title='Tipo de Escola', hoverlabel=dict(bgcolor="white", font_size=12))

fig.show()

In [12]:
# coletando os dados de etnia
race = filtered_aggregated_df['MICRODADOS_TP_COR_RACA'].value_counts()
race_labels = race.index
race_shape = race.values

# coletando os dados de tipo de escola
school = filtered_aggregated_df['MICRODADOS_TP_ESCOLA'].value_counts()
school_labels = school.index
school_shape = school.values

# mapeando os valores numéricos para as legendas correspondentes
race_legend = {0: 'Não declarado', 1: 'Branca', 2: 'Preta', 3: 'Parda', 4: 'Amarela', 5: 'Indigena', 6: 'Não dispõe da informação'}
school_legend = {1: 'Não respondeu', 2: 'Pública', 3: 'Privada'}
race_labels_text = [race_legend.get(valor, valor) for valor in race_labels]
school_labels_text = [school_legend.get(valor, valor) for valor in school_labels]


fig = go.Figure()

# adicionando as barras empilhadas
for i in range(len(school_labels)):
    fig.add_trace(go.Bar(
        x=race_labels_text,
        y=[filtered_aggregated_df[(filtered_aggregated_df['MICRODADOS_TP_COR_RACA'] == race_labels[j]) &
                                  (filtered_aggregated_df['MICRODADOS_TP_ESCOLA'] == school_labels[i])].shape[0]
           for j in range(len(race_labels))],
        name=school_labels_text[i],
        text=[f"{label}: {value}" for label, value in zip(race_labels_text,
                                                         [filtered_aggregated_df[(filtered_aggregated_df['MICRODADOS_TP_COR_RACA'] == race_labels[j]) &
                                                                                (filtered_aggregated_df['MICRODADOS_TP_ESCOLA'] == school_labels[i])].shape[0]
                                                          for j in range(len(race_labels))])],
        hoverinfo='text',
        marker_color=px.colors.sequential.RdBu[i]
    ))

# criando grafico
fig.update_layout(barmode='stack', title='Relação entre etnia x tipo de Escola', xaxis_title='Etnia', yaxis_title='Quantidade', legend_title='Tipo de Escola', hoverlabel=dict(bgcolor="white", font_size=12))

fig.show()

In [13]:
# coletando os dados do região
region = filtered_aggregated_df['MICRODADOS_REGIAO_ESCOLA'].value_counts()
region_labels = region.index
region_shape = region.values

# coletando os dados de tipo de escola
school = filtered_aggregated_df['MICRODADOS_TP_ESCOLA'].value_counts()
school_labels = school.index
school_shape = school.values

# mapeando os valores numéricos para as legendas correspondentes
school_legend = {1: 'Não respondeu', 2: 'Pública', 3: 'Privada'}
school_labels_text = [school_legend.get(valor, valor) for valor in school_labels]


fig = go.Figure()

# adicionando as barras empilhadas
for i in range(len(school_labels)):
    fig.add_trace(go.Bar(
        x=region_labels,
        y=[filtered_aggregated_df[(filtered_aggregated_df['MICRODADOS_REGIAO_ESCOLA'] == region_labels[j]) &
                                  (filtered_aggregated_df['MICRODADOS_TP_ESCOLA'] == school_labels[i])].shape[0]
           for j in range(len(region_labels))],
        name=school_labels_text[i],
        text=[f"{label}: {value}" for label, value in zip(region_labels,
                                                         [filtered_aggregated_df[(filtered_aggregated_df['MICRODADOS_REGIAO_ESCOLA'] == region_labels[j]) &
                                                                                (filtered_aggregated_df['MICRODADOS_TP_ESCOLA'] == school_labels[i])].shape[0]
                                                          for j in range(len(region_labels))])],
        hoverinfo='text',
        marker_color=px.colors.sequential.RdBu[i]
    ))

# criando grafico
fig.update_layout(barmode='stack', title='Relação entre região x tipo de Escola', xaxis_title='Região', yaxis_title='Quantidade', legend_title='Tipo de Escola', hoverlabel=dict(bgcolor="white", font_size=12))

fig.show()

In [14]:
# coletando os dados do região
language = filtered_aggregated_df['MICRODADOS_TP_LINGUA'].value_counts()
language_labels = language.index
language_shape = language.values

# coletando os dados de tipo de escola
school = filtered_aggregated_df['MICRODADOS_TP_ESCOLA'].value_counts()
school_labels = school.index
school_shape = school.values

# mapeando os valores numéricos para as legendas correspondentes
language_legend = {0: 'Inglês', 1: 'Espanhol'}
school_legend = {1: 'Não respondeu', 2: 'Pública', 3: 'Privada'}
language_labels_text = [language_legend.get(valor, valor) for valor in language_labels]
school_labels_text = [school_legend.get(valor, valor) for valor in school_labels]


fig = go.Figure()

# adicionando as barras empilhadas
for i in range(len(school_labels)):
    fig.add_trace(go.Bar(
        x=language_labels_text,
        y=[filtered_aggregated_df[(filtered_aggregated_df['MICRODADOS_TP_LINGUA'] == language_labels[j]) &
                                  (filtered_aggregated_df['MICRODADOS_TP_ESCOLA'] == school_labels[i])].shape[0]
           for j in range(len(language_labels))],
        name=school_labels_text[i],
        text=[f"{label}: {value}" for label, value in zip(language_labels_text,
                                                         [filtered_aggregated_df[(filtered_aggregated_df['MICRODADOS_TP_LINGUA'] == language_labels[j]) &
                                                                                (filtered_aggregated_df['MICRODADOS_TP_ESCOLA'] == school_labels[i])].shape[0]
                                                          for j in range(len(language_labels))])],
        hoverinfo='text',
        marker_color=px.colors.sequential.RdBu[i]
    ))

# criando grafico
fig.update_layout(barmode='stack', title='Relação entre escolha da lingua x tipo de Escola', xaxis_title='Lingua estrageira', yaxis_title='Quantidade', legend_title='Tipo de Escola', hoverlabel=dict(bgcolor="white", font_size=12))

fig.show()

### Análise dos hábitos de estudo apenas para escola privada

In [15]:
# criando um novo DataFrame excluindo os dados de escola publica
df2 = filtered_aggregated_df.drop(filtered_aggregated_df[(filtered_aggregated_df['MICRODADOS_TP_ESCOLA'] == 1) | (filtered_aggregated_df['MICRODADOS_TP_ESCOLA'] == 2)].index)

In [16]:
df2.head()

Unnamed: 0,NU_INSCRICAO,MICRODADOS_TP_FAIXA_ETARIA,MICRODADOS_TP_SEXO,MICRODADOS_TP_COR_RACA,MICRODADOS_TP_ST_CONCLUSAO,MICRODADOS_TP_ANO_CONCLUIU,MICRODADOS_TP_ESCOLA,MICRODADOS_TP_ENSINO,MICRODADOS_IN_TREINEIRO,MICRODADOS_REGIAO_ESCOLA,...,MICRODADOS_TP_LINGUA,MICRODADOS_RENDA_PER_CAPITA,HABESTUDO_ST_MAT_PERC_APR,HABESTUDO_GES_TEMP_PLAN_EST,HABESTUDO_PRAT_EST_PES,HABESTUDO_TECN_TP_ACES,HABESTUDO_PROB_ROT_EST,HABESTUDO_DIF_INFR,HABESTUDO_AJUD_TERC,HABESTUDO_AVAL_PROP_EXP
1,210054480429,3,M,1,2,0,3,1.0,0,Norte,...,0,707.0,4.0,0.0,0.33,3.0,2.0,2.0,2.5,0.0
3,210054481135,3,F,1,2,0,3,1.0,0,Norte,...,0,1818.0,3.1,5.01,7.66,4.0,8.0,2.0,4.5,0.25
5,210054482583,2,F,1,2,0,3,1.0,0,Norte,...,0,1111.0,3.6,4.68,10.37,4.0,3.0,2.0,4.5,0.5
13,210054484900,1,M,3,2,0,3,1.0,0,Norte,...,0,424.2,3.75,1.65,8.66,4.0,4.0,3.0,4.5,0.5
18,210054486332,2,F,0,2,0,3,1.0,0,Norte,...,0,inf,3.1,4.35,10.01,4.0,11.0,3.0,3.5,0.5


In [17]:
hab1 = filtered_aggregated_df['HABESTUDO_ST_MAT_PERC_APR'].value_counts()
labels = hab1.index
shape = hab1.values

fig = go.Figure(data=[go.Bar(x=labels, y=shape, marker_color=px.colors.sequential.RdBu)])

fig.update_layout(title='Distribuição de HABESTUDO_ST_MAT_PERC_APR', xaxis_title='Valor', yaxis_title='Contagem')

fig.show()

In [18]:
hab2 = filtered_aggregated_df['HABESTUDO_GES_TEMP_PLAN_EST'].value_counts()
labels = hab2.index
shape = hab2.values

fig = go.Figure(data=[go.Scatter(x=labels, y=shape, mode='markers', marker_color=px.colors.sequential.RdBu)])

fig.update_layout(title='Distribuição de HABESTUDO_GES_TEMP_PLAN_EST', xaxis_title='Valor', yaxis_title='Contagem')

fig.show()


In [19]:
hab3 = filtered_aggregated_df['HABESTUDO_PRAT_EST_PES'].value_counts()
labels = hab3.index
shape = hab3.values

fig = go.Figure(data=[go.Scatter(x=labels, y=shape, mode='markers', marker_color=px.colors.sequential.RdBu)])

fig.update_layout(title='Distribuição de HABESTUDO_PRAT_EST_PES', xaxis_title='Valor', yaxis_title='Contagem')

fig.show()

In [20]:
hab4 = filtered_aggregated_df['HABESTUDO_TECN_TP_ACES'].value_counts()
labels = hab4.index
shape = hab4.values

fig = go.Figure(data=[go.Bar(x=labels, y=shape, marker_color=px.colors.sequential.RdBu)])

fig.update_layout(title='Distribuição de HABESTUDO_TECN_TP_ACES', xaxis_title='Valor', yaxis_title='Contagem')

fig.show()

In [21]:
hab5 = filtered_aggregated_df['HABESTUDO_PROB_ROT_EST'].value_counts()
labels = hab5.index
shape = hab5.values

fig = go.Figure(data=[go.Bar(x=labels, y=shape, marker_color=px.colors.sequential.RdBu)])

fig.update_layout(title='Distribuição de HABESTUDO_PROB_ROT_EST', xaxis_title='Valor', yaxis_title='Contagem')

fig.show()

In [22]:
hab5 = filtered_aggregated_df['HABESTUDO_DIF_INFR'].value_counts()
labels = hab5.index
shape = hab5.values

fig = go.Figure(data=[go.Bar(x=labels, y=shape, marker_color=px.colors.sequential.RdBu)])

fig.update_layout(title='Distribuição de HABESTUDO_DIF_INFR', xaxis_title='Valor', yaxis_title='Contagem')

fig.show()

In [23]:
hab5 = filtered_aggregated_df['HABESTUDO_AJUD_TERC'].value_counts()
labels = hab5.index
shape = hab5.values

fig = go.Figure(data=[go.Bar(x=labels, y=shape, marker_color=px.colors.sequential.RdBu)])

fig.update_layout(title='Distribuição de HABESTUDO_AJUD_TERC', xaxis_title='Valor', yaxis_title='Contagem')

fig.show()

In [24]:
hab5 = filtered_aggregated_df['HABESTUDO_AVAL_PROP_EXP'].value_counts()
labels = hab5.index
shape = hab5.values

fig = go.Figure(data=[go.Bar(x=labels, y=shape, marker_color=px.colors.sequential.RdBu)])

fig.update_layout(title='Distribuição de HABESTUDO_AVAL_PROP_EXP', xaxis_title='Valor', yaxis_title='Contagem')

fig.show()

**Quantidade das variaveis para escola privada**

In [34]:
# Dados de faixa etária
age = df2['MICRODADOS_TP_FAIXA_ETARIA'].value_counts()
age_labels = ['Menor de 17 anos', '17 anos', '18 anos', '19 anos', '20 anos', '21 anos', 
              '22 anos', '23 anos', '24 anos', '25 anos', 'Entre 26 e 30 anos', 'Entre 31 e 35 anos', 
              'Entre 36 e 40 anos', 'Entre 41 e 45 anos', 'Entre 46 e 50 anos', 'Entre 51 e 55 anos',
              'Entre 56 e 60 anos', 'Entre 66 e 70 anos', 'Maior de 70 anos']

# Dados de gênero
gender = df2['MICRODADOS_TP_SEXO'].value_counts()
gender_labels = ['Masculino', 'Feminino']

# Dados de etnia
race = df2['MICRODADOS_TP_COR_RACA'].value_counts()
race_labels = ['Não declarado', 'Branca', 'Preta', 'Parda', 'Amarela', 'Indígena', 'Não dispõe da informação']

# Criar figura empilhada
fig = go.Figure()

# Adicionar barras para faixa etária
fig.add_trace(go.Bar(
    x=age_labels,
    y=age,
    name='Faixa Etária',
    marker_color='rgb(192, 108, 132)'
))

# Adicionar barras para gênero
fig.add_trace(go.Bar(
    x=gender_labels,
    y=gender,
    name='Gênero',
    marker_color='rgb(103, 191, 92)'
))

# Adicionar barras para etnia
fig.add_trace(go.Bar(
    x=race_labels,
    y=race,
    name='Etnia',
    marker_color='rgb(107, 157, 219)'
))

# Atualizar layout do gráfico
fig.update_layout(
    title='Distribuição de Faixa Etária, Gênero e Etnia',
    xaxis_title='Variável',
    yaxis_title='Quantidade',
    barmode='stack'
)

# Exibir gráfico
fig.show()
