O objetivo deste projeto é tratar os microdados do Enem 2021 e extrair informações que possam validar ou negar as seguintes hipóteses:

Hipótese 1: Participantes provenientes de escolas particulares possuem melhores desempenhos no Enem do que participantes
            provenientes de escolas públicas.

Hipótese 2: Participantes cujos pais possuem maior nível de escolaridade tem melhores desempenhos no Enem.
            
Hipótese 3: Participantes cuja a raça declarada é branca possuem melhores desempenhos no Enem do que participantes que se
            autodeclararam de outras raças.

Utilizamos os seguintes links para poder iniciar nossa avaliação:

Microdados ENEM 2021:
https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem

Dicionário dos Dados do INEP:
https://portaldeimigracao.mj.gov.br/images/dados/microdados/2021/INEP/Dicion%C3%A1rios_INEP_-_Divulga%C3%A7%C3%A3o_-_ENEM.xlsx

Devido a base de dados do Enem 2021 ser muito extensa, iremos construir bancos com as colunas de interesse a serem
trabalhadas em cada hipótese.  

Iremos iniciar construindo o banco de dados para trabalhar a hipótese 1:

In [2]:
import pandas as pd

In [3]:
import numpy as np

Depois de importar os pacotes necessários vamos criar uma variável contendo as colunas de interesse que vão ser importadas para a construção do nosso data frame para a hipótese 1. Feito isso, importaremos o data frame de um arquivo local e exibiremos na tela o resultado obtido.

In [29]:
colunas = ['TP_ESCOLA', 'NU_NOTA_CN', 'NU_NOTA_CH', 
'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO']

In [30]:
df_hipotese_1 = pd.read_csv(r"C:\Users\willi\OneDrive\Área de Trabalho\Programação\Data Science\Projeto_grupo_amarelo\microdados_enem_2021\DADOS\MICRODADOS_ENEM_2021.csv",
 sep = ';', encoding = 'ISO-8859-1', usecols= colunas)

In [31]:
df_hipotese_1

Unnamed: 0,TP_ESCOLA,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO
0,1,,574.6,472.6,,760.0
1,1,505.9,551.8,498.3,461.5,560.0
2,1,,,,,
3,2,580.7,678.9,638.9,659.5,780.0
4,2,497.7,532.4,457.6,582.6,780.0
...,...,...,...,...,...,...
3389827,1,,,,,
3389828,1,,,,,
3389829,1,,,,,
3389830,1,563.7,646.0,550.7,706.4,660.0


Feito isto, é possível notar que exitem mais de 3 milhões de linhas em cada uma das colunas que foram importadas. Também é possível notar que muitos valores estão preenchidos com NaN de modo que dificulta a nossa análise. Para lidar com este problema resolvemos eliminar todas as linhas que possuem os valores NaN.

In [32]:
df_hipotese_1_limpo = df_hipotese_1.dropna()

In [33]:
df_hipotese_1_limpo

Unnamed: 0,TP_ESCOLA,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO
1,1,505.9,551.8,498.3,461.5,560.0
3,2,580.7,678.9,638.9,659.5,780.0
4,2,497.7,532.4,457.6,582.6,780.0
8,2,487.4,476.5,450.7,493.4,520.0
9,2,507.6,539.2,494.6,413.3,380.0
...,...,...,...,...,...,...
3389793,1,506.0,405.2,416.3,450.4,240.0
3389807,1,435.6,531.2,534.7,399.2,320.0
3389814,1,576.9,605.6,631.0,678.0,640.0
3389815,1,449.9,368.2,466.3,370.0,540.0


In [14]:
dicionario_tipo_escola = {1: 'Não respondeu', 2: 'Pública', 3: 'Privada'}

Com a limpeza o número de linhas foi reduzido de 3 milhões e 400 mil, aproximadamente, para 2 milhões e 200 mil, aproximadamente. Em seguida iremos calcular quantos participantes existem em cada tipo de escola.

In [40]:
print(df_hipotese_1_limpo.groupby(df_hipotese_1_limpo['TP_ESCOLA'].map(dicionario_tipo_escola)).count().sort_values(by='NU_NOTA_MT', ascending=False))

               TP_ESCOLA  NU_NOTA_CN  NU_NOTA_CH  NU_NOTA_LC  NU_NOTA_MT  \
TP_ESCOLA                                                                  
Não respondeu    1390710     1390710     1390710     1390710     1390710   
Pública           668036      668036      668036      668036      668036   
Privada           179361      179361      179361      179361      179361   

               NU_NOTA_REDACAO  
TP_ESCOLA                       
Não respondeu          1390710  
Pública                 668036  
Privada                 179361  


In [37]:
print(df_hipotese_1_limpo.groupby(df_hipotese_1_limpo['TP_ESCOLA'].map(dicionario_tipo_escola)).mean().sort_values(by='NU_NOTA_MT', ascending=False))

               TP_ESCOLA  NU_NOTA_CN  NU_NOTA_CH  NU_NOTA_LC  NU_NOTA_MT  \
TP_ESCOLA                                                                  
Privada              3.0  538.988388  567.547878  546.156276  608.088056   
Não respondeu        1.0  496.608727  529.345818  508.975711  538.551688   
Pública              2.0  469.457904  498.438536  485.255554  508.643054   

               NU_NOTA_REDACAO  
TP_ESCOLA                       
Privada             733.338686  
Não respondeu       627.118076  
Pública             583.281829  


In [41]:
print(df_hipotese_1_limpo.groupby(df_hipotese_1_limpo['TP_ESCOLA'].map(dicionario_tipo_escola)).std().sort_values(by='NU_NOTA_MT', ascending=False))

               TP_ESCOLA  NU_NOTA_CN  NU_NOTA_CH  NU_NOTA_LC  NU_NOTA_MT  \
TP_ESCOLA                                                                  
Privada              0.0   83.084548   90.159713   70.409800  114.451848   
Não respondeu        0.0   81.687964   95.985723   78.983267  112.201234   
Pública              0.0   69.428985   85.232107   72.376732   95.317350   

               NU_NOTA_REDACAO  
TP_ESCOLA                       
Privada             153.798166  
Não respondeu       180.542205  
Pública             185.202201  


In [44]:
print(df_hipotese_1_limpo.groupby(df_hipotese_1_limpo['TP_ESCOLA'].map(dicionario_tipo_escola)).quantile(0.25).sort_values(by='NU_NOTA_MT', ascending=False))

               TP_ESCOLA  NU_NOTA_CN  NU_NOTA_CH  NU_NOTA_LC  NU_NOTA_MT  \
TP_ESCOLA                                                                  
Privada              3.0       477.2       510.5       502.2       519.5   
Não respondeu        1.0       435.2       453.9       453.7       446.7   
Pública              2.0       417.3       432.2       434.1       433.1   

               NU_NOTA_REDACAO  
TP_ESCOLA                       
Privada                  620.0  
Não respondeu            540.0  
Pública                  500.0  


In [45]:
print(df_hipotese_1_limpo.groupby(df_hipotese_1_limpo['TP_ESCOLA'].map(dicionario_tipo_escola)).quantile(0.5).sort_values(by='NU_NOTA_MT', ascending=False))

               TP_ESCOLA  NU_NOTA_CN  NU_NOTA_CH  NU_NOTA_LC  NU_NOTA_MT  \
TP_ESCOLA                                                                  
Privada              3.0       542.5       577.3       551.8       615.6   
Não respondeu        1.0       487.0       533.4       513.0       519.6   
Pública              2.0       461.4       496.0       487.8       488.9   

               NU_NOTA_REDACAO  
TP_ESCOLA                       
Privada                  740.0  
Não respondeu            620.0  
Pública                  580.0  


In [46]:
print(df_hipotese_1_limpo.groupby(df_hipotese_1_limpo['TP_ESCOLA'].map(dicionario_tipo_escola)).quantile(0.75).sort_values(by='NU_NOTA_MT', ascending=False))

               TP_ESCOLA  NU_NOTA_CN  NU_NOTA_CH  NU_NOTA_LC  NU_NOTA_MT  \
TP_ESCOLA                                                                  
Privada              3.0       598.9       630.3       595.4       691.5   
Não respondeu        1.0       551.2       599.3       565.7       619.1   
Pública              2.0       514.6       561.3       536.8       571.5   

               NU_NOTA_REDACAO  
TP_ESCOLA                       
Privada                  860.0  
Não respondeu            740.0  
Pública                  680.0  


Através da contagem dos dados, é nítido perceber a grande maioria das informações são de pessoas que não quiseram informar qual tipo de escola estudaram, o que pode atrapalhar nossa resposta da hipótese.

Caso descartemos esse ponto, podemos ver com os resultados acima que os alunos vindos do ensino privado, possuíram maiores médias, menor desvio padrão, maior limite inferior e maior limite superior, afirmando a hipótese de que participantes que vieram do ensino privado a ter melhor desempenho.

----------------------------------------------------

Agora, iremos trabalhar a hipótese 2:

In [47]:
colunas_hipotese_2 = ['NU_INSCRICAO', 'NU_NOTA_CN', 'NU_NOTA_CH', 
'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO', 'Q001', 'Q002']

In [48]:
df_hipotese_2 = pd.read_csv(r"C:\Users\willi\OneDrive\Área de Trabalho\Programação\Data Science\Projeto_grupo_amarelo\microdados_enem_2021\DADOS\MICRODADOS_ENEM_2021.csv",
 sep = ';', encoding = 'ISO-8859-1', usecols= colunas_hipotese_2)

In [49]:
df_hipotese_2

Unnamed: 0,NU_INSCRICAO,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,Q001,Q002
0,210053865474,,574.6,472.6,,760.0,F,F
1,210052384164,505.9,551.8,498.3,461.5,560.0,B,B
2,210052589243,,,,,,B,C
3,210052128335,580.7,678.9,638.9,659.5,780.0,B,B
4,210051353021,497.7,532.4,457.6,582.6,780.0,D,E
...,...,...,...,...,...,...,...,...
3389827,210053249138,,,,,,B,B
3389828,210053776013,,,,,,E,E
3389829,210052441508,,,,,,B,C
3389830,210051139675,563.7,646.0,550.7,706.4,660.0,E,D


Após termos o data frame para trabalhar a hipótese 2, iremos seguir o mesmo passo a passo feito para a hipótese 1. 

In [50]:
df_hipotese_2_limpo = df_hipotese_2.dropna()

In [51]:
df_hipotese_2_limpo

Unnamed: 0,NU_INSCRICAO,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,Q001,Q002
1,210052384164,505.9,551.8,498.3,461.5,560.0,B,B
3,210052128335,580.7,678.9,638.9,659.5,780.0,B,B
4,210051353021,497.7,532.4,457.6,582.6,780.0,D,E
8,210053417016,487.4,476.5,450.7,493.4,520.0,B,B
9,210051128744,507.6,539.2,494.6,413.3,380.0,D,D
...,...,...,...,...,...,...,...,...
3389793,210054306230,506.0,405.2,416.3,450.4,240.0,B,B
3389807,210051254419,435.6,531.2,534.7,399.2,320.0,H,C
3389814,210051121001,576.9,605.6,631.0,678.0,640.0,E,E
3389815,210051173067,449.9,368.2,466.3,370.0,540.0,C,H


In [52]:
dicionario_resposta_Q001_Q002 = {'A': 'Nunca estudou', 
'B': 'Não completou a 4ª série/5º ano do Ensino Fundamental', 
'C': 'Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental', 
'D': 'Completou a 8ª série/9º ano do Ensino Fundamental, mas não completou o Ensino Médio', 
'E': 'Completou o Ensino Médio, mas não completou a Faculdade', 
'F': 'Completou a Faculdade, mas não completou a Pós-graduação', 
'G': 'Completou a Pós-graduação', 
'H': 'Não sei'}

In [68]:
df_hipotese_2_limpo['DESCRICAO_Q001'] = [dicionario_resposta_Q001_Q002[item] for item in df_hipotese_2_limpo.Q001]
df_hipotese_2_limpo

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_hipotese_2_limpo['DESCRICAO_Q001'] = [dicionario_resposta_Q001_Q002[item] for item in df_hipotese_2_limpo.Q001]


Unnamed: 0,NU_INSCRICAO,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,Q001,Q002,DESCRICAO_Q001,DESCRICAO_Q002
1,210052384164,505.9,551.8,498.3,461.5,560.0,B,B,Não completou a 4ª série/5º ano do Ensino Fund...,Não completou a 4ª série/5º ano do Ensino Fund...
3,210052128335,580.7,678.9,638.9,659.5,780.0,B,B,Não completou a 4ª série/5º ano do Ensino Fund...,Não completou a 4ª série/5º ano do Ensino Fund...
4,210051353021,497.7,532.4,457.6,582.6,780.0,D,E,Completou a 8ª série/9º ano do Ensino Fundamen...,"Completou o Ensino Médio, mas não completou a ..."
8,210053417016,487.4,476.5,450.7,493.4,520.0,B,B,Não completou a 4ª série/5º ano do Ensino Fund...,Não completou a 4ª série/5º ano do Ensino Fund...
9,210051128744,507.6,539.2,494.6,413.3,380.0,D,D,Completou a 8ª série/9º ano do Ensino Fundamen...,Completou a 8ª série/9º ano do Ensino Fundamen...
...,...,...,...,...,...,...,...,...,...,...
3389793,210054306230,506.0,405.2,416.3,450.4,240.0,B,B,Não completou a 4ª série/5º ano do Ensino Fund...,Não completou a 4ª série/5º ano do Ensino Fund...
3389807,210051254419,435.6,531.2,534.7,399.2,320.0,H,C,Não sei,"Completou a 4ª série/5º ano, mas não completou..."
3389814,210051121001,576.9,605.6,631.0,678.0,640.0,E,E,"Completou o Ensino Médio, mas não completou a ...","Completou o Ensino Médio, mas não completou a ..."
3389815,210051173067,449.9,368.2,466.3,370.0,540.0,C,H,"Completou a 4ª série/5º ano, mas não completou...",Não sei


In [69]:
df_hipotese_2_limpo['DESCRICAO_Q002'] = [dicionario_resposta_Q001_Q002[item] for item in df_hipotese_2_limpo.Q002]
df_hipotese_2_limpo

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_hipotese_2_limpo['DESCRICAO_Q002'] = [dicionario_resposta_Q001_Q002[item] for item in df_hipotese_2_limpo.Q002]


Unnamed: 0,NU_INSCRICAO,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,Q001,Q002,DESCRICAO_Q001,DESCRICAO_Q002
1,210052384164,505.9,551.8,498.3,461.5,560.0,B,B,Não completou a 4ª série/5º ano do Ensino Fund...,Não completou a 4ª série/5º ano do Ensino Fund...
3,210052128335,580.7,678.9,638.9,659.5,780.0,B,B,Não completou a 4ª série/5º ano do Ensino Fund...,Não completou a 4ª série/5º ano do Ensino Fund...
4,210051353021,497.7,532.4,457.6,582.6,780.0,D,E,Completou a 8ª série/9º ano do Ensino Fundamen...,"Completou o Ensino Médio, mas não completou a ..."
8,210053417016,487.4,476.5,450.7,493.4,520.0,B,B,Não completou a 4ª série/5º ano do Ensino Fund...,Não completou a 4ª série/5º ano do Ensino Fund...
9,210051128744,507.6,539.2,494.6,413.3,380.0,D,D,Completou a 8ª série/9º ano do Ensino Fundamen...,Completou a 8ª série/9º ano do Ensino Fundamen...
...,...,...,...,...,...,...,...,...,...,...
3389793,210054306230,506.0,405.2,416.3,450.4,240.0,B,B,Não completou a 4ª série/5º ano do Ensino Fund...,Não completou a 4ª série/5º ano do Ensino Fund...
3389807,210051254419,435.6,531.2,534.7,399.2,320.0,H,C,Não sei,"Completou a 4ª série/5º ano, mas não completou..."
3389814,210051121001,576.9,605.6,631.0,678.0,640.0,E,E,"Completou o Ensino Médio, mas não completou a ...","Completou o Ensino Médio, mas não completou a ..."
3389815,210051173067,449.9,368.2,466.3,370.0,540.0,C,H,"Completou a 4ª série/5º ano, mas não completou...",Não sei


Iniciaremos fazendo um análise para o Pai ou homem responsável pelo candidato:

In [71]:
print(df_hipotese_2_limpo.filter(items=['NU_INSCRICAO','DESCRICAO_Q001']).groupby('DESCRICAO_Q001').count().sort_values(by='NU_INSCRICAO', ascending=False))

                                                    NU_INSCRICAO
DESCRICAO_Q001                                                  
Completou o Ensino Médio, mas não completou a F...        681530
Não completou a 4ª série/5º ano do Ensino Funda...        349980
Completou a 4ª série/5º ano, mas não completou ...        281447
Completou a Faculdade, mas não completou a Pós-...        246549
Completou a 8ª série/9º ano do Ensino Fundament...        245630
Completou a Pós-graduação                                 183606
Não sei                                                   172965
Nunca estudou                                              76399


In [72]:
print(df_hipotese_2_limpo.filter(items=['NU_NOTA_CN', 'NU_NOTA_CH', 
'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO','DESCRICAO_Q001']).groupby('DESCRICAO_Q001').mean().sort_values(by='NU_NOTA_MT', ascending=False))

                                                    NU_NOTA_CN  NU_NOTA_CH  \
DESCRICAO_Q001                                                               
Completou a Pós-graduação                           543.751521  574.097620   
Completou a Faculdade, mas não completou a Pós-...  533.311948  566.086716   
Completou o Ensino Médio, mas não completou a F...  495.720464  528.709482   
Completou a 8ª série/9º ano do Ensino Fundament...  481.275714  512.821204   
Completou a 4ª série/5º ano, mas não completou ...  475.556340  506.710187   
Não sei                                             471.956765  502.561972   
Não completou a 4ª série/5º ano do Ensino Funda...  466.571676  495.397164   
Nunca estudou                                       455.140269  481.009615   

                                                    NU_NOTA_LC  NU_NOTA_MT  \
DESCRICAO_Q001                                                               
Completou a Pós-graduação                           551.944799 

Agora, faremos uma análise para a Mãe ou mulher responsável pelo participante:

In [77]:
print(df_hipotese_2_limpo.filter(items=['NU_INSCRICAO','DESCRICAO_Q002']).groupby('DESCRICAO_Q002').count().sort_values(by='NU_INSCRICAO', ascending=False))

                                                    NU_INSCRICAO
DESCRICAO_Q002                                                  
Completou o Ensino Médio, mas não completou a F...        795005
Completou a Faculdade, mas não completou a Pós-...        321187
Completou a Pós-graduação                                 309702
Completou a 8ª série/9º ano do Ensino Fundament...        245533
Não completou a 4ª série/5º ano do Ensino Funda...        243449
Completou a 4ª série/5º ano, mas não completou ...        226251
Não sei                                                    48908
Nunca estudou                                              48071


In [78]:
print(df_hipotese_2_limpo.filter(items=['NU_NOTA_CN', 'NU_NOTA_CH', 
'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO','DESCRICAO_Q002']).groupby('DESCRICAO_Q002').mean().sort_values(by='NU_NOTA_MT', ascending=False))

                                                    NU_NOTA_CN  NU_NOTA_CH  \
DESCRICAO_Q002                                                               
Completou a Pós-graduação                           529.721953  560.479287   
Completou a Faculdade, mas não completou a Pós-...  522.749638  554.633262   
Completou o Ensino Médio, mas não completou a F...  489.054272  521.610955   
Completou a 8ª série/9º ano do Ensino Fundament...  474.206432  505.786707   
Completou a 4ª série/5º ano, mas não completou ...  470.321348  501.299009   
Não sei                                             463.024280  487.489998   
Não completou a 4ª série/5º ano do Ensino Funda...  463.683530  492.952720   
Nunca estudou                                       453.429288  479.985226   

                                                    NU_NOTA_LC  NU_NOTA_MT  \
DESCRICAO_Q002                                                               
Completou a Pós-graduação                           540.180564 

Com os dados obtidos em relação ao desempenho do participante baseado na escolaridade dos pais, podemos observar que quanto maior a escolaridade dos pais, melhor é o desempenho do participante. Assim, confirmamos a hipótese 2.

-----------------------------------------------------------

Agora, iremos construir o data frame para a hipótese 3:

In [79]:
colunas_hipotese_3 = ['TP_COR_RACA', 'NU_NOTA_CN', 'NU_NOTA_CH', 
'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO']

In [80]:
df_hipotese_3 = pd.read_csv(r"C:\Users\willi\OneDrive\Área de Trabalho\Programação\Data Science\Projeto_grupo_amarelo\microdados_enem_2021\DADOS\MICRODADOS_ENEM_2021.csv",
 sep = ';', encoding = 'ISO-8859-1', usecols= colunas_hipotese_3)

In [81]:
df_hipotese_3

Unnamed: 0,TP_COR_RACA,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO
0,1,,574.6,472.6,,760.0
1,1,505.9,551.8,498.3,461.5,560.0
2,1,,,,,
3,3,580.7,678.9,638.9,659.5,780.0
4,3,497.7,532.4,457.6,582.6,780.0
...,...,...,...,...,...,...
3389827,3,,,,,
3389828,1,,,,,
3389829,3,,,,,
3389830,1,563.7,646.0,550.7,706.4,660.0


Com o data frame criado, iremos seguir os mesmos procedimentos das hipóteses anteriores.

In [82]:
df_hipotese_3_limpo = df_hipotese_3.dropna()

In [83]:
df_hipotese_3_limpo

Unnamed: 0,TP_COR_RACA,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO
1,1,505.9,551.8,498.3,461.5,560.0
3,3,580.7,678.9,638.9,659.5,780.0
4,3,497.7,532.4,457.6,582.6,780.0
8,3,487.4,476.5,450.7,493.4,520.0
9,3,507.6,539.2,494.6,413.3,380.0
...,...,...,...,...,...,...
3389793,1,506.0,405.2,416.3,450.4,240.0
3389807,3,435.6,531.2,534.7,399.2,320.0
3389814,1,576.9,605.6,631.0,678.0,640.0
3389815,3,449.9,368.2,466.3,370.0,540.0


In [85]:
dicionario_descricao_cor_raca = {0: 'Não declarado', 1: 'Branca', 2: 'Preta', 3: 'Parda', 4: 'Amarela',
 5: 'Indígena', 6: 'Não dispõe da informação'}

In [86]:
df_hipotese_3_limpo['DESCRICAO_COR_RACA'] = [dicionario_descricao_cor_raca[item] for item in df_hipotese_3_limpo.TP_COR_RACA]
df_hipotese_3_limpo

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_hipotese_3_limpo['DESCRICAO_COR_RACA'] = [dicionario_descricao_cor_raca[item] for item in df_hipotese_3_limpo.TP_COR_RACA]


Unnamed: 0,TP_COR_RACA,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,DESCRICAO_COR_RACA
1,1,505.9,551.8,498.3,461.5,560.0,Branca
3,3,580.7,678.9,638.9,659.5,780.0,Parda
4,3,497.7,532.4,457.6,582.6,780.0,Parda
8,3,487.4,476.5,450.7,493.4,520.0,Parda
9,3,507.6,539.2,494.6,413.3,380.0,Parda
...,...,...,...,...,...,...,...
3389793,1,506.0,405.2,416.3,450.4,240.0,Branca
3389807,3,435.6,531.2,534.7,399.2,320.0,Parda
3389814,1,576.9,605.6,631.0,678.0,640.0,Branca
3389815,3,449.9,368.2,466.3,370.0,540.0,Parda


In [89]:
print(df_hipotese_3_limpo.filter(items=['DESCRICAO_COR_RACA','TP_COR_RACA']).groupby('DESCRICAO_COR_RACA').count().sort_values(by='TP_COR_RACA', ascending=False))

                          TP_COR_RACA
DESCRICAO_COR_RACA                   
Branca                         979456
Parda                          912861
Preta                          246568
Amarela                         44947
Não declarado                   43733
Indígena                        10540
Não dispõe da informação            2


In [95]:
print(df_hipotese_3_limpo.filter(items=['DESCRICAO_COR_RACA','NU_NOTA_MT']).groupby('DESCRICAO_COR_RACA').mean().sort_values(by='NU_NOTA_MT', ascending=False))

                          NU_NOTA_MT
DESCRICAO_COR_RACA                  
Branca                    565.549555
Amarela                   540.024694
Não declarado             533.091782
Parda                     512.370591
Preta                     501.230308
Indígena                  474.377097
Não dispõe da informação  426.800000


In [96]:
print(df_hipotese_3_limpo.filter(items=['DESCRICAO_COR_RACA','NU_NOTA_CN']).groupby('DESCRICAO_COR_RACA').mean().sort_values(by='NU_NOTA_CN', ascending=False))

                          NU_NOTA_CN
DESCRICAO_COR_RACA                  
Branca                    511.772959
Não dispõe da informação  501.500000
Não declarado             494.172110
Amarela                   494.010735
Parda                     476.355207
Preta                     471.496377
Indígena                  450.565607


In [97]:
print(df_hipotese_3_limpo.filter(items=['DESCRICAO_COR_RACA','NU_NOTA_CH']).groupby('DESCRICAO_COR_RACA').mean().sort_values(by='NU_NOTA_CH', ascending=False))

                          NU_NOTA_CH
DESCRICAO_COR_RACA                  
Branca                    544.936609
Não dispõe da informação  530.550000
Não declarado             526.425987
Amarela                   517.965568
Parda                     505.523646
Preta                     504.666856
Indígena                  472.881101


In [98]:
print(df_hipotese_3_limpo.filter(items=['DESCRICAO_COR_RACA','NU_NOTA_LC']).groupby('DESCRICAO_COR_RACA').mean().sort_values(by='NU_NOTA_LC', ascending=False))

                          NU_NOTA_LC
DESCRICAO_COR_RACA                  
Branca                    525.494887
Não declarado             505.508986
Amarela                   500.396854
Preta                     488.150908
Parda                     488.038484
Não dispõe da informação  459.050000
Indígena                  454.690161


In [99]:
print(df_hipotese_3_limpo.filter(items=['DESCRICAO_COR_RACA','NU_NOTA_REDACAO']).groupby('DESCRICAO_COR_RACA').mean().sort_values(by='NU_NOTA_REDACAO', ascending=False))

                          NU_NOTA_REDACAO
DESCRICAO_COR_RACA                       
Branca                         656.975750
Amarela                        618.320689
Não declarado                  602.339652
Parda                          597.571635
Preta                          586.770059
Indígena                       524.937381
Não dispõe da informação       490.000000


Analisando as médias para cada área do conhecimento, podemos verificar que participantes que se autodeclararam brancos tendem a ter maiores notas do que participantes que se autodeclararam de outras raças/cores. Isto confirma a hipótese 3.