<font color=green size=7>Exploração dos Dados do Enem 2021</font>

### Exame nacional do Ensino Médio

O <b>Exame Nacional do Ensino Médio (Enem)</b> foi instituído em 1998, com o objetivo de avaliar o desempenho escolar dos estudantes ao término da educação básica. Em 2009, o exame aperfeiçoou sua metodologia e passou a ser utilizado como mecanismo de acesso à educação superior. Desde 2020, o participante pode escolher entre fazer o exame impresso ou o Enem Digital, com provas aplicadas em computadores, em locais de prova definidos pelo Inep.  
                                                                               <b>Fonte:</b> Site do Inep 
    


### Fonte dos Dados

https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem

### Dicionário do Dataset

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|M|Masculino|
|F|Feminino|

> ### Faixa Etária
> ***

|Código|Descrição|
|---|---|
|1|Menor de 17 anos|
|2|17 anos|
|3|18 anos|
|4|19 anos|
|5|20 anos|
|6|21 anos|
|7|22 anos|
|8|23 anos|
|9|24 anos|
|10|25 anos|
|11|Entre 26 e 30 anos|
|12|Entre 31 e 35 anos|
|13|Entre 36 e 40 anos|
|14|Entre 41 e 45 anos|
|15|Entre 46 e 50 anos|
|16|Entre 51 e 55 anos|
|17|Entre 56 e 60 anos| 
|18|Entre Entre 61 e 65 anos|
|19|Entre 66 e 70 anos|
|20|Maior de 70 anos|

> ### Cor/Raça
> ***

|Código|Descrição|
|---|---|
|0|Não Declarado|
|1|Branca|
|2|Preta|
|3|Parda|
|4|Amarela|
|5|Indígena|
|6|NA|

> ### Nacionalidade
> ***

|Código|Descrição|
|---|---|
|0|Não informado|
|1|Brasileiro(a)|
|2|Brasileiro(a) Naturalizado(a)|
|3|Estrangeiro(a)|
|4|Brasileiro(a) Nato(a), nascido(a) no exterior|

> ### Questionário Q001 e Q002
> ***

|Código|Descrição|
|---|---|
|A|Nunca estudou|
|B|Não completou a 4ª série/5º ano do Ensino Fundamental|
|C|Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental|
|D|Completou a 8ª série/9º ano do Ensino Fundamental, mas não completou o Ensino Médio|
|E|Completou o Ensino Médio, mas não completou a Faculdade|
|F|Completou a Faculdade, mas não completou a Pós-graduação|
|G|Completou a Pós-graduação|
|H|Não sei|


In [None]:
# Importar a biblioteca pandas e numpy para manipular os dados armazenados no dataset

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats
import numpy as np
from scipy.stats import normaltest

In [None]:
np.__version__

In [None]:
# utilizar o método pd.read_csv para ler o arquivo csv
dados_enem = pd.read_csv("MICRODADOS_ENEM_2021.csv", encoding="ISO -8859-1", sep = ';')

In [None]:
# imprimir as 5 primeiras linhas do dataset
dados_enem.head()

In [None]:
# utilizar o metodo shape para conhecer o numero de linhas e colunas do dataset
print('O dataframe possui {} linhas e {} colunas'.format(dados_enem.shape[0],dados_enem.shape[1]))


In [None]:
# visualiar todas as colunas presente no dataset irá imprimir uma array
dados_enem.columns.values

In [None]:
# vamos selecionar algumas colunas

colunas_selecionadas = ['NU_INSCRICAO','NU_ANO','TP_SEXO','TP_FAIXA_ETARIA','TP_SIT_FUNC_ESC',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_NACIONALIDADE','NO_MUNICIPIO_PROVA',
       'SG_UF_ESC','NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC','TP_DEPENDENCIA_ADM_ESC',
       'NU_NOTA_MT','NU_NOTA_REDACAO','Q001', 'Q002','Q024', 'Q025']

In [None]:
# criar um dataset com as colunas selecionadas
dados_selecionado = dados_enem.filter(items=colunas_selecionadas)
dados_selecionado.head()

In [None]:
pd.DataFrame({'tipos':dados_selecionado.dtypes, 'missing':dados_selecionado.isna().sum()})

<b>Método info():</b> Este método imprime informações sobre um DataFrame, incluindo o índice dtype e colunas, valores não nulos e uso de memória.


In [None]:
dados_selecionado.info(show_counts = True)

## Iremos fazer algumas perguntas para o Dataset

### 1) Qual a distribuição de sexo declarado no Enem?

In [None]:
dist_sexo = dados_selecionado['TP_SEXO']
freq_sexo = dist_sexo.value_counts()
freq_sexo

In [None]:
# iremos utilizar o paramentro normalize para tirar o percentual
percentual=dist_sexo.value_counts(normalize = True)*100
percentual.round()

In [None]:
# construir uma tabela com a frequencia e porcentagem do sexo declarado 
dist_freq_qualitativas = pd.DataFrame({'Frequência': freq_sexo, 'Porcentagem (%)': percentual.round()})
dist_freq_qualitativas.rename(index = {"M": 'Masculino', "F": 'Feminino'}, inplace = True)
dist_freq_qualitativas.rename_axis('Sexo', axis = 'columns', inplace =True)
dist_freq_qualitativas



Segundo um levamanento feito pelo Instituto Semesp, 57% dos estudantes matriculados nas instituições de ensino superiores são do sexo feminino.(https://agenciabrasil.ebc.com.br/educacao/noticia/2020-05/mapa-do-ensino-superior-aponta-para-maioria-feminina-e-branca) 

<b>Conclusão: </b> Com o resultado dos dados encontrado no dataset o qual mostra que 62% dos candidatos são do sexo feminino e 38% do sexo masculino o resultado mostrado pelo conjunto de dados só corrobora com pesquisa feita pelo Instituto Semesp.

### 2) Qual relação de distribuição da  faixa etária dos candidatos por sexo?

In [None]:
# utilizar o metodo groupby para agrupar a variável
faixa_etaria_sexo = ['TP_FAIXA_ETARIA','TP_SEXO']
faixaetaria_sexo = dados_enem.filter(items = faixa_etaria_sexo)

In [None]:
Contagem_sexo_F = faixaetaria_sexo.query('TP_SEXO == "F"').value_counts().to_frame().reset_index()
Contagem_sexo_F.columns = ['Faixa_Etária', 'Sexo', 'Total']
Contagem_sexo_F.head()


In [None]:
sns.catplot(x = 'Faixa_Etária', y = 'Total', kind = 'bar', data= Contagem_sexo_F,
           aspect = 3, height = 3,palette = 'rocket')


In [None]:
Contagem_sexo_M = faixaetaria_sexo.query('TP_SEXO == "M"').value_counts().to_frame().reset_index()
Contagem_sexo_M.columns = ['Faixa_Etária', 'Sexo', 'Total']
Contagem_sexo_M.head()

In [None]:
sns.catplot(x = 'Faixa_Etária', y = 'Total', kind = 'bar', data= Contagem_sexo_M,
           aspect = 3, height = 3,palette = 'rocket')

In [None]:
Contagem_sexo = (faixaetaria_sexo.value_counts(normalize = True)*100).to_frame().reset_index().round(2)
Contagem_sexo.columns = ['FAIXA_ETARIA','SEXO','Percentual(%)']

In [None]:
dict_faixa_etaria = {1:'Menor de 17 anos', 2:'17 anos', 3:'18 anos', 4:'19 anos',5:'20 anos',
6:'21 anos', 7:'22 anos', 8:'23 anos', 9:'24 anos', 10:'25 anos', 11:'Entre 26 e 30 anos',
12:'Entre 31 e 35 anos', 13:'Entre 36 e 40 anos', 14:'Entre 41 e 45 anos', 15:'Entre 46 e 50 anos',
16:'Entre 51 e 55 anos', 17:'Entre 56 e 60 anos', 18:'Entre 61 e 65 anos',19:'Entre 66 e 70 anos',
20:'Maior de 70 anos'}

In [None]:
ax = sns.barplot(data=Contagem_sexo, x='FAIXA_ETARIA', y='Percentual(%)', hue='SEXO',palette = 'flare')
ax.set_title("Distribuição de percentual", fontsize = 20)


textdict = " "
for key,value in dict_faixa_etaria.items():
    textdict = textdict + "{k} : {v}\n".format(k=key,v=value)

ax.text(1.04, -0.00, textdict, transform=ax.transAxes, fontsize = 9, color = 'black',
       bbox = {'boxstyle': 'round', 'facecolor': 'white', 'alpha': 1})
ax=ax

### Podemos inferir do gráfico:
1) A faixa etária com maior número de participação é a de 18 anos e também maior participação feminina.

2) Em quase todas as faixas etárias o que prevalece é o sexo feminino, no gráfico não mostra, mas nas duas últimas faixas o sexo masculino prevalece.

3) As faixas etárias 2, 3,e 4 têm um número muito grande pela seguinte questão: muitos dos candidatos estão prestando seu primeiro vestibular pois estão já no último ano do Ensino Médio.

4) Podem ter candidatos das faixas etárias maiores também que prestaram seu primeiro vestibular, que são aquelas pessoas que concluiram o seu ensino médio de forma tardio.

## 3) Qual a distribuição por frequência absoluta da Cor/Raça no enem 2021 em relação ao sexo?

In [None]:
raca_sexo = ['NU_INSCRICAO','TP_COR_RACA','TP_SEXO']
dist_raca_sexo = dados_enem.filter(items = raca_sexo)
distribuicao_frequência_cor_raca = dist_raca_sexo.groupby(['TP_COR_RACA','TP_SEXO']).count()
distribuicao_frequência_cor_raca.columns = ['Total']
distribuicao_frequência_cor_raca

In [None]:
# plotar um grafico 
grafico = distribuicao_frequência_cor_raca.reset_index()
grafico['TP_COR_RACA'] = grafico['TP_COR_RACA'].map({0: "NA",1: "Branca",2: "Preta",3: "Parda",4: "Amarela",5: "Indígena",6: "NA"})
grafico

In [None]:
sns.set_theme(style="whitegrid")

g = sns.catplot(
    data=grafico, kind="bar",
    x="TP_COR_RACA", y="Total", hue="TP_SEXO",
   palette="dark", alpha=.8, height=6)
g.despine(left=True)
g.set_axis_labels("", "Total")
g.legend.set_title("SEXO")
g.set(ylim=(0, 1000000))
ax=ax

De acordo com grafico de distribuiçao podemos observar que Candidatos que se autodeclararam pardos são maioria entre outras Cores/Raças. 

Candidatos que se autodeclararam Brancos vem logo após como segunda Cor/Raça mais presente no Enem 2021. 

E logo despois os candidatos autodeclarados pretos com menos de 500.000 candidatos. 


Essa distribuição é bem semelhanete a que IBGE através da PNAD, Pesquisa Nacional por Amostra de Domicílios (PNAD Contínua) 2021, divulgou, que 43,0% dos brasileiros se declararam como brancos, 47,0% como pardos e 9,1% como pretos. 




## 4) Quantos candidatos estrangeiros prestaram o Enem?

> ### 4.1) por frequência relativa

In [None]:
nacionalidade_frequencia_relativa = (dados_enem['TP_NACIONALIDADE'].value_counts(normalize = True)*100).to_frame().reset_index().round(2)
nacionalidade_frequencia_relativa.columns = ['Nacionalidade', 'Percentual(%)']
nacionalidade_frequencia_relativa['Nacionalidade'] = nacionalidade_frequencia_relativa['Nacionalidade'].map({1: "Brasileiro(a)", 2: "Brasileiro(a) Naturalizado(a)",
                                                                                                             4: "Brasileiro(a) Nato(a), nascido(a) no exterior", 
                                                                                                             3: "Estrangeiro(a)", 0: "Não informado"})
nacionalidade_frequencia_relativa

> ### 4.2) por frequência absoluta

In [None]:
nacionalidade_frequencia_absoluta = dados_enem['TP_NACIONALIDADE'].value_counts().to_frame().reset_index()
nacionalidade_frequencia_absoluta.columns  = ["Nacionalidade", "Total"]
nacionalidade_frequencia_absoluta["Nacionalidade"] = nacionalidade_frequencia_absoluta["Nacionalidade"].map({0: "Não informado", 1: "Brasileiro(a)", 2: "Brasileiro(a) Naturalizado(a)",
                                                                                                             3: "Estrangeiro(a)", 4: "Brasileiro(a) Nato(a), nascido(a) no exterior"})
nacionalidade_frequencia_absoluta

In [None]:
dados_enem[['TP_NACIONALIDADE','TP_FAIXA_ETARIA']].query("TP_NACIONALIDADE == 0").groupby('TP_FAIXA_ETARIA').count()

In [None]:
dados_enem[['TP_NACIONALIDADE','TP_FAIXA_ETARIA']].query("TP_NACIONALIDADE == 2").groupby('TP_FAIXA_ETARIA').count().plot(kind = "barh")

97% dos candidatos são brasileiros. Quase 2% dos candidatos são naturalizados. Os brasileiros naturalizados também poderiam sinalizar no questionário que são brasileiros pois a opção brasileiro(a) não faz diferença entre natos e naturalizados. 0.19% declararam ser Brasileiro Nato, porém nascido no exterior e 0.13% se declarou estrangeiro.

Explorando as idades dos candidatos Brasileiro Naturalizados podemos observar que eles estão presentes em todas as faixa etaria e maior número estão nas idades  de 18 e 19 anos. 

## 5) Qual a média das notas em matemática, Português,e Redação de acordo com escolaridade do Pai e da Mãe?


In [None]:
#definindo um dicionario para visualizar melhor o resultado

dicionarioq01q02 = {'A': 'Nunca estudou',
'B': 'Não completou a 4ª série/5º ano do Ensino Fundamental',
'C': 'Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental',
'D': 'Completou a 8ª série/9º ano do Ensino Fundamental, mas não completou o Ensino Médio',
'E': 'Completou o Ensino Médio, mas não completou a Faculdade',
'F': 'Completou a Faculdade, mas não completou a Pós-graduação',
'G': 'Completou a Pós-graduação',
'H':'Não sei'}
dicionarioq24 = {"A": "Não", "B": "Sim,um","C":"Sim, dois","D":"Sim, três","E":"Sim, quatro ou mais"}
dicionarioq25 = {"A":"Não","B":"Sim"}

In [None]:
colunasselecionadas = ['NU_INSCRICAO','NU_NOTA_MT', 'NU_NOTA_LC','NU_NOTA_REDACAO','Q001', 'Q002','Q024', 'Q025']
microdadosenemselecionado = dados_selecionado.filter(items = colunasselecionadas)
microdadosenemselecionado = microdadosenemselecionado.dropna()
microdadosenemselecionado.head()

In [None]:
microdadosenemselecionado['NO_Q001'] = [dicionarioq01q02[resp] for resp in microdadosenemselecionado.Q001]
microdadosenemselecionado['NO_Q002'] = [dicionarioq01q02[resp] for resp in microdadosenemselecionado.Q002]
microdadosenemselecionado['NO_Q024'] = [dicionarioq24[resp] for resp in microdadosenemselecionado.Q024]
microdadosenemselecionado['NO_Q025'] = [dicionarioq25[resp] for resp in microdadosenemselecionado.Q025] 

In [None]:
microdadosenemselecionado.head()

## 6) Qual a média das notas em Matemática, Português, e Redação de acordo com escolaridade do Pai e da Mãe?

In [None]:
# Desempenho em Matemática em relação à escolidade do PAI
grafico_nota_matematica_p = microdadosenemselecionado.filter(items=['NU_NOTA_MT', 'NO_Q001']).groupby('NO_Q001').mean().sort_values(by='NU_NOTA_MT', ascending= True)
ax = grafico_nota_matematica_p.plot(kind = 'barh', colormap = 'twilight_shifted',legend = False)
ax.set_title("Nota Matemática x Escolaridade em relação ao Pai", fontsize = 15)
ax=ax

In [None]:
# Desempenho em Matemática em relação à escolidade do Mãe

grafico_nota_matematica_m = microdadosenemselecionado.filter(items=['NU_NOTA_MT', 'NO_Q002']).groupby('NO_Q002').mean().sort_values(by='NU_NOTA_MT', ascending= True)
ax = grafico_nota_matematica_m.plot(kind = "barh", colormap = "pink", legend = False)
ax.set_title("Nota Matemática x Escolaridade da Mãe", fontsize = 15)

In [None]:
# Desempenho em Português em relação à escolidade do PAI
grafico_nota_portugues_p = microdadosenemselecionado.filter(items=['NU_NOTA_LC', 'NO_Q001']).groupby('NO_Q001').mean().sort_values(by='NU_NOTA_LC', ascending= True)
ax = grafico_nota_portugues_p.plot(kind = "barh", colormap = "vlag", legend = False)
ax.set_title("Nota Lingua Portuguesa x Escolaridade da Pai", fontsize = 15)
ax=ax

In [None]:
# Desempenho em Português em relação à escolidade do Mãe
grafico_nota_portugues_m = microdadosenemselecionado.filter(items=['NU_NOTA_LC', 'NO_Q002']).groupby('NO_Q002').mean().sort_values(by='NU_NOTA_LC', ascending= True)
ax = grafico_nota_portugues_m.plot(kind = "barh", colormap = "summer", legend = False)
ax.set_title("Nota Lingua Portuguesa x Escolaridade da Mãe", fontsize = 15)
ax=ax

In [None]:
# Desempenho em Redação em relação à escolidade do Pai
grafico_nota_redacao_p = microdadosenemselecionado.filter(items=['NU_NOTA_REDACAO', 'NO_Q001']).groupby('NO_Q001').mean().sort_values(by='NU_NOTA_REDACAO', ascending= True)
ax = grafico_nota_portugues_p.plot(kind = "barh", colormap = "magma", legend = False)
ax.set_title("Nota Redação x Escolaridade da Pai", fontsize = 15)
ax=ax

In [None]:
# Desempenho em Redação em relação à escolidade do Pai
grafico_nota_recacao_m = microdadosenemselecionado.filter(items=['NU_NOTA_REDACAO', 'NO_Q002']).groupby('NO_Q002').mean().sort_values(by='NU_NOTA_REDACAO', ascending= True)
ax = grafico_nota_portugues_m.plot(kind = "barh", colormap = "copper", legend = False)
ax.set_title("Nota Lingua Portuguesa x Escolaridade da Mãe", fontsize = 15)

Analisando as médias das notas em Lingua Portguesa, Mátemática e Redação foi verificado que quanto maior a escolaridade dos pais 
melhor é o desempenho do candidato.

Em relação a nota de matemática, foi observado uma diferença entre as medias um pouco acentuada quando os pais já completou a Pós-Graduação e Completou a facultadade, mas não completou a Pós-Graduação. 

## 7) Qual relação da nota com o acesso a internet e ter um computador em casa?

In [None]:
microdadosenemselecionado[["NU_INSCRICAO","NU_NOTA_MT","NU_NOTA_LC","NU_NOTA_REDACAO","NO_Q024","NO_Q025"]]



>> <b>7.1) Candidatos com/sem acesso a internet e a relação da media das notas de Matemática Portugues e Redação?</b>

In [None]:
acesso_internet = (microdadosenemselecionado["NO_Q025"].value_counts(normalize = True)*100).round().to_frame().reset_index()
acesso_internet.columns = ["acesso_internet", "%_Percentual"]
acesso_internet

In [None]:
# Desempenho em Matemática dos Candidatos que possuem internet e aqueles que não possuem
microdadosenemselecionado[["NO_Q025","NU_NOTA_MT"]].groupby("NO_Q025").mean()

In [None]:
# Desempenho em Português dos Candidatos que possuem internet e aqueles que não possuem
microdadosenemselecionado[["NO_Q025","NU_NOTA_LC"]].groupby("NO_Q025").mean()

In [None]:
# Desempenho em Redação dos Candidatos que possuem internet e aqueles que não possuem
microdadosenemselecionado[["NO_Q025","NU_NOTA_REDACAO"]].groupby("NO_Q025").mean()

>> <b>7.2) Quantos candidatos têm pelo menos um computador em casa?</b>

In [None]:
microdadosenemselecionado["NO_Q024"].value_counts().to_frame()

In [None]:
qtd_pc_mat = microdadosenemselecionado[["NO_Q024","NU_NOTA_MT"]].groupby("NO_Q024").mean()
qtd_pc_mat["DESVIO_PADRAO"] = microdadosenemselecionado[["NO_Q024","NU_NOTA_MT"]].groupby("NO_Q024").std()
qtd_pc_mat

In [None]:
microdadosenemselecionado[["NO_Q024","NU_NOTA_MT"]].groupby("NO_Q024").sem()

In [None]:
qtd_pc_port = microdadosenemselecionado[["NO_Q024","NU_NOTA_LC"]].groupby("NO_Q024").mean()
qtd_pc_port["DESVIO_PADRAO"] = microdadosenemselecionado[["NO_Q024","NU_NOTA_LC"]].groupby("NO_Q024").std().round(2)
qtd_pc_port

In [None]:
qtd_pc_red = microdadosenemselecionado[["NO_Q024","NU_NOTA_REDACAO"]].groupby("NO_Q024").mean()
qtd_pc_red["DESVIO_PADRAO"] = microdadosenemselecionado[["NO_Q024","NU_NOTA_REDACAO"]].groupby("NO_Q024").std()
qtd_pc_red

In [None]:
desvio_padrao_port = microdadosenemselecionado[["NO_Q024","NU_NOTA_LC"]].groupby("NO_Q024").std().sort_values( by = "NU_NOTA_LC", ascending = False).reset_index()
desvio_padrao_port

## 8 ) Teste de comparação da média das notas entre sexo

In [None]:
from scipy import stats
from scipy.stats import normaltest
from scipy.stats import norm

### **Passo 1** - formulação das hipóteses $H_0$ e $H_1$

#### <font color='red'>Lembre-se, a hipótese nula sempre contém a alegação de igualdade</font>

### $\mu_1 \Rightarrow$ Média das notas do sexo masculino
### $\mu_2 \Rightarrow$ Média das notas do sexo feminino

### $
\begin{cases}
H_0: \mu_1 \leq \mu_2\\
H_1: \mu_1 > \mu_2
\end{cases}
$

### ou

### $
\begin{cases}
H_0: \mu_1 -\mu_2 \leq 0\\
H_1: \mu_1 -\mu_2 > 0
\end{cases}
$

 ### <font color='black'> As notas em Português do sexo masculino é maior que a do sexo feminino?</font>

In [None]:
# vamos colher as duas amostras e verificar se as notas em português tem diferença entre o sexo masculino e feminino
notas_lc_F  = dados_selecionado.query("TP_SEXO == 'F'").sample(n = 1000, random_state = 101).NU_NOTA_LC.dropna()
notas_lc_M  = dados_selecionado.query("TP_SEXO == 'M'").sample(n = 1000, random_state = 101).NU_NOTA_LC.dropna()

In [None]:
# Retirar a média do sexo feminino
media_amostra_f = notas_lc_F.mean()
media_amostra_f

In [None]:
# Retirar a média do sexo masculino
media_amostra_m = notas_lc_M.mean()
media_amostra_m

In [None]:
# retirar o desvio padrão das notas do sexo feminino
desvio_padrao_f = notas_lc_F.std()
desvio_padrao_f

In [None]:
# retirar o desvio padrão das notas do sexo masculino
desvio_padrao_m = notas_lc_M.std()
desvio_padrao_m

In [None]:
significancia = 0.05
confianca = 1 - significancia
n_M = 1000
n_H = 1000
D_0 = 0

In [None]:
probabilidade = confianca
probabilidade

In [None]:
z_alpha = norm.ppf(probabilidade)
z_alpha.round(2)

In [None]:
numerador = (media_amostra_m - media_amostra_f) - D_0

denominador = np.sqrt((desvio_padrao_f ** 2 / n_H) + (desvio_padrao_m ** 2 / n_M))

z = numerador / denominador

z

In [None]:
z >= z_alpha

### <font color='green'>Conclusão: Com um nível de confiança de 99% rejeitamos $H_0$ , isto é, concluímos que a média das notas em Português do sexo masculino não é maior que a média das notas em Português do sexo feminino. Não corroborando com hipotese de que as notas em linguagens dos candidatos do sexo masculino é maior que a do sexo feminino</font>

 ### <font color='black'> As notas em matémática do sexo masculino é maior que a do sexo feminino?</font>

In [None]:
notas_mt_F  = dados_selecionado.query("TP_SEXO == 'F'").sample(n = 1000, random_state = 101).NU_NOTA_MT.dropna()
notas_mt_M  = dados_selecionado.query("TP_SEXO == 'M'").sample(n = 1000, random_state = 101).NU_NOTA_MT.dropna()

In [None]:
notas_mt_F

In [None]:
notas_mt_M

In [None]:
media_amostra_mt_f = notas_mt_F.mean()
media_amostra_mt_f

In [None]:
media_amostra_mt_m = notas_mt_M.mean()
media_amostra_mt_m

In [None]:
desvio_padrao_mt_f = notas_mt_F.std()
desvio_padrao_mt_f

In [None]:
desvio_padrao_mt_m = notas_mt_M.std()
desvio_padrao_mt_m

In [None]:
significancia = 0.05
confianca = 1 - significancia
n_M = 1000
n_H = 1000
D_0 = 0

In [None]:
probabilidade = confianca
probabilidade

In [None]:
z_alpha = norm.ppf(probabilidade)
z_alpha.round(2)

In [None]:
numerador = (media_amostra_mt_m - media_amostra_mt_f) - D_0

denominador = np.sqrt((desvio_padrao_mt_f ** 2 / n_H) + (desvio_padrao_mt_m ** 2 / n_M))

z = numerador / denominador

z

In [None]:
z >= z_alpha

### <font color='green'>Conclusão: Com um nível de confiança de 99% aceitamos $H_0$ , isto é, concluímos que a média das notas em matemática do sexo masculino é maior que a média das notas em Português do sexo feminino. Corroborando com hipotese de que as notas em Matemática dos candidatos do sexo masculino é maior que a do sexo feminino</font>

 ### <font color='black'> As notas em Redação do sexo masculino é maior que a do sexo feminino?</font>

In [None]:
notas_red_F  = dados_selecionado.query("TP_SEXO == 'F'").sample(n = 1000, random_state = 101).NU_NOTA_REDACAO.dropna()
notas_red_M  = dados_selecionado.query("TP_SEXO == 'M'").sample(n = 1000, random_state = 101).NU_NOTA_REDACAO.dropna()

In [None]:
notas_red_F

In [None]:
notas_red_M

In [None]:
media_amostra_red_m = notas_red_M.mean()
media_amostra_red_m

In [None]:
media_amostra_red_f = notas_red_F.mean()
media_amostra_red_f

In [None]:
desvio_padrao_red_m = notas_red_M.std()
desvio_padrao_red_m

In [None]:
desvio_padrao_red_f = notas_red_F.std()
desvio_padrao_red_f

In [None]:
significancia = 0.05
confianca = 1 - significancia
n_M = 1000
n_H = 1000
D_0 = 0

In [None]:
probabilidade = confianca
probabilidade

In [None]:
z_alpha = norm.ppf(probabilidade)
z_alpha.round(2)

In [None]:
numerador = (media_amostra_red_m - media_amostra_red_f) - D_0

denominador = np.sqrt((desvio_padrao_red_f ** 2 / n_H) + (desvio_padrao_red_m ** 2 / n_M))

z = numerador / denominador

z

In [None]:
z >= z_alpha

### <font color='green'>Conclusão: Com um nível de confiança de 95% rejeitamos $H_0$ , isto é, concluímos que a média das notas em Redação do sexo masculino não é maior que a média das notas em Português do sexo feminino. Não corroborando com hipotese de que as notas em Redação dos candidatos do sexo masculino é maior que a do sexo feminino</font>

## Teste de comparação da média das notas entre municípios

### $\mu_1 \Rightarrow$ Média das notas do municipio de Pedreiras
### $\mu_2 \Rightarrow$ Média das notas do municipio de Caxias

### $
\begin{cases}
H_0: \mu_1 \leq \mu_2\\
H_1: \mu_1 > \mu_2
\end{cases}
$

### ou

### $
\begin{cases}
H_0: \mu_1 -\mu_2 \leq 0\\
H_1: \mu_1 -\mu_2 > 0
\end{cases}
$

In [None]:
notas_pedreiras_lc = dados_selecionado.query("NO_MUNICIPIO_PROVA == 'Pedreiras'").sample(n = 1000,random_state = 101).NU_NOTA_LC.dropna()
notas_pedreiras_lc

In [None]:
media_amostra_ped_lc = notas_pedreiras.mean()

In [None]:
desvio_padrao_ped_lc = notas_pedreiras.std()
desvio_padrao_ped_lc

In [None]:
notas_caxias_lc = dados_selecionado.query("NO_MUNICIPIO_PROVA == 'Caxias'").sample(n = 1000,random_state = 101).NU_NOTA_LC.dropna()
notas_caxias_lc

In [None]:
media_amostra_cax_lc = notas_caxias_lc.mean()
media_amostra_cax_lc

In [None]:
desvio_padrao_cax_lc = notas_caxias_lc.std()
desvio_padrao_cax_lc

In [None]:
significancia = 0.05
confianca = 1 - significancia
n_M = 1000
n_H = 1000
D_0 = 0

In [None]:
probabilidade = confianca
probabilidade

In [None]:
z_alpha = norm.ppf(probabilidade)
z_alpha.round(2)

In [None]:
numerador = (media_amostra_ped_lc - media_amostra_cax_lc) - D_0

denominador = np.sqrt((desvio_padrao_cax_lc ** 2 / n_H) + (desvio_padrao_ped_lc ** 2 / n_M))

z = numerador / denominador

z

In [None]:
z >= z_alpha

### <font color='green'>Conclusão: Com um nível de confiança de 95% aceitamos $H_1$ , isto é, concluímos que a média das notas em linguagens e código no municipio de pedreiras é maior que a média das notas em linguagens e código no municipio de Caxias. corroborando com hipotese de que as notas em Redação dos candidatos do sexo masculino é maior que a do sexo feminino</font>