## Questionário 41 (Q41)

Orientações: 

- Registre suas respostas no questionário de mesmo nome no SIGAA.
- O tempo de registro das respostas no questionário será de 10 minutos. Portanto, resolva primeiro as questões e depois registre-as.
- Haverá apenas 1 (uma) tentativa de resposta.
- Submeta seu arquivo-fonte (utilizado para resolver as questões) em formato _.ipynb_ pelo SIGAA anexando-o à Tarefa denominada "Envio de arquivo" correspondente ao questionário.

*Nota:* o arquivo-fonte será utilizado apenas como prova de execução da tarefa. Nenhuma avaliação será feita quanto ao estilo de programação.

<hr>

**Questão 1.** No _dataset_ [enem2019.xlsx](https://github.com/gcpeixoto/ICD/blob/main/database/enem2019.xlsx), estão disponíveis as notas médias por estado obtidas nas provas do ENEM 2019. A partir da série que contém a média das notas da prova de Ciências Humanas, converta os valores para inteiro, faça uma distribuição de frequências e calcule a amplitude _h_ dos intervalos de classe, se divididos uniformemente. Marque a alternativa que corresponde ao valor correto de _h_ e à classe cuja frequência é 3.

A. _h_ = 8 e [499,509)

***B. _h_ = 10 e [499,509)***

C. _h_ = 9 e [509,519)

D. _h_ = 10 e [509,519)


<div class="alert alert-block alert-success">
    <b>Resposta:</b> B. <i>h</i> = 10 e [499,509)
</div>

In [113]:
import numpy as np
import pandas as pd
import seaborn as sns


def sturges(dados):
    """
    Aplica a formula de Sturges em uma série ou lista

    C = R/1+3.322log(N)

    onde C é a amplitude de cada intervalo de classes, R é a amplitude dos dados (range)
    e N é o número de itens contidos na série (len)
    """
    r = dados.max() - dados.min()
    n = len(dados)
    return math.ceil((r) / (1 + 3.322 * np.log10(n)))

In [167]:
df = pd.read_excel(
    "https://raw.githubusercontent.com/gcpeixoto/ICD/main/database/enem2019.xlsx"
)
df["Média da nota da prova de Ciências Humanas"] = df[
    "Média da nota da prova de Ciências Humanas"
].astype(int)
dados = df["Média da nota da prova de Ciências Humanas"]

# O número k de bins para os dados deve ser:
k = int(np.ceil(1 + 3.322 * np.log10(len(dados))))
# A amplitude para cada bin deve é de:
amp = sturges(dados)

# O histogram do NumPy retorna dois conjuntos de array
# o primeiro é a frequência de cada bin, e o são os valores de início de cada bin
hist_plot = np.histogram(dados, bins=k)

intervalos = dict(zip(list(hist_plot[0]), list(hist_plot[1])))
print(intervalos)

{5: 478.1666666666667, 6: 487.3333333333333, 3: 496.5, 1: 505.6666666666667, 7: 514.8333333333334}


O bin que contém 3 valores é \[496.5, 505.6666666666667)


**Questão 2.** Considerando a série que contém a média das notas da prova de Matemática apenas para os estados nordestinos, assinale a alternativa que corresponde ao valor médio aproximado dessas médias, a mediana e a moda, se houver.

A. 504.27, 502.84, unimodal

B. 505.27, 502.84, 9

***C. 504.27, 502.84, amodal***

D. 504.27, 503.84, 8


<div class="alert alert-block alert-success">
    <b>Resposta:</b> C. 504.27, 502.84, amodal

</div>

In [213]:
df = pd.read_excel(
    "https://raw.githubusercontent.com/gcpeixoto/ICD/main/database/enem2019.xlsx"
)

# O primeiro dígito da coluna "COD UF" corresponde à região que aquele estado pertence, de tal maneira:
# 1 = Norte
# 2 = Noreste
# 3 = Sudeste
# 4 = Sul
# 5 = Centro-Oeste
#
# Logo, para filtrar todos aqueles estados que não são do Nordeste basta remover todas aquelas linhas
# cujo o código de estados não começam com '2', para isso há necessidade de transformar os itens da coluna
# em string.

df["COD UF"] = df["COD UF"].astype(str)
for i in range(len(df)):
    if not df.at[i, "COD UF"].startswith("2"):
        df = df.drop(i)

In [202]:
df["Média da nota da prova de Matemática"].describe()

count      9.000000
mean     504.269135
std       12.146534
min      480.233747
25%      498.939480
50%      502.835294
75%      509.135298
max      523.480033
Name: Média da nota da prova de Matemática, dtype: float64

***Mean*** é a média da série, ou seja, a média das médias das notas da prova de matemática para os estados do Nordeste.

E o quartil de ***50%*** é equivalente à mediana

In [200]:
print(
    f"""A mediana foi de, aproximadamente: {round(df["Média da nota da prova de Matemática"].describe()["50%"], 2)}
A média foi de, aproximadamente: {round(df["Média da nota da prova de Matemática"].describe()["mean"], 2)}"""
)

A mediana foi de, aproximadamente: 502.84
A média foi de, aproximadamente: 504.27


In [209]:
df["Média da nota da prova de Matemática"].mode()

0    480.233747
1    498.075512
2    498.939480
3    501.978563
4    502.835294
5    508.695031
6    509.135298
7    515.049252
8    523.480033
dtype: float64

Pode-se constatar que não há moda na Series acima, sendo assim, essa é uma sequência ***amodal***

**Questão 3.** Levando em conta a série que contém as médias das notas da prova de Redação apenas para os estados nordestinos, assinale a alternativa correta quanto ao quartil em que o estado da Paraíba se encontrou nesta prova.

A. 4-quartil

***B. 3-quartil***

C. 2-quartil

D. 1-quartil


<div class="alert alert-block alert-success">
    <b>Resposta:</b> B. 3-quartil

</div>


In [6]:
import pandas as pd

df = pd.read_excel(
    "https://raw.githubusercontent.com/gcpeixoto/ICD/main/database/enem2019.xlsx"
)
df["COD UF"] = df["COD UF"].astype(str)
for i in range(len(df)):
    if not df.at[i, "COD UF"].startswith("2"):
        df = df.drop(i)

# Resetando os indexes do dataframe
df = df.reset_index().drop(["index"], axis=1)

In [268]:
df["Média da nota da prova de redação"].describe()

count      9.000000
mean     565.778561
std       28.193971
min      526.061777
25%      553.236927
50%      561.313678
75%      585.282333
max      604.263188
Name: Média da nota da prova de redação, dtype: float64

In [7]:
df[(df == "PB").any(axis=1)]["Média da nota da prova de redação"]

4    585.282333
Name: Média da nota da prova de redação, dtype: float64

A nota da Paraíba é o valor que inicia o ***terceiro quartil (75%)*** dos dados.