# **Atividade de Probabilidade e Inferência - Students Performance**

* Executar os comandos abaixo e tentar compreender características dos alunos que estão na base de dados **StudentsPerformance.csv**, disponível para *download* no SIGAA.
* Ao final deste Colab, você terá cinco perguntas relacionadas a esta análise para responder.

In [None]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
plt.style.use('ggplot')

Para carregar/upload a base de dados para o Colab, você deve clicar no icone com formato de pasta (files) no menu lateral esquerdo e seguida na opção upload. Após isto, navegue até a base de dados descompactada e escolha o arquivo **StudentsPerformance.csv** que você deve ter salvo na sua máquina.

In [None]:
df=pd.read_csv('StudentsPerformance.csv', encoding= 'unicode_escape')

In [None]:
df['Total score']=df['math score']+df['reading score']+df['writing score']

In [None]:
df.head(8).T

In [None]:
df.info()

In [None]:
# Converting score from int --> float
df['math score']=pd.to_numeric(df['math score'],downcast='float')

In [None]:
# Printing again 
print("A nota média em matemática é   : {}".format(np.mean(df['math score'])))
print("A nota média em leitura é  : {}".format(np.mean(df['reading score'])))
print("A nota média em redação é   : {}".format(np.mean(df['writing score'])))
print("A nota média total é     : {}".format(np.mean(df['Total score'])/3))

In [None]:
plt.rcParams['axes.facecolor'] = "#b3ffff"
plt.rcParams['figure.facecolor'] ="#b3ffff"
plt.figure(figsize=(18,8))
plt.subplot(1, 4, 1)
plt.title('NOTAS EM MATEMÁTICA')
sns.violinplot(y='math score',data=df,color='red',linewidth=3)
plt.subplot(1, 4, 2)
plt.title('NOTAS EM LEITURA')
sns.violinplot(y='reading score',data=df,color='green',linewidth=3)
plt.subplot(1, 4, 3)
plt.title('NOTAS EM REDAÇÃO')
sns.violinplot(y='writing score',data=df,color='blue',linewidth=3)
plt.show()

In [None]:
plt.rcParams['figure.facecolor'] = "#e6ecff"
plt.rcParams['axes.facecolor'] = "#e6ecff"
plt.figure(figsize=(14,8))
plt.subplot(1, 3, 1)
sns.barplot(x='test preparation course',y='math score',data=df,hue='gender',palette='seismic',**{'hatch':'*','alpha':0.6,'linewidth':2})
plt.title('NOTAS EM MATEMÁTICA')
plt.subplot(1, 3, 2)
sns.barplot(x='test preparation course',y='reading score',data=df,hue='gender',palette='seismic',**{'hatch':'.','alpha':0.8,'linewidth':2})
plt.title('NOTAS EM LEITURA')
plt.subplot(1, 3, 3)
sns.barplot(x='test preparation course',y='writing score',data=df,hue='gender',palette='seismic',**{'hatch':'x','linewidth':2})
plt.title('NOTAS EM REDAÇÃO')
plt.show()

In [None]:
plt.rcParams['axes.facecolor'] = "#ffe5e5"
plt.rcParams['figure.facecolor'] = "#ffe5e5"
sns.pairplot(data=df,hue='gender',plot_kws={'alpha':0.3},palette='hot_r')

In [None]:
corr = df.corr()
mask = np.zeros_like(corr)
mask[np.triu_indices_from(mask)] = True
with sns.axes_style("white"):
    f, ax = plt.subplots(figsize=(8, 8))
    ax = sns.heatmap(corr,mask=mask,square=True,linewidths=.8,cmap="autumn",annot=True)

In [None]:
print("Unique Lunch types :",df['lunch'].unique())

In [None]:
plt.rcParams['axes.facecolor'] = "#ccffda"
plt.rcParams['figure.facecolor'] = "#ccffda"

plt.figure(figsize=(14,8))
plt.subplot(1, 3, 1)
sns.barplot(x='test preparation course',y='math score',data=df,hue='lunch',palette='viridis',edgecolor='black',**{'hatch':'/','linewidth':2})
plt.title('NOTAS EM MATEMATICA')
plt.subplot(1, 3, 2)
sns.barplot(x='test preparation course',y='reading score',data=df,hue='lunch',palette='viridis',edgecolor='black',**{'hatch':"|",'linewidth':2,'linestyle':':'})
plt.title('NOTAS EM LEITURA')
plt.subplot(1, 3, 3)
sns.barplot(x='test preparation course',y='writing score',data=df,hue='lunch',palette='viridis',edgecolor='black',**{'hatch':'-','linewidth':2,'linestyle':'--'})
plt.title('NOTAS EM REDAÇÃO')
plt.show()


In [None]:
df[(df['math score'] > 90) & (df['reading score'] > 90) & (df['writing score']>90)]\
.sort_values(by=['Total score'],ascending=False)

In [None]:
plt.rcParams['figure.facecolor'] = "#ffffe6"

plt.rcParams['axes.facecolor'] = "#ffcccc"
plt.figure(figsize=(14,8))
plt.subplot(1, 3, 1)
plt.title('NOTAS EM MATEMATICA')
sns.barplot(x='race/ethnicity',y='math score',data=df,hue='gender',palette='Reds_r',edgecolor='#ff0000',**{'alpha':0.8,'linewidth':2})

plt.rcParams['axes.facecolor'] = "#ccffcc"
plt.subplot(1, 3, 2)
plt.title('NOTAS EM LEITURA')
sns.barplot(x='race/ethnicity',y='reading score',data=df,hue='gender',palette='Greens_r',edgecolor='#00ff00',**{'alpha':0.8,'linewidth':2})

plt.rcParams['axes.facecolor'] = "#e6e6ff"
plt.subplot(1, 3, 3)
plt.title('NOTAS EM REDAÇÃO')
sns.barplot(x='race/ethnicity',y='writing score',data=df,hue='gender',palette='Blues_r',edgecolor='#0000ff',**{'alpha':0.8,'linewidth':2})
plt.show()

In [None]:
plt.rcParams['figure.facecolor'] = "#ffffe6"
plt.rcParams['axes.facecolor'] = "#ffffe6"
plt.figure(figsize=(12,6))
plt.title('NÍVEL DE ESCOLARIDADE DOS PAIS')
sns.countplot(x='parental level of education',data=df,palette='inferno')
plt.tight_layout()

In [None]:
plt.rcParams['figure.facecolor'] = "#ffe6f9"
plt.rcParams['axes.facecolor'] = "#ffe6f9"
plt.figure(figsize=(12,6))
plt.title('NÍVEL DE ESCOLARIDADE DOS PAIS vs NOTA TOTAL DAS CRIANÇAS')
sns.barplot(x=df['parental level of education'],y='Total score',data=df,palette='magma')
plt.tight_layout()

### **Responda as seguintes perguntas a respeito da análise destes dados:**

**1.**   Com relação a análise dos dados em *StudentsPerformance.csv*, avalie as seguintes sentenças:

**i.** Identificam-se na base *StudentsPerformance.csv* um total de 9 (nove) observações (ou entries) e 1000 (mil) variáveis medidas (ou columns);

**ii.** As variáveis de interesse são do tipo quantitativa contínua, uma vez que é possível considerar todas as variáveis de nota como atributo de interesse;

**iii.** O principal objetivo deste estudo é analisar como as pontuações são influenciadas com base em diferentes variáveis ​​que incluem gênero, raça, curso de preparação para o teste, etc.

Estão corretas as seguintes sentenças:

  * a.)   i e ii.
  * b.)   i e iii.
  * c.)   ii e iii.
  * d.)   i, ii e iii.

**2.**   Com relação a análise dos dados em *StudentsPerformance.csv*, avalie as seguintes sentenças:

**i.** O desempenho dos alunos na seção de matemática é inferior quando comparado à leitura e redação;

**ii.** O melhor desempenho total está na seção de leitura;

**iii.**  Em geral, as notas são melhores para os meninos em matemática e as meninas são melhores em leitura e redação.

Estão corretas as seguintes sentenças:

  * a.)   i e ii.
  * b.)   i e iii.
  * c.)   ii e iii.
  * d.)   i, ii e iii.

**3.**   Com relação a análise dos dados em *StudentsPerformance.csv*, avalie as seguintes sentenças:

**i.** É visível que a maioria dos alunos pontua entre 60-80 em matemática, enquanto em leitura e redação a maioria deles pontua entre 50-80, ou seja, a nota de matemática varia mais;

**ii.** As notas de matemática dos meninos são melhores, independentemente de terem concluído o curso ou não;

**iii.** Em todas as matérias, se o curso for concluído, podemos alcançar pontuações mais altas.

Estão corretas as seguintes sentenças:

  * a.)   i e ii.
  * b.)   i e iii.
  * c.)   ii e iii.
  * d.)   i, ii e iii.

**4.**  Com relação a análise dos dados em *StudentsPerformance.csv*, avalie as seguintes sentenças:

**i.**  É claro ver que, em todas as matérias, todas as pontuações aumentam linearmente umas com as outras;

**ii.** Existe correlação alta entre a nota total e as notas parciais nas matérias;

**iii.** A nota da redação e a nota da leitura também são variáveis altamente correlacionadas, o que nos diz que se um aluno lê bem, ele também escreve bem.

Estão corretas as seguintes sentenças:

  * a.)   i e ii.
  * b.)   i e iii.
  * c.)   ii e iii.
  * d.)   i, ii e iii.


**5.**  Com relação a análise dos dados em *StudentsPerformance.csv*, avalie as seguintes sentenças:

**i.** O fato de a nota em matemática não ter uma correlação muito alta com as outras disciplinas implica que se um aluno tem um bom desempenho em matemática não necessariamente ele terá um bom desempenho em leitura e redação ou vice-versa;

**ii.** Quando se observa isoladamente a escolaridade dos pais, percebe-se que a maioria destes frequentou alguma faculdade ou tinha diploma;

**iii.** Com base na análise dos dados, fica claro que se a educação dos pais for melhor, seus filhos tendem a se sair pior em todas as áreas (matemática, leitura, redação) .

Estão corretas as seguintes sentenças:

  * a.)   i e ii.
  * b.)   i e iii.
  * c.)   ii e iii.
  * d.)   i, ii e iii.