# Entendendo os Estudantes

Esse desafio proposto no Bootcamp Tech Minas tem como objetivo responder algumas perguntas através da análise de dados, aprofundando o conhecimento em frequência e medidas.

Os dados que deverão ser utilizado nesse script foram baixados do [kaggle](
https://www.kaggle.com/spscientist/students-performance-in-exams). Este conjunto de dados consiste nas notas obtidas pelos alunos em várias disciplinas e suas informações pessoais.

**Variáveis:**

● gender - gênero do aluno<br>
● race/ethnicity - raça/etnia dos alunos<br>
● parental level of education - grau de escolaridade dos pais<br>
● lunch - tipo de almoço<br>
● test preparation course - indica se fez curso preparatório<br>
● math score - nota na prova de matematica<br>
● reading score - nota na prova de leitura<br>
● writing score - nota na prova de escrita<br>

# Bibliotecas

In [37]:
import pandas as pd
import matplotlib.pyplot as plt

# Análise Exploratória

In [5]:
df = pd.read_csv("Data/StudentsPerformance.csv")
df.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [6]:
df.tail()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77
999,female,group D,some college,free/reduced,none,77,86,86


In [14]:
df.shape

(1000, 8)

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race/ethnicity               1000 non-null   object
 2   parental level of education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test preparation course      1000 non-null   object
 5   math score                   1000 non-null   int64 
 6   reading score                1000 non-null   int64 
 7   writing score                1000 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 62.6+ KB


In [8]:
df.describe()

Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


In [10]:
df["race/ethnicity"].unique()

array(['group B', 'group C', 'group A', 'group D', 'group E'],
      dtype=object)

In [11]:
df["parental level of education"].unique()

array(["bachelor's degree", 'some college', "master's degree",
       "associate's degree", 'high school', 'some high school'],
      dtype=object)

In [12]:
df["lunch"].unique()

array(['standard', 'free/reduced'], dtype=object)

In [13]:
df["test preparation course"].unique()

array(['none', 'completed'], dtype=object)

# Processamento de Dados

**1. Qual a quantidade de alunos em cada grupo racial/étnico ?**

In [18]:
df_race = df["race/ethnicity"].value_counts()
df_race

group C    319
group D    262
group B    190
group E    140
group A     89
Name: race/ethnicity, dtype: int64

**2. Qual a quantidade de alunos de cada gênero? Existem mais alunos do gênero masculino ou feminino?**

In [22]:
df_male = df["gender"].loc[df["gender"]=='male'].value_counts()
print(f"A quantidade de pessoas do gênero masculino é: {df_male[0]}")

A quantidade de pessoas do gênero masculino é: 482


In [23]:
df_female = df["gender"].loc[df["gender"]=='female'].value_counts()
print(f"A quantidade de pessoas do gênero feminino é: {df_female[0]}")

A quantidade de pessoas do gênero feminino é: 518


**3. Analise as notas de matemática dos alunos de forma mais completa possível**

In [29]:
print(f'A média total das notas de matemática é: {round(df["math score"].mean(),2)}')
print(f'O desvio absoluto total das notas de matemática é: {round(df["math score"].mad(),2)}')
print(f'A variância total das notas de matemática é: {round(df["math score"].var(),2)}')
print(f'O desvio padrão total das notas de matemática é: {round(df["math score"].std(),2)}')

A média total das notas de matemática é: 66.09
O desvio absoluto total das notas de matemática é: 12.02
A variância total das notas de matemática é: 229.92
O desvio padrão total das notas de matemática é: 15.16


*Analisando as notas de matemática através de um recorte de gênero*

In [33]:
mean_male = df["math score"].loc[df["gender"]=='male'].mean()
mean_abs_male = df["math score"].loc[df["gender"]=='male'].mad()
var_male = df["math score"].loc[df["gender"]=='male'].var()
std_male = df["math score"].loc[df["gender"]=='male'].std()

print(f"A média das notas de matemática entre os homens é: {round(mean_male,2)}")
print(f"O desvio absoluto das notas de matemática entre os homens é: {round(mean_abs_male,2)}")
print(f"A variância das notas de matemática entre os homens é: {round(var_male,2)}")
print(f"O desvio padrão das notas de matemática entre os homens é: {round(std_male,2)}")

A média das notas de matemática entre os homens é: 68.73
O desvio absoluto das notas de matemática entre os homens é: 11.68
A variância das notas de matemática entre os homens é: 206.1
O desvio padrão das notas de matemática entre os homens é: 14.36


In [34]:
mean_female = df["math score"].loc[df["gender"]=='female'].mean()
mean_abs_female = df["math score"].loc[df["gender"]=='female'].mad()
var_female = df["math score"].loc[df["gender"]=='female'].var()
std_female = df["math score"].loc[df["gender"]=='female'].std()

print(f"A média das notas de matemática entre as mulheres é: {round(mean_female,2)}")
print(f"O desvio absoluto das notas de matemática entre as mulheres é: {round(mean_abs_female,2)}")
print(f"A variância das notas de matemática entre as mulheres é: {round(var_female,2)}")
print(f"O desvio padrão das notas de matemática entre as mulheres é: {round(std_female,2)}")

A média das notas de matemática entre as mulheres é: 63.63
O desvio absoluto das notas de matemática entre as mulheres é: 12.04
A variância das notas de matemática entre as mulheres é: 239.99
O desvio padrão das notas de matemática entre as mulheres é: 15.49


Observa-se que os homens possuem uma média maior (68.73) que as mulheres (63.63) e menor desvio padrão, ou seja, a amostra de dados masculina (14.36) possui uma variação menor do que a feminina (15.49)

*Analisando as notas através do maior e menor grau de escolaridade dos pais*

In [36]:
mean_master = df["math score"].loc[df["parental level of education"]=="master's degree"].mean()
std_master = df["math score"].loc[df["parental level of education"]=="master's degree"].std()

mean_some_highschool = df["math score"].loc[df["parental level of education"]=="some high school"].mean()
std_some_highschool = df["math score"].loc[df["parental level of education"]=="some high school"].std()

print(f"Média do alunos com pais com Mestrado: {round(mean_master,2)}")
print(f"Desvio Padrão do alunos com pais com Mestrado: {round(std_master,2)}\n")

print(f"Média do alunos com pais com algum nível de Ensino Médio: {round(mean_some_highschool,2)}")
print(f"Desvio Padrão do alunos com pais com algum nível de Ensino Médio: {round(std_some_highschool,2)}")

Média do alunos com pais com Mestrado: 69.75
Desvio Padrão do alunos com pais com Mestrado: 15.15

Média do alunos com pais com algum nível de Ensino Médio: 63.5
Desvio Padrão do alunos com pais com algum nível de Ensino Médio: 15.93


Observa-se que os alunos, cujos pais possuem um maior nível educacional, possuem uma média de notas de matemática maior (69.75) do que aqueles nos quais os pais têm o ensino médio incompleto. Entretanto, as notas apresentam apenas uma pequena diferença em sua dispersão, já que o desvio padrão dos alunos com pais com Mestrado é ligeiramente menor do que os com ensino médio incompleto.

# Visualização dos Dados

**4. Qual a nota média dos alunos segundo o grau de escolaridade dos pais?**

**5. Verifique gráficamente a relação da nota de leitura e de escrita.**