# Análise exploratória de dados

In [None]:
import pandas as pd
import seaborn as sns
from pathlib import Path
from matplotlib import pyplot as plt
from matplotlib import patches
from IPython.display import Markdown
import numpy as np

## 1. Descrição dos dados

In [None]:
dict_path = Path("../data/external/dicionario.csv")
df_dict = pd.read_csv(dict_path)
df_dict

In [None]:
df = pd.read_csv('../data/raw/data.csv')
df.head()

In [None]:
display(df.shape)
display(Markdown(f"O conjunto de dados possui **{df.shape[0]}** linhas e **{df.shape[1]}** colunas"))

In [None]:
display(df.info())
display(Markdown("Não há dados faltantes no dataset"))

## 2. Perguntas de partida e hipóteses

### 2.1 Análise univariada

In [None]:
# genero X desempenho
# Faltas x desempenho
# VisITedResources x desempenho
# raisedhands x desempenho 

In [None]:
fig, axes  = plt.subplots(7,2,figsize=(30,50))
sns.set(style="whitegrid")
total = float(len(df))
df.NationalITy = df.NationalITy.replace(['KW'],'Kuwait')
df.StageID = df.StageID.replace(["lowerlevel"],"LowerLevel")
# gender

ax = sns.countplot(x="gender", data=df, color='tomato',ax=axes[0,0])
#plt.xlabel('Gênero')
#plt.ylabel('Quantidade')
#plt.title('Distribuição dos dados por gênero', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
ax.bar_label(
    ax.containers[0],
    labels=[f"{value:.2f}%" for value in df.gender.value_counts().to_numpy()/total*100],
    label_type="center",
    color="white"
)

# nacionalidade

graph_df1 = (
    df
    .NationalITy
    .value_counts()
    .to_frame()
    .reset_index()
    .rename(columns={"index": "Pais", "NationalITy": "Quantidade"})
)
ax = sns.barplot(x="Quantidade", y="Pais", data=graph_df1, color='tomato',ax=axes[0,1])
ax.bar_label(
    ax.containers[0],
    fmt='%.1f',
    label_type='edge',
    color='black'
)
ax.set(frame_on=False)
ax.axvline(0, color="k", clip_on=False)

# País de origem

graph_df2 = (
    df
    .PlaceofBirth
    .value_counts()
    .to_frame()
    .reset_index()
    .rename(columns={"index": "Pais", "PlaceofBirth": "Quantidade"})
)
ax = sns.barplot(x="Quantidade", y="Pais", data=graph_df2, color='tomato',ax=axes[1,0])
ax.bar_label(
    ax.containers[0],
    fmt='%.1f',
    label_type='edge',
    color='black'
)

# Stage ID

ax = sns.countplot(x="StageID", data=df, color='tomato',order=['MiddleSchool','LowerLevel','HighSchool'],ax=axes[1,1])
#plt.xlabel('Nível de escolaridade')
#plt.ylabel('Quantidade')
#plt.title('Distribuição dos dados por nível de escolaridade', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
ax.bar_label(
    ax.containers[0],
    labels=[f"{value:.2f}%" for value in df.StageID.value_counts().to_numpy()/total*100],
    label_type="center",
    color="white"
)

# Grade ID

graph_df3 = (
    df
    .GradeID
    .value_counts()
    .to_frame()
    .reset_index()
    .rename(columns={"index": "Turma", "GradeID": "Quantidade"})
)
ax = sns.barplot(x="Quantidade", y="Turma", data=graph_df3, color='tomato',ax=axes[2,0])
ax.bar_label(
    ax.containers[0],
    fmt='%.1f',
    label_type='edge',
    color='black'
)
#plt.xlabel('Quantidade')
#plt.ylabel('Turmas')

#plt.title('Distribuição dos alunos por turma', fontsize=12)
ax.set(frame_on=False)
ax.axvline(0, color="k", clip_on=False)

# Sectio id

ax = sns.countplot(x="SectionID", data=df, color='tomato',ax=axes[2,1])
#plt.xlabel('Sala')
#plt.ylabel('Quantidade')
#plt.title('Distribuição dos alunos nas salas de aula', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
ax.bar_label(
    ax.containers[0],
    labels=[f"{value:.2f}%" for value in df.SectionID.value_counts().to_numpy()/total*100],
    label_type="center",
    color="white"
)

# Disciplina

graph_df4 = (
    df
    .Topic
    .value_counts()
    .to_frame()
    .reset_index()
    .rename(columns={"index": "Disciplina", "Topic": "Quantidade"})
)
ax = sns.barplot(x="Quantidade", y="Disciplina", data=graph_df4, color='tomato',ax=axes[3,0])
#plt.xlabel('Quantidade')
#plt.ylabel('Disciplina')
#plt.title('Distribuição dos alunos por disciplina', fontsize=12)
ax.bar_label(
    ax.containers[0],
    fmt='%.1f',
    label_type='edge',
    color='black'
)
ax.set(frame_on=False)
ax.axvline(0, color="k", clip_on=False)

# Semestre

ax = sns.countplot(x="Semester", data=df, color='tomato',ax=axes[3,1])
#plt.xlabel('Semestre')
#plt.ylabel('Quantidade')
#plt.title('Distribuição dos alunos por semestre', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
ax.bar_label(
    ax.containers[0],
    labels=[f"{value:.2f}%" for value in df.Semester.value_counts().to_numpy()/total*100],
    label_type="center",
    color="white"
)

# Responsável

graph_df5 = (
    df
    .Relation
    .value_counts()
    .to_frame()
    .reset_index()
    .rename(columns={"index": "Responsavel", "Relation": "Quantidade"})
)
graph_df5.Responsavel = graph_df5.Responsavel.replace(['Father','Mum'],['Pai','Mãe'])
ax = sns.countplot(x="Relation", data=df, color='tomato',ax=axes[4,0])
#plt.xlabel('Responsável legal')
#plt.ylabel('Quantidade')
#plt.title('Distribuição dos responsáveis legais dos alunos', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
ax.bar_label(
    ax.containers[0],
    labels=[f"{value:.1f}%" for value in df.Relation.value_counts().to_numpy()/total*100],
    label_type="center",
    color="white"
)

# resposta

ax = sns.countplot(x="ParentAnsweringSurvey", data=df, color='tomato',ax=axes[4,1])
#plt.xlabel('Respondido pelo responsável')
#plt.ylabel('Quantidade')
#plt.title('Responsáveis que responderam a pesquisa', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
ax.bar_label(
    ax.containers[0],
    labels=[f"{value:.1f}%" for value in df.ParentAnsweringSurvey.value_counts().to_numpy()/total*100],
    label_type="center",
    color="white"
)

# Satisfação

ax = sns.countplot(x="ParentschoolSatisfaction", data=df, color='tomato',ax=axes[5,0])
#plt.xlabel('Satisfação')
#plt.ylabel('Quantidade')
#plt.title('Distribuição da satisfação com a escola', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
ax.bar_label(
    ax.containers[0],
    labels=[f"{value:.1f}%" for value in df.ParentschoolSatisfaction.value_counts().to_numpy()/total*100],
    label_type="center",
    color="white"
)

# Abstinência

ax = sns.countplot(x="StudentAbsenceDays", data=df, color='tomato',ax=axes[5,1])
#plt.xlabel('Abstinência')
#plt.ylabel('Quantidade')
#plt.title('Distribuição da satisfação dos pais com a escola', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
ax.bar_label(
    ax.containers[0],
    labels=[f"{value:.1f}%" for value in df.StudentAbsenceDays.value_counts().to_numpy()/total*100],
    label_type="center",
    color="white"
)

# classificação

ax = sns.countplot(x="Class", data=df, color='tomato',order=['M','H','L'],ax=axes[6,0])
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
ax.bar_label(
    ax.containers[0],
    labels=[f"{value:.1f}%" for value in df.Class.value_counts().to_numpy()/total*100],
    label_type="center",
    color="white"
)

plt.show()

masculino = df.gender.value_counts().to_dict()['M']
feminino = df.gender.value_counts().to_dict()['F']
primeiro = df.PlaceofBirth.value_counts().to_list()[0]
segundo = df.PlaceofBirth.value_counts().to_list()[1]
form_stage_1 = df.StageID.value_counts().to_list()[0]
form_stage_2 = df.StageID.value_counts().to_list()[1]
form_stage_3 = df.StageID.value_counts().to_list()[2]
num_turma_1 = df.GradeID.value_counts().to_list()[0]
num_turma_2 = df.GradeID.value_counts().to_list()[1]
num_turma_3 = df.GradeID.value_counts().to_list()[2]
form_semester_1 = df.Semester.value_counts().to_list()[0]
form_semester_2 = df.Semester.value_counts().to_list()[1]
form_relation_1 = df.Relation.value_counts().to_list()[0]
form_relation_2 = df.Relation.value_counts().to_list()[1]
form_parent = df.ParentAnsweringSurvey.value_counts().to_list()[0]
form_satisfaction = df.ParentschoolSatisfaction.value_counts().to_list()[0]
form_abstinencia_2 = df.StudentAbsenceDays.value_counts().to_list()[1]
form_class_1 = df.Class.value_counts().to_list()[0]
form_class_2 = df.Class.value_counts().to_list()[1]
form_class_3 = df.Class.value_counts().to_list()[2]

display(Markdown(f"O conjunto de dados e composto por **{masculino/total*100:.2f}%** de pessoas do sexo masculino e **{feminino/total*100:.2f}%** de pessoas do sexo feminino."))
display(Markdown(f"A maior parte das pessoas que responderam a pesquisa possuem nacionalidade do **{graph_df1.iloc[0,0]}** ou **{graph_df1.iloc[1,0]}**."))
display(Markdown(f"**{(primeiro+segundo)/total*100:.1f}%** dos participantes da pesquisa tem origem no **{graph_df2.iloc[0,0]}** ou **{graph_df2.iloc[1,0]}**."))
display(Markdown(f"De acordo com o nível de escolaridade os estudantes estão distribuidos em **{form_stage_2/total*100:.2f}%** como Lower Level, **{form_stage_1/total*100:.2f}%** como Middle School e **{form_stage_3/total*100:.2f}%** como High School."))
display(Markdown(f"As turmas com a maior quantidade de alunos são a **{graph_df3.iloc[0,0]}** com **{num_turma_1}** alunos, a **{graph_df3.iloc[1,0]}** com **{num_turma_2}** alunos e a **{graph_df3.iloc[2,0]}** com **{num_turma_3}** alunos."))
display(Markdown(f"A maior parte dos alunos estão estudam na sala A."))
display(Markdown(f"A turma com maior quantidade de alunos é a de **{graph_df4.iloc[0,0]}**."))
display(Markdown(f"O semestre letivo até então é a variável com melhor balanceamento, havendo uma diferença de **{(form_semester_1-form_semester_2)/total*100:.1f}%** na distruição dos participantes da pesquisa."))
display(Markdown(f"**{(form_relation_1)/total*100:.1f}%** dos participantes da pesquisa tem como responável **{graph_df5.iloc[0,0]}** e **{form_relation_2/total*100:.1f}%** dos participantes da pesquisa tem como responável **{graph_df5.iloc[1,0]}**."))
display(Markdown(f"Apenas **{(form_parent)/total*100:.1f}%** dos responsáveis responderam a pesquisa"))
display(Markdown(f"**{(form_satisfaction)/total*100:.1f}%** estão satisfeitos com a escola."))
display(Markdown(f"**{(form_abstinencia_2)/total*100:.1f}%** dos alunos possuem mais de 7 faltas."))
display(Markdown(f"Os alunos foram classificados como **{(form_class_3)/total*100:.1f}%** no Low-Level, **{(form_class_1)/total*100:.1f}%** no Middle-Level e **{(form_class_2)/total*100:.1f}%** no High-Level"))

### 2.2 Análise bivariada

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(4,4))
total = float(len(df))
sns.countplot(x='gender', data = df, hue='Class')
plt.show()

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(4,4))
total = float(len(df))
sns.countplot(y='NationalITy', data = df, hue='Class')
plt.show()

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(4,4))
total = float(len(df))
sns.countplot(y='PlaceofBirth', data = df, hue='Class')
plt.show()

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(4,4))
total = float(len(df))
sns.countplot(x='StageID', data = df, hue='Class')
plt.show()

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(4,4))
total = float(len(df))
sns.countplot(y='GradeID', data = df, hue='Class')
plt.show()

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(4,4))
total = float(len(df))
sns.countplot(x='SectionID', data = df, hue='Class')
plt.show()

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(4,4))
total = float(len(df))
sns.countplot(y='Topic', data = df, hue='Class')
plt.show()

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(4,4))
total = float(len(df))
sns.countplot(x='Semester', data = df, hue='Class')
plt.show()

In [None]:
#completo
sns.set(style="whitegrid")
plt.figure(figsize=(6,5))

ax = sns.countplot(x='Relation', data=df, hue='Class')
plt.xlabel('Pesquisa sobre os temas abordados na sala de aula')
plt.ylabel('Quantidade de alunos')
plt.title('Identificando a relação da quantidade de pesquisa de cada aluno com seu desempenho', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
plt.show()

display(Markdown("Possuir um acompanhamento feito pelo pai apresenta uma relação positiva para alunos classificados como Low e Middle, já para alunos classificados como High apresentaram um melhor desempenho aqueles que possuem sua representação feita pela mãe."))

In [None]:
Anounce_bp = sns.boxplot(x="Class", y="AnnouncementsView", data=df)
Anounce_bp = sns.swarmplot(x="Class", y="AnnouncementsView", data=df, color=".35")
plt.show()

In [None]:
Vis_res = sns.boxplot(x="Class", y="VisITedResources", data=df)
Vis_res = sns.swarmplot(x="Class", y="VisITedResources", data=df, color=".35")
plt.show()

In [None]:
Anounce_bp = sns.boxplot(x="Class", y="AnnouncementsView", data=df)
Anounce_bp = sns.swarmplot(x="Class", y="AnnouncementsView", data=df, color=".35")
plt.show()

In [None]:
ax = sns.boxplot(x="Class", y="Discussion", data=df)
ax = sns.swarmplot(x="Class", y="Discussion", data=df, color=".35")
plt.show()

In [None]:
#completo
sns.set(style="whitegrid")
plt.figure(figsize=(6,5))

ax = sns.countplot(x='ParentAnsweringSurvey', data=df, hue='Class')
plt.xlabel('Pesquisa sobre os temas abordados na sala de aula')
plt.ylabel('Quantidade de alunos')
plt.title('Identificando a relação da quantidade de pesquisa de cada aluno com seu desempenho', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
plt.show()

display(Markdown("O gráfico denota uma indice de aprovação maior para alunos das turmas middle e high quando estes possuem o habito de pesquisar sobre temas abordados em sala de aula."))

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(4,4))
total = float(len(df))
sns.countplot(x='ParentschoolSatisfaction', data = df, hue='Class')
plt.show()

In [None]:
#completo
sns.set(style="whitegrid")
plt.figure(figsize=(6,5))

ax = sns.countplot(x='StudentAbsenceDays', data=df, hue='Class')
plt.xlabel('Ausências na sala de aula')
plt.ylabel('Quantidade de alunos')
plt.title('Identificando a relação da quantidade de faltas de cada aluno com seu desempenho', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
plt.show()

display(Markdown("No gráfico acima nós percebemos que os alunos que tiveram menos de 7 faltas, nos níveis intermediário e avançado, acabaram tendo um desempenho melhor com relação aos alunos que tiveram mais de 7 faltas"))

In [None]:
#completo
sns.set(style="whitegrid")
plt.figure(figsize=(6,5))

ax = sns.countplot(x='Relation', data=df, hue='Class')
plt.xlabel('Pesquisa sobre os temas abordados na sala de aula')
plt.ylabel('Quantidade de alunos')
plt.title('Identificando a relação da quantidade de pesquisa de cada aluno com seu desempenho', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
plt.show()

display(Markdown("Possuir um acompanhamento feito pelo pai apresenta uma relação positiva para alunos classificados como Low e Middle, já para alunos classificados como High apresentaram um melhor desempenho aqueles que possuem sua representação feita pela mãe."))

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(6,5))

ax = sns.countplot(x='Relation', data=df, hue='StageID')
plt.xlabel('Pesquisa sobre os temas abordados na sala de aula')
plt.ylabel('Quantidade de alunos')
plt.title('Identificando a relação da quantidade de pesquisa de cada aluno com seu desempenho', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
plt.show()

In [None]:
display(df.StageID.value_counts())
display(df.Class.value_counts())
display(df.StageID.value_counts().sum())
display(df.Class.value_counts().sum())

## 3. Insights

Relação entre o genero e o nível de escolaridade

In [None]:
display(graph_df1)
display(graph_df2)
display(graph_df3)
display(graph_df4)
display(graph_df5)

In [None]:
data = df.copy()
data.Class.replace({"M":"Middle-Level","H":"High-Level","L":"Low-Level"},inplace=True)

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(6,5))

ax = sns.countplot(x='Class', data=data, hue='gender')
plt.xlabel('Nível de escolaridade')
plt.ylabel('Genero dos alunos')
plt.title('Identificando a relação entre o genero que o nível de escolaridade', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
plt.show()

Relação entre a quantidade de participação no grupo de discussão e classificação dos alunos com base em sua nota total.
Pode-se perceber no gráfico que quanto mais um aluno discute, maior é a nota dele.

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(6,5))

ax = sns.barplot(x='Class',y='Discussion', data=data,order=["Low-Level","Middle-Level","High-Level"])
plt.xlabel('Nível de escolaridade')
plt.ylabel('Participação no grupo de discussão')
plt.title('Relação entre quantidade de participação no grupo de estudos e nivel de escolaridade', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
plt.show()

Relação entre a quantidade de vezes o estudante levanta sua mão na sala de aula e a classificação de notas.

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(6,5))

ax = sns.barplot(x='Class',y='raisedhands', data=data,order=["Low-Level","Middle-Level","High-Level"])
plt.xlabel('Nível de escolaridade')
plt.ylabel('Participação no grupo de discussão')
plt.title('Relação entre a quantidade de vezes o estudante levanta sua mão na sala de aula e nivel de escolaridade', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
plt.show()
display

Relação entre a quantidade de vezes o estudante verifica as novidades do curso e a classificação de notas.

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(6,5))

ax = sns.barplot(x='Class',y='AnnouncementsView', data=data,order=["Low-Level","Middle-Level","High-Level"])
plt.xlabel('Nível de escolaridade')
plt.ylabel('Participação no grupo de discussão')
plt.title('Relação entre quantidade de vezes o estudante verifica as novidades do curso e nivel de escolaridade', fontsize=12)
ax.set(frame_on=False)
ax.axhline(0, color="k", clip_on=False)
plt.show()
display(Markdown("Como fica claro nos gráficos anteriores, quanto maior for a participação do aluno, ou seja, quanto maior for seu interesse, maior é a sua classificação de notas."))