# Base de Dados Perfomace dos Estudantes

Este conjunto de dados contém informações abrangentes sobre 2.392 alunos do ensino médio, detalhando seus dados demográficos, hábitos de estudo, envolvimento dos pais, atividades extracurriculares e desempenho acadêmico. A variável alvo, GradeClass, classifica as notas dos alunos em categorias distintas, fornecendo um conjunto de dados robusto para pesquisa educacional, modelagem preditiva e análise estatística.

# Índice

## Informações do Estudante
- ID do estudante
- Detalhes Demográficos
- Hábitos de Estudo
- Envolvimento Parental
- Atividades Extracurriculares
- Desempenho Acadêmico
- Variável de Alvo: Classe de Grau

### ID do estudante
**StudentID:** Um identificador único atribuído a cada aluno (1001 a 3392).

### Detalhes Demográficos
- **Idade:** A idade dos alunos varia de 15 a 18 anos.
- **Gênero:** Gênero dos alunos, onde 0 representa o Masculino e 1 representa o Feminino.
- **Etnia:** A etnia dos alunos, codificada da seguinte forma:
  - 0: Caucasiano
  - 1: Afro-americano
  - 2: Asiático
  - 3: Outros
- **Educação Parental:** O nível de escolaridade dos pais, codificado da seguinte forma:
  - 0: Nenhum
  - 1: Ensino Médio
  - 2: Alguns Colégio
  - 3: Bacharelado
  - 4: Mais alto

### Hábitos de Estudo
- **StudyTimeWeekly:** Tempo de estudo semanal em horas, variando de 0 a 20.
- **Ausências:** Número de ausências durante o ano letivo, variando de 0 a 30.
- **Tutoria:** Status de tutoria, onde 0 indica Não e 1 indica Sim.

### Envolvimento Parental
- **Suporte Parental:** O nível de apoio parental, codificado da seguinte forma:
  - 0: Nenhum
  - 1: Baixo
  - 2: Moderado
  - 3: Alto
  - 4: Muito Alto

### Atividades Extracurriculares
- **Extracurricular:** Participação em atividades extracurriculares, onde 0 indica Não e 1 indica Sim.
- **Esportes:** Participação em esportes, onde 0 indica Não e 1 indica Sim.
- **Música:** Participação em atividades musicais, onde 0 indica Não e 1 indica Sim.
- **Voluntariado:** Participação no voluntariado, onde 0 indica Não e 1 indica Sim.

### Desempenho Acadêmico
- **GPA:** Média de Pontos de Grau em uma escala de 2,0 a 4,0, influenciada pelos hábitos de estudo, envolvimento dos pais e atividades extracurriculares.

### Variável de Alvo: Classe de Grau
**GradeClass:** Classificação das notas dos alunos com base no GPA:
- 0: 'A' (GPA >= 3.5)
- 1: 'B' (3.0 <= GPA < 3.5)
- 2: 'C' (2.5 <= GPA < 3.0)
- 3: 'D' (2.0 <= GPA < 2.5)
- 4: 'F' (GPA < 2.0)

# Conclusão

Este conjunto de dados oferece uma visão abrangente dos fatores que influenciam o desempenho acadêmico dos alunos, tornando-o ideal para pesquisa educacional, desenvolvimento de modelos preditivos e análise estatística.

fonte: https://www.kaggle.com/datasets/rabieelkharoua/students-performance-dataset


In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
df = pd.read_csv("Student_performance_data _.csv")
df.sample(5)

Unnamed: 0,StudentID,Age,Gender,Ethnicity,ParentalEducation,StudyTimeWeekly,Absences,Tutoring,ParentalSupport,Extracurricular,Sports,Music,Volunteering,GPA,GradeClass
952,1953,15,1,0,2,17.347093,25,1,0,1,1,0,0,1.179903,4.0
1595,2596,18,0,0,3,5.264923,19,0,3,1,0,0,0,1.378777,4.0
247,1248,15,1,2,2,8.315496,20,0,2,1,0,0,0,1.0445,4.0
189,1190,16,0,2,2,7.464147,21,1,3,0,0,0,0,1.365591,4.0
2359,3360,15,0,0,1,8.817102,12,1,2,1,0,1,0,2.121473,3.0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2392 entries, 0 to 2391
Data columns (total 15 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   StudentID          2392 non-null   int64  
 1   Age                2392 non-null   int64  
 2   Gender             2392 non-null   int64  
 3   Ethnicity          2392 non-null   int64  
 4   ParentalEducation  2392 non-null   int64  
 5   StudyTimeWeekly    2392 non-null   float64
 6   Absences           2392 non-null   int64  
 7   Tutoring           2392 non-null   int64  
 8   ParentalSupport    2392 non-null   int64  
 9   Extracurricular    2392 non-null   int64  
 10  Sports             2392 non-null   int64  
 11  Music              2392 non-null   int64  
 12  Volunteering       2392 non-null   int64  
 13  GPA                2392 non-null   float64
 14  GradeClass         2392 non-null   float64
dtypes: float64(3), int64(12)
memory usage: 280.4 KB


In [4]:
df.shape

(2392, 15)

In [5]:
df.isnull().sum()

StudentID            0
Age                  0
Gender               0
Ethnicity            0
ParentalEducation    0
StudyTimeWeekly      0
Absences             0
Tutoring             0
ParentalSupport      0
Extracurricular      0
Sports               0
Music                0
Volunteering         0
GPA                  0
GradeClass           0
dtype: int64

Nossos dados não contém valores nulos, porém contém 2392 indivíduos com 15 atributos que os caracterizam. O tipo de dados que representam as variáveis em sua maioria são do tipo inteiro, mas também temos dados do tipo decimal.

In [6]:
import altair as alt

count_age = df['Age'].value_counts().reset_index()
count_age.columns = ['Age', 'Count']

# gráfico de contagem
chart = alt.Chart(count_age).mark_bar().encode(
    x=alt.X('Age:N', title='Idade'),
    y=alt.Y('Count:Q', title='Contagem'),
    color=alt.Color('Age:N', legend=None)
).properties(
    title='Gráfico de Contagem por Idade',
    width=600,
    height=400
)

chart.display()

O gráfico nos mostra que a idade dos estudantes váriam entre 15 e 18 anos, com maior contagem para 15 anos.

In [7]:
# Contar as ocorrências de cada Esporte
count_sport = df['Sports'].value_counts().reset_index()
count_sport.columns = ['Sports', 'Count']

# Contar as ocorrências de cada Genẽro
count_gender = df['Gender'].value_counts().reset_index()
count_gender.columns = ['Gender', 'Count']

# Contar as ocorrências de cada Etnia
count_ethnicity = df['Ethnicity'].value_counts().reset_index()
count_ethnicity.columns = ['Ethnicity', 'Count']

# Criar gráfico de contagem para Esporte
count_sport = alt.Chart(count_sport).mark_bar().encode(
    x=alt.X('Sports:N', title='Esporte'),
    y=alt.Y('Count:Q', title='Contagem'),
    color=alt.Color('Sports:N', legend=None)
).properties(
    title='Gráfico de Contagem por esporte',
    width=200,
    height=200
)

# Criar gráfico de contagem para Genêro
count_gender = alt.Chart(count_gender).mark_bar().encode(
    x=alt.X('Gender:N', title='Genêro'),
    y=alt.Y('Count:Q', title='Contagem'),
    color=alt.Color('Gender:N', legend=None)
).properties(
    title='Gráfico de Contagem por Genêro',
    width=200,
    height=200
)

# Criar gráfico de contagem para Etnia
count_ethnicity = alt.Chart(count_ethnicity).mark_bar().encode(
    x=alt.X('Ethnicity:N', title='Etnia'),
    y=alt.Y('Count:Q', title='Contagem'),
    color=alt.Color('Ethnicity:N', legend=None)
).properties(
    title='Gráfico de Contagem por Etnia',
    width=200,
    height=200
)


# Combinar os gráficos
combined_chart = alt.hconcat(count_sport, count_gender, count_ethnicity)

combined_chart.display()

Podemos observar que a maioria dos estudantes não praticam esportes, que a maioria é do gênero feminino e que a maioria pertence à etnia caucasiana.

In [8]:
# Contar as ocorrências de cada Apoio Parental
count_parentalsupport = df['ParentalSupport'].value_counts().reset_index()
count_parentalsupport.columns = ['ParentalSupport', 'Count']

# Contar as ocorrências de cada Educação Parental
count_eparentaleducation = df['ParentalEducation'].value_counts().reset_index()
count_eparentaleducation.columns = ['ParentalEducation', 'Count']

# Contar as ocorrências de cada Extracurricular
count_extracurricular = df['Extracurricular'].value_counts().reset_index()
count_extracurricular.columns = ['Extracurricular', 'Count']

# Criar gráfico de contagem para Esporte
count_parentalsupport = alt.Chart(count_parentalsupport).mark_bar().encode(
    x=alt.X('ParentalSupport:N', title='Apoio Parental'),
    y=alt.Y('Count:Q', title='Contagem'),
    color=alt.Color('ParentalSupport:N', legend=None)
).properties(
    title='Gráfico de Contagem por Apoio Parental',
    width=200,
    height=200
)

# Criar gráfico de contagem para Genêro
count_eparentaleducation = alt.Chart(count_eparentaleducation).mark_bar().encode(
    x=alt.X('ParentalEducation:N', title='Educação Parental'),
    y=alt.Y('Count:Q', title='Contagem'),
    color=alt.Color('ParentalEducation:N', legend=None)
).properties(
    title='Gráfico de Contagem por Educação Parental',
    width=200,
    height=200
)

# Criar gráfico de contagem para Etnia
count_extracurricular = alt.Chart(count_extracurricular).mark_bar().encode(
    x=alt.X('Extracurricular:N', title='Extracurricular'),
    y=alt.Y('Count:Q', title='Contagem'),
    color=alt.Color('Extracurricular:N', legend=None)
).properties(
    title='Gráfico de Contagem por Extracurricular',
    width=200,
    height=200
)


# Combinar os gráficos
combined_chart = alt.hconcat(count_parentalsupport, count_eparentaleducation, count_extracurricular)

# Exibir os gráficos combinados
combined_chart.display()

Podemos perceber que a maioria do estudantes tem um apoio (envolvimento) parental moderado, e que a maioria de seus pais fizeram alguma faculdade sucedido que de grande número com apenas o ensino médio, e por fim podemos ver que a maioria não pratica uma atividade extra currícular.

In [9]:
# Criar gráfico de densidade (KDE)
density_plot = alt.Chart(df).transform_density(
    'StudyTimeWeekly',
    as_=['StudyTimeWeekly', 'density'],
).mark_area(color='red').encode(
    x='StudyTimeWeekly:Q',
    y='density:Q',
).properties(
    title='Densidade das Horas de Estudo Semanais',
    width=600,
    height=400
)

# Exibir o gráfico de densidade
density_plot.display()

Podemos observar que existe uma densidade espalhada entre duas horas de estudos semanal a 18 horas, com uma leve ondulação tendo seu pico entre 9 e 10 horas.

In [10]:
# Criar gráfico de densidade (KDE)
density_plot = alt.Chart(df).transform_density(
    'Absences',
    as_=['Absences', 'density'],
).mark_area(color='red').encode(
    x='Absences:Q',
    y='density:Q',
).properties(
    title='Densidade das Faltas',
    width=600,
    height=400
)

# Exibir o gráfico de densidade
density_plot.display()

In [11]:
count_age = df['GradeClass'].value_counts().reset_index()
count_age.columns = ['GradeClass', 'Count']

# Criar gráfico de contagem
chart = alt.Chart(count_age).mark_bar().encode(
    x=alt.X('GradeClass:N', title='Classe de Classificação'),
    y=alt.Y('Count:Q', title='Contagem'),
    color=alt.Color('GradeClass:N', legend=None)
).properties(
    title='Gráfico de Contagem por Classe de Classificação',
    width=600,
    height=400
)

# Exibir o gráfico
chart.display()

Podemos observar que a maioria (por volta de 1250) dos estudantes foram classificados de acordo com a GPA, abaixo de 2.0 (classe F). 

Por volta de 290 estudantes foram classificado entre 3.0 e 3.5 (classe B), e pouco mais de 100 ficaram acima de 3.5 (classe A).

Vemos que por volta de 400 estudante foram classíficados na classe C e um pouco mais, por volta de 420 ficaram na classe D.

**Grade de Classificação**: Classificação das notas dos alunos com base no GPA:

- 0: 'A' (GPA >= 3.5)

- 1: 'B' (3.0 <= GPA < 3.5)

- 2: 'C' (2.5 <= GPA < 3.0)

- 3: 'D' (2.0 <= GPA < 2.5)

- 4: 'F' (GPA < 2.0)


In [41]:
# Histograma
histogram = alt.Chart(df).mark_bar(color="skyblue").encode(
    alt.X('GPA:Q', bin=True),
    y='count()',
).properties(
    width=600,
    height=400,
)

histogram

A distribuição da Média de Ponto de Grau (GPA em inglês),  e podemos ver que pouco mais da metade do estudantes que ficaram abaixo da escala de 2.0 a 4.0 e que uma pequena minória ficaram entre o intervalo de 3.5 a 4.0.

In [13]:
max = 4.0
min = 3.5
df.query('GPA >= @min and GPA <= @max').count()

StudentID            77
Age                  77
Gender               77
Ethnicity            77
ParentalEducation    77
StudyTimeWeekly      77
Absences             77
Tutoring             77
ParentalSupport      77
Extracurricular      77
Sports               77
Music                77
Volunteering         77
GPA                  77
GradeClass           77
dtype: int64

Podemos observar que o número exato de estudantes que estão entre o intervalo de 3.5 a 4.0, são apenas 77.

In [14]:
# Boxplot
boxplot = alt.Chart(df).mark_boxplot().encode(
    y='GPA:Q'
).properties(
    width=600,
    height=400,
    title='Distribution of GPA by Major',

)

boxplot

In [15]:
df.describe()

Unnamed: 0,StudentID,Age,Gender,Ethnicity,ParentalEducation,StudyTimeWeekly,Absences,Tutoring,ParentalSupport,Extracurricular,Sports,Music,Volunteering,GPA,GradeClass
count,2392.0,2392.0,2392.0,2392.0,2392.0,2392.0,2392.0,2392.0,2392.0,2392.0,2392.0,2392.0,2392.0,2392.0,2392.0
mean,2196.5,16.468645,0.51087,0.877508,1.746237,9.771992,14.541388,0.301421,2.122074,0.383361,0.303512,0.196906,0.157191,1.906186,2.983696
std,690.655244,1.123798,0.499986,1.028476,1.000411,5.652774,8.467417,0.458971,1.122813,0.486307,0.45987,0.397744,0.364057,0.915156,1.233908
min,1001.0,15.0,0.0,0.0,0.0,0.001057,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1598.75,15.0,0.0,0.0,1.0,5.043079,7.0,0.0,1.0,0.0,0.0,0.0,0.0,1.174803,2.0
50%,2196.5,16.0,1.0,0.0,2.0,9.705363,15.0,0.0,2.0,0.0,0.0,0.0,0.0,1.893393,4.0
75%,2794.25,17.0,1.0,2.0,2.0,14.40841,22.0,1.0,3.0,1.0,1.0,0.0,0.0,2.622216,4.0
max,3392.0,18.0,1.0,3.0,4.0,19.978094,29.0,1.0,4.0,1.0,1.0,1.0,1.0,4.0,4.0


In [16]:
# Gráfico de barras
bar_chart = alt.Chart(df).mark_bar().encode(
    x=alt.X('GradeClass:N', title='Grade Class'),
    y=alt.Y('GPA:Q', title='GPA'),
    color=alt.Color('GradeClass:N', legend=None)
).properties(
    width=600,
    height=400,
    title='GPA Distribution by Grade Class'
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).configure_title(
    fontSize=16
)

bar_chart.display()

podemos observar a distribuição do GPA pela grade de classificação.


In [17]:
# Scatterplot
scatterplot = alt.Chart(df).mark_circle().encode(
    x='StudyTimeWeekly',
    y='GPA',
).properties(
    width=600,
    height=400
)


scatterplot

In [18]:
scatterplot = alt.Chart(df).mark_circle().encode(
    x='Absences',
    y='GPA',
).properties(
    width=600,
    height=400
)

scatterplot

In [19]:
df.corr()

Unnamed: 0,StudentID,Age,Gender,Ethnicity,ParentalEducation,StudyTimeWeekly,Absences,Tutoring,ParentalSupport,Extracurricular,Sports,Music,Volunteering,GPA,GradeClass
StudentID,1.0,-0.042255,-0.014625,-0.01299,-0.002307,0.026976,0.014841,-0.007834,0.003016,-0.003611,-0.020703,-0.005468,0.008011,-0.002697,-0.0985
Age,-0.042255,1.0,0.044895,-0.028473,0.025099,-0.0068,-0.011511,-0.012076,0.033197,-0.025061,-0.04632,-0.003492,0.013074,0.000275,-0.00625
Gender,-0.014625,0.044895,1.0,0.01601,0.006771,0.011469,0.021479,-0.031597,0.008065,-0.005964,-0.008897,0.007109,-0.0002,-0.01336,0.022998
Ethnicity,-0.01299,-0.028473,0.01601,1.0,0.033595,0.007184,-0.025712,-0.01744,0.020922,-0.008927,-0.004484,-0.014627,0.013468,0.02776,-0.023326
ParentalEducation,-0.002307,0.025099,0.006771,0.033595,1.0,-0.011051,0.036518,-0.01734,-0.017463,0.007479,0.002029,0.039439,0.01196,-0.035854,0.041031
StudyTimeWeekly,0.026976,-0.0068,0.011469,0.007184,-0.011051,1.0,0.009326,0.02893,0.0358,-0.02286,0.006836,0.007791,-0.016604,0.179275,-0.134131
Absences,0.014841,-0.011511,0.021479,-0.025712,0.036518,0.009326,1.0,-0.015534,0.002108,0.00036,0.041454,-0.008692,-0.018528,-0.919314,0.728633
Tutoring,-0.007834,-0.012076,-0.031597,-0.01744,-0.01734,0.02893,-0.015534,1.0,-0.000824,0.004865,0.006278,-0.011385,-0.050898,0.145119,-0.111695
ParentalSupport,0.003016,0.033197,0.008065,0.020922,-0.017463,0.0358,0.002108,-0.000824,1.0,-0.008381,-0.006176,0.035122,-0.006036,0.190774,-0.136823
Extracurricular,-0.003611,-0.025061,-0.005964,-0.008927,0.007479,-0.02286,0.00036,0.004865,-0.008381,1.0,-0.01182,-0.014191,-0.007427,0.094078,-0.069733


In [21]:
# Criar dados de exemplo
np.random.seed(0)
data = pd.DataFrame({
    'value': np.random.randn(1000)
})

# Criar histograma
hist = alt.Chart(data).mark_bar().encode(
    alt.X('value:Q', bin=alt.Bin(maxbins=30)),
    y='count()',
)

# Criar polígono de frequência
line = alt.Chart(data).mark_line(color='red').transform_bin(
    'binned_value',
    'value',
    bin=alt.Bin(maxbins=30)
).transform_aggregate(
    count='count()',
    groupby=['binned_value']
).encode(
    x='binned_value:Q',
    y='count:Q'
)

# Combinar histograma e polígono de frequência
histogram_with_line = hist + line

# Exibir gráfico
histogram_with_line.properties(
    width=600,
    height=400,
    title="Histograma com Polígono de Frequência"
).display()