<a href="https://colab.research.google.com/github/Angelo-max-hub/An-lise-de-dados-desempenho-acad-mico/blob/main/analise_desepenho_academico_de_alunos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise de Desempenho Acadêmico de Estudantes

## Visão Geral do Projeto

Este projeto é uma análise exploratória de dados (EDA) focada em identificar os principais fatores que influenciam o desempenho acadêmico de estudantes, com o objetivo de propor soluções para melhorar os resultados educacionais. Utilizando um dataset abrangente de fatores de desempenho estudantil, o projeto demonstra habilidades em manipulação de dados, análise estatística e visualização, culminando em recomendações práticas.

## O Problema

O desafio central era investigar a existência de um desempenho acadêmico abaixo do esperado em um grupo de estudantes e, a partir daí, descobrir as causas raiz desse problema. A análise buscou responder a perguntas como: "Qual a quantidade de alunos com desempenho ruim?", "O que está por trás desse baixo desempenho?" e "O que pode ser feito para reverter a situação?".

## A Solução

A solução envolveu um processo de análise de dados estruturado:

1.  **Extração e Limpeza de Dados**: Carregamento do dataset de desempenho de estudantes e pré-processamento para lidar com valores nulos e garantir tipos de dados corretos.
2.  **Análise Exploratória (EDA)**: Investigação das relações entre diversas variáveis (como horas estudadas, envolvimento parental, acesso a recursos, motivação, frequência, etc.) e o desempenho nos exames.
3.  **Identificação de Fatores Chave**: Utilização de estatísticas descritivas, agrupamentos e visualizações para pinpointar os fatores com maior impacto no desempenho acadêmico.
4.  **Proposição de Recomendações**: Com base nas descobertas, foram formuladas recomendações direcionadas para escolas e pais, visando a melhoria do desempenho geral dos alunos.

## Insights e Resultados Principais

A análise revelou que o desempenho médio dos alunos estava abaixo do ideal. Os fatores mais críticos identificados foram:

*   **Frequência Escolar (Attendance)**: Apresentou a **correlação positiva mais forte (0.58)** com as notas dos exames, indicando que a presença regular é fundamental.
*   **Envolvimento Parental (Parental_Involvement)**: Níveis mais altos de envolvimento parental foram associados a um desempenho significativamente melhor.
*   **Horas de Estudo (Hours_Studied)**: Uma correlação positiva moderada (0.45) foi observada, reforçando a importância do tempo dedicado ao estudo.
*   **Acesso a Recursos (Access_to_Resources)**: Alunos com acesso 'High' a recursos educacionais tendem a ter melhores resultados.

## Recomendações Finais

Para otimizar o desempenho acadêmico, as escolas devem priorizar:

*   **Programas de Incentivo à Frequência**: Estratégias para garantir a assiduidade dos alunos.
*   **Fortalecimento do Envolvimento Parental**: Iniciar programas que capacitem os pais a apoiar ativamente a educação.
*   **Orientação sobre Hábitos de Estudo**: Oferecer suporte para o desenvolvimento de rotinas e métodos de estudo eficazes.
*   **Garantia de Acesso a Recursos**: Assegurar acesso equitativo a materiais e tecnologia.

## Visão Geral do Código

O notebook `[Nome_do_Seu_Notebook].ipynb` (sugiro renomeá-lo para algo como `student_performance_analysis.ipynb`) demonstra as seguintes habilidades:

*   **Manipulação de Dados com Pandas**: Uso eficiente de `pandas` para carregamento (`pd.read_csv`), limpeza (`isna().sum()`, `dropna()`, `astype()`), seleção (`loc`), agregação (`groupby().agg()`) e criação de novas colunas (`apply()`).
*   **Visualização de Dados com Plotly Express**: Criação de gráficos interativos (`px.histogram`, `px.scatter`) para explorar relações entre variáveis e apresentar insights de forma clara.
*   **Análise Estatística**: Cálculo de desvio padrão (`std()`), média (`mean()`), mediana (`median()`), e correlação (`corr()`) para entender a distribuição e as relações dos dados.
*   **Organização e Boas Práticas**: O notebook está estruturado em sessões lógicas (`# Importar bibliotecas`, `# Tratamento de dados`, `# Análise de Fatores Categóricos`, etc.) com comentários claros, facilitando a compreensão do fluxo da análise.

Este projeto reflete minha capacidade de transformar dados brutos em insights acionáveis, utilizando ferramentas e técnicas de Data Science para resolver problemas do mundo real.

## Como Executar

1.  Clone este repositório.
2.  Certifique-se de ter as bibliotecas `pandas` e `plotly-express` instaladas (`pip install pandas plotly-express`).
3.  Abra o arquivo `.ipynb` em um ambiente como Jupyter Notebook ou Google Colab.
4.  Execute as células sequencialmente para reproduzir a análise.

# Observações sobre a análise.

O dataset possui dados sobre o desenpenho acadêmicos de alunos de escola e vários fatores relacionados a eles, o que inclui **horas estudadas**, **horas de sono** e **participação dos pais**. Ele pode ser obtido no kaggle aqui: https://www.kaggle.com/datasets/ayeshasiddiqa123/student-perfirmance/data

O objetivo desta análise é o seguinte: descobrir a quantidade de alunos com desempenho acadêmico ruim, o que está por traz disso e o que pode ser feito para reverter a situação.

# Importar bibliotecas.

In [1]:
# Importar as bibliotecas necessárias para análise de dados e visualização.
import pandas as pd
import plotly.express as px

# Extração de dados.

In [2]:
# Carregar o dataset de desempenho de estudantes a partir do arquivo CSV.
students_df = pd.read_csv("dados/StudentPerformanceFactors.csv")

# Tratamento de dados.

In [4]:
# Visão geral do dataframe.
students_df.head(50)

Unnamed: 0,Hours_Studied,Attendance,Parental_Involvement,Access_to_Resources,Extracurricular_Activities,Sleep_Hours,Previous_Scores,Motivation_Level,Internet_Access,Tutoring_Sessions,Family_Income,Teacher_Quality,School_Type,Peer_Influence,Physical_Activity,Learning_Disabilities,Parental_Education_Level,Distance_from_Home,Gender,Exam_Score
0,23,84,Low,High,No,7,73,Low,Yes,0,Low,Medium,Public,Positive,3,No,High School,Near,Male,67
1,19,64,Low,Medium,No,8,59,Low,Yes,2,Medium,Medium,Public,Negative,4,No,College,Moderate,Female,61
2,24,98,Medium,Medium,Yes,7,91,Medium,Yes,2,Medium,Medium,Public,Neutral,4,No,Postgraduate,Near,Male,74
3,29,89,Low,Medium,Yes,8,98,Medium,Yes,1,Medium,Medium,Public,Negative,4,No,High School,Moderate,Male,71
4,19,92,Medium,Medium,Yes,6,65,Medium,Yes,3,Medium,High,Public,Neutral,4,No,College,Near,Female,70
5,19,88,Medium,Medium,Yes,8,89,Medium,Yes,3,Medium,Medium,Public,Positive,3,No,Postgraduate,Near,Male,71
6,29,84,Medium,Low,Yes,7,68,Low,Yes,1,Low,Medium,Private,Neutral,2,No,High School,Moderate,Male,67
7,25,78,Low,High,Yes,6,50,Medium,Yes,1,High,High,Public,Negative,2,No,High School,Far,Male,66
8,17,94,Medium,High,No,6,80,High,Yes,0,Medium,Low,Private,Neutral,1,No,College,Near,Male,69
9,23,98,Medium,Medium,Yes,8,71,Medium,Yes,0,High,High,Public,Positive,5,No,High School,Moderate,Male,72


In [5]:
# Ver os tipos das colunas.
students_df.dtypes

Unnamed: 0,0
Hours_Studied,int64
Attendance,int64
Parental_Involvement,object
Access_to_Resources,object
Extracurricular_Activities,object
Sleep_Hours,int64
Previous_Scores,int64
Motivation_Level,object
Internet_Access,object
Tutoring_Sessions,int64


In [6]:
# Selecionar colunas mais relevantes.
students2_df = students_df.loc[:, ["Exam_Score", "Parental_Involvement", "Distance_from_Home",
                                   "Physical_Activity", "Learning_Disabilities", "Internet_Access",
                                   "Motivation_Level", "Attendance", "Hours_Studied", "Sleep_Hours",
                                   "Access_to_Resources", "Family_Income", "Previous_Scores", "School_Type",
                                   "Teacher_Quality"]]

In [80]:
# Calcular o desvio padrão das notas do exame.
students2_df.Exam_Score.std()

3.906536098914792

## Lidando com dados nulos.

In [30]:
# Ver número de dados nulos.
students2_df.isna().sum()

Unnamed: 0,0
Exam_Score,0
Parental_Involvement,0
Distance_from_Home,0
Physical_Activity,0
Learning_Disabilities,0
Internet_Access,0
Motivation_Level,0
Attendance,0
Hours_Studied,0
Sleep_Hours,0


In [26]:
# Eliminar linhas com dados nulos, uma vez que sua quantidade é desprezível.
students2_df = students2_df.dropna()

In [28]:
# Converter colunas para seu tipo apropriado.
# Todas as colunas de texto estão com o tipo "object", que não é adequado.
students2_df = students2_df.astype({"Parental_Involvement": pd.CategoricalDtype(),
                                   "Distance_from_Home": pd.CategoricalDtype(),
                                   "Learning_Disabilities": pd.CategoricalDtype(),
                                   "Internet_Access": pd.CategoricalDtype(),
                                   "Motivation_Level": pd.CategoricalDtype(),
                                   "Access_to_Resources": pd.CategoricalDtype(),
                                   "Family_Income": pd.CategoricalDtype(),
                                    "School_Type": pd.CategoricalDtype(),
                                    "Teacher_Quality": pd.CategoricalDtype()})

In [29]:
# Exibir os tipos de dados de cada coluna no DataFrame processado.
students2_df.dtypes

Unnamed: 0,0
Exam_Score,int64
Parental_Involvement,category
Distance_from_Home,category
Physical_Activity,int64
Learning_Disabilities,category
Internet_Access,category
Motivation_Level,category
Attendance,int64
Hours_Studied,int64
Sleep_Hours,int64


# Procurando o problema por traz do desempenho não aceitável (<= 70)

## Visão Geral Inicial e Estatísticas Descritivas dos Dados Tratados

In [31]:
# Ver o dataframe.
students2_df.head(50)

Unnamed: 0,Exam_Score,Parental_Involvement,Distance_from_Home,Physical_Activity,Learning_Disabilities,Internet_Access,Motivation_Level,Attendance,Hours_Studied,Sleep_Hours,Access_to_Resources,Family_Income,Previous_Scores,School_Type,Teacher_Quality
0,67,Low,Near,3,No,Yes,Low,84,23,7,High,Low,73,Public,Medium
1,61,Low,Moderate,4,No,Yes,Low,64,19,8,Medium,Medium,59,Public,Medium
2,74,Medium,Near,4,No,Yes,Medium,98,24,7,Medium,Medium,91,Public,Medium
3,71,Low,Moderate,4,No,Yes,Medium,89,29,8,Medium,Medium,98,Public,Medium
4,70,Medium,Near,4,No,Yes,Medium,92,19,6,Medium,Medium,65,Public,High
5,71,Medium,Near,3,No,Yes,Medium,88,19,8,Medium,Medium,89,Public,Medium
6,67,Medium,Moderate,2,No,Yes,Low,84,29,7,Low,Low,68,Private,Medium
7,66,Low,Far,2,No,Yes,Medium,78,25,6,High,High,50,Public,High
8,69,Medium,Near,1,No,Yes,High,94,17,6,High,Medium,80,Private,Low
9,72,Medium,Moderate,5,No,Yes,Medium,98,23,8,Medium,High,71,Public,High


In [120]:
# Exibir estatísticas descritivas (média, desvio padrão, etc.) do DataFrame, arredondadas para uma casa decimal.
students2_df.describe().round(1)

Unnamed: 0,Exam_Score,Physical_Activity,Attendance,Hours_Studied,Sleep_Hours,Previous_Scores,Sleep_Hours_Rounded
count,6464.0,6464.0,6464.0,6464.0,6464.0,6464.0,6464.0
mean,67.2,3.0,80.0,20.0,7.0,75.1,7.0
std,3.9,1.0,11.5,6.0,1.5,14.4,1.5
min,55.0,0.0,60.0,1.0,4.0,50.0,4.0
25%,65.0,2.0,70.0,16.0,6.0,63.0,6.0
50%,67.0,3.0,80.0,20.0,7.0,75.0,7.0
75%,69.0,4.0,90.0,24.0,8.0,88.0,8.0
max,101.0,6.0,100.0,44.0,10.0,100.0,10.0


## Análise de Fatores Categóricos e Relação com o Desempenho Acadêmico

In [49]:
# O envolvimento baixo dos pais possui relação com o mal desempenho acadêmico?
students2_df.groupby("Parental_Involvement")["Exam_Score"].mean().round(1)

  students2_df.groupby("Parental_Involvement")["Exam_Score"].mean().round(1)


Unnamed: 0_level_0,Exam_Score
Parental_Involvement,Unnamed: 1_level_1
High,68.1
Low,66.4
Medium,67.1


Conforme a análise abaixo, os fatores mais relacionadas ao desempenho acadêmico são:
- Envolvimento dos pais.
- Acesso a recursos.

In [123]:
# Iterar sobre as colunas categóricas para analisar a relação com o desempenho acadêmico através de múltiplas métricas de agregação.
for coluna in students2_df.select_dtypes(include="category").columns:
  print(coluna)
  display(students2_df.groupby(coluna)["Exam_Score"].agg([
      ("Notas em exame: mean", "mean"),
      "median",
      "std",
      "count"
  ]).round(1).sort_values(by="median", ascending=False))

Parental_Involvement






Unnamed: 0_level_0,Notas em exame: mean,median,std,count
Parental_Involvement,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
High,68.1,68.0,4.0,1860
Medium,67.1,67.0,3.7,3295
Low,66.4,66.0,4.0,1309


Distance_from_Home






Unnamed: 0_level_0,Notas em exame: mean,median,std,count
Distance_from_Home,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Moderate,67.0,67.0,3.8,1972
Near,67.5,67.0,3.9,3849
Far,66.5,66.0,4.2,643


Learning_Disabilities






Unnamed: 0_level_0,Notas em exame: mean,median,std,count
Learning_Disabilities,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
No,67.4,67.0,3.9,5783
Yes,66.3,66.0,4.1,681


Internet_Access






Unnamed: 0_level_0,Notas em exame: mean,median,std,count
Internet_Access,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Yes,67.3,67.0,3.9,5975
No,66.6,66.0,4.1,489


Motivation_Level






Unnamed: 0_level_0,Notas em exame: mean,median,std,count
Motivation_Level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
High,67.7,67.0,3.9,1296
Low,66.8,67.0,4.0,1895
Medium,67.3,67.0,3.8,3273


Access_to_Resources






Unnamed: 0_level_0,Notas em exame: mean,median,std,count
Access_to_Resources,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
High,68.1,68.0,4.0,1926
Medium,67.1,67.0,3.9,3251
Low,66.2,66.0,3.6,1287


Family_Income






Unnamed: 0_level_0,Notas em exame: mean,median,std,count
Family_Income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
High,67.8,68.0,4.2,1243
Low,66.8,67.0,3.8,2620
Medium,67.4,67.0,3.8,2601


School_Type






Unnamed: 0_level_0,Notas em exame: mean,median,std,count
School_Type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Private,67.3,67.0,3.9,1962
Public,67.2,67.0,3.9,4502


Teacher_Quality






Unnamed: 0_level_0,Notas em exame: mean,median,std,count
Teacher_Quality,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
High,67.7,68.0,4.0,1932
Low,66.8,67.0,3.9,653
Medium,67.1,67.0,3.9,3879


## Visualização da Distribuição do Desempenho por Fatores Chave

## Comparação Detalhada entre Alunos com Bom e Mau Desempenho

In [66]:
# Criar uma coluna 'Perfomance' baseada nas notas do exame e visualizar a distribuição de fatores chave por performance.
students2_df["Perfomance"] = students2_df["Exam_Score"].apply(lambda x: "Bom" if x > 70 else "Ruim")
for coluna in students2_df.loc[:, ["Parental_Involvement", "Access_to_Resources"]].columns:
  fig = px.histogram(students2_df.round(-1), x=coluna, color="Perfomance", title=f"{coluna} e perfomance acadêmica",)
  fig.show()

In [84]:
# Filtrar alunos com boas notas (acima de 75) e visualizar o envolvimento parental e acesso a recursos.
estudantes_boas_notas_df = students2_df.loc[students2_df["Exam_Score"] > 75]
fig = px.histogram(estudantes_boas_notas_df, x="Parental_Involvement",
                   title="Envolvimento dos pais de alunos com boa perfomance acadêmica")
fig.show()

fig = px.histogram(estudantes_boas_notas_df, x="Access_to_Resources",
                   title="Acesso a recursos de alunos com boa perfomance acadêmica")
fig.show()

In [95]:
# Filtrar alunos com notas abaixo de 75 e visualizar o envolvimento parental e acesso a recursos para identificar problemas.
estudantes_mas_notas_df = students2_df.loc[students2_df["Exam_Score"] < 75]
fig = px.histogram(estudantes_mas_notas_df, x="Parental_Involvement",
                   title="Envolvimento dos pais de alunos com mal desempenho acadêmico")
fig.show()

fig = px.histogram(estudantes_mas_notas_df, x="Access_to_Resources",
                   title="Acesso a recursos de alunos com mal desempenho acadêmico")
fig.show()

## Análise de Fatores Individuais: Motivação e Horas de Sono

In [100]:
# Comparar a motivação e o desempenho acadêmico.
display("Alunos com bom desempenho.")
estudantes_boas_notas_df.groupby("Motivation_Level")["Exam_Score"].agg([
    ("Notas em exame: mean", "mean"),
    "median",
    "std",
    "count"
]).sort_values(by="Notas em exame: mean", ascending=False)

'Alunos com bom desempenho.'





Unnamed: 0_level_0,Notas em exame: mean,median,std,count
Motivation_Level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Low,87.588235,86.0,8.930697,17
Medium,84.868421,84.0,8.286006,38
High,82.857143,82.0,6.582444,21


In [104]:
# Exibir estatísticas descritivas para alunos com baixa motivação.
print("Alunos com baixa motivação:")
display(students2_df.loc[students2_df.Motivation_Level == "Low", :].describe())

Alunos com baixa motivação: 


Unnamed: 0,Exam_Score,Physical_Activity,Attendance,Hours_Studied,Sleep_Hours,Previous_Scores
count,1895.0,1895.0,1895.0,1895.0,1895.0,1895.0
mean,66.757784,2.988918,79.940369,19.986807,7.030079,75.15409
std,3.978813,1.004417,11.603769,5.888737,1.472609,14.447754
min,57.0,0.0,60.0,2.0,4.0,50.0
25%,64.0,2.0,70.0,16.0,6.0,63.0
50%,67.0,3.0,80.0,20.0,7.0,75.0
75%,69.0,4.0,90.0,24.0,8.0,88.0
max,101.0,6.0,100.0,44.0,10.0,100.0


In [112]:
# Exibir as primeiras 50 linhas do DataFrame processado.
students2_df.head(50)

Unnamed: 0,Exam_Score,Parental_Involvement,Distance_from_Home,Physical_Activity,Learning_Disabilities,Internet_Access,Motivation_Level,Attendance,Hours_Studied,Sleep_Hours,Access_to_Resources,Family_Income,Previous_Scores,School_Type,Teacher_Quality,Perfomance,Sleep_Hours_Rounded
0,67,Low,Near,3,No,Yes,Low,84,23,7,High,Low,73,Public,Medium,Ruim,7
1,61,Low,Moderate,4,No,Yes,Low,64,19,8,Medium,Medium,59,Public,Medium,Ruim,8
2,74,Medium,Near,4,No,Yes,Medium,98,24,7,Medium,Medium,91,Public,Medium,Bom,7
3,71,Low,Moderate,4,No,Yes,Medium,89,29,8,Medium,Medium,98,Public,Medium,Bom,8
4,70,Medium,Near,4,No,Yes,Medium,92,19,6,Medium,Medium,65,Public,High,Ruim,6
5,71,Medium,Near,3,No,Yes,Medium,88,19,8,Medium,Medium,89,Public,Medium,Bom,8
6,67,Medium,Moderate,2,No,Yes,Low,84,29,7,Low,Low,68,Private,Medium,Ruim,7
7,66,Low,Far,2,No,Yes,Medium,78,25,6,High,High,50,Public,High,Ruim,6
8,69,Medium,Near,1,No,Yes,High,94,17,6,High,Medium,80,Private,Low,Ruim,6
9,72,Medium,Moderate,5,No,Yes,Medium,98,23,8,Medium,High,71,Public,High,Bom,8


In [107]:
# Criar uma cópia da coluna 'Sleep_Hours' para fins de arredondamento ou análise separada.
students2_df["Sleep_Hours_Rounded"] = students2_df.Sleep_Hours

In [125]:
# Agrupar por horas de sono e calcular a média, mediana, desvio padrão e contagem das notas do exame.
display(
    students2_df.groupby("Sleep_Hours")["Exam_Score"].agg([
        ("Notas em exame: mean", "mean"),
        "median",
        "std",
        "count"
    ]).sort_values(by="Sleep_Hours", ascending=False)
)

Unnamed: 0_level_0,Notas em exame: mean,median,std,count
Sleep_Hours,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10,67.14658,67.0,3.553698,307
9,67.155263,67.0,3.978148,760
8,67.237573,67.0,3.704698,1368
7,67.253661,67.0,3.974211,1707
6,67.220402,67.0,3.942088,1343
5,67.292467,67.0,3.684305,677
4,67.665563,67.0,4.806288,302


## Avaliando a relação entre **presença**, **horas estudadas** e desempenho acadêmico.

In [117]:
# Criar um gráfico de dispersão para visualizar a relação entre a frequência escolar e as notas do exame, com uma linha de tendência.
fig = px.scatter(students2_df, x="Attendance", y="Exam_Score", trendline="ols")
fig.show()

In [116]:
# Agrupar por frequência escolar e calcular a média, mediana, desvio padrão e contagem das notas do exame.
students2_df.groupby("Attendance")["Exam_Score"].agg(
    [
        ("Notas em exame: mean", "mean"),
        "median",
        "std",
        "count"
    ]
).sort_values(by="Attendance", ascending=False)

Unnamed: 0_level_0,Notas em exame: mean,median,std,count
Attendance,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
100,70.8125,71.0,2.653365,80
99,70.934211,71.0,3.207341,152
98,70.715847,70.0,3.932971,183
97,70.348387,70.0,2.647208,155
96,70.584337,70.0,3.754851,166
95,70.099379,70.0,2.286386,161
94,69.570621,70.0,2.368553,177
93,69.847561,69.0,3.427773,164
92,69.756579,70.0,2.938659,152
91,69.393064,69.0,2.371428,173


In [126]:
# Criar um gráfico de dispersão para visualizar a relação entre horas estudadas e notas do exame, com uma linha de tendência.
fig = px.scatter(students2_df, x="Hours_Studied", y="Exam_Score", trendline="ols")
fig.show()

# Conclusão

Esta análise do desempenho acadêmico de alunos revelou insights importantes sobre os fatores que influenciam as notas dos exames. Observamos que o desempenho médio dos alunos, com uma média de aproximadamente 67 pontos e um desvio padrão de 3.9, sugere uma área geral para melhoria.

Os principais fatores que se destacam como influenciadores do desempenho acadêmico são:

1.  **Frequência Escolar (Attendance):** Com a correlação positiva mais forte (0.58), a assiduidade dos alunos é um pilar fundamental. Uma maior frequência está diretamente ligada a melhores resultados.
2.  **Envolvimento Parental (Parental_Involvement):** A análise mostrou que um alto nível de envolvimento dos pais está associado a notas de exame significativamente melhores. O suporte e a participação dos pais são cruciais.
3.  **Horas de Estudo (Hours_Studied):** Há uma correlação positiva moderada (0.45), indicando que um maior tempo dedicado aos estudos contribui para o sucesso.
4.  **Acesso a Recursos (Access_to_Resources):** Alunos com acesso 'High' a recursos tendem a ter um desempenho superior, destacando a importância de ferramentas e suportes educacionais.

Entre esses fatores, os mais importantes segundo a análise são as **Horas de Estudo** e **Frequência Escolar**, e devem ser priorizados em relação aos outros.

**Recomendações:**

Para melhorar o desempenho acadêmico geral dos alunos, as escolas devem focar em:

*   **Programas de Incentivo à Frequência:** Desenvolver e implementar estratégias para garantir a presença regular dos alunos.
*   **Fortalecimento do Envolvimento Parental:** Criar canais de comunicação eficazes e programas que capacitem os pais a apoiar ativamente a educação de seus filhos.
*   **Orientação sobre Hábitos de Estudo:** Oferecer workshops e suporte individualizado para ajudar os alunos a desenvolver rotinas e métodos de estudo eficazes.
*   **Garantia de Acesso a Recursos:** Assegurar que todos os alunos, independentemente de sua origem, tenham acesso equitativo a materiais didáticos, tecnologia e oportunidades de aprendizado.

Essas ações combinadas podem criar um ambiente mais propício ao aprendizado e levar a uma melhoria significativa no desempenho acadêmico dos alunos.

In [119]:
# Calcular a matriz de correlação Pearson entre todas as colunas numéricas e booleanas no DataFrame.
students2_df.select_dtypes(include=["number", "bool"]).corr()

Unnamed: 0,Exam_Score,Physical_Activity,Attendance,Hours_Studied,Sleep_Hours,Previous_Scores,Sleep_Hours_Rounded
Exam_Score,1.0,0.02729,0.580153,0.446072,-0.017547,0.175852,-0.017547
Physical_Activity,0.02729,1.0,-0.020986,0.005222,-0.002455,-0.008915,-0.002455
Attendance,0.580153,-0.020986,1.0,-0.006976,-0.017206,-0.019403,-0.017206
Hours_Studied,0.446072,0.005222,-0.006976,1.0,0.010364,0.024722,0.010364
Sleep_Hours,-0.017547,-0.002455,-0.017206,0.010364,1.0,-0.023568,1.0
Previous_Scores,0.175852,-0.008915,-0.019403,0.024722,-0.023568,1.0,-0.023568
Sleep_Hours_Rounded,-0.017547,-0.002455,-0.017206,0.010364,1.0,-0.023568,1.0
