### Case - Analise entre hábitos dos estudantes e performance academica

Neste case, meu objetivo é analisar como diferentes hábitos e características pessoais dos estudantes se relacionam com a performance acadêmica, a partir de um conjunto de dados que inclui informações como: idade, gênero, tempo médio de estudo por dia, uso de redes sociais, sono, qualidade da alimentação, entre outros fatores.

Utilizando dados estruturados — como porcentagem de frequência às aulas, horas diárias de estudo, de sono, uso de redes sociais, tempo em plataformas de streaming e se o estudante tem ou não um emprego de meio período — pretendo investigar perguntas como:
- Há uma relação entre o tempo de estudo diário e a frequência às aulas?
- Estudantes que dormem mais ou têm melhor alimentação têm maior frequência ou hábitos mais saudáveis de estudo?
- O uso de redes sociais ou streaming impacta negativamente a frequência?
- Quais variáveis parecem mais influenciar uma alta ou baixa attendance_percentage?

A ideia é explorar essas relações com visualizações, análises estatísticas básicas (como correlação) e interpretações que possam indicar quais hábitos são mais comuns entre estudantes com boa participação nas aulas — e possivelmente, melhor desempenho.a é aplicar técnicas de análise de dados, criar visualizações e interpretar os resultados para tirar conclusões que possam, inclusive, orientar boas práticas para melhorar a performance acadêmica.

In [None]:
import pandas as pd
import plotly.express as px

In [None]:
tabela = pd.read_csv("student_habits_performance.csv")

In [None]:
display(tabela)

In [None]:
tabela = tabela.drop(columns="student_id")
tabela = tabela.dropna()
display(tabela.info())

In [None]:
# # Há uma relação entre o tempo de estudo diário e a frequência às aulas?
# # display(tabela["study_hours_per_day"].sort_values().value_counts())
# # display(tabela["attendance_percentage"].sort_values().value_counts())

studyPerDay_frequency = px.bar(tabela, x=tabela["study_hours_per_day"], y=tabela["attendance_percentage"], title='Relação entre tempo de estudo diário e frequência às aulas')
studyPerDay_frequency.show()
#
# estudantes com rotinas de estudo, tendem a ter mais frequencia

In [None]:
# # Estudantes que dormem mais ou têm melhor alimentação têm maior frequência ou hábitos mais saudáveis de estudo?

sleepHours_frequency = px.bar(tabela, x=tabela["sleep_hours"], y=tabela["attendance_percentage"], title="Relação entre tempo de sono e frequência:")
sleepHours_frequency.show()
#
# estudantes com uma boa media de sono, tendem a possuir mais frequencia

dietQuality_frequency = px.bar(tabela, x=tabela["diet_quality"], y=tabela["attendance_percentage"], title="Relação entre qualidade da dieta e frequência:")
dietQuality_frequency.show()
#
# estudantes com uma alimentação melhor, possuem uma melhor frequencia


In [None]:
# # O uso de redes sociais ou streaming impacta negativamente a frequência?

socialMediaHour_frequency = px.bar(tabela, x=tabela["social_media_hours"], y=tabela["attendance_percentage"], title='Relação entre tempo gasto em midias sociais e frequencia escolar')
socialMediaHour_frequency.show()

# estudantes com mais de 4 horas diarias em midias sociais tenedem a ter menos frequencia

streamersHours_frequency = px.bar(tabela, x=tabela["netflix_hours"], y=tabela["attendance_percentage"], title='Relação entre horas em streaming e frequencia escolar')
streamersHours_frequency.show()

# estudantes que gastam muitas horas em streaming tendem a ter menos frequencia

# # merge entre social media e streaming hours
tabela['total_screen_time'] = tabela['social_media_hours'] + tabela['netflix_hours']
graph = px.bar(tabela, x='total_screen_time', y='attendance_percentage')
graph.show()
#
# estudantes com mais tempo de tela (midias sociais e streamings) tendem a ter mais faltas

In [None]:
# # Saude mental impacta na frequencia?

mentalHealth_frequency = px.histogram(tabela, x=tabela["mental_health_rating"], y=tabela["attendance_percentage"], title="Relação entre saude mental e frequencia escolar")
mentalHealth_frequency.show() # aparentemente nao há impacto

In [None]:
dietQuality_score = px.histogram(tabela, x=tabela["diet_quality"], y=tabela["exam_score"])
dietQuality_score.show()
#
# estudantes com má alimentação possuem notas menores

In [None]:
scores_frequency = px.histogram(tabela, x=tabela["attendance_percentage"], y=tabela["exam_score"])
scores_frequency.show()
#
# estudantes com pouca presença, possuem menores notas

In [None]:
# Analizar correlação entre ATTENDANCE PERCENTAGE e os outros dados
print(tabela.corr(numeric_only=True)["attendance_percentage"].sort_values(ascending=True))
# Dado com maior correlação:
    # EXEM SCORE

In [None]:
# Analizar correlação entre EXAM SCORE e os outros dados
print(tabela.corr(numeric_only=True)["exam_score"].sort_values(ascending=True))
# Dados com maior correlação:
    # STUDY HOURS PER DAY -> +estudo, melhores notas
    # MENTAL HEALTH RATING -> +saude mental, melhores notas
    # SOCIAL MEDIA HOUR -> +tempo em rede social, menor frequencia

# ou seja, estudantes que estudam mais e passam pouco tempo em redes sociais e cuidam melhor da sude mental, possuem notas melhores, logo, possuindo mais frequencia

# Quais variáveis parecem mais influenciar uma alta ou baixa attendance_percentage??
- Relação estudo x frequência: existe uma relação positiva, mas não muito forte.
- Sono e alimentação: podem influenciar, mas a correlação é mais fraca.
- Uso de redes sociais e streaming: impactam negativamente, principalmente na frequência e desempenho.

# Variáveis que influenciam mais a frequência: 
Parece que o desempenho e hábitos ligados a estudo e saúde mental são indicadores mais fortes.