# Projeto Integrador – Análise Exploratória de Dados

Entregas: 
1) Faça um relatório respondendo cada pergunta separadamente. 
2) Link para a base utilizada. 
3) Código completo em Python.




## 1) Escolha do Tema


A base de dados apresentada reúne variáveis acadêmicas, socioeconômicas e comportamentais relacionadas ao desempenho dos estudantes. Entre os fatores acadêmicos estão horas de estudo, frequência às aulas, sessões de tutoria, qualidade dos professores e tipo de escola; já no aspecto socioeconômico aparecem renda familiar, escolaridade dos pais, envolvimento dos pais na vida escolar e acesso a recursos e internet; no campo comportamental e pessoal, há atividades extracurriculares, nível de motivação, horas de sono, prática de atividade física, influência dos colegas e presença de dificuldades de aprendizagem. Além disso, o conjunto inclui informações contextuais como distância da escola e gênero, e utiliza a variável Exam_Score como medida principal de desempenho.

## 2) Escolha da Base

https://www.kaggle.com/datasets/fehu94/student-performance-dataset

## 3) Compreensão dos dados

In [1]:
import pandas as pd
import plotly.express as px
import plotly.figure_factory as ff

In [2]:
df = pd.read_csv("data/atividade_1/tb_2.csv")

In [3]:
# a) Qual é a estrutura do dataset? (Quantas linhas e colunas existem?)

linhas = df.shape[0]
colunas = df.shape[1]

print(f"O dataset possui {linhas} linhas e {colunas} colunas ({df.columns}).")

O dataset possui 6607 linhas e 20 colunas (Index(['Hours_Studied', 'Attendance', 'Parental_Involvement',
       'Access_to_Resources', 'Extracurricular_Activities', 'Sleep_Hours',
       'Previous_Scores', 'Motivation_Level', 'Internet_Access',
       'Tutoring_Sessions', 'Family_Income', 'Teacher_Quality', 'School_Type',
       'Peer_Influence', 'Physical_Activity', 'Learning_Disabilities',
       'Parental_Education_Level', 'Distance_from_Home', 'Gender',
       'Exam_Score'],
      dtype='object')).


In [4]:
# b) Quais são os tipos de variáveis presentes? (Numéricas, categóricas, texto, etc.)

tipos_variaveis = df.dtypes.value_counts()
print("Tipos de variáveis presentes no dataset:")
print(tipos_variaveis)

Tipos de variáveis presentes no dataset:
object    13
int64      7
Name: count, dtype: int64


In [5]:
# c) Existe algum problema de valores ausentes no dataset? Como lidar com eles?

valores_ausentes = df.isnull().sum()
print("Valores ausentes por coluna:")
print(valores_ausentes)

# Se houver valores ausentes, podemos optar por removê-los ou preenchê-los.        

Valores ausentes por coluna:
Hours_Studied                  0
Attendance                     0
Parental_Involvement           0
Access_to_Resources            0
Extracurricular_Activities     0
Sleep_Hours                    0
Previous_Scores                0
Motivation_Level               0
Internet_Access                0
Tutoring_Sessions              0
Family_Income                  0
Teacher_Quality               78
School_Type                    0
Peer_Influence                 0
Physical_Activity              0
Learning_Disabilities          0
Parental_Education_Level      90
Distance_from_Home            67
Gender                         0
Exam_Score                     0
dtype: int64


In [6]:
# d) Existem valores duplicados ou inconsistências nos dados?

valores_duplicados = df.duplicated().sum()
print(f"Número de valores duplicados no dataset: {valores_duplicados}") 

Número de valores duplicados no dataset: 0


## 4) Estatísticas Descritivas

In [7]:
# a) Quais são as estatísticas básicas das variáveis numéricas? (Média, mediana, mínimo, máximo, desvio padrão).

df_calculado_estatistica = (
    df[
        [
            "Hours_Studied",
            "Attendance",
            "Sleep_Hours",
            "Previous_Scores",
            "Tutoring_Sessions",
            "Physical_Activity",
            "Exam_Score",
        ]
    ]
    .agg(["mean", "median", "min", "max", "std"])
    .T
)

df_calculado_estatistica.rename(
    columns={
        "mean": "Média",
        "median": "Mediana",
        "min": "Mínimo",
        "max": "Máximo",
        "std": "Desvio Padrão",
    },
    inplace=True,
)

print(df_calculado_estatistica)

                       Média  Mediana  Mínimo  Máximo  Desvio Padrão
Hours_Studied      19.975329     20.0     1.0    44.0       5.990594
Attendance         79.977448     80.0    60.0   100.0      11.547475
Sleep_Hours         7.029060      7.0     4.0    10.0       1.468120
Previous_Scores    75.070531     75.0    50.0   100.0      14.399784
Tutoring_Sessions   1.493719      1.0     0.0     8.0       1.230570
Physical_Activity   2.967610      3.0     0.0     6.0       1.031231
Exam_Score         67.235659     67.0    55.0   101.0       3.890456


## 5) Visualização e Padrões

In [8]:
# a) Existe uma relação entre variáveis numéricas? (Correlação entre idade e salário, por exemplo).

df_num = df[
    [
        "Hours_Studied",
        "Attendance",
        "Sleep_Hours",
        "Previous_Scores",
        "Tutoring_Sessions",
        "Physical_Activity",
        "Exam_Score",
    ]
]

# calcula a matriz de correlação
corr_matrix = df_num.corr()

print("Matriz de correlação entre variáveis numéricas:")
print(corr_matrix)

Matriz de correlação entre variáveis numéricas:
                   Hours_Studied  Attendance  Sleep_Hours  Previous_Scores  \
Hours_Studied           1.000000   -0.009908     0.010977         0.024846   
Attendance             -0.009908    1.000000    -0.015918        -0.020186   
Sleep_Hours             0.010977   -0.015918     1.000000        -0.021750   
Previous_Scores         0.024846   -0.020186    -0.021750         1.000000   
Tutoring_Sessions      -0.014282    0.014324    -0.012216        -0.013122   
Physical_Activity       0.004624   -0.022435    -0.000378        -0.011274   
Exam_Score              0.445455    0.581072    -0.017022         0.175079   

                   Tutoring_Sessions  Physical_Activity  Exam_Score  
Hours_Studied              -0.014282           0.004624    0.445455  
Attendance                  0.014324          -0.022435    0.581072  
Sleep_Hours                -0.012216          -0.000378   -0.017022  
Previous_Scores            -0.013122          -

In [9]:
# 1) Histograma
fig = px.histogram(
    df, x="Exam_Score", nbins=20, title="Distribuição das notas."
)
fig.show()

In [10]:
# 2) Boxplot por categoria
fig = px.box(df, x="Gender", y="Exam_Score", title="Notas de Matemática por Gênero")
fig.show()

In [11]:
# 3) Scatterplot (relação entre leitura e escrita)
fig = px.scatter(
    df,
    x="Attendance",
    y="Exam_Score",
    color="Gender",
    title="Relação entre Leitura e Escrita (por gênero)",
)
fig.show()

In [12]:
# 4) Heatmap de correlação
corr = df[
    [
        "Hours_Studied",
        "Attendance",
        "Sleep_Hours",
        "Previous_Scores",
        "Tutoring_Sessions",
        "Physical_Activity",
        "Exam_Score",
    ]
].corr()

fig = ff.create_annotated_heatmap(
    z=corr.values,
    x=list(corr.columns),
    y=list(corr.index),
    annotation_text=corr.round(2).values,
    colorscale="RdBu",
    showscale=True,
    reversescale=True,
)
fig.update_layout(title="Correlação entre variáveis numéricas")
fig.show()

## 6) Outliers e Anomalias

In [13]:
# a) Existem outliers nos dados? (Boxplots podem ajudar a identificar).

In [14]:
# b) Os dados apresentam alguma anomalia ou erro de coleta?

## 7) Comparações e Segmentações

In [15]:
# a) Os dados mostram diferenças entre grupos? (Exemplo: Salários médios por gênero)

In [16]:
# b) Como os dados se comportam ao longo do tempo? (Se houver uma variável temporal)

In [17]:
# c) Quais insights podem ser extraídos para tomada de decisão?

## 8) Contextualização e Aplicação

In [18]:
# a) Como os insights obtidos podem ser usados em ações concretas?

In [19]:
# b) Os dados analisados fazem sentido para o problema de negócio?