# Projeto Integrador – Análise Exploratória de Dados

Entregas: 
1) Faça um relatório respondendo cada pergunta separadamente. 
2) Link para a base utilizada. 
3) Código completo em Python.




## 1) Escolha do Tema


A base de dados utilizada reúne informações de estudantes do ensino médio, incluindo características demográficas e socioeconômicas, como gênero, grupo étnico, nível de escolaridade dos pais, tipo de almoço e participação em curso preparatório, além das notas obtidas em matemática, leitura e escrita (variáveis numéricas de 0 a 100).

## 2) Escolha da Base

https://www.kaggle.com/datasets/pankajsingh016/student-performance-dataset?resource=download

## 3) Compreensão dos dados

In [1]:
import pandas as pd
import plotly.express as px
import plotly.figure_factory as ff
import plotly.io as pio

In [None]:
df = pd.read_csv("data/tb_1.csv")

In [3]:
# a) Qual é a estrutura do dataset? (Quantas linhas e colunas existem?)

linhas = df.shape[0]
colunas = df.shape[1]

print(f"O dataset possui {linhas} linhas e {colunas} colunas ({df.columns}).")

O dataset possui 1000 linhas e 8 colunas (Index(['gender', 'race_ethnicity', 'parental_level_of_education', 'lunch',
       'test_preparation_course', 'math_score', 'reading_score',
       'writing_score'],
      dtype='object')).


In [4]:
# b) Quais são os tipos de variáveis presentes? (Numéricas, categóricas, texto, etc.)

tipos_variaveis = df.dtypes.value_counts()
print("Tipos de variáveis presentes no dataset:")
print(tipos_variaveis)

Tipos de variáveis presentes no dataset:
object    5
int64     3
Name: count, dtype: int64


In [None]:
# c) Existe algum problema de valores ausentes no dataset? Como lidar com eles?

valores_ausentes = df.isnull().sum()
print("Valores ausentes por coluna:")
print(valores_ausentes)

# Se houver valores ausentes, podemos optar por removê-los ou preenchê-los.        

Valores ausentes por coluna:
gender                         0
race_ethnicity                 0
parental_level_of_education    0
lunch                          0
test_preparation_course        0
math_score                     0
reading_score                  0
writing_score                  0
dtype: int64


In [6]:
# d) Existem valores duplicados ou inconsistências nos dados?

valores_duplicados = df.duplicated().sum()
print(f"Número de valores duplicados no dataset: {valores_duplicados}") 

Número de valores duplicados no dataset: 0


## 4) Estatísticas Descritivas

In [7]:
# a) Quais são as estatísticas básicas das variáveis numéricas? (Média, mediana, mínimo, máximo, desvio padrão).

df_calculado_estatistica = (
    df[["math_score", "reading_score", "writing_score"]]
    .agg(["mean", "median", "min", "max", "std"])
    .T
)

df_calculado_estatistica.rename(
    columns={
        "mean": "Média",
        "median": "Mediana",
        "min": "Mínimo",
        "max": "Máximo",
        "std": "Desvio Padrão",
    },
    inplace=True,
)

print(df_calculado_estatistica)

                Média  Mediana  Mínimo  Máximo  Desvio Padrão
math_score     66.089     66.0     0.0   100.0      15.163080
reading_score  69.169     70.0    17.0   100.0      14.600192
writing_score  68.054     69.0    10.0   100.0      15.195657


## 5) Visualização e Padrões

In [8]:
# a) Existe uma relação entre variáveis numéricas? (Correlação entre idade e salário, por exemplo).

df_num = df[["math_score", "reading_score", "writing_score"]]

# calcula a matriz de correlação
corr_matrix = df_num.corr()

print("Matriz de correlação entre variáveis numéricas:")
print(corr_matrix)

Matriz de correlação entre variáveis numéricas:
               math_score  reading_score  writing_score
math_score       1.000000       0.817580       0.802642
reading_score    0.817580       1.000000       0.954598
writing_score    0.802642       0.954598       1.000000


In [9]:
# 1) Histograma
fig = px.histogram(
    df, x="math_score", nbins=20, title="Distribuição das notas de Matemática"
)
fig.show()

In [10]:
# 2) Boxplot por categoria
fig = px.box(df, x="gender", y="math_score", title="Notas de Matemática por Gênero")
fig.show()

In [11]:
# 3) Scatterplot (relação entre leitura e escrita)
fig = px.scatter(
    df,
    x="reading_score",
    y="writing_score",
    color="gender",
    title="Relação entre Leitura e Escrita (por gênero)",
)
fig.show()

In [12]:
# 4) Heatmap de correlação
corr = df[["math_score", "reading_score", "writing_score"]].corr()

fig = ff.create_annotated_heatmap(
    z=corr.values,
    x=list(corr.columns),
    y=list(corr.index),
    annotation_text=corr.round(2).values,
    colorscale="RdBu",
    showscale=True,
    reversescale=True,
)
fig.update_layout(title="Correlação entre variáveis numéricas")
fig.show()

## 6) Outliers e Anomalias

In [13]:
# a) Existem outliers nos dados? (Boxplots podem ajudar a identificar).

fig = px.box(
    df,
    y=["math_score", "reading_score", "writing_score"],
    title="Boxplot das Notas para Identificação de Outliers"
)
fig.show()

In [14]:
# b) Os dados apresentam alguma anomalia ou erro de coleta?

anomalias = df[
    (df["math_score"] < 0) | (df["math_score"] > 100) |
    (df["reading_score"] < 0) | (df["reading_score"] > 100) |
    (df["writing_score"] < 0) | (df["writing_score"] > 100)
]

print("Registros anômalos encontrados (fora de 0 a 100):")
print(anomalias if not anomalias.empty else "Nenhuma anomalia encontrada.")

Registros anômalos encontrados (fora de 0 a 100):
Nenhuma anomalia encontrada.


## 7) Comparações e Segmentações

In [15]:
# a) Os dados mostram diferenças entre grupos? (Exemplo: Salários médios por gênero)

media_por_genero = df.groupby("gender")[["math_score","reading_score","writing_score"]].mean()
print("=== Média das notas por gênero ===")
print(media_por_genero, "\n")

fig = px.bar(
    media_por_genero.reset_index(),
    x="gender",
    y=["math_score", "reading_score", "writing_score"],
    barmode="group",
    title="Média das Notas por Gênero"
)
fig.show()

=== Média das notas por gênero ===
        math_score  reading_score  writing_score
gender                                          
female   63.633205      72.608108      72.467181
male     68.728216      65.473029      63.311203 



In [16]:
# b) Como os dados se comportam ao longo do tempo? (Se houver uma variável temporal)

media_por_almoço = df.groupby("lunch")[["math_score","reading_score","writing_score"]].mean()
print("=== Média das notas por tipo de almoço ===")
print(media_por_almoço, "\n")

fig = px.bar(
    media_por_almoço.reset_index(),
    x="lunch",
    y=["math_score", "reading_score", "writing_score"],
    barmode="group",
    title="Média das Notas por Tipo de Almoço"
)
fig.show()

=== Média das notas por tipo de almoço ===
              math_score  reading_score  writing_score
lunch                                                 
free/reduced   58.921127      64.653521      63.022535
standard       70.034109      71.654264      70.823256 



In [17]:
# c) Quais insights podem ser extraídos para tomada de decisão?

media_por_escolaridade = df.groupby("parental_level_of_education")[["math_score","reading_score","writing_score"]].mean()
print("=== Média das notas por nível de escolaridade dos pais ===")
print(media_por_escolaridade, "\n")

fig = px.bar(
    media_por_escolaridade.reset_index(),
    x="parental_level_of_education",
    y=["math_score", "reading_score", "writing_score"],
    barmode="group",
    title="Média das Notas por Escolaridade dos Pais"
)
fig.show()

=== Média das notas por nível de escolaridade dos pais ===
                             math_score  reading_score  writing_score
parental_level_of_education                                          
associate's degree            67.882883      70.927928      69.896396
bachelor's degree             69.389831      73.000000      73.381356
high school                   62.137755      64.704082      62.448980
master's degree               69.745763      75.372881      75.677966
some college                  67.128319      69.460177      68.840708
some high school              63.497207      66.938547      64.888268 



## 8) Contextualização e Aplicação

In [18]:
# a) Como os insights obtidos podem ser usados em ações concretas?

# Os dados mostram diferenças de desempenho entre alunos de diferentes gêneros, tipos de almoços e níveis de escolaridade dos pais. 
# Com base nisso, a escola pode adotar estratégias pedagógicas específicas, como reforço em leitura/escrita para meninos e em matemática para meninas, 
# garantir refeições mais nutritivas para alunos que recebem almoço gratuito ou reduzido e desenvolver programas de engajamento parental para apoiar alunos 
# cujos pais têm menor escolaridade. Essas ações podem contribuir para reduzir desigualdades e melhorar o desempenho acadêmico de todos os estudantes.


In [19]:
# b) Os dados analisados fazem sentido para o problema de negócio?

# Sim. O objetivo é identificar fatores que influenciam o desempenho escolar, e os dados analisados fornecem informações consistentes sobre diferenças 
# de notas relacionadas a gênero, nutrição e escolaridade dos pais. 
# Esses insights permitem que gestores e professores tomem decisões baseadas em evidências, direcionando políticas e práticas educacionais que promovam 
# o aprendizado efetivo e equitativo.