# Projeto Integrador – Análise Exploratória de Dados

Entregas: 
1) Faça um relatório respondendo cada pergunta separadamente. 
2) Link para a base utilizada. 
3) Código completo em Python.




## 1) Escolha do Tema


A base de dados utilizada reúne informações de estudantes do ensino médio, incluindo características demográficas e socioeconômicas, como gênero, grupo étnico, nível de escolaridade dos pais, tipo de almoço e participação em curso preparatório, além das notas obtidas em matemática, leitura e escrita (variáveis numéricas de 0 a 100).

## 2) Escolha da Base

https://www.kaggle.com/datasets/pankajsingh016/student-performance-dataset?resource=download

## 3) Compreensão dos dados

In [8]:
import pandas as pd
import plotly.express as px
import plotly.figure_factory as ff

In [9]:
df = pd.read_csv("data/atividade_1/tb_1.csv")

In [10]:
# a) Qual é a estrutura do dataset? (Quantas linhas e colunas existem?)

linhas = df.shape[0]
colunas = df.shape[1]

print(f"O dataset possui {linhas} linhas e {colunas} colunas ({df.columns}).")

O dataset possui 1000 linhas e 8 colunas (Index(['gender', 'race_ethnicity', 'parental_level_of_education', 'lunch',
       'test_preparation_course', 'math_score', 'reading_score',
       'writing_score'],
      dtype='object')).


In [11]:
# b) Quais são os tipos de variáveis presentes? (Numéricas, categóricas, texto, etc.)

tipos_variaveis = df.dtypes.value_counts()
print("Tipos de variáveis presentes no dataset:")
print(tipos_variaveis)

Tipos de variáveis presentes no dataset:
object    5
int64     3
Name: count, dtype: int64


In [12]:
# c) Existe algum problema de valores ausentes no dataset? Como lidar com eles?

valores_ausentes = df.isnull().sum()
print("Valores ausentes por coluna:")
print(valores_ausentes)

# Se houver valores ausentes, podemos optar por removê-los ou preenchê-los.        

Valores ausentes por coluna:
gender                         0
race_ethnicity                 0
parental_level_of_education    0
lunch                          0
test_preparation_course        0
math_score                     0
reading_score                  0
writing_score                  0
dtype: int64


In [13]:
# d) Existem valores duplicados ou inconsistências nos dados?

valores_duplicados = df.duplicated().sum()
print(f"Número de valores duplicados no dataset: {valores_duplicados}") 

Número de valores duplicados no dataset: 0


## 4) Estatísticas Descritivas

In [14]:
# a) Quais são as estatísticas básicas das variáveis numéricas? (Média, mediana, mínimo, máximo, desvio padrão).

df_calculado_estatistica = (
    df[["math_score", "reading_score", "writing_score"]]
    .agg(["mean", "median", "min", "max", "std"])
    .T
)

df_calculado_estatistica.rename(
    columns={
        "mean": "Média",
        "median": "Mediana",
        "min": "Mínimo",
        "max": "Máximo",
        "std": "Desvio Padrão",
    },
    inplace=True,
)

print(df_calculado_estatistica)

                Média  Mediana  Mínimo  Máximo  Desvio Padrão
math_score     66.089     66.0     0.0   100.0      15.163080
reading_score  69.169     70.0    17.0   100.0      14.600192
writing_score  68.054     69.0    10.0   100.0      15.195657


## 5) Visualização e Padrões

In [15]:
# a) Existe uma relação entre variáveis numéricas? (Correlação entre idade e salário, por exemplo).

df_num = df[["math_score", "reading_score", "writing_score"]]

# calcula a matriz de correlação
corr_matrix = df_num.corr()

print("Matriz de correlação entre variáveis numéricas:")
print(corr_matrix)

Matriz de correlação entre variáveis numéricas:
               math_score  reading_score  writing_score
math_score       1.000000       0.817580       0.802642
reading_score    0.817580       1.000000       0.954598
writing_score    0.802642       0.954598       1.000000


In [16]:
# 1) Histograma
fig = px.histogram(
    df, x="math_score", nbins=20, title="Distribuição das notas de Matemática"
)
fig.show()

In [17]:
# 2) Boxplot por categoria
fig = px.box(df, x="gender", y="math_score", title="Notas de Matemática por Gênero")
fig.show()

In [18]:
# 3) Scatterplot (relação entre leitura e escrita)
fig = px.scatter(
    df,
    x="reading_score",
    y="writing_score",
    color="gender",
    title="Relação entre Leitura e Escrita (por gênero)",
)
fig.show()

In [19]:
# 4) Heatmap de correlação
corr = df[["math_score", "reading_score", "writing_score"]].corr()

fig = ff.create_annotated_heatmap(
    z=corr.values,
    x=list(corr.columns),
    y=list(corr.index),
    annotation_text=corr.round(2).values,
    colorscale="RdBu",
    showscale=True,
    reversescale=True,
)
fig.update_layout(title="Correlação entre variáveis numéricas")
fig.show()

## 6) Outliers e Anomalias

In [20]:
# a) Existem outliers nos dados? (Boxplots podem ajudar a identificar).

In [21]:
# b) Os dados apresentam alguma anomalia ou erro de coleta?

## 7) Comparações e Segmentações

In [22]:
# a) Os dados mostram diferenças entre grupos? (Exemplo: Salários médios por gênero)

In [23]:
# b) Como os dados se comportam ao longo do tempo? (Se houver uma variável temporal)

In [24]:
# c) Quais insights podem ser extraídos para tomada de decisão?

## 8) Contextualização e Aplicação

In [25]:
# a) Como os insights obtidos podem ser usados em ações concretas?

In [26]:
# b) Os dados analisados fazem sentido para o problema de negócio?