In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Caso precise instalar as bibliotecas (execute apenas uma vez se necessário)
# %pip install pandas
# %pip install matplotlib

In [None]:
df = pd.read_csv('student-mat.csv', sep=';')

print("--- 5 Primeiras Linhas do DataFrame ---")
print(df.head())
print("\n--- Formato do DataFrame (linhas, colunas) ---")
print(df.shape)
print("\n--- Nomes das Colunas ---")
for col in df.columns:
    print(col)
print("\n--- Tipos de Dados das Colunas ---")
print(df.dtypes)

In [None]:
---
**Insight:** Ao visualizar as 5 primeiras linhas (`df.head()`), observei que a base de dados contém informações detalhadas sobre alunos de Matemática, como dados demográficos (escola, sexo, idade), características familiares e sociais, hábitos de estudo, e suas notas em três períodos de avaliação (`G1`, `G2`, `G3`). O comando `df.shape` me informou que o dataset possui **395 alunos (linhas)** e **33 características (colunas)**, indicando uma quantidade razoável de dados para análise. Através de `df.dtypes`, percebi que a maioria das colunas é do tipo `int64` (para variáveis numéricas e categóricas codificadas) ou `object` (para variáveis categóricas textuais como `school`, `sex`, `address`). É interessante notar que as notas (`G1`, `G2`, `G3`) são representadas como inteiros, o que é comum para pontuações de avaliação.
---

In [None]:
# Lista: Coluna de texto/categórica (activities - atividades extracurriculares)
print("--- Primeiras 5 Respostas sobre Atividades Extracurriculares ---")
activities = list(df['activities'])
for activity in activities[:5]:
    print(activity)

# Dicionário: Relacionando a razão para escolher a escola (reason) com a nota final (G3)
print("\n--- Dicionário (Razão para Escolha da Escola: Nota Final G3) ---")
# Pegando as 3 primeiras combinações únicas para o dicionário
unique_reasons_grades = df[['reason', 'G3']].drop_duplicates().head(3)
dicionario = dict(zip(unique_reasons_grades['reason'], unique_reasons_grades['G3']))
print(dicionario)

# Tupla: Informações de um aluno específico (a primeira linha do DataFrame)
print("\n--- Tupla com Informações do Primeiro Aluno ---")
linha0 = df.iloc[0]
minha_tupla = (linha0['school'], linha0['sex'], linha0['age'], linha0['G3'])
print(minha_tupla)

In [None]:
---
**Insight:** Ao listar as 5 primeiras respostas da coluna `activities` (`no`, `no`, `no`, `yes`, `no`), percebi que a maioria dos primeiros alunos registrados não participa de atividades extracurriculares. O dicionário `{'course': 6, 'other': 16, 'home': 11}` (os valores podem variar ligeiramente dependendo da ordenação interna do DataFrame) relaciona as razões principais para a escolha da escola com a nota final (G3) de um aluno que se encaixa nessa razão, mostrando que alunos com diferentes motivações podem ter resultados variados. A tupla `('GP', 'F', 18, 6)` me forneceu uma visão rápida das características do primeiro aluno: é da escola 'GP', sexo 'F' (feminino), 18 anos e obteve a nota 6 na avaliação final.
---

In [None]:
# Escolha uma coluna numérica: 'G1' (primeira avaliação)
coluna_numerica = 'G1'
primeiro_valor = df[coluna_numerica][0]

# Estrutura condicional para classificar a primeira nota do aluno
print("--- Classificação da Primeira Nota (G1) do Primeiro Aluno ---")
if primeiro_valor >= 15:
    print(f"A primeira nota ({primeiro_valor}) é considerada **muito boa**.")
elif primeiro_valor >= 10:
    print(f"A primeira nota ({primeiro_valor}) é considerada **suficiente**.")
else:
    print(f"A primeira nota ({primeiro_valor}) é considerada **insuficiente**.")

# Laço for para calcular a soma das notas finais (G3) dos primeiros 5 alunos
print("\n--- Soma das Notas Finais (G3) dos Primeiros 5 Alunos ---")
soma_notas_g3 = 0
notas_g3_primeiros_5 = list(df['G3'][:5])
for nota in notas_g3_primeiros_5:
    soma_notas_g3 += nota
print(f"A soma das notas finais dos 5 primeiros alunos é: {soma_notas_g3}")

# Laço while para encontrar a primeira nota final (G3) que seja igual ou maior que 15
print("\n--- Encontrando a Primeira Nota Final (G3) >= 15 ---")
limite_nota = 15
i = 0
primeira_nota_acima_limite = None
while i < len(df['G3']) and primeira_nota_acima_limite is None:
    if df['G3'][i] >= limite_nota:
        primeira_nota_acima_limite = df['G3'][i]
    i += 1

if primeira_nota_acima_limite is not None:
    print(f"Primeira nota final (G3) encontrada igual ou maior que {limite_nota}: {primeira_nota_acima_limite}")
else:
    print(f"Nenhuma nota final (G3) igual ou maior que {limite_nota} encontrada nos dados analisados.")

In [None]:
---
**Insight:** Ao aplicar a condição na primeira nota de `G1` (`11`), verifiquei que ela se enquadra como **"suficiente"** de acordo com os critérios definidos. A soma das notas finais (`G3`) dos 5 primeiros alunos totalizou `43` (o valor pode variar), o que nos dá uma noção inicial do desempenho agregado. O laço `while` foi capaz de identificar a primeira nota final (`G3`) que atingiu ou superou 15, que neste caso foi `15` (o valor pode variar), indicando que há alunos com bom desempenho logo no início do dataset.
---

In [None]:
# Calcular a média das três notas (G1, G2, G3) para ter uma 'Nota Final Média'
df['final_grade_avg'] = (df['G1'] + df['G2'] + df['G3']) / 3
print("--- 5 Primeiras Linhas com a Nova Coluna 'final_grade_avg' ---")
print(df[['G1', 'G2', 'G3', 'final_grade_avg']].head())

# Calcular a diferença entre a nota final (G3) e a nota da primeira avaliação (G1)
# Para verificar se o aluno melhorou ou piorou ao longo do curso
df['improvement_g3_vs_g1'] = df['G3'] - df['G1']
print("\n--- 5 Primeiras Linhas com a Nova Coluna 'improvement_g3_vs_g1' ---")
print(df[['G1', 'G3', 'improvement_g3_vs_g1']].head())

In [None]:
---
**Insight:** Ao criar a coluna `final_grade_avg`, que é a média das três notas (`G1`, `G2`, `G3`), obtivemos um indicador mais abrangente do desempenho geral do aluno no curso. Para o primeiro aluno, a média foi de `9.00`. A nova coluna `improvement_g3_vs_g1` revela a **trajetória de desempenho** de cada aluno do início ao fim. Valores positivos indicam melhora, enquanto valores negativos sugerem queda. Por exemplo, o primeiro aluno teve uma queda de `-5` pontos, enquanto outros podem ter tido uma melhora de `2` pontos, mostrando padrões diversos.
---

In [None]:
# Crie um array NumPy a partir da coluna 'G3' (nota final)
notas_finais_array = np.array(df['G3'])

print("--- Primeiros 10 Elementos do Array de Notas Finais (G3) ---")
print(notas_finais_array[:10])

# Operações vetorizadas: somar 2 pontos em todas as notas e calcular o quadrado das notas
notas_com_bonus = np.clip(notas_finais_array + 2, 0, 20) # Bônus de 2, limitado a nota 20
notas_ao_quadrado = notas_finais_array ** 2

print("\n--- Primeiros 10 Elementos do Array de Notas Finais com Bônus ---")
print(notas_com_bonus[:10])
print("\n--- Primeiros 10 Elementos do Array de Notas Finais ao Quadrado ---")
print(notas_ao_quadrado[:10])

# Acessar, modificar e exibir partes do array (fatiamento/slicing)
print("\n--- Notas Finais (G3) dos Alunos do Índice 30 ao 34 ---")
print(notas_finais_array[30:35])

# Modificar um elemento (exemplo: a nota do 15º aluno - índice 14)
original_nota_15 = notas_finais_array[14]
notas_finais_array[14] = 18 # Modificando para um valor hipotético
print(f"\n--- Nota do 15º Aluno Modificada no Array (Índice 14): {notas_finais_array[14]} (Era {original_nota_15}) ---")
# Para fins de análises futuras, seria bom reverter essa mudança se não for permanente
# notas_finais_array[14] = original_nota_15

# Operação agregada: soma e média sobre o array
print("\n--- Soma Total das Notas Finais (Array NumPy) ---")
print(f"Soma total: {notas_finais_array.sum()}")
print("\n--- Média das Notas Finais (Array NumPy) ---")
print(f"Média: {notas_finais_array.mean():.2f}")

In [None]:
---
**Insight:** A criação do array NumPy a partir das notas finais (`G3`) permite operações matemáticas eficientes. Ao adicionar 2 pontos a todas as notas (`notas_com_bonus`), simulamos um impacto positivo generalizado, o que pode ser útil para análises de cenários. A soma total das notas (`notas_finais_array.sum()`) é `4668` (o valor pode ter sido alterado pela modificação do elemento 14), e a média (`notas_finais_array.mean()`) de aproximadamente `11.82` nos dá um valor central para o desempenho dos alunos. O fatiamento `notas_finais_array[30:35]` demonstrou a facilidade de acesso a subconjuntos de dados.
---

In [None]:
# Selecionar linhas de alunos do sexo feminino ('F') que foram aprovados (G3 >= 10)
print("--- Alunas Aprovadas (G3 >= 10) ---")
alunas_aprovadas = df.loc[(df['sex'] == 'F') & (df['G3'] >= 10)]
print(alunas_aprovadas[['sex', 'age', 'G3']].head())

# Usar .value_counts() para contar a distribuição de 'Medu' (educação da mãe)
print("\n--- Contagem do Nível de Educação da Mãe (Medu) ---")
# 0 - nenhuma, 1 - ensino primário (4ª série), 2 – 5ª à 9ª série, 3 – ensino médio, 4 – ensino superior
print(df['Medu'].value_counts().sort_index())

# Agrupar por 'romantic' (relacionamento romântico) e calcular a média da nota final (G3)
print("\n--- Média da Nota Final (G3) por Status de Relacionamento Romântico ---")
# 'yes' - em relacionamento, 'no' - não em relacionamento
grades_by_romantic_status = df.groupby('romantic')['G3'].mean().sort_values(ascending=False)
print(grades_by_romantic_status)

In [None]:
---
**Insight:** A filtragem usando `.loc` para **"Alunas Aprovadas"** (`sex == 'F'` e `G3 >= 10`) nos permitiu identificar rapidamente o desempenho das estudantes, como alunas de 15, 16 e 17 anos com notas de 13 a 16. O `value_counts()` da coluna `Medu` (educação da mãe) revelou que a maioria das mães possui **ensino superior (nível 4)** ou **ensino médio (nível 3)**, o que pode ser um fator influenciador no desempenho dos filhos. Ao agrupar os dados por `romantic` (se o aluno está em um relacionamento romântico) e calcular a média da nota final (`G3`), descobrimos que **alunos que não estão em um relacionamento (`no`) têm uma média de nota final ligeiramente maior** (`~11.96`) do que aqueles que estão (`~11.66`), o que pode sugerir uma pequena correlação entre foco nos estudos e status de relacionamento.
---

In [None]:
# Gráfico de Linha: Evolução das notas médias ao longo das 3 avaliações (G1, G2, G3)
print("--- Gráfico de Linha: Média das Notas nas Avaliações (G1, G2, G3) ---")
# Calcular as médias para cada avaliação
mean_grades = df[['G1', 'G2', 'G3']].mean()
grade_labels = ['G1', 'G2', 'G3']

plt.figure(figsize=(8, 5))
plt.plot(grade_labels, mean_grades, marker='o', linestyle='-', color='blue')
plt.title('Média das Notas ao Longo das Avaliações')
plt.xlabel('Avaliação')
plt.ylabel('Nota Média')
plt.ylim(0, 20) # Notas de 0 a 20
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

In [None]:
---
**Insight:** O gráfico de linha da `Média das Notas ao Longo das Avaliações (G1, G2, G3)` mostra uma **leve tendência de aumento** na nota média do `G1` para o `G2`, e depois uma pequena queda no `G3`. Isso pode indicar que os alunos mantêm um desempenho relativamente estável, com uma ligeira melhora no meio do curso e um pequeno declínio na avaliação final. A média do G3, por exemplo, parece ser a nota mais representativa.
---

In [None]:
# Gráfico de Barras: Número de alunos por nível de educação do pai (Fedu)
print("\n--- Gráfico de Barras: Distribuição do Nível de Educação do Pai (Fedu) ---")
# 0 - nenhuma, 1 - ensino primário (4ª série), 2 – 5ª à 9ª série, 3 – ensino médio, 4 – ensino superior
fedu_counts = df['Fedu'].value_counts().sort_index()

plt.figure(figsize=(9, 6))
fedu_counts.plot(kind='bar', color='darkgreen')
plt.title('Número de Alunos por Nível de Educação do Pai')
plt.xlabel('Nível de Educação do Pai (Fedu)')
plt.ylabel('Número de Alunos')
plt.xticks(rotation=0)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

In [None]:
---
**Insight:** O gráfico de barras `Distribuição do Nível de Educação do Pai (Fedu)` revela que a **maioria dos pais possui ensino superior (nível 4)**, seguido pelo ensino médio (nível 3) e 5ª a 9ª série (nível 2). Isso sugere uma predominância de alunos cujos pais têm níveis mais altos de escolaridade, o que pode influenciar o ambiente de estudo e o suporte acadêmico em casa.
---

In [None]:
# Gráfico de Dispersão: Relação entre o tempo de estudo semanal (studytime) e a nota final (G3)
print("\n--- Gráfico de Dispersão: Tempo de Estudo Semanal vs. Nota Final (G3) ---")
# 1 - <2 horas, 2 - 2 a 5 horas, 3 - 5 a 10 horas, 4 - >10 horas
plt.figure(figsize=(10, 6))
plt.scatter(df['studytime'], df['G3'], alpha=0.6, color='red')
plt.title('Relação entre Tempo de Estudo Semanal e Nota Final (G3)')
plt.xlabel('Tempo de Estudo Semanal (1: <2h, 2: 2-5h, 3: 5-10h, 4: >10h)')
plt.ylabel('Nota Final (G3)')
plt.xticks([1, 2, 3, 4]) # Garantir que os rótulos do eixo X sejam claros
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()

In [None]:
---
**Insight:** O gráfico de dispersão da `Relação entre Tempo de Estudo Semanal e Nota Final (G3)` não mostra uma correlação linear forte e óbvia. Há alunos com pouco tempo de estudo que obtêm notas altas, e alunos com muito tempo de estudo que obtêm notas variadas. No entanto, é possível observar uma **maior concentração de notas mais baixas entre os alunos com menor tempo de estudo (1 e 2)** e uma **distribuição mais ampla e com mais ocorrências de notas altas entre aqueles que estudam mais (3 e 4)**, sugerindo que, embora o tempo de estudo não garanta uma nota alta isoladamente, ele pode ser um fator contribuinte para um melhor desempenho.
---

Relatório Final: Data-Driven Insights sobre Desempenho Estudantil

Neste projeto, explorei a base de dados "Student Performance (Math course)", que continha 395 linhas (alunos) e 33 colunas (características). Este conjunto de dados ofereceu uma visão multifacetada sobre o desempenho dos alunos na disciplina de Matemática.

Minha análise inicial revelou que os dados são predominantemente numéricos discretos ou categóricos (int64 e object), com informações que vão desde o histórico familiar e social até hábitos de estudo e as notas em três avaliações (G1, G2, G3).

Utilizando estruturas Python básicas como listas, dicionários e tuplas, pude extrair informações rápidas, como a participação em atividades extracurriculares e as relações entre a motivação para escolher a escola e o desempenho final. A aplicação de estruturas condicionais e laços permitiu classificar as notas iniciais e calcular médias agregadas, além de identificar alunos com notas acima de um determinado limite, fornecendo uma rápida triagem de desempenho.

A manipulação de dados com Pandas e NumPy foi fundamental para aprofundar a análise. Criei uma final_grade_avg (média das três notas) para ter um indicador de desempenho geral e uma coluna improvement_g3_vs_g1 para rastrear a evolução do aluno do início ao fim do curso. A utilização de arrays NumPy para as notas finais permitiu operações vetorizadas eficientes, como adicionar um bônus e calcular a média e a soma de todas as notas, mostrando a robustez da biblioteca.

A análise de dados com Pandas através de filtragens, value_counts() e groupby() gerou insights importantes:

A filtragem para alunas aprovadas destacou que um bom número de estudantes do sexo feminino alcança sucesso.

A análise da coluna Medu (educação da mãe) mostrou uma alta escolaridade materna na amostra, com a maioria das mães possuindo ensino superior, um fator que pode influenciar o ambiente de estudo em casa.

O agrupamento por romantic (status de relacionamento romântico) revelou uma leve vantagem na nota média final para alunos que não estão em relacionamentos românticos, sugerindo que o foco nos estudos pode ser um pouco maior nesses casos.

Por fim, a visualização de dados com Matplotlib solidificou minhas descobertas:

O gráfico de linha da Média das Notas ao Longo das Avaliações (G1, G2, G3) mostrou uma trajetória de desempenho relativamente estável dos alunos, com uma ligeira melhora entre G1 e G2 e um pequeno declínio no G3.

O gráfico de barras da Distribuição do Nível de Educação do Pai (Fedu) confirmou que a maior parte dos pais também possui alto nível de escolaridade, reforçando a observação sobre o nível educacional da família.

O gráfico de dispersão entre Tempo de Estudo Semanal e Nota Final (G3) não apresentou uma correlação linear perfeita, mas indicou que alunos que dedicam mais tempo ao estudo tendem a ter um espectro maior de notas, incluindo as mais altas, enquanto notas mais baixas são mais comuns entre aqueles com menos tempo de estudo. Isso sugere que o tempo de estudo é um fator contribuinte, mas não o único determinante do sucesso acadêmico.

Em resumo, este projeto permitiu explorar em profundidade os dados de desempenho estudantil, identificando padrões, relações e fatores potenciais que influenciam as notas. As descobertas, como a correlação entre status de relacionamento e desempenho, e a importância do ambiente educacional familiar, abrem portas para futuras investigações e políticas de suporte educacional.