# ANÁLISE DOS DADOS


## IMPORTAÇÕES

In [None]:
# REALIZANDO A CONEXÃO COM O DRIVE
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# IMPORTANDO AS BIBLIOTECAS NECESSÁRIAS
from IPython.display import display
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [None]:
# IMPORTANDO A BASE DE DADOS UTILIZADA
tabela_alunos = pd.read_csv("/content/drive/MyDrive/CAMINHO/NOME_DO_ARQUIVO.csv")
display(tabela_alunos)
quant_dados = 00 #INFORME A QUANTIDADE DE DADOS OBTIDOS

## PRIMEIRA UNIDADE

### DADOS COMPLETOS

In [None]:
# CONSTRUINDO UMA NOVA TABELA COM OS DADOS NECESSÁRIOS
tabela_unidade_i = tabela_alunos.iloc[0:quant_dados, 0:5]
tabela_unidade_i.drop(columns=["Unnamed: 2"], inplace=True)
tabela_unidade_i.drop(index=[0], inplace=True)
tabela_unidade_i.columns = ["Discente", "Formulários Respondidos", "Aula Assistida", "Notas"]
tabela_exibicao = pd.concat([tabela_unidade_i.head(), tabela_unidade_i.tail()])
display(tabela_exibicao)
tabela_unidade_i.info()

In [None]:
# REALIZANDO O TRATAMENTO DOS DADOS
tabela_unidade_i.dropna(subset="Notas", inplace=True)
tabela_unidade_i['Formulários Respondidos'] = tabela_unidade_i['Formulários Respondidos'].astype(int)
tabela_unidade_i['Aula Assistida'] = tabela_unidade_i['Aula Assistida'].astype(int)
tabela_unidade_i['Notas'] = tabela_unidade_i['Notas'].str.replace(',', '.')
tabela_unidade_i['Notas'] = tabela_unidade_i['Notas'].astype(float)
tabela_exibicao = pd.concat([tabela_unidade_i.head(), tabela_unidade_i.tail()])
display(tabela_exibicao)
tabela_unidade_i.info()

In [None]:
# GERANDO UMA TABELA COM OS DADOS ACOPLADOS POR QUANTIDADE DE FORMULÁRIOS RESPONDIDOS
tabela_unidade_i_acoplada = tabela_unidade_i.groupby("Formulários Respondidos").agg(
    Quantidade_Alunos=("Notas", "count"),
    Media_Notas=("Notas", "mean")
).reset_index()
tabela_unidade_i_acoplada.columns = ["Formulários Respondidos", "Quantidade de Alunos", "Média das Notas"]
display(tabela_unidade_i_acoplada)

In [None]:
# GRÁFICO DE COLUNAS COM OS DADOS ACOPLADOS
tabela_unidade_i_acoplada.plot(kind="bar", x="Formulários Respondidos", y="Média das Notas", title="Média das notas por quantidade de formulários respondidos", color="skyblue", rot=0)
plt.ylabel("Média das Notas")

for i, valor in enumerate(tabela_unidade_i_acoplada["Média das Notas"]):
    plt.text(i, valor + 0.05, f"{valor:.2f}", ha="center", va="bottom", fontsize=10, color="black")
plt.tight_layout()
plt.show()

In [None]:
# GRÁFICO DE DISPERSÃO
tabela_unidade_i.plot.scatter(x="Formulários Respondidos", y="Notas", title="Dispersão entre Quantidade de Formulários Respondidos e Nota", color="blue")
plt.grid(True)
plt.show()

In [None]:
# CÁLCULO DO R^2

X = tabela_unidade_i["Formulários Respondidos"]
Y = tabela_unidade_i["Notas"]
media_notas = np.mean(Y)
coeficiente = np.polyfit(X, Y, 1)
coeficiente_angular, coeficiente_linear = coeficiente[0], coeficiente[1]
Y_previsto = coeficiente_angular * X + coeficiente_linear

sq_total = np.sum((Y - media_notas) ** 2)
sq_residual = np.sum((Y - Y_previsto) ** 2)
r_quadrado = 1 - (sq_residual / sq_total)

plt.scatter(X, Y, color="blue", label="Dados observados")
plt.plot(X, Y_previsto, color="purple", label="Linha de regressão")
plt.title("Gráfico de Dispersão com R²")
plt.xlabel("Formulários Respondidos")
plt.ylabel("Notas")

plt.text(1, 4.5, f"$R^2 = {r_quadrado:.4f}$", fontsize=12, color="black")
plt.legend()
plt.show()

### SEGREGAÇÃO DOS DADOS POR PARTICIPAÇÃO NA AULA DE MATEMÁTICA BÁSICA

In [None]:
# SEGREGAÇÃO DOS DADOS - NÃO PARTICIPOU DA AULA DE MATEMÁTICA BÁSICA

tabela_unidade_i_aula_falso = tabela_unidade_i.loc[tabela_unidade_i["Aula Assistida"] == 0].copy()
tabela_exibicao = pd.concat([tabela_unidade_i_aula_falso.head(), tabela_unidade_i_aula_falso.tail()])
display(tabela_exibicao)
tabela_unidade_i_aula_falso.info()

In [None]:
# GERANDO UMA TABELA COM OS DADOS ACOPLADOS POR QUANTIDADE DE FORMULÁRIOS RESPONDIDOS

tabela_unidade_i_falso_acoplada = tabela_unidade_i_aula_falso.groupby("Formulários Respondidos").agg(
    Quantidade_Alunos=("Notas", "count"),
    Media_Notas=("Notas", "mean")
).reset_index()
tabela_unidade_i_falso_acoplada.columns = ["Formulários Respondidos", "Quantidade de Alunos", "Média das Notas"]

valores_esperados = [0, 1, 2, 3, 4, 5]
for valor in valores_esperados:
    if valor not in tabela_unidade_i_falso_acoplada["Formulários Respondidos"].values:
        nova_linha = {"Formulários Respondidos": valor, "Quantidade de Alunos": 0, "Média das Notas": 0.0}
        tabela_unidade_i_falso_acoplada = pd.concat([pd.DataFrame([nova_linha]), tabela_unidade_i_falso_acoplada], ignore_index=True)

tabela_unidade_i_falso_acoplada = tabela_unidade_i_falso_acoplada.sort_values(by="Formulários Respondidos").reset_index(drop=True) #ORDEM CRESCENTE DE FORMULÁRIOS RESPONDIDOS

display(tabela_unidade_i_falso_acoplada)

In [None]:
# SEGREGAÇÃO DOS DADOS - PARTICIPOU DA AULA DE MATEMÁTICA BÁSICA

tabela_unidade_i_aula_verdadeiro = tabela_unidade_i.loc[tabela_unidade_i["Aula Assistida"] == 1].copy()
tabela_exibicao = pd.concat([tabela_unidade_i_aula_verdadeiro.head(), tabela_unidade_i_aula_verdadeiro.tail()])
display(tabela_exibicao)
tabela_unidade_i_aula_verdadeiro.info()

In [None]:
# GERANDO UMA TABELA COM OS DADOS ACOPLADOS POR QUANTIDADE DE FORMULÁRIOS RESPONDIDOS

tabela_unidade_i_verdadeiro_acoplada = tabela_unidade_i_aula_verdadeiro.groupby("Formulários Respondidos").agg(
    Quantidade_Alunos=("Notas", "count"),
    Media_Notas=("Notas", "mean")
).reset_index()
tabela_unidade_i_verdadeiro_acoplada.columns = ["Formulários Respondidos", "Quantidade de Alunos", "Média das Notas"]

display(tabela_unidade_i_verdadeiro_acoplada)

In [None]:
# GERANDO UM GRÁFICO DE BARRAS PARA COMPARAÇÃO DAS MÉDIAS

imagem, eixox = plt.subplots(figsize=(8, 6))

largura = 0.35
x = range(len(tabela_unidade_i_verdadeiro_acoplada["Formulários Respondidos"]))
eixox.bar([pos - largura / 2 for pos in x], tabela_unidade_i_falso_acoplada["Média das Notas"], width=largura, label="Não assistiu a aula de matemática básica", color="blue")
eixox.bar([pos + largura / 2 for pos in x], tabela_unidade_i_verdadeiro_acoplada["Média das Notas"], width=largura, label="Assistiu a aula de matemática básica", color="orange")

eixox.set_xlabel("Formulários Respondidos")
eixox.set_ylabel("Média das Notas")
eixox.set_title("Comparação das Médias entre os Grupos")
eixox.set_xticks(x)
eixox.set_xticklabels(tabela_unidade_i_falso_acoplada["Formulários Respondidos"])
eixox.legend()

plt.tight_layout()
plt.show()


In [None]:
# GERANDO UM GRÁFICO DE DISPERSÃO PARA COMPARAÇÃO DAS NOTAS

plt.scatter(tabela_unidade_i_aula_falso["Formulários Respondidos"], tabela_unidade_i_aula_falso["Notas"], color="blue", label="Não assistiu a aula de matemática básica")
plt.scatter(tabela_unidade_i_aula_verdadeiro["Formulários Respondidos"], tabela_unidade_i_aula_verdadeiro["Notas"], color="orange", label="Assistiu a aula de matemática básica")

plt.title("Comparação de Grupos - Gráfico de Dispersão")
plt.xlabel("Formulários Respondidos")
plt.ylabel("Notas")
plt.legend()
plt.grid(True)

plt.show()

## SEGUNDA UNIDADE

### DADOS COMPLETOS

In [None]:
# CONSTRUINDO UMA NOVA TABELA COM OS DADOS NECESSÁRIOS
tabela_unidade_ii = tabela_alunos.iloc[0:quant_dados, [0, 5, 6, 7, 8]]
tabela_unidade_ii.drop(columns=["Unnamed: 6"], inplace=True)
tabela_unidade_ii.drop(index=[0], inplace=True)
tabela_unidade_ii.columns = ["Discente", "Formulários Respondidos", "Aula Assistida", "Notas"]
tabela_exibicao = pd.concat([tabela_unidade_ii.head(), tabela_unidade_ii.tail()])
display(tabela_exibicao)
tabela_unidade_ii.info()

In [None]:
# REALIZANDO O TRATAMENTO DOS DADOS
tabela_unidade_ii.dropna(subset="Notas", inplace=True)
tabela_unidade_ii['Formulários Respondidos'] = tabela_unidade_ii['Formulários Respondidos'].astype(int)
tabela_unidade_ii['Aula Assistida'] = tabela_unidade_ii['Aula Assistida'].astype(int)
tabela_unidade_ii['Notas'] = tabela_unidade_ii['Notas'].str.replace(',', '.')
tabela_unidade_ii['Notas'] = tabela_unidade_ii['Notas'].astype(float)
tabela_exibicao = pd.concat([tabela_unidade_ii.head(), tabela_unidade_ii.tail()])
display(tabela_exibicao)
tabela_unidade_ii.info()

In [None]:
# GERANDO UMA TABELA COM OS DADOS ACOPLADOS POR QUANTIDADE DE FORMULÁRIOS RESPONDIDOS
tabela_unidade_ii_acoplada = tabela_unidade_ii.groupby("Formulários Respondidos").agg(
    Quantidade_Alunos=("Notas", "count"),
    Media_Notas=("Notas", "mean")
).reset_index()
tabela_unidade_ii_acoplada.columns = ["Formulários Respondidos", "Quantidade de Alunos", "Média das Notas"]
display(tabela_unidade_ii_acoplada)

In [None]:
# GRÁFICO DE COLUNAS COM OS DADOS ACOPLADOS
tabela_unidade_ii_acoplada.plot(kind="bar", x="Formulários Respondidos", y="Média das Notas", title="Média das notas por quantidade de formulários respondidos", color="skyblue", rot=0)
plt.ylabel("Média das Notas")

for i, valor in enumerate(tabela_unidade_ii_acoplada["Média das Notas"]):
    plt.text(i, valor + 0.05, f"{valor:.2f}", ha="center", va="bottom", fontsize=10, color="black")
plt.tight_layout()
plt.show()

In [None]:
# GRÁFICO DE DISPERSÃO
tabela_unidade_ii.plot.scatter(x="Formulários Respondidos", y="Notas", title="Dispersão entre Quantidade de Formulários Respondidos e Nota", color="blue")
plt.grid(True)
plt.show()

In [None]:
# CÁLCULO DO R^2
X = tabela_unidade_ii["Formulários Respondidos"]
Y = tabela_unidade_ii["Notas"]
media_notas = np.mean(Y)
coeficiente = np.polyfit(X, Y, 1)
coeficiente_angular, coeficiente_linear = coeficiente[0], coeficiente[1]
Y_previsto = coeficiente_angular * X + coeficiente_linear

sq_total = np.sum((Y - media_notas) ** 2)
sq_residual = np.sum((Y - Y_previsto) ** 2)
r_quadrado = 1 - (sq_residual / sq_total)

plt.scatter(X, Y, color="blue", label="Dados observados")
plt.plot(X, Y_previsto, color="purple", label="Linha de regressão")
plt.title("Gráfico de Dispersão com R²")
plt.xlabel("Formulários Respondidos")
plt.ylabel("Notas")

plt.text(1, 4.5, f"$R^2 = {r_quadrado:.4f}$", fontsize=12, color="black")
plt.legend()
plt.show()

### SEGREGAÇÃO DOS DADOS POR PARTICIPAÇÃO NA AULA DE MATEMÁTICA BÁSICA

In [None]:
tabela_unidade_ii_aula_falso = tabela_unidade_ii.loc[tabela_unidade_ii["Aula Assistida"] == 0].copy()
display(tabela_unidade_ii_aula_falso)
tabela_unidade_ii_aula_falso.info()

In [None]:
# GERANDO UMA TABELA COM OS DADOS ACOPLADOS POR QUANTIDADE DE FORMULÁRIOS RESPONDIDOS
tabela_unidade_ii_falso_acoplada = tabela_unidade_ii_aula_falso.groupby("Formulários Respondidos").agg(
    Quantidade_Alunos=("Notas", "count"),
    Media_Notas=("Notas", "mean")
).reset_index()
tabela_unidade_ii_falso_acoplada.columns = ["Formulários Respondidos", "Quantidade de Alunos", "Média das Notas"]

valores_esperados = [0, 1, 2, 3]
for valor in valores_esperados:
    if valor not in tabela_unidade_ii_falso_acoplada["Formulários Respondidos"].values:
        nova_linha = {"Formulários Respondidos": valor, "Quantidade de Alunos": 0, "Média das Notas": 0.0}
        tabela_unidade_ii_falso_acoplada = pd.concat([pd.DataFrame([nova_linha]), tabela_unidade_ii_falso_acoplada], ignore_index=True)

tabela_unidade_ii_falso_acoplada = tabela_unidade_ii_falso_acoplada.sort_values(by="Formulários Respondidos").reset_index(drop=True) #ORDEM CRESCENTE DE FORMULÁRIOS RESPONDIDOS

display(tabela_unidade_ii_falso_acoplada)

In [None]:
tabela_unidade_ii_aula_verdadeiro = tabela_unidade_ii.loc[tabela_unidade_ii["Aula Assistida"] == 1].copy()
display(tabela_unidade_ii_aula_verdadeiro)
tabela_unidade_ii_aula_verdadeiro.info()

In [None]:
# GERANDO UMA TABELA COM OS DADOS ACOPLADOS POR QUANTIDADE DE FORMULÁRIOS RESPONDIDOS

tabela_unidade_ii_verdadeiro_acoplada = tabela_unidade_ii_aula_verdadeiro.groupby("Formulários Respondidos").agg(
    Quantidade_Alunos=("Notas", "count"),
    Media_Notas=("Notas", "mean")
).reset_index()
tabela_unidade_ii_verdadeiro_acoplada.columns = ["Formulários Respondidos", "Quantidade de Alunos", "Média das Notas"]

valores_esperados = [0, 1, 2, 3]
for valor in valores_esperados:
    if valor not in tabela_unidade_ii_verdadeiro_acoplada["Formulários Respondidos"].values:
        nova_linha = {"Formulários Respondidos": valor, "Quantidade de Alunos": 0, "Média das Notas": 0.0}
        tabela_unidade_ii_verdadeiro_acoplada = pd.concat([pd.DataFrame([nova_linha]), tabela_unidade_ii_verdadeiro_acoplada], ignore_index=True)

tabela_unidade_ii_verdadeiro_acoplada = tabela_unidade_ii_verdadeiro_acoplada.sort_values(by="Formulários Respondidos").reset_index(drop=True) #ORDEM CRESCENTE DE FORMULÁRIOS RESPONDIDOS

display(tabela_unidade_ii_verdadeiro_acoplada)


In [None]:
imagem, eixox = plt.subplots(figsize=(8, 6))

largura = 0.35
x = range(len(tabela_unidade_ii_falso_acoplada["Formulários Respondidos"]))

eixox.bar([pos - largura / 2 for pos in x], tabela_unidade_ii_falso_acoplada["Média das Notas"], width=largura, label="Não assistiu a aula de matemática básica", color="blue")
eixox.bar([pos + largura / 2 for pos in x], tabela_unidade_ii_verdadeiro_acoplada["Média das Notas"], width=largura, label="Assistiu a aula de matemática básica", color="orange")

eixox.set_xlabel("Formulários Respondidos")
eixox.set_ylabel("Média das Notas")
eixox.set_title("Comparação das Médias entre os Grupos")
eixox.set_xticks(x)
eixox.set_xticklabels(tabela_unidade_ii_falso_acoplada["Formulários Respondidos"])
eixox.legend()

plt.tight_layout()
plt.show()


In [None]:
plt.scatter(tabela_unidade_ii_aula_falso["Formulários Respondidos"], tabela_unidade_ii_aula_falso["Notas"], color="blue", label="Não assistiu a aula de matemática básica")
plt.scatter(tabela_unidade_ii_aula_verdadeiro["Formulários Respondidos"], tabela_unidade_ii_aula_verdadeiro["Notas"], color="orange", label="Assistiu a aula de matemática básica")

plt.title("Comparação de Grupos - Gráfico de Dispersão")
plt.xlabel("Formulários Respondidos")
plt.ylabel("Notas")
plt.legend()
plt.grid(True)

plt.show()

## TERCEIRA UNIDADE

### DADOS COMPLETOS

In [None]:
# CONSTRUINDO UMA NOVA TABELA COM OS DADOS NECESSÁRIOS
tabela_unidade_iii = tabela_alunos.iloc[0:quant_dados, [0, 9, 10, 11, 12]]
tabela_unidade_iii.drop(columns=["Unnamed: 10"], inplace=True)
tabela_unidade_iii.drop(index=[0], inplace=True)
tabela_unidade_iii.columns = ["Discente", "Formulários Respondidos", "Aula Assistida", "Notas"]
tabela_exibicao = pd.concat([tabela_unidade_iii.head(), tabela_unidade_iii.tail()])
display(tabela_exibicao)
tabela_unidade_iii.info()

In [None]:
# REALIZANDO O TRATAMENTO DOS DADOS
tabela_unidade_iii.dropna(subset="Notas", inplace=True)
tabela_unidade_iii['Formulários Respondidos'] = tabela_unidade_iii['Formulários Respondidos'].astype(int)
tabela_unidade_iii['Aula Assistida'] = tabela_unidade_iii['Aula Assistida'].astype(int)
tabela_unidade_iii['Notas'] = tabela_unidade_iii['Notas'].str.replace(',', '.')
tabela_unidade_iii['Notas'] = tabela_unidade_iii['Notas'].astype(float)
tabela_exibicao = pd.concat([tabela_unidade_iii.head(), tabela_unidade_iii.tail()])
display(tabela_exibicao)
tabela_unidade_iii.info()

In [None]:
# GERANDO UMA TABELA COM OS DADOS ACOPLADOS POR QUANTIDADE DE FORMULÁRIOS RESPONDIDOS
tabela_unidade_iii_acoplada = tabela_unidade_iii.groupby("Formulários Respondidos").agg(
    Quantidade_Alunos=("Notas", "count"),
    Media_Notas=("Notas", "mean")
).reset_index()
tabela_unidade_iii_acoplada.columns = ["Formulários Respondidos", "Quantidade de Alunos", "Média das Notas"]
display(tabela_unidade_iii_acoplada)

In [None]:
# GRÁFICO DE COLUNAS COM OS DADOS ACOPLADOS
tabela_unidade_iii_acoplada.plot(kind="bar", x="Formulários Respondidos", y="Média das Notas", title="Média das notas por quantidade de formulários respondidos", color="skyblue", rot=0)
plt.ylabel("Média das Notas")

for i, valor in enumerate(tabela_unidade_iii_acoplada["Média das Notas"]):
    plt.text(i, valor + 0.05, f"{valor:.2f}", ha="center", va="bottom", fontsize=10, color="black")
plt.tight_layout()
plt.show()

In [None]:
# GRÁFICO DE DISPERSÃO
tabela_unidade_iii.plot.scatter(x="Formulários Respondidos", y="Notas", title="Dispersão entre Quantidade de Formulários Respondidos e Nota", color="blue")
plt.grid(True)
plt.show()

In [None]:
# CÁLCULO DO R^2

X = tabela_unidade_iii["Formulários Respondidos"]
Y = tabela_unidade_iii["Notas"]
media_notas = np.mean(Y)
coeficiente = np.polyfit(X, Y, 1)
coeficiente_angular, coeficiente_linear = coeficiente[0], coeficiente[1]
Y_previsto = coeficiente_angular * X + coeficiente_linear

sq_total = np.sum((Y - media_notas) ** 2)
sq_residual = np.sum((Y - Y_previsto) ** 2)
r_quadrado = 1 - (sq_residual / sq_total)

plt.scatter(X, Y, color="blue", label="Dados observados")
plt.plot(X, Y_previsto, color="purple", label="Linha de regressão")
plt.title("Gráfico de Dispersão com R²")
plt.xlabel("Formulários Respondidos")
plt.ylabel("Notas")

plt.text(1, 4.5, f"$R^2 = {r_quadrado:.4f}$", fontsize=12, color="black")
plt.legend()
plt.show()

### SEGREGAÇÃO DOS DADOS POR PARTICIPAÇÃO NA AULA DE MATEMÁTICA BÁSICA

In [None]:
# SEGREGAÇÃO DOS DADOS - NÃO PARTICIPOU DA AULA DE MATEMÁTICA BÁSICA

tabela_unidade_iii_aula_falso = tabela_unidade_iii.loc[tabela_unidade_iii["Aula Assistida"] == 0].copy()
display(tabela_unidade_iii_aula_falso)
tabela_unidade_iii_aula_falso.info()

In [None]:
# GERANDO UMA TABELA COM OS DADOS ACOPLADOS POR QUANTIDADE DE FORMULÁRIOS RESPONDIDOS

tabela_unidade_iii_falso_acoplada = tabela_unidade_iii_aula_falso.groupby("Formulários Respondidos").agg(
    Quantidade_Alunos=("Notas", "count"),
    Media_Notas=("Notas", "mean")
).reset_index()
tabela_unidade_iii_falso_acoplada.columns = ["Formulários Respondidos", "Quantidade de Alunos", "Média das Notas"]
display(tabela_unidade_iii_falso_acoplada)

In [None]:
# SEGREGAÇÃO DOS DADOS - PARTICIPOU DA AULA DE MATEMÁTICA BÁSICA

tabela_unidade_iii_aula_verdadeiro = tabela_unidade_iii.loc[tabela_unidade_iii["Aula Assistida"] == 1].copy()
display(tabela_unidade_iii_aula_verdadeiro)
tabela_unidade_iii_aula_verdadeiro.info()

##SEMESTRE COMPLETO

### DADOS COMPLETOS

In [None]:
# CONSTRUINDO UMA NOVA TABELA COM OS DADOS NECESSÁRIOS
tabela_geral = tabela_alunos.iloc[0:quant_dados, [0, 14, 15, 19]]
tabela_geral.drop(index=[0], inplace=True)
tabela_geral.columns = ["Discente", "Total de Formulários Respondidos", "Total de Aulas Assistidas", "Nota Final"]
tabela_exibicao = pd.concat([tabela_geral.head(), tabela_geral.tail()])
display(tabela_exibicao)
tabela_geral.info()

In [None]:
# REALIZANDO O TRATAMENTO DOS DADOS
tabela_geral.dropna(subset="Nota Final", inplace=True)
tabela_geral['Total de Formulários Respondidos'] = tabela_geral['Total de Formulários Respondidos'].astype(int)
tabela_geral['Total de Aulas Assistidas'] = tabela_geral['Total de Aulas Assistidas'].astype(int)
tabela_geral['Nota Final'] = tabela_geral['Nota Final'].str.replace(',', '.')
tabela_geral['Nota Final'] = tabela_geral['Nota Final'].astype(float)
tabela_exibicao = pd.concat([tabela_geral.head(), tabela_geral.tail()])
display(tabela_exibicao)
tabela_geral.info()

In [None]:
# GERANDO UMA TABELA COM OS DADOS ACOPLADOS POR QUANTIDADE DE FORMULÁRIOS RESPONDIDOS
tabela_geral_acoplada = tabela_geral.groupby("Total de Formulários Respondidos").agg(
    Quantidade_Alunos=("Nota Final", "count"),
    Media_Notas=("Nota Final", "mean")
).reset_index()
tabela_geral_acoplada.columns = ["Total de Formulários Respondidos", "Quantidade de Alunos", "Média das Notas Finais"]
display(tabela_geral_acoplada)

In [None]:
# GRÁFICO DE COLUNAS COM OS DADOS ACOPLADOS
tabela_geral_acoplada.plot(kind="bar", x="Total de Formulários Respondidos", y="Média das Notas Finais", color="skyblue", rot=0)
plt.ylabel("Média das Notas Finais")

for i, valor in enumerate(tabela_geral_acoplada["Média das Notas Finais"]):
    plt.text(i, valor + 0.05, f"{valor:.2f}", ha="center", va="bottom", fontsize=10, color="black")
plt.tight_layout()
plt.show()

In [None]:
# GRÁFICO DE DISPERSÃO
tabela_geral.plot.scatter(x="Total de Formulários Respondidos", y="Nota Final", title="Dispersão entre Quantidade de Formulários Respondidos e Nota Final", color="blue")
plt.grid(True)
plt.show()

In [None]:
# CÁLCULO DO R^2
X = tabela_geral["Total de Formulários Respondidos"]
Y = tabela_geral["Nota Final"]
media_notas = np.mean(Y)
coeficiente = np.polyfit(X, Y, 1)
coeficiente_angular, coeficiente_linear = coeficiente[0], coeficiente[1]
Y_previsto = coeficiente_angular * X + coeficiente_linear

sq_total = np.sum((Y - media_notas) ** 2)
sq_residual = np.sum((Y - Y_previsto) ** 2)
r_quadrado = 1 - (sq_residual / sq_total)

plt.scatter(X, Y, color="blue", label="Dados observados")
plt.plot(X, Y_previsto, color="purple", label="Linha de regressão")
plt.title("Gráfico de Dispersão com R²")
plt.xlabel("Total de Formulários Respondidos")
plt.ylabel("Nota Final")

plt.text(1, 4.5, f"$R^2 = {r_quadrado:.4f}$", fontsize=12, color="black")
plt.legend()
plt.show()

### SEGREGAÇÃO DOS DADOS POR PARTICIPAÇÃO NA AULA DE MATEMÁTICA BÁSICA

In [None]:
tabela_geral_aula_0 = tabela_geral.loc[tabela_geral["Total de Aulas Assistidas"] == 0].copy()
display(tabela_geral_aula_0)
tabela_geral_aula_0.info()
tabela_geral_aula_1 = tabela_geral.loc[tabela_geral["Total de Aulas Assistidas"] == 1].copy()
display(tabela_geral_aula_1)
tabela_geral_aula_1.info()
tabela_geral_aula_2 = tabela_geral.loc[tabela_geral["Total de Aulas Assistidas"] == 2].copy()
display(tabela_geral_aula_2)
tabela_geral_aula_2.info()

In [None]:
plt.scatter(tabela_geral_aula_0["Total de Formulários Respondidos"], tabela_geral_aula_0["Nota Final"], color="blue", label="Não assistiu as aulas de matemática básica")
plt.scatter(tabela_geral_aula_1["Total de Formulários Respondidos"], tabela_geral_aula_1["Nota Final"], color="orange", label="Assistiu uma aula de matemática básica")
plt.scatter(tabela_geral_aula_2["Total de Formulários Respondidos"], tabela_geral_aula_2["Nota Final"], color="green", label="Assistiu duas aulas de matemática básica")
plt.title("Comparação de Grupos - Gráfico de Dispersão")
plt.xlabel("Formulários Respondidos")
plt.ylabel("Notas Finais")
plt.legend()
plt.grid(True)

plt.show()

###APROVADOS E REPROVADOS

In [None]:
# CONSTRUINDO UMA NOVA TABELA COM OS DADOS NECESSÁRIOS
tabela_aprovados = tabela_alunos.iloc[0:quant_dados, [0, 17, 20, 21, 22]]
tabela_aprovados.drop(index=[0], inplace=True)
tabela_aprovados.columns = ["Discente", "Porcentagem de Participação", "Aprovado", "Reprovado", "Reprovado Falta"]
tabela_exibicao = pd.concat([tabela_aprovados.head(), tabela_aprovados.tail()])
display(tabela_exibicao)
tabela_aprovados.info()

In [None]:
# REALIZANDO O TRATAMENTO DOS DADOS
tabela_aprovados.dropna(subset="Porcentagem de Participação", inplace=True)
tabela_aprovados['Reprovado Falta'] = tabela_aprovados['Reprovado Falta'].astype(int)
tabela_aprovados = tabela_aprovados.drop(tabela_aprovados[tabela_aprovados["Reprovado Falta"] == 1].index)
tabela_aprovados['Aprovado'] = tabela_aprovados['Aprovado'].astype(int)
tabela_aprovados['Reprovado'] = tabela_aprovados['Reprovado'].astype(int)
tabela_aprovados['Porcentagem de Participação'] = tabela_aprovados['Porcentagem de Participação'].str.replace(',', '.')
tabela_aprovados['Porcentagem de Participação'] = tabela_aprovados['Porcentagem de Participação'].astype(float)
tabela_aprovados = tabela_aprovados.drop("Reprovado Falta", axis=1)
tabela_exibicao = pd.concat([tabela_aprovados.head(), tabela_aprovados.tail()])
display(tabela_exibicao)
tabela_aprovados.info()

In [None]:
#SEGREGAÇÃO DOS DADOS DOS APROVADOS
tabela_aprovado_nota = tabela_aprovados.loc[tabela_aprovados["Aprovado"] == 1].copy()
display(tabela_aprovado_nota.head())
tabela_aprovado_nota.info()

In [None]:
intervalos = [0, 25, 50, 75, 100]
rotulos = ["0% - 25%", "25% - 50%", "50% - 75%", "75% - 100%"]  #LIMITE INFERIOR EXCLUSIVO E SUPERIOR INCLUSIVO

tabela_aprovado_nota["Faixa de Porcentagem"] = pd.cut(tabela_aprovado_nota["Porcentagem de Participação"], bins=intervalos, labels=rotulos, include_lowest=True)

tabela_porcentagem = tabela_aprovado_nota.groupby("Faixa de Porcentagem", observed=True).agg(
    Quantidade_Alunos=("Porcentagem de Participação", "count")
).reset_index()

# Exibindo a tabela resultante
display(tabela_porcentagem)

In [None]:
labels = tabela_porcentagem["Faixa de Porcentagem"]
sizes = tabela_porcentagem["Quantidade_Alunos"]

plt.figure(figsize=(8, 8))
plt.pie(sizes, autopct="%1.1f%%", startangle=90, colors=plt.cm.Set3.colors)
plt.legend(labels, title="Faixa de Porcentagem", loc="lower right", fontsize=10)
plt.title("Distribuição de alunos aprovados por porcentagem de participação nas atividades")
plt.show()

In [None]:
#SEGREGAÇÃO DOS DADOS DOS REPROVADOS
tabela_reprovado_nota = tabela_aprovados.loc[tabela_aprovados["Reprovado"] == 1].copy()
display(tabela_reprovado_nota.head())
tabela_reprovado_nota.info()

In [None]:
tabela_reprovado_nota["Faixa de Porcentagem"] = pd.cut(tabela_reprovado_nota["Porcentagem de Participação"], bins=intervalos, labels=rotulos, include_lowest=True)

tabela_porcentagem = tabela_reprovado_nota.groupby("Faixa de Porcentagem", observed=True).agg(
    Quantidade_Alunos=("Porcentagem de Participação", "count")
).reset_index()

# Exibindo a tabela resultante
display(tabela_porcentagem)

In [None]:
plt.figure(figsize=(8, 8))
plt.pie(tabela_porcentagem["Quantidade_Alunos"], autopct="%1.1f%%", startangle=90, colors=plt.cm.Set3.colors)
plt.legend(tabela_porcentagem["Faixa de Porcentagem"] , title="Faixa de Porcentagem", loc="lower right", fontsize=10)
plt.title("Distribuição de alunos reprovados por porcentagem de participação nas atividades")
plt.show()