In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.backends.backend_pdf import PdfPages

file_path = 'data/hsb2f.csv'
data = pd.read_csv(file_path, delimiter=';')

def autopct_format(values):
    def my_format(pct):
        total = sum(values)
        val = int(round(pct * total / 100.0))
        return f'{pct:.1f}% ({val})'
    return my_format

def plot_categorical(data, column, title, pdf):
    plt.figure(figsize=(8, 6))
    values = data[column].value_counts()
    values.plot(kind='pie', autopct=autopct_format(values), startangle=90, colors=sns.color_palette("pastel"))
    plt.title(title)
    plt.ylabel('')
    pdf.savefig()
    plt.close()

def plot_numerical(data, column, title, pdf):
    plt.figure(figsize=(8, 6))
    sns.histplot(data[column], kde=True, color='skyblue', bins=10)
    plt.title(title)
    plt.xlabel(f'Notas ({column.capitalize()})')
    plt.ylabel('Número de Alunos')
    pdf.savefig()
    plt.close()

sns.set(style="whitegrid")
output_pdf = "reports/analise_exploratoria_hsb2f.pdf"

with PdfPages(output_pdf) as pdf:
    plot_categorical(data, 'genero', 'Distribuição de Gênero', pdf)
    plot_categorical(data, 'raca', 'Distribuição de Raça', pdf)
    plot_categorical(data, 'clasocial', 'Distribuição de Classe Social', pdf)
    plot_categorical(data, 'tipescola', 'Distribuição do Tipo de Escola', pdf)
    plot_categorical(data, 'programa', 'Distribuição de Programa', pdf)

    plot_numerical(data, 'ler', 'Distribuição das Notas em Leitura', pdf)
    plot_numerical(data, 'escrever', 'Distribuição das Notas em Escrita', pdf)
    plot_numerical(data, 'matematica', 'Distribuição das Notas em Matemática', pdf)
    plot_numerical(data, 'ciencias', 'Distribuição das Notas em Ciências', pdf)
    plot_numerical(data, 'estsociais', 'Distribuição das Notas em Estudos Sociais', pdf)

print(f"Arquivo PDF '{output_pdf}' criado com sucesso.")


Arquivo PDF 'analise_exploratoria_hsb2f.pdf' criado com sucesso.
