In [1]:
import pandas as pd
import os
import matplotlib.pyplot as plt
import logging

# Configuração de logging
logging.basicConfig(
    filename='log_usuario.txt',
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
)
logging.info("Programa iniciado.")

In [2]:
while True:
    nome = input("Digite seu nome: ")

    if nome.replace(" ", "").isalpha() and len(nome) >= 3:
        logging.info(f'Usuário validado: {nome}')
        print('Usuário validado!')
        break

    print("Nome inválido. Deve conter apenas letras e ter pelo menos 3 caracteres.")
    logging.warning("Tentativa de nome inválido.")

Usuário validado!


In [3]:
path = input("Qual o caminho do seu arquivo? ")
# C:/Users/vinic/Documents/Faculdade/4º Semestre/Nova pasta/testeee/Students_Grading_Dataset.csv
logging.info(f'Caminho do arquivo informado: {path}')

df = None  # Inicializa df fora do bloco de leitura

if not os.path.exists(path):
    print("Erro: O arquivo não foi encontrado.")
    logging.error("Arquivo não encontrado.")
else:
    try:
        ext = os.path.splitext(path)[1].lower()

        if ext == ".csv":
            df = pd.read_csv(path, encoding="utf-8")
            logging.info("Arquivo CSV carregado com sucesso.")
        elif ext == ".json":
            df = pd.read_json(path, encoding="utf-8")
            logging.info("Arquivo JSON carregado com sucesso.")
        else:
            print("Erro: Formato de arquivo não suportado.")
            logging.error(f"Formato não suportado: {ext}")

        if df is not None:
            print('Resumo estatístico dos dados carregados.\n')
            print(df.describe())
            logging.info("Resumo estatístico do DataFrame exibido.")
    except Exception as e:
        print("Erro ao carregar o arquivo:", e)
        logging.error(f"Erro ao carregar o arquivo: {e}")

Resumo estatístico dos dados carregados.

               Age  Attendance (%)  Midterm_Score  Final_Score  \
count  5000.000000     4484.000000    5000.000000  5000.000000   
mean     21.048400       75.431409      70.326844    69.640788   
std       1.989786       14.372446      17.213209    17.238744   
min      18.000000       50.010000      40.000000    40.000000   
25%      19.000000       63.265000      55.457500    54.667500   
50%      21.000000       75.725000      70.510000    69.735000   
75%      23.000000       87.472500      84.970000    84.500000   
max      24.000000      100.000000      99.980000    99.980000   

       Assignments_Avg  Quizzes_Avg  Participation_Score  Projects_Score  \
count      4483.000000  5000.000000          5000.000000     5000.000000   
mean         74.798673    74.910728             4.980024       74.924860   
std          14.411799    14.504281             2.890136       14.423415   
min          50.000000    50.030000             0.000000   

In [4]:
try:
    print("Quantidade total de registros:", len(df))
    print("Quantidade de homens:", len(df[df['Gender'] == 'Male']))
    print("Quantidade de mulheres:", len(df[df['Gender'] == 'Female']))
    print("Registros sem dados sobre a educação dos pais:", df['Parent_Education_Level'].isna().sum())
    logging.info("Estatísticas iniciais de gênero e educação dos pais exibidas.")
except Exception as e:
    print("Erro ao exibir estatísticas iniciais:", e)
    logging.error(f"Erro nas estatísticas iniciais: {e}")

Quantidade total de registros: 5000
Quantidade de homens: 2551
Quantidade de mulheres: 2449
Registros sem dados sobre a educação dos pais: 1794


In [5]:
try:
    print("Quantidade total de registros:", len(df))
    df = df.dropna(subset=['Parent_Education_Level'])
    logging.info("Registros com educação dos pais nula removidos.")

    df['Attendance (%)'] = df['Attendance (%)'].fillna(df['Attendance (%)'].median())
    logging.info("Valores nulos em 'Attendance (%)' substituídos pela mediana.")

    print("Resultado após a limpeza:", len(df))
    print("Somatório de Attendance (%):", df['Attendance (%)'].sum())
except Exception as e:
    print("Erro ao limpar os dados:", e)
    logging.error(f"Erro na limpeza de dados: {e}")

Quantidade total de registros: 5000
Resultado após a limpeza: 3206
Somatório de Attendance (%): 241821.98


In [6]:
try:
    print("Quantidade total de registros:", len(df))
    colunas_numericas = list(df.select_dtypes(include=['number']).columns)
    print("Colunas disponíveis:", colunas_numericas)

    coluna = input("Escolha uma coluna numérica: ")

    if coluna in colunas_numericas:
        media = df[coluna].mean()
        mediana = df[coluna].median()
        moda = df[coluna].mode()[0]
        desvio = df[coluna].std()

        print(f"Média: {media:.2f}")
        print(f"Mediana: {mediana}")
        print(f"Moda: {moda}")
        print(f"Desvio Padrão: {desvio:.2f}")

        logging.info(f"Análise estatística da coluna: {coluna}")
    else:
        print("Coluna inválida. Escolha uma coluna numérica válida.")
        logging.warning(f"Coluna numérica inválida selecionada: {coluna}")
except Exception as e:
    print("Erro ao calcular estatísticas:", e)
    logging.error(f"Erro na análise estatística: {e}")

Quantidade total de registros: 3206
Colunas disponíveis: ['Age', 'Attendance (%)', 'Midterm_Score', 'Final_Score', 'Assignments_Avg', 'Quizzes_Avg', 'Participation_Score', 'Projects_Score', 'Total_Score', 'Study_Hours_per_Week', 'Stress_Level (1-10)', 'Sleep_Hours_per_Night']
Média: 21.04
Mediana: 21.0
Moda: 21
Desvio Padrão: 2.00
