In [15]:
import os
from google.colab import files


def escolher_arquivo():
    """
    Permite ao usuário escolher entre fazer upload de um novo arquivo
    ou selecionar um arquivo já existente no ambiente do Colab.
    """
    print("Escolha uma opção:")
    print("1 - Fazer upload de um novo arquivo")
    print("2 - Selecionar um arquivo já enviado")

    escolha = input("Digite 1 ou 2: ").strip()

    if escolha == '1':
        print("Envie o arquivo...")
        uploaded = files.upload()
        caminho = list(uploaded.keys())[0]
        print(f"Arquivo '{caminho}' enviado com sucesso.")
        return caminho

    elif escolha == '2':
        arquivos = [
            f for f in os.listdir() if f.endswith('.csv') or f.endswith('.json')
        ]

        if not arquivos:
            print("Nenhum arquivo .csv ou .json encontrado. Faça o upload primeiro.")
            return None

        print("\nArquivos disponíveis:")
        for i, nome in enumerate(arquivos):
            print(f"{i + 1}. {nome}")

        try:
            opcao = int(input("Digite o número do arquivo desejado: ")) - 1
            if 0 <= opcao < len(arquivos):
                return arquivos[opcao]
            print("Opção inválida.")
        except ValueError:
            print("Entrada inválida.")

        return None

    else:
        print("Escolha inválida.")
        return None


# Executa a escolha e armazena o caminho do arquivo
caminho_arquivo = escolher_arquivo()


Escolha uma opção:
1 - Fazer upload de um novo arquivo
2 - Selecionar um arquivo já enviado
Digite 1 ou 2: 2

Arquivos disponíveis:
1. Students_Grading_Dataset.json
2. Students_Grading_Dataset.csv
Digite o número do arquivo desejado: 2


In [16]:
import pandas as pd


def carregar_dados(caminho_arquivo):
    """
    Carrega os dados de um arquivo CSV ou JSON.

    Args:
        caminho_arquivo (str): Caminho do arquivo a ser carregado.

    Returns:
        pd.DataFrame: DataFrame com os dados carregados.
    """
    if caminho_arquivo.endswith('.csv'):
        return pd.read_csv(caminho_arquivo)

    if caminho_arquivo.endswith('.json'):
        return pd.read_json(caminho_arquivo)

    raise ValueError("Formato de arquivo não suportado. Use CSV ou JSON.")


def resumo_dados(df):
    """
    Exibe um resumo básico dos dados do DataFrame.

    Args:
        df (pd.DataFrame): DataFrame com os dados.
    """
    print("\nResumo dos Dados")
    print("-" * 30)
    print("Quantidade total de registros:", len(df))

    colunas_disponiveis = df.columns.tolist()
    print("Colunas disponíveis no dataset:", colunas_disponiveis)

    genero_coluna = next(
        (col for col in colunas_disponiveis if 'gender' in col.lower()), None
    )
    if genero_coluna:
        print("Quantidade de homens:", (df[genero_coluna].str.lower() == 'male').sum())
        print("Quantidade de mulheres:", (df[genero_coluna].str.lower() == 'female').sum())
    else:
        print("Coluna de gênero não encontrada.")

    educacao_coluna = next(
        (col for col in colunas_disponiveis
         if 'parent' in col.lower() and 'education' in col.lower()),
        None
    )
    if educacao_coluna:
        print("Registros sem informação sobre a educação dos pais:",
              df[educacao_coluna].isna().sum())
    else:
        print("Coluna de educação dos pais não encontrada.")


def estatisticas_coluna(df):
    """
    Permite ao usuário escolher uma coluna numérica e exibe
    média, mediana, moda e desvio padrão.

    Args:
        df (pd.DataFrame): DataFrame com os dados.
    """
    colunas_numericas = df.select_dtypes(include='number').columns.tolist()

    if not colunas_numericas:
        print("Não há colunas numéricas disponíveis no dataset.")
        return

    print("\nColunas numéricas disponíveis:")
    for i, col in enumerate(colunas_numericas):
        print(f"{i + 1}. {col}")

    try:
        escolha = int(input("\nDigite o número da coluna que deseja analisar: ")) - 1
        if 0 <= escolha < len(colunas_numericas):
            coluna = colunas_numericas[escolha]
            serie = df[coluna].dropna()

            media = serie.mean()
            mediana = serie.median()
            moda = serie.mode()
            desvio_padrao = serie.std()

            print(f"\nEstatísticas para a coluna '{coluna}':")
            print(f"Média: {media}")
            print(f"Mediana: {mediana}")
            print(f"Moda: {moda.values if not moda.empty else 'Sem moda'}")
            print(f"Desvio padrão: {desvio_padrao}")
        else:
            print("Número inválido.")
    except ValueError:
        print("Entrada inválida. Por favor, digite um número.")


In [17]:
if caminho_arquivo:
    try:
        df = carregar_dados(caminho_arquivo)
        resumo_dados(df)
        estatisticas_coluna(df)
    except Exception as e:
        print("Erro ao carregar os dados:", e)



Resumo dos Dados
------------------------------
Quantidade total de registros: 5000
Colunas disponíveis no dataset: ['Student_ID', 'First_Name', 'Last_Name', 'Email', 'Gender', 'Age', 'Department', 'Attendance (%)', 'Midterm_Score', 'Final_Score', 'Assignments_Avg', 'Quizzes_Avg', 'Participation_Score', 'Projects_Score', 'Total_Score', 'Grade', 'Study_Hours_per_Week', 'Extracurricular_Activities', 'Internet_Access_at_Home', 'Parent_Education_Level', 'Family_Income_Level', 'Stress_Level (1-10)', 'Sleep_Hours_per_Night']
Quantidade de homens: 2551
Quantidade de mulheres: 2449
Registros sem informação sobre a educação dos pais: 1025

Colunas numéricas disponíveis:
1. Age
2. Attendance (%)
3. Midterm_Score
4. Final_Score
5. Assignments_Avg
6. Quizzes_Avg
7. Participation_Score
8. Projects_Score
9. Total_Score
10. Study_Hours_per_Week
11. Stress_Level (1-10)
12. Sleep_Hours_per_Night

Digite o número da coluna que deseja analisar: 10

Estatísticas para a coluna 'Study_Hours_per_Week':
Médi