<a href="https://colab.research.google.com/github/giooooia/Machine-Learning/blob/menu/menu.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [7]:
import pandas as pd
import os
import matplotlib.pyplot as plt

In [5]:
def carica_dataset(percorso=None):
    print("=== CARICAMENTO DATASET ===")

    if percorso is None:
        percorso = input("Inserisci il percorso del file CSV (es. data/dataset.csv): ")

    # Controllo che il file esista
    if not os.path.exists(percorso):
        print(f"❌ Errore: il file '{percorso}' non esiste.")
        return None

    # Prova a leggere il CSV
    try:
        df = pd.read_csv(percorso)
        print("✅ Dataset caricato correttamente!")
    except Exception as e:
        print(f"❌ Errore nel caricamento: {e}")
        return None

    # Mostra info di base
    print(f"Numero di righe: {df.shape[0]}, colonne: {df.shape[1]}")
    print("Colonne trovate:", list(df.columns))
    print("\nPrime 5 righe del dataset:")
    print(df.head())

    return df


In [6]:
def plot_distribuzioni(df):
      num_cols = df.select_dtypes(include=['float64', 'int64']).columns
      df[num_cols].hist(bins=20, figsize=(12, 8))
      plt.tight_layout()
      plt.show()

In [8]:
def analizza_dati(df):
    print("=== ANALISI DEL DATASET ===")
    print(f"Numero di campioni: {df.shape[0]}")
    print(f"Numero di feature: {df.shape[1]}")
    print("\nTipi di dato:")
    print(df.dtypes)
    print("\nStatistiche descrittive:")
    print(df.describe())
    missing = df.isnull().sum().sum()
    if missing > 0:
      print(f"\n⚠️ Attenzione: ci sono {missing} valori mancanti totali!")
    else:
      print("\n✅ Nessun valore mancante trovato.")
    num_duplicates = df.duplicated().sum()
    if num_duplicates > 0:
      print(f"\n⚠️ Attenzione: ci sono {num_duplicates} righe duplicate!")
    else:
      print("\n✅ Nessuna riga duplicata trovata.")
    corr = df.corr(numeric_only=True)
    print("\nMatrice di correlazione (numeriche):")
    print(corr.round(2))
    print('\nDistribuzioni delle features:')
    plot_distribuzioni(df)

In [9]:
def main():
    df = None
    while True:
        print("\n===== MENU =====")
        print("1. Carica dataset")
        print("2. Analisi dei dati")
        print("0. Esci")
        scelta = input("Scegli opzione: ")

        if scelta == '1':
            df = carica_dataset()
        elif scelta == '2':
            if df is not None:
                analizza_dati(df)
            else:
                print("⚠️ Devi prima caricare un dataset!")
        elif scelta == '0':
            print("Uscita...")
            break
        else:
            print("Scelta non valida!")

In [12]:
main()


===== MENU =====
1. Carica dataset
2. Analisi dei dati
0. Esci
Scegli opzione: 1
=== CARICAMENTO DATASET ===
Inserisci il percorso del file CSV (es. data/dataset.csv): /content/divorce_df.csv
✅ Dataset caricato correttamente!
Numero di righe: 5000, colonne: 22
Colonne trovate: ['age_at_marriage', 'marriage_duration_years', 'num_children', 'education_level', 'employment_status', 'combined_income', 'religious_compatibility', 'cultural_background_match', 'communication_score', 'conflict_frequency', 'conflict_resolution_style', 'financial_stress_level', 'mental_health_issues', 'infidelity_occurred', 'counseling_attended', 'social_support', 'shared_hobbies_count', 'marriage_type', 'pre_marital_cohabitation', 'domestic_violence_history', 'trust_score', 'divorced']

Prime 5 righe del dataset:
   age_at_marriage  marriage_duration_years  num_children  \
0               30                        1             1   
1               27                        2             2   
2               31 