# Introduzione a PyCaret

PyCaret è una libreria open-source per il machine learning che fornisce un ambiente integrato e facile da usare per il preprocessing, la modellazione, la valutazione e l'ottimizzazione di modelli di machine learning. Grazie alla sua semplicità, PyCaret consente agli utenti di creare modelli complessi con poche righe di codice, rendendolo ideale sia per i principianti che per gli esperti.

## Perché usare PyCaret?

- **Efficienza**: Permette di sperimentare con molteplici algoritmi in modo rapido.
- **Semplicità**: Richiede una curva di apprendimento minima rispetto ad altre librerie di machine learning.
- **Integrazione**: Funziona bene con strumenti di visualizzazione e di gestione dei dati come Pandas, Matplotlib e Seaborn.
- **Automazione**: Automatizza molte delle fasi più complesse, come la selezione delle variabili, la ricerca dei parametri e la creazione di pipeline.

## Installazione

Per installare PyCaret, usa il seguente comando:

```bash
pip install pycaret

Per utilizzare funzionalità specifiche come il deep learning o la gestione di dataset di grandi dimensioni, potresti dover installare ulteriori dipendenze.

## Workflow di base con PyCaret

### 1. Importare la libreria e caricare i dati

```python
from pycaret.classification import *
import pandas as pd

data = pd.read_csv("dataset.csv")
```

### 2. Inizializzare l'ambiente

Usa la funzione `setup` per preparare i dati per la modellazione. Questa funzione esegue operazioni come:

- Trattamento dei valori nulli
- Creazione di variabili dummy
- Normalizzazione e scaling

```python
clf1 = setup(data, target='nome_colonna_target', session_id=123)
```

### 3. Confrontare i modelli

La funzione `compare_models` confronta automaticamente i modelli disponibili e restituisce il migliore in base a metriche predefinite.

```python
best_model = compare_models()
```

### 4. Creare e ottimizzare un modello

Puoi creare un modello specifico con il comando `create_model` e ottimizzarlo con `tune_model`.

```python
dt_model = create_model('dt')  # Decision Tree
optimized_dt = tune_model(dt_model)
```

### 5. Valutare il modello

Puoi visualizzare grafici e metriche con `evaluate_model`.

```python
evaluate_model(optimized_dt)

```

### 6. Salvare il modello

Puoi salvare il modello per un utilizzo futuro con:

```python
save_model(optimized_dt, 'optimized_decision_tree')
```

## Moduli principali

PyCaret è organizzato in diversi moduli, ciascuno dedicato a un tipo specifico di problema:

- `pycaret.classification`: Per problemi di classificazione.
- `pycaret.regression`: Per problemi di regressione.
- `pycaret.clustering`: Per il clustering.
- `pycaret.anomaly`: Per la rilevazione di anomalie.

## Esempio pratico: Classificazione

```python
from pycaret.classification import *

# Caricamento dei dati
data = pd.read_csv('credit_data.csv')

# Configurazione
clf1 = setup(data, target='default', session_id=123)

# Confronto tra modelli
best_model = compare_models()

# Creazione di un modello
rf_model = create_model('rf')

# Ottimizzazione
optimized_rf = tune_model(rf_model)

# Valutazione
evaluate_model(optimized_rf)

# Salvare il modello
save_model(optimized_rf, 'final_rf_model')
```

## Conclusioni

PyCaret semplifica notevolmente il processo di sviluppo di modelli di machine learning, rendendolo accessibile a un pubblico più ampio. Grazie alla sua natura modulare, è possibile adattare PyCaret a una vasta gamma di applicazioni, rendendolo uno strumento prezioso per i data scientist e gli analisti.

In [None]:
import seaborn as sns

# Caricare il dataset Titanic
data = sns.load_dataset('titanic')

## **2. Inizializzare l'Ambiente con PyCaret**

La funzione `setup()` in PyCaret è il primo passo per iniziare una sessione di Machine Learning. Questa funzione prepara il dataset, applica la pre-elaborazione e configura l'ambiente per costruire modelli. È uno strumento potente e flessibile che consente di configurare molti aspetti della pipeline ML.


### **Come funziona `setup()`?**

Quando chiami `setup()`, PyCaret:

1. Prepara i dati per l'analisi (es. gestione dei valori mancanti, codifica delle variabili categoriali).
2. Configura la pipeline automatizzata per l'elaborazione.
3. Definisce l'obiettivo (target) della predizione.
4. Restituisce un ambiente configurato per il modeling.


### **Sintassi Base**

In [None]:
from pycaret.classification import setup

clf = setup(
    data=data,              # Dataset come DataFrame Pandas
    target='Survived',      # Variabile target
    session_id=123          # Seed per la riproducibilità
)

### **Parametri Principali di `setup()`**

1. **`data`** *(obbligatorio)*
    
    Il DataFrame Pandas che contiene il dataset.
    
2. **`target`** *(obbligatorio)*
    
    Nome della colonna che rappresenta la variabile target da prevedere.
    
3. **`session_id`** *(opzionale)*
    
    Un intero per garantire la riproducibilità dei risultati. Usare lo stesso seed genererà gli stessi risultati.
    
4. **`train_size`** *(default=0.7)*
    
    Percentuale di dati da utilizzare per il training. Il resto viene usato per il testing.
    
    ```python
    train_size=0.8  # 80% per il training
    
    ```

5. **`numeric_features`** *(opzionale)*
    
    Lista di colonne che devono essere trattate come numeriche, anche se il loro tipo non lo è.
    
    ```python
    numeric_features=['Age', 'Fare']
    
    ```
    
6. **`categorical_features`** *(opzionale)*
    
    Lista di colonne da trattare come categoriali.
    
    ```python
    categorical_features=['Pclass', 'Sex', 'Embarked']
    
    ```
    
7. **`ignore_features`** *(opzionale)*
    
    Colonne da escludere completamente dal processo di modellazione.
    
    ```python
    ignore_features=['PassengerId', 'Name']
    
    ```
    
8. **`normalize`** *(default=False)*
    
    Se impostato a `True`, normalizza i dati numerici (es. Min-Max Scaling).
    
    ```python
    normalize=True
    
    ```
    
9. **`imputation_type`** *(default=‘simple’)*
    
    Metodo di imputazione per valori mancanti:
    
    - `'simple'`: utilizza mediana/media/moda.
    - `'iterative'`: utilizza tecniche iterative basate su regressione.
10. **`feature_interaction`** *(default=False)*
    
    Se `True`, genera nuove feature basate su interazioni tra le colonne esistenti.

### **Output di `setup()`**

1. **Pipeline automatizzata:**
Una pipeline completa con tutti i passi di pre-elaborazione.
2. **Informazioni:**
Una tabella riassuntiva che descrive cosa è stato fatto al dataset (es. normalizzazione, imputazione).

### **Esempio Completo**

In [None]:
from pycaret.classification import setup

clf = setup(
    data=data,
    target='Survived',
    session_id=123,
    train_size=0.8,
    numeric_features=['Age', 'Fare'],
    categorical_features=['Pclass', 'Sex', 'Embarked'],
    ignore_features=['PassengerId', 'Name'],
    normalize=True,
    feature_interaction=True
)

## **3. Confrontare i Modelli con PyCaret**

Il passo di confronto dei modelli in PyCaret consente di valutare automaticamente una serie di algoritmi di machine learning e restituire il modello con le migliori prestazioni basandosi su metriche predefinite. Questa funzione è estremamente utile per identificare rapidamente un punto di partenza per il tuo progetto senza dover configurare ogni modello manualmente.

### **Funzione Principale: `compare_models()`**

La funzione `compare_models()` esegue diversi modelli di machine learning sul dataset pre-elaborato e li confronta utilizzando una metrica di valutazione principale.

### **Sintassi Base**

```python
from pycaret.classification import *

# Confrontare i modelli dopo aver configurato l'ambiente
best_model = compare_models()

```

### **Parametri Principali di `compare_models()`**

1. **`include`** *(opzionale)*
    
    Specifica un sottoinsieme di modelli da confrontare.
    
    Ad esempio, per confrontare solo la regressione logistica e l'albero decisionale:
    
    ```python
    best_model = compare_models(include=['lr', 'dt'])
    
    ```
    
2. **`exclude`** *(opzionale)*
    
    Esclude determinati modelli dal confronto.
    
    Ad esempio, per escludere la regressione logistica:
    
    ```python
    best_model = compare_models(exclude=['lr'])
    
    ```
    
3. **`fold`** *(default=10)*
    
    Numero di fold per la validazione incrociata (cross-validation).
    
    ```python
    best_model = compare_models(fold=5)  # Usa 5 fold invece di 10
    
    ```
    
4. **`sort`** *(default='Accuracy')*
    
    Specifica la metrica utilizzata per ordinare i modelli. Opzioni comuni:
    
    - `Accuracy`
    - `AUC`
    - `Recall`
    - `Precision`
    - `F1`
    - `Kappa`
    
    Ad esempio, per ordinare i modelli in base all'AUC:
    
    ```python
    best_model = compare_models(sort='AUC')
    
    ```
    
5. **`n_select`** *(default=1)*
    
    Specifica il numero di migliori modelli da restituire.
    
    ```python
    top3_models = compare_models(n_select=3)
    
    ```
    
6. **`round`** *(default=4)*
    
    Specifica il numero di cifre decimali nei risultati.

### **Output di `compare_models()`**

1. **Miglior Modello:**
    
    Se `n_select=1` (default), restituisce il miglior modello basato sulla metrica specificata.
    
    ```python
    print(best_model)
    
    ```
    
2. **Lista di Modelli:**
    
    Se `n_select > 1`, restituisce una lista dei migliori modelli.
    
    ```python
    top_models = compare_models(n_select=3)
    for model in top_models:
        print(model)
    
    ```
    
3. **Tabella Riassuntiva:**
    
    Mostra una tabella con le metriche dei modelli testati (accuracy, AUC, ecc.).

### **Esempio Completo**

In [None]:
from pycaret.classification import *

# Configurare l'ambiente
clf = setup(data=data, target='Survived', session_id=123)

# Confrontare i modelli basati sull'AUC, selezionando i primi 3
top3_models = compare_models(sort='AUC', n_select=3)

# Stampare i migliori modelli
for model in top3_models:
    print(model)

### **Lista di Modelli Supportati**

Alcuni esempi di modelli che puoi includere o escludere con `compare_models`:

- **'lr'**: Logistic Regression
- **'dt'**: Decision Tree
- **'rf'**: Random Forest
- **'knn'**: K-Nearest Neighbors
- **'svm'**: Support Vector Machine
- **'xgboost'**: Extreme Gradient Boosting
- **'lightgbm'**: Light Gradient Boosting Machine

La lista completa è disponibile nella documentazione ufficiale di PyCaret.

## **4. Creare e Ottimizzare un Modello con PyCaret**

In PyCaret, il processo di creazione e ottimizzazione dei modelli è progettato per essere intuitivo e potente. Con pochi comandi, puoi creare un modello machine learning e ottimizzarne le prestazioni personalizzandone gli iperparametri.

### **Passo 1: Creare un Modello**

La funzione `create_model()` permette di creare un'istanza di un modello specifico. Questo modello è addestrato utilizzando il dataset pre-elaborato definito nella funzione `setup()`.

### **Sintassi Base**

```python
from pycaret.classification import *

# Creare un modello Random Forest
rf_model = create_model('rf')

```

### **Parametri Principali di `create_model()`**

1. **`estimator`** *(obbligatorio)*
    
    Specifica il tipo di modello da creare utilizzando una stringa (es. `'rf'` per Random Forest, `'lr'` per Logistic Regression, ecc.).
    
    Ad esempio:
    
    ```python
    lr_model = create_model('lr')  # Logistic Regression
    
    ```
    
2. **`fold`** *(default=10)*
    
    Numero di fold per la validazione incrociata (cross-validation).
    
    ```python
    rf_model = create_model('rf', fold=5)  # Usa 5 fold
    
    ```
    
3. **`round`** *(default=4)*
    
    Numero di cifre decimali nelle metriche.
    
4. **`fit_kwargs`** *(opzionale)*
    
    Permette di passare parametri addizionali alla funzione `fit()` del modello.
    
5. **`verbose`** *(default=True)*
    
    Se impostato a `False`, disabilita la stampa dei risultati durante l'esecuzione.
    

### **Output di `create_model()`**

- Restituisce un oggetto del modello addestrato, pronto per ulteriori analisi o ottimizzazioni.

### **Passo 2: Ottimizzare un Modello**

La funzione `tune_model()` è utilizzata per ottimizzare automaticamente gli iperparametri del modello creato.

### **Sintassi Base**

```python
# Ottimizzare un modello Random Forest
tuned_rf_model = tune_model(rf_model)

```

### **Parametri Principali di `tune_model()`**

1. **`model`** *(obbligatorio)*
    
    L'oggetto del modello creato con `create_model()`.
    
2. **`optimize`** *(default='Accuracy')*
    
    Specifica la metrica da ottimizzare. Opzioni comuni:
    
    - `Accuracy`
    - `AUC`
    - `Recall`
    - `Precision`
    - `F1`
    
    Ad esempio:
    
    ```python
    tuned_model = tune_model(rf_model, optimize='AUC')
    
    ```
    
3. **`custom_grid`** *(opzionale)*
    
    Specifica una griglia personalizzata di iperparametri per l'ottimizzazione.
    
    ```python
    from sklearn.ensemble import RandomForestClassifier
    
    custom_grid = {
        'n_estimators': [100, 200, 300],
        'max_depth': [10, 20, 30]
    }
    
    tuned_rf_model = tune_model(rf_model, custom_grid=custom_grid)
    
    ```
    
4. **`fold`** *(default=10)*
    
    Numero di fold per la validazione incrociata durante l'ottimizzazione.
    
5. **`verbose`** *(default=True)*
    
    Se impostato a `False`, disabilita la stampa dei dettagli durante l'ottimizzazione.
    

### **Output di `tune_model()`**

- Restituisce un modello con i migliori iperparametri trovati.

### **Esempio Completo**

In [None]:
from pycaret.classification import *

# Configurare l'ambiente
clf = setup(data=data, target='Survived', session_id=123)

# Creare un modello Random Forest
rf_model = create_model('rf')

# Ottimizzare il modello
optimized_rf_model = tune_model(rf_model, optimize='AUC')

# Stampare il modello ottimizzato
print(optimized_rf_model)

## **5. Valutare il Modello con PyCaret**

La valutazione del modello è un passo fondamentale in ogni progetto di machine learning. PyCaret offre strumenti semplici ma potenti per esaminare le prestazioni del modello tramite metriche standard e visualizzazioni intuitive.

### **Passo 1: Valutare il Modello Creato**

La funzione `evaluate_model()` fornisce un'interfaccia interattiva per analizzare il modello, permettendo di visualizzare le principali metriche e grafici di performance.

### **Sintassi Base**

```python
from pycaret.classification import *

# Valutare un modello Random Forest
evaluate_model(rf_model)

```

Questa funzione apre un'interfaccia grafica nel notebook o nell'ambiente interattivo in cui puoi scegliere diverse visualizzazioni.

### **Passo 2: Visualizzare Metriche Specifiche**

La funzione `plot_model()` è utilizzata per creare grafici specifici che rappresentano le prestazioni del modello. Supporta diverse visualizzazioni.

### **Sintassi Base**

```python
plot_model(model, plot='plot_type')

```

### **Tipi di Grafici Disponibili**

1. **`auc`**
    
    Curva ROC e AUC (Area Under the Curve).
    
    ```python
    plot_model(rf_model, plot='auc')
    
    ```
    
2. **`confusion_matrix`**
    
    Matrice di confusione per visualizzare predizioni corrette e errate.
    
    ```python
    plot_model(rf_model, plot='confusion_matrix')
    
    ```
    
3. **`feature`**
    
    Importanza delle variabili.
    
    ```python
    plot_model(rf_model, plot='feature')
    
    ```
    
4. **`pr`**
    
    Precision-Recall Curve.
    
    ```python
    plot_model(rf_model, plot='pr')
    
    ```
    
5. **`error`**
    
    Analisi degli errori di classificazione.
    
    ```python
    plot_model(rf_model, plot='error')
    
    ```
    
6. **`class_report`**
    
    Report di classificazione dettagliato (precisione, recall, F1-score).
    
    ```python
    plot_model(rf_model, plot='class_report')
    
    ```
    
7. **`learning`**
    
    Curva di apprendimento per analizzare il comportamento del modello durante l'addestramento.
    
    ```python
    plot_model(rf_model, plot='learning')
    
    ```
    
8. **`calibration`**
    
    Calibrazione della probabilità predetta.
    
    ```python
    plot_model(rf_model, plot='calibration')
    
    ```
    
9. **`vc`**
    
    Visualizzazione del clustering nei dati (valido solo per problemi di clustering).

### **Passo 3: Valutare il Modello su un Dataset di Test**

La funzione `predict_model()` permette di generare predizioni su un nuovo dataset e valutare le performance del modello su dati mai visti.

### **Sintassi Base**

```python
# Predizioni e valutazione sul dataset di test
predictions = predict_model(rf_model, data=test_data)

```

### **Parametri Principali di `predict_model()`**

1. **`model`** *(obbligatorio)*
    
    Il modello addestrato e/o ottimizzato.
    
2. **`data`** *(opzionale)*
    
    Il dataset su cui effettuare le predizioni. Se non specificato, usa i dati di test definiti nel setup.
    
3. **`raw_score`** *(default=False)*
    
    Se impostato a `True`, restituisce anche i punteggi grezzi (es. probabilità).
    
4. **`verbose`** *(default=True)*
    
    Se impostato a `False`, non stampa i risultati intermedi.

### **Esempio Completo**

In [None]:
from pycaret.classification import *

# Configurare l'ambiente
clf = setup(data=data, target='Survived', session_id=123)

# Creare un modello
rf_model = create_model('rf')

# Valutare il modello interattivamente
evaluate_model(rf_model)

# Visualizzare la matrice di confusione
plot_model(rf_model, plot='confusion_matrix')

# Generare predizioni su dati di test
predictions = predict_model(rf_model, data=test_data)

# Stampare alcune predizioni
print(predictions.head())

## **6. Salvare il Modello con PyCaret**

Salvare il modello è un passaggio essenziale per rendere riutilizzabile il lavoro svolto. PyCaret offre funzionalità integrate per salvare e caricare modelli, rendendo il processo semplice e veloce.

### **Passo 1: Salvare un Modello**

PyCaret fornisce il metodo `save_model()` per salvare un modello in formato pickle (.pkl), che può essere facilmente caricato e riutilizzato in futuro.

### **Sintassi Base**

```python
save_model(model, model_name='model_name')

```

- **`model`** *(obbligatorio)*: Il modello che desideri salvare.
- **`model_name`** *(opzionale)*: Il nome del file (senza estensione). Se non specificato, viene utilizzato un nome predefinito.

### **Esempio**

```python
from pycaret.classification import *

# Creare un modello
rf_model = create_model('rf')

# Salvare il modello
save_model(rf_model, model_name='random_forest_model')

```

Questo salverà il modello nel file `random_forest_model.pkl` nella directory di lavoro corrente.

### **Passo 2: Caricare un Modello Salvato**

Per riutilizzare un modello salvato, PyCaret fornisce la funzione `load_model()`, che carica il file pickle precedentemente salvato.

### **Sintassi Base**

```python
load_model(model_name='model_name')

```

- **`model_name`** *(obbligatorio)*: Il nome del file del modello salvato (senza estensione).

### **Esempio**

```python
# Caricare un modello salvato
loaded_model = load_model('random_forest_model')

# Usare il modello caricato per fare predizioni
predictions = predict_model(loaded_model, data=new_data)

```

### **Passo 3: Salvare e Caricare Pipeline Completa**

Quando si salva un modello, PyCaret salva automaticamente l'intera pipeline, inclusi i passaggi di preprocessamento e il modello stesso. Questo garantisce che il modello funzioni esattamente come durante il training.

### **Esempio Completo**

In [None]:
from pycaret.classification import *

# Configurare l'ambiente
clf = setup(data=data, target='Survived', session_id=123)

# Creare un modello
rf_model = create_model('rf')

# Salvare il modello
save_model(rf_model, model_name='final_rf_model')

# Caricare il modello salvato
final_model = load_model('final_rf_model')

# Predizioni su nuovi dati
new_predictions = predict_model(final_model, data=new_data)

## **Metodi Principali dell'Ambiente Creato**

Dopo `setup()`, puoi usare diversi metodi per esplorare i dati e costruire modelli:

1. **`compare_models()`**
    
    Confronta i modelli disponibili e restituisce il migliore.
    
    ```python
    best_model = compare_models()
    
    ```
    
2. **`create_model('model_name')`**
    
    Crea un modello specifico (es. `logistic`, `rf`).
    
    ```python
    logistic_model = create_model('lr')  # Regressione logistica
    
    ```
    
3. **`tune_model()`**
    
    Ottimizza gli iperparametri di un modello.
    
    ```python
    tuned_model = tune_model(logistic_model)
    
    ```
    
4. **`plot_model()`**
    
    Genera grafici diagnostici per il modello.
    
    ```python
    plot_model(tuned_model, plot='confusion_matrix')
    
    ```
    
5. **`finalize_model()`**
    
    Prepara il modello per la produzione.
    
    ```python
    final_model = finalize_model(tuned_model)
    
    ```
    

---

### **Buone Pratiche**

- Usa sempre `session_id` per garantire riproducibilità.
- Identifica chiaramente i tipi di variabili (`numeric_features`, `categorical_features`).
- Inizia con `compare_models()` per trovare rapidamente un punto di partenza.

Se hai domande su uno specifico parametro o funzione, posso approfondire!