<a href="https://colab.research.google.com/github/PozzOver13/learning/blob/main/programming/20250211_cookiecutter_tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


![Cover](https://drive.google.com/uc?id=15BHOX67RYBd4JqEUUYqAcrJjtky7warb)


# References

- https://cookiecutter-data-science.drivendata.org/#
- https://drivendata.co/blog/ccds-v2
- https://github.com/cookiecutter/cookiecutter
- https://www.youtube.com/watch?v=dxUMBVTvbWw&t=53s
- https://www.gnu.org/software/make/

# What is Cookiecutter 4 Data Science?

    a logical, reasonably standardized but flexible project structure for data science

La libreria **Cookiecutter Data Science** è un template progettato per strutturare in modo ordinato e riproducibile i progetti di data science. È basato su **Cookiecutter**, uno strumento Python per generare progetti da modelli predefiniti.

### 🚀 **Caratteristiche principali**:
- **Struttura chiara e modulare**: Organizza il codice, i dati e la documentazione in cartelle specifiche.
- **Facile riproducibilità**: Favorisce l'uso di ambienti virtuali e versionamento del codice.
- **Separazione tra dati grezzi e trasformati**: Minimizza il rischio di sovrascrittura accidentale dei dati originali.
- **Pipeline standardizzata**: Promuove l'uso di script modulari e notebook Jupyter per l'analisi e il modello.

### 📂 **Struttura tipica del progetto**
Quando si usa il template, viene creata una struttura simile a questa:


```

├── LICENSE            <- Open-source license if one is chosen
├── Makefile           <- Makefile with convenience commands like `make data` or `make train`
├── README.md          <- The top-level README for developers using this project.
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
│
├── docs               <- A default mkdocs project; see www.mkdocs.org for details
│
├── models             <- Trained and serialized models, model predictions, or model summaries
│
├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
│                         the creator's initials, and a short `-` delimited description, e.g.
│                         `1.0-jqp-initial-data-exploration`.
│
├── pyproject.toml     <- Project configuration file with package metadata for
│                         {{ cookiecutter.module_name }} and configuration for tools like black
│
├── references         <- Data dictionaries, manuals, and all other explanatory materials.
│
├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
│   └── figures        <- Generated graphics and figures to be used in reporting
│
├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
│                         generated with `pip freeze > requirements.txt`
│
├── setup.cfg          <- Configuration file for flake8
│
└── {{ cookiecutter.module_name }}   <- Source code for use in this project.
    │
    ├── __init__.py             <- Makes {{ cookiecutter.module_name }} a Python module
    │
    ├── config.py               <- Store useful variables and configuration
    │
    ├── dataset.py              <- Scripts to download or generate data
    │
    ├── features.py             <- Code to create features for modeling
    │
    ├── modeling                
    │   ├── __init__.py
    │   ├── predict.py          <- Code to run model inference with trained models          
    │   └── train.py            <- Code to train models
    │
    └── plots.py                <- Code to create visualizations   
```


### 🔧 **Installazione e utilizzo**
1. **Installazione di Cookiecutter**:
E' preferibile usare pipx install che installa il pacchetto in un ambiente virtuale isolato e lo rende disponibile a livello globale (quindi non nell'environment attivo).

   ```bash
   pipx install cookiecutter
   ```
2. **Creazione di un nuovo progetto con il template**:
   ```bash
   ccds https://github.com/drivendata/cookiecutter-data-science
   ```
3. **Seguire le istruzioni interattive** per personalizzare il progetto.

### 🎯 **Vantaggi**
✔️ Migliora la collaborazione e la manutenibilità  
✔️ Evita il disordine nei file del progetto  
✔️ Favorisce buone pratiche ingegneristiche  
✔️ Semplifica l'integrazione in pipeline di produzione  

# What's new in V2?

Ci sono diverse novità entusiasmanti in **CCDS V2**. Queste includono:  

- **Un nuovo entrypoint CLI, `ccds`**. Controllare il punto di accesso a riga di comando ci dà maggiore controllo sul processo di Cookiecutter, abilitando molte delle funzionalità descritte di seguito.  

- **Maggiore flessibilità**: molte richieste di funzionalità riguardavano la possibilità di scegliere strumenti diversi rispetto ai valori predefiniti della V1 per svolgere un determinato compito. Man mano che gli strumenti evolvono e vengono adottati più ampiamente, vogliamo rendere più semplice per gli utenti utilizzare le migliori opzioni nel proprio template di progetto.  

- **Documentazione migliorata** con più esempi, spiegazioni più chiare sulle scelte e sugli strumenti, e un aspetto più moderno. Trova la versione più recente su [cookiecutter-data-science.drivendata.org](https://cookiecutter-data-science.drivendata.org/) (la vecchia documentazione verrà presto reindirizzata qui).  

- **Test per CCDS**: la V1 non includeva test. Ora eseguiamo test su diversi sistemi operativi per verificare effettivamente tutti i passaggi di Cookiecutter. Questo processo ha portato alla scoperta di errori nascosti nei vari OS, ma ora possiamo apportare modifiche future con maggiore sicurezza.  

- **Una visione per l'estendibilità**: maggiore automazione, più contributi dalla community, più possibilità di personalizzazione e una collaborazione più efficace.  

Abbiamo accennato al fatto che il template segue una filosofia simile a Unix: concatenare i migliori strumenti per ogni attività invece di cercare di essere una soluzione unica e monolitica. Vedremo nel dettaglio ogni attività per cui **CCDS V2** fornisce strumenti e analizzeremo come funzionano.

# Website Documentation

## Why

**Other people will thank you**

> A well-defined, standard project structure means that a newcomer can begin to understand an analysis without digging in to extensive documentation. It also means that they don't necessarily have to read 100% of the code before knowing where to look for very specific things.

**You will thank you**

> A good project structure encourages practices that make it easier to come back to old work, for example separation of concerns, abstracting analysis as a DAG, and engineering best practices like version control.

**Nothing here is binding**

> "Consistency within a project is more important. Consistency within one module or function is the most important. ... However, know when to be inconsistent -- sometimes style guide recommendations just aren't applicable. When in doubt, use your best judgment. Look at other examples and decide what looks best. And don't hesitate to ask!"  PEP 8



## Opinions

**Data analysis is a directed acyclic graph**

Il modo migliore per garantire la riproducibilità è trattare la tua pipeline di analisi dei dati come un grafo aciclico diretto (DAG). Questo significa che ogni passaggio della tua analisi è un nodo in un grafo diretto senza cicli.

**Raw data is immutable**

- Scrivi codice che sposti i dati grezzi attraverso una pipeline fino alla tua analisi finale.  
- Serializza o memorizza in cache gli output intermedi dei passaggi che richiedono molto tempo.  
- Rendi possibile (e idealmente documentato e automatizzato) per chiunque riprodurre i tuoi prodotti finali con solo il codice in {{ cookiecutter.module_name }} e i dati in data/raw/ (e data/external/).  

- Non modificare mai i tuoi dati grezzi, soprattutto non manualmente e non in Excel. Questo include cambiare formati di file o correggere errori che potrebbero interrompere uno strumento che sta tentando di leggere il tuo file di dati.  

- Non sovrascrivere i tuoi dati grezzi con una versione elaborata o pulita.  
- Non salvare più versioni dei dati grezzi.  

**Data should (mostly) not be kept in source control**

Se hai grandi quantità di dati, considera di archiviarli e sincronizzarli con un servizio cloud.

**Tools for DAGs**

Make è la scelta per cookiecutter.  
Esistono altri strumenti per gestire i DAG scritti in Python, invece che in un linguaggio specifico. Tra i più popolari ci sono Airflow, Luigi, Snakemake, Prefect, Dagster e Joblib.

**Notebooks are for exploration and communication, source files are for repetition**

Notebooks = sviluppo ed esplorazione

Source code = riproducibilità e standardizzazione

**Refactor the good parts into source code**

{{ cookiecutter.module_name }} è nativamente un python package quindi conviene utilizzarlo.

**Keep your modeling organized**

All'interno di /models per tenere traccia dei modelli stimati. Si può partire con file json per poi passare a soluzioni più evolute come MLflow.

**Build from the environment up**

Importanza dei package manager:
- conda
- virtualenv, virtualenvwrapper, Poetry, Pipenv e altri
- docker per riproducibilità livello avanzato

**Keep secrets and configuration out of version control**

Crea un file `.env` nella cartella principale del progetto. Grazie al file `.gitignore`, questo file non verrà mai aggiunto al repository di controllo di versione.

Utilizza un pacchetto chiamato `python-dotenv` per caricare tutte le voci di questo file come variabili d'ambiente, in modo che siano accessibili tramite `os.environ.get`.

**AWS CLI configuration**

Gestion credenziali tramite: ~/.aws/credentials

**Encourage adaptation from a consistent default**

1. Semplifica
1. Espandi
1. Riorganizza

Nei progetti di lunga durata, la cartella notebooks può diventare congestionata. Un adattamento che abbiamo adottato è aggiungere una cartella di livello superiore chiamata research/ (e una corrispondente cartella data/research data) che contiene sottocartelle per i singoli esperimenti. Queste sottocartelle possono contenere i propri notebook, codice e persino i propri file Makefile, che ereditano dal Makefile del progetto principale.

## Using the template

**Project setup**

**🚨 How to create a custom project?**

Puoi passare un template personalizzato al comando `ccds` semplicemente specificandolo come primo argomento. Il template deve essere un percorso (locale o remoto) che punta al modello che vuoi utilizzare.

**Esempio di utilizzo**

1. **Usare un template remoto (GitHub):**
   ```bash
   ccds https://github.com/nomeutente/nome-template
   ```
   Questo comando scarica e utilizza il template specificato dall'URL.

2. **Usare un template locale:**
   Se hai un template salvato sul tuo computer, puoi passare il percorso della directory come argomento:
   ```bash
   ccds /percorso/al/template-locale
   ```

3. **Personalizzare un template con variabili definite**:
   Se il template richiede dei valori (ad esempio, nome del progetto, autore, ecc.), `ccds` ti chiederà di inserirli manualmente durante l'esecuzione.  
   Oppure puoi passare le variabili in un file `cookiecutter.json` (nella stessa directory del template) o utilizzando il comando interattivo.

**Note importanti**
- **Struttura del template**: il tuo template deve avere una directory con un file `cookiecutter.json` contenente le variabili che vuoi personalizzare.
- **Pre-requisiti**: assicurati di avere `cookiecutter` installato correttamente nel tuo ambiente se usi template personalizzati.
- **Cambiare alberatura**: Se vuoi personalizzare dinamicamente la struttura delle directory (es. aggiungere o rimuovere cartelle in base a certe opzioni), puoi farlo utilizzando un hook script. I hook sono script Python o shell che vengono eseguiti prima o dopo la generazione del progetto, e possono modificare la struttura in base ai parametri forniti.

**Set up version control**

**🚨 How to create a repository on gitlab from local?**

    Fare una prova da repository già inizializzata


**Make as a task runner**

    Installare make su windows

**Create a Python virtual environment**

    Usare make commands pre configurati (Conda env + install requirements)

**Add your data**

1. data/raw make sync_data_up -> s3
1. data/make_dataset.py -> data/raw
1. .env + data/db.py -> data/raw

**Check out a branch**

    Usa i branch

**Notebook & Naming convention**

Now you're ready to do some analysis! Make sure that your project-specific environment is activated (you can check with which jupyter) and run jupyter notebook notebooks to open a Jupyter notebook in the notebooks/ folder. You can start by creating a new notebook and doing some exploratory data analysis. We often name notebooks with a scheme that looks like this:

    0.01-pjb-data-source-1.ipynb

* 0.01 - Helps leep work in chronological order. The structure is PHASE.NOTEBOOK. NOTEBOOK is just the Nth notebook in that phase to be created. For phases of the project, we generally use a scheme like the following, but you are welcome to design your own conventions:
  * 0 - Data exploration - often just for exploratory work
  * 1 - Data cleaning and feature creation - often writes data to data/processed or data/interim
  * 2 - Visualizations - often writes publication-ready viz to reports
  * 3 - Modeling - training machine learning models
  * 4 - Publication - Notebooks that get turned directly into reports
* pjb - Your initials; this is helpful for knowing who created the notebook and prevents collisions from people working in the same notebook.
* data-source-1 - A description of what the notebook covers
Now that you have your notebook going, start your analysis!

**Refactoring code into shared modules**

    %load_ext autoreload
    %autoreload 2

**Make your code reviewable**

    nbautoexport per superare il fatto che i notebook non sono consultabili su github o gitlab facilmente per una review

**Changing the Makefile**

    Consigliano di usarli per anche altre soluzioni

**Installing Make on Windows**

1. chocolatey
1. winget
1. scoop

## Make, Airflow & AWS

### **GNU Make e Airflow sono strumenti alternativi?**
Non sono strumenti completamente alternativi, ma possono sovrapporsi in alcune funzionalità, a seconda di come li utilizzi:

1. **GNU Make**  
   - È uno strumento per automatizzare attività basate su regole di dipendenza. Si concentra su **compilazione di codice**, ma è molto flessibile e può essere usato per altre automazioni, come pipelines di analisi o ETL.  
   - **Punto di forza**: Semplice, funziona bene per progetti locali o in ambienti limitati.  
   - **Limiti**: Non è progettato per orchestrare processi distribuiti o complessi in ambienti moderni.

2. **Apache Airflow**  
   - È una piattaforma avanzata per orchestrare **DAG (Directed Acyclic Graph)**, usata per automazione e pianificazione di workflow complessi, come pipeline ETL e machine learning.  
   - **Punto di forza**: Gestione distribuita, monitoraggio tramite UI e integrazione con molte piattaforme.  
   - **Limiti**: Overhead maggiore rispetto a GNU Make, più adatto a processi su larga scala.

Quindi, mentre GNU Make e Airflow possono essere usati per automatizzare pipeline, **Airflow è progettato per ambienti distribuiti e più complessi**, mentre Make si presta meglio a progetti più semplici o specifici.

---

### **Esiste qualcosa di paragonabile in AWS?**
AWS offre diversi strumenti per orchestrare workflow complessi e automatizzare pipeline, paragonabili ad Airflow (e in parte anche a GNU Make):

1. **AWS Step Functions**  
   - **Descrizione**: Strumento serverless per orchestrare workflow tramite stati definiti. Può gestire processi complessi con step sequenziali o paralleli.  
   - **Paragone**:
     - Simile ad Airflow in quanto supporta DAG e processi distribuiti.
     - Differisce da GNU Make poiché si basa su JSON/State Machine piuttosto che su file Makefile.
   - **Vantaggi**: Integrazione nativa con altri servizi AWS come Lambda, S3, DynamoDB, ecc.

2. **AWS Glue Workflow**  
   - **Descrizione**: Uno strumento per orchestrare processi ETL, integrato con Glue per la trasformazione dei dati. È pensato specificamente per pipeline di dati.  
   - **Paragone**:
     - Più simile ad Airflow, ma focalizzato su dati e ETL.
     - Non è generico come Make.

3. **Amazon Managed Workflows for Apache Airflow (MWAA)**  
   - **Descrizione**: Un servizio completamente gestito di AWS per eseguire Apache Airflow.  
   - **Paragone**:
     - Offre tutte le funzionalità di Airflow, ma in un ambiente AWS gestito.
     - Può essere una scelta naturale se già utilizzi Airflow e lavori su AWS.

4. **Amazon EventBridge**  
   - **Descrizione**: Uno strumento per gestire eventi e attivare processi automatizzati basati su regole (ad esempio, scatenare script Python quando un file è caricato su S3).  
   - **Paragone**:
     - Meno potente di Airflow o Step Functions per orchestrazioni complesse, ma molto utile per automazioni più semplici.

---

### **Quando usare cosa**
- **GNU Make**: Per progetti locali o semplici task di automazione, soprattutto in ambito sviluppo.
- **Airflow**: Per orchestrare workflow complessi o distribuiti, soprattutto in ambito dati o machine learning.
- **AWS Step Functions**: Per workflow generici, distribuiti e serverless su AWS.
- **AWS Glue Workflow**: Per pipeline ETL su AWS.
- **Amazon MWAA**: Se hai bisogno di Airflow, ma preferisci un setup gestito su AWS.

Se il tuo progetto è già su AWS e necessita di orchestrare workflow su più servizi, **Step Functions** o **Glue Workflow** potrebbero essere le opzioni migliori.