<a href="https://colab.research.google.com/github/PozzOver13/learning/blob/main/programming/20250211_cookiecutter_tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Cookiecutter Data Science

## References

- https://cookiecutter-data-science.drivendata.org/#
- https://drivendata.co/blog/ccds-v2
- https://www.youtube.com/watch?v=dxUMBVTvbWw&t=53s

## What is Cookiecutter 4 Data Science?

    a logical, reasonably standardized but flexible project structure for data science

La libreria **Cookiecutter Data Science** è un template progettato per strutturare in modo ordinato e riproducibile i progetti di data science. È basato su **Cookiecutter**, uno strumento Python per generare progetti da modelli predefiniti.

### 🚀 **Caratteristiche principali**:
- **Struttura chiara e modulare**: Organizza il codice, i dati e la documentazione in cartelle specifiche.
- **Facile riproducibilità**: Favorisce l'uso di ambienti virtuali e versionamento del codice.
- **Separazione tra dati grezzi e trasformati**: Minimizza il rischio di sovrascrittura accidentale dei dati originali.
- **Pipeline standardizzata**: Promuove l'uso di script modulari e notebook Jupyter per l'analisi e il modello.

### 📂 **Struttura tipica del progetto**
Quando si usa il template, viene creata una struttura simile a questa:


```

├── LICENSE            <- Open-source license if one is chosen
├── Makefile           <- Makefile with convenience commands like `make data` or `make train`
├── README.md          <- The top-level README for developers using this project.
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
│
├── docs               <- A default mkdocs project; see www.mkdocs.org for details
│
├── models             <- Trained and serialized models, model predictions, or model summaries
│
├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
│                         the creator's initials, and a short `-` delimited description, e.g.
│                         `1.0-jqp-initial-data-exploration`.
│
├── pyproject.toml     <- Project configuration file with package metadata for
│                         {{ cookiecutter.module_name }} and configuration for tools like black
│
├── references         <- Data dictionaries, manuals, and all other explanatory materials.
│
├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
│   └── figures        <- Generated graphics and figures to be used in reporting
│
├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
│                         generated with `pip freeze > requirements.txt`
│
├── setup.cfg          <- Configuration file for flake8
│
└── {{ cookiecutter.module_name }}   <- Source code for use in this project.
    │
    ├── __init__.py             <- Makes {{ cookiecutter.module_name }} a Python module
    │
    ├── config.py               <- Store useful variables and configuration
    │
    ├── dataset.py              <- Scripts to download or generate data
    │
    ├── features.py             <- Code to create features for modeling
    │
    ├── modeling                
    │   ├── __init__.py
    │   ├── predict.py          <- Code to run model inference with trained models          
    │   └── train.py            <- Code to train models
    │
    └── plots.py                <- Code to create visualizations   
```


### 🔧 **Installazione e utilizzo**
1. **Installazione di Cookiecutter**:
E' preferibile usare pipx install che installa il pacchetto in un ambiente virtuale isolato e lo rende disponibile a livello globale (quindi non nell'environment attivo).

   ```bash
   pipx install cookiecutter
   ```
2. **Creazione di un nuovo progetto con il template**:
   ```bash
   cookiecutter https://github.com/drivendata/cookiecutter-data-science
   ```
3. **Seguire le istruzioni interattive** per personalizzare il progetto.

### 🎯 **Vantaggi**
✔️ Migliora la collaborazione e la manutenibilità  
✔️ Evita il disordine nei file del progetto  
✔️ Favorisce buone pratiche ingegneristiche  
✔️ Semplifica l'integrazione in pipeline di produzione  

Ti interessa un approfondimento su qualche aspetto, ad esempio su come adattarlo ai tuoi progetti in PySpark o SageMaker? 😊

## What's new in V2?

Ci sono diverse novità entusiasmanti in **CCDS V2**. Queste includono:  

- **Un nuovo entrypoint CLI, `ccds`**. Controllare il punto di accesso a riga di comando ci dà maggiore controllo sul processo di Cookiecutter, abilitando molte delle funzionalità descritte di seguito.  

- **Maggiore flessibilità**: molte richieste di funzionalità riguardavano la possibilità di scegliere strumenti diversi rispetto ai valori predefiniti della V1 per svolgere un determinato compito. Man mano che gli strumenti evolvono e vengono adottati più ampiamente, vogliamo rendere più semplice per gli utenti utilizzare le migliori opzioni nel proprio template di progetto.  

- **Documentazione migliorata** con più esempi, spiegazioni più chiare sulle scelte e sugli strumenti, e un aspetto più moderno. Trova la versione più recente su [cookiecutter-data-science.drivendata.org](https://cookiecutter-data-science.drivendata.org/) (la vecchia documentazione verrà presto reindirizzata qui).  

- **Test per CCDS**: la V1 non includeva test. Ora eseguiamo test su diversi sistemi operativi per verificare effettivamente tutti i passaggi di Cookiecutter. Questo processo ha portato alla scoperta di errori nascosti nei vari OS, ma ora possiamo apportare modifiche future con maggiore sicurezza.  

- **Una visione per l'estendibilità**: maggiore automazione, più contributi dalla community, più possibilità di personalizzazione e una collaborazione più efficace.  

Abbiamo accennato al fatto che il template segue una filosofia simile a Unix: concatenare i migliori strumenti per ogni attività invece di cercare di essere una soluzione unica e monolitica. Vedremo nel dettaglio ogni attività per cui **CCDS V2** fornisce strumenti e analizzeremo come funzionano.

## Why

**Other people will thank you**

**You will thank you**

**Nothing here is binding**

> "Consistency within a project is more important. Consistency within one module or function is the most important. ... However, know when to be inconsistent -- sometimes style guide recommendations just aren't applicable. When in doubt, use your best judgment. Look at other examples and decide what looks best. And don't hesitate to ask!"  PEP 8



## Opinions

**Data analysis is a directed acyclic graph**

**Raw data is immutable**

**Data should (mostly) not be kept in source control**

**Tools for DAGs**

**Notebooks are for exploration and communication, source files are for repetition**

**Refactor the good parts into source code**

**Keep your modeling organized**

**Build from the environment up**

**Keep secrets and configuration out of version control**

**Store your secrets and config variables in a special file**

**Use a package to load these variables automatically.**

**AWS CLI configuration**

**Encourage adaptation from a consistent default**

**Examples of template adaptation and evolution**

## Using the template

**Set up version control**

**Make as a task runner**

**Create a Python virtual environment**

**Add your data**

**Check out a branch**

**Notebook & Naming convention**

Now you're ready to do some analysis! Make sure that your project-specific environment is activated (you can check with which jupyter) and run jupyter notebook notebooks to open a Jupyter notebook in the notebooks/ folder. You can start by creating a new notebook and doing some exploratory data analysis. We often name notebooks with a scheme that looks like this:

    0.01-pjb-data-source-1.ipynb

* 0.01 - Helps leep work in chronological order. The structure is PHASE.NOTEBOOK. NOTEBOOK is just the Nth notebook in that phase to be created. For phases of the project, we generally use a scheme like the following, but you are welcome to design your own conventions:
  * 0 - Data exploration - often just for exploratory work
  * 1 - Data cleaning and feature creation - often writes data to data/processed or data/interim
  * 2 - Visualizations - often writes publication-ready viz to reports
  * 3 - Modeling - training machine learning models
  * 4 - Publication - Notebooks that get turned directly into reports
* pjb - Your initials; this is helpful for knowing who created the notebook and prevents collisions from people working in the same notebook.
* data-source-1 - A description of what the notebook covers
Now that you have your notebook going, start your analysis!

**Refactoring code into shared modules**

**Make your code reviewable**

**Changing the Makefile**

**Installing Make on Windows**