# Prepararsi a programmare con Python

## Ambiente di sviluppo

Scrivere un programma comporta tutta una serie di compiti: scrivere il codice, trovare e correggere gli errori che inevitabilmente si presentano, poi il codice deve essere compilato, eseguito e documentato. E indovinate un po', tutto questo deve essere fatto più e più volte (e questo è semplicemente fantastico). Con semplici programmi come "Hello World", è possibile eseguire queste operazioni utilizzando un semplice editor di testo per scrivere il codice sorgente e una serie di strumenti per tradurre e avviare i programmi. Alcuni editor di testo possono anche evidenziare la sintassi, semplificando il processo di scrittura, ma questo potrebbe non essere sufficiente per lavorare su qualcosa di più grande e complesso.

Come sviluppatori professionisti, avete bisogno di uno strumento specializzato per navigare tra i file dei vostri programmi, modificarli, compilarli, eseguirli ed eseguirne il debug, visualizzare gli errori di sintassi e così via.

Un ambiente di sviluppo integrato (_**Integrated Development Environment**_ o _**IDE**_) è proprio questo: offre un unico programma con cui gli sviluppatori possono gestire tutti questi compiti comuni.

Gli IDE sono stati creati per massimizzare la produttività del programmatore attraverso componenti ben integrati tra loro e con interfacce utente possibilmente intuitive. Ciò consente allo sviluppatore, rispetto ad usare programmi di sviluppo separati, di eseguire un minor numero di passaggi per passare da una modalità di lavoro all'altra. Tuttavia, i moderni IDE sono software abbastanza complessi. Ciò significa che si può ottenere un'accelerazione e un miglioramento del processo di lavoro solo dopo aver seguito una specifica formazione. Comunque, anche in questo caso non ci sono grosse difficoltà: molti IDE sono abbastanza intuitivi e le interfacce dei diversi produttori sono spesso molto simili, quindi non è troppo difficile passare da un IDE all'altro.

Esistono molti IDE per diversi linguaggi di programmazione. Alcuni supportano un solo linguaggio, mentre altri ne supportano diversi o possono essere estesi con dei plugin. Ad esempio, alcuni IDE che supportano più linguaggi sono Eclipse, NetBeans, Android Studio, Visual Studio Code, IntelliJ IDEA. Degli IDE per un linguaggio di programmazione specifico sono invece Delphi, Dev-C++, IDLE per Python, PyCharm. Tutti gli ambienti qua citati possono essere eseguiti su Windows, Mac OS o GNU/Linux.

In generale, un ambiente di sviluppo comprende:

- Un **editor di testo**, progettato per lavorare con i file di testo in modo interattivo. Permette di visualizzare il contenuto dei file di testo e di eseguire varie azioni come
    - l'inserimento, l'eliminazione e la copia del testo,
    - la ricerca a tutto testo (*full-text search*) all'interno di uno o opiù file,
    - la sostituzione, l'ordinamento delle stringhe,
    - la visualizzazione dei codici dei caratteri e la conversione delle codifiche,
    - l'evidenziazione della sintassi (_**syntax highlighting**_),
    - l'analisi del codice sorgente per evidenziare errori di programmazione, bug, errori stilistici e costrutti sospetti (_**lint**_).
- Un **traduttore** (compilatore e/o interprete), che traduce un testo scritto in un linguaggio di programmazione in codice macchina e lo fa immediatamente prima di avviare il programma (compilazione) o riga per riga (interpretazione).
- Strumenti di **automazione** dei test e della compilazione/pacchettizzazione, che preparano il codice e mettono tutto insieme.
- Un **debugger**, che cerca gli errori nel codice e li segnala.

In linea di massima, l'uso di un IDE rende lo sviluppatore più produttivo, perché un IDE fornisce componenti ben integrati fra loro e con un'interfaccia utente simile. Inoltre, automatizza alcune attività di routine e fornisce persino consigli e feedback. Tutto questo perché lo scopo dell'ambiente integrato è quello di combinare varie utility in un unico prodotto. Questo approccio consente agli sviluppatori di concentrarsi sulla risoluzione dei loro problemi principali, mentre le operazioni comuni e standard sono gestite dall'IDE.

Per riassumere:
- un IDE è uno strumento specializzato che consente di navigare tra progetti con più file, modificarli, compilarli, eseguirli, eseguirne il debug e visualizzare anche gli errori di sintassi;
- gli IDE più moderni hanno un'interfaccia grafica e sono interattivi;
- alcuni IDE supportano un solo linguaggio, mentre altri supportano più linguaggi.

### Principali IDE ed editor di codice usati con Python

|Nome|Licenza|Note|
|----|-------|----|
|IDLE|Python Software Foundation License (PSFL)|In bundle con il pacchetto di installazione di Python|
|Visual Studio Code|MIT License + proprietarie|Microsoft|
|PyCharm  CE|Apache License 2.0|JetBrains (azienda ceca)|
|Eclipse (PyDev)|Eclipse Public License (EPL)|Eclipse Foundation (consorzio interaziendale)|
|Spyder|MIT License|Collettivo di sviluppatori|
|JupyterNotebook/JupyterLab|BSD syle|Jupyter Development Team (collettivo di sviluppatori)|
|GitHub Codespaces|basato su Visual Studio Code<br/>(proprietaria - servizio online)|GitHub-Microsoft|
|Sublime Text|proprietaria|Jon Skinner (Sublime HQ)|
|Vim|VIM License|Bram Moolenaar et al.|

### Installazione e configurazione di Visual Studio Code

![vscode_logo.png](./imgs/vscode/vscode_logo.png)

**[Visual Studio Code](https://code.visualstudio.com/)** (per gli amici **VS Code** o semplicemente `vscode`) è un IDE open source e un editor di codice sorgente realizzato da Microsoft con l'[Electron Framework](https://it.wikipedia.org/wiki/Electron_(framework)), per piattaforme Windows, Linux e macOS. È un software libero e gratuito, anche se la versione ufficiale distribuita da Microsoft contiene alcuni componenti sotto licenze proprietarie.

Nel sondaggio Stack Overflow 2021 Developer Survey, Visual Studio Code è stato classificato come il più popolare tra gli ambienti di sviluppo tra gli 82.000 intervistati, con il 70% che ha dichiarato di utilizzarlo.

Tra le sue funzionalità principali vi sono:

- supporto per il [debug](https://code.visualstudio.com/docs/editor/debugging),
- syntax highlighting,
- completamento intelligente del codice ([IntelliSense](https://code.visualstudio.com/docs/editor/intellisense)),
- supporto per gli [snippet](https://code.visualstudio.com/docs/editor/userdefinedsnippets) e la sintassi [Emmet](https://code.visualstudio.com/docs/editor/emmet),
- strumenti per il [refactoring del codice](https://code.visualstudio.com/docs/editor/refactoring),
- [client Git](https://code.visualstudio.com/docs/sourcecontrol/overview) incorporato.

Gli utenti possono personalizzare il proprio ambiente di svilupppo modificado il [tema grafico](https://code.visualstudio.com/docs/getstarted/themes), le [scorciatoie da tastiera](https://code.visualstudio.com/docs/getstarted/keybindings) e le [preferenze](https://code.visualstudio.com/docs/getstarted/settings).
Tramite l'[Extension Marketplace](https://marketplace.visualstudio.com/vscode) è inoltre possibile installare [estensioni ufficiali o di terze parti](https://code.visualstudio.com/docs/editor/extension-marketplace) che aggiungono ulteriori funzionalità. Naturalmente è possibile [creare le proprie estensioni](https://code.visualstudio.com/api) per personalizzare VS Code nei minimi dettagli.

L'editor di codice sorgente offre inoltre alcune fuzioni molto utili:

- [selezioni del testo multiple](https://code.visualstudio.com/docs/editor/codebasics#_multiple-selections-multicursor) (multi-cursore),
- [selezione del testo in colonna](https://code.visualstudio.com/docs/editor/codebasics#_column-box-selection),
- [ricerca e sostituzione del testo](https://code.visualstudio.com/docs/editor/codebasics#_find-and-replace) con [opzioni avanzate](https://code.visualstudio.com/docs/editor/codebasics#_advanced-find-and-replace-options),
- [hot exit](https://code.visualstudio.com/docs/editor/codebasics#_hot-exit).

VS Code offre poi strumenti specifici per [sviluppare con Python](https://code.visualstudio.com/docs/python/python-tutorial):

- [ambiente Python](https://code.visualstudio.com/docs/languages/python),
- [linter](https://code.visualstudio.com/docs/python/linting) (analisi del codice),
- strumenti di [debugging](https://code.visualstudio.com/docs/python/debugging),
- gestione dei [virtual environment](https://code.visualstudio.com/docs/python/environments),
- Jupiter Notebook e [IPython](https://code.visualstudio.com/docs/python/jupyter-support-py).

Tra le estensioni che possono tornarci utili per il nostro corso abbiamo:

- [Python](https://marketplace.visualstudio.com/items?itemName=ms-python.python),
    - [Jupyter](https://marketplace.visualstudio.com/items?itemName=ms-toolsai.jupyter),
    - [Pylance](https://marketplace.visualstudio.com/items?itemName=ms-python.vscode-pylance),
    - [isort](https://marketplace.visualstudio.com/items?itemName=ms-python.isort),
- [Python Environment Manager](https://marketplace.visualstudio.com/items?itemName=donjayamanne.python-environment-manager),
- [GitHub Repositories](https://marketplace.visualstudio.com/items?itemName=GitHub.remotehub).

Esiste anche la possibilità di eseguire VS Code tramite un browser web con "[Visual Studio Code for the Web](https://code.visualstudio.com/docs/editor/vscode-web)". Sul sito [vscode.dev](https://vscode.dev/) potete provare l'interfaccia.

Prima di procedere, scarichiamo dunque Visual Studio Code per il nostro sistema operativo dalla [pagina dei download](https://code.visualstudio.com/Download) e installiamolo.

#### Workspace

Le cartelle di lavoro vengono essere raccolte nel cosiddetto [Workspace](https://code.visualstudio.com/docs/editor/workspaces), una sorta di collezione di cartelle.

Salvando il workspace è possibile riaprire velocemente le cartelle del progetto e impostare delle preferenze ad-hoc per personalizzare l'ambiente di lavoro (es. indicare il virtual environment da usare).

È inoltre possibile eseguire una [ricerca a tutto testo tra i file](https://code.visualstudio.com/docs/editor/codebasics#_search-across-files) all'interno del workspace.

### Ricerca di testo nei file

In programmazione è importante saper cercare del testo all'interno di uno o più file.

Immagina di dover cercare una frase particolare all'interno di alcuni file di log o di dover individuare le linee esatte in cui una certa funzione viene invocata tra i molti file di un certo repository.

Per uno sviluppatore è facile imbattersi in codice che non è accompagnato da una documentazione adeguata. In questi casi è necessario leggere il codice sorgente per capire come funzione e cosa fa quel determinato software.

Naturalmente non si leggono tutti i sorgenti dall'inizio alla fine, ma bisogna orientarsi e navigare tra centinaia di file andando a cercare quello che ci interessa scoprire seguendo un proprio percorso di analisi.

Esistono diversi strumenti che permettono di eseguire ricerche nel testo di più file.

Escludiamo inanzitutto lo struumento di ricerca che il nostro sistema operativo ci offre di default perché non è sufficientemente preciso.

Ci sono quindi strumenti sia per la command line (`grep` su Linux e macOS e `findstr` su Windows) sia per le interfacce grafiche.

VS Code, come tutti gli IDE moderni, ha uno [strumento per effettuare ricerche su file multipli](https://code.visualstudio.com/docs/editor/codebasics#_search-across-files) e aprire rapidamente un file che ci interessa tra i risultati, esattamente alla posizione in cui si trova il testo che abbiamo cercato.

Alcuni IDE offrono anche una [comoda vista](https://code.visualstudio.com/docs/editor/codebasics#_search-editor) che presenta i risultati con un estratto del testo che si trova attorno a quello che abbiamo cercato, in modo da avere un minimo di contesto.

![vscode_search.jpg](./imgs/vscode/vscode_search.jpg)

## Jupyter Notebook

![jupyter_logo.png](./imgs/jupyter/jupyter_logo.png)

Possiamo interagire con Python attraverso la console, Visual Studio Code o altri IDE. Ma in questo momento tu puoi già interagire con Python. In realtà l'hai già fatto quando abbiamo visto "The Zen of Python" e gli altri easter egg.

Questo documento è fatto utilizzando **Jupyter Notebook**, che può essere visto come un ambiente di sviluppo vero e proprio.

Il nome Jupyter deriva dai principali linguaggi supportati: **Ju**lia, **Pyt**hon **e R**.

Si tratta di un potente strumento usato inizialmente e soprattutto per i progetti di data science.

È un'applicazione che consente di creare programmi nel browser. Jupyter può essere eseguito localmente sul computer (non è necessaria una connessione a Internet) o su un server remoto. Consente di eseguire il codice in piccole parti, il che è molto utile per il debug e per mostrare i risultati ad altri. Potete anche aggiungere del testo per spiegare cosa fa il vostro codice! Ecco perché molti data scientist e programmatori lo usano per condividere il loro lavoro con i colleghi.

Noi invece lo useremo come strumento didattico per:
- condividere i testi con le nozioni teoriche in alternativa a libri e slide;
- condividere le esercitazioni pratiche e le loro correzioni e soluzioni.

In questo capitolo vedremo come configurare Jupyter Notebook sulla vostra macchina locale e come utilizzarlo per i vostri progetti.

### Installazione in locale

È possibile installare Jupyter Notebook sul tuo computer due modi:

1) Il modo più semplice e veloce per aprire i Notebok di Jupyter è tramite Visual Studio Code, installando l'estensione Jupyter Notebook dall'elenco dei plugin. Si potranno così aprire i notebook (file con estensione `.ipynb`) direttamente dall'IDE e usare l'interprete Python installato per eseguire il codice in essi contenuto.

2) Se invece volete avere un vero e proprio server Jupiter per avere un'esperienza più "nativa" tramite il web browser, allora bisogna installare il modulo di Python `jupyterlab` con un package manager. Usate quello previsto dalla distribuzione di Python che avete installato.

Se avete installato Python tramite i metodi tradizionali (dal sito ufficiale o dalle sorgenti), dovete usare `pip`, dalla command line del tuo sistema operativo:

```bash
    pip install jupyterlab
```

Se avete installato Python tramite Anaconda, potete installare Jupyter Lab o Notebook tramite il suo gestore di pacchetti grafico "Anaconda Navigator". 

![anaconda_navigator.png](./imgs/jupyter/anaconda_navigator.png)

### Avvio del server

Se avete usato `pip`, digitate `jupyter-notebook` (o `jupyter-lab`) nel Terminale o nel prompt dei comandi.

Se avete usato Anaconda, fate clic sul collegamento che è stato creato.

Jupyter Lab è un IDE più completo ma ancora sperimetale. Il package contiene anche il più semplice Notebook, che è quello che andremo ad illustrare.

Si aprirà una console che mostra i log di avvio del server e al fondo sarano elencati degli url.

![starting_sever.png](./imgs/jupyter/starting_sever.png)

Praticamente viene creato un server web locale e vengono generati degli URL in modo da poter accedere al server tramite il browser. È sufficiente copiare e incollare l'URL nel browser per accedere all'applicazione.

Verrà così visualizzata la pagina principale. Per impostazione predefinita, viene visualizzata la cartella in cui è installata l'applicazione Jupyter Notebook. Tuttavia, se prima di avviare il server tramite il comando `jupyter-notebook`, si modifica il percorso in cui ci troviamo con il comando `cd percorso/a/una/cartella`, è possibile avviare l'applicazione in modo che mostri qualsiasi altra cartella.

![file_list.png](./imgs/jupyter/file_list.png)

Per creare un nuovo notebook, selezionare *'Nuovo' > 'Python 3'*. Il pulsante "Nuovo" si trova nella parte superiore destra della pagina. Nella scheda "Notebook" si possono vedere i **kernel** disponibili.

Ogni blocco note ha un kernel, ovvero un ambiente di esecuzione associato ad esso. Il kernel esegue il codice in un linguaggio di programmazione specifico (Julia, Python, R ecc.). Fornisce inoltre l'accesso a varie librerie, esegue i calcoli e restituisce i risultati.

Nel nostro caso, abbiamo bisogno di un solo kernel - Python 3 - poiché lavoriamo solo con questa versione del linguaggio.

Questo kernel fa parte del kernel globale **[IPython](https://en.wikipedia.org/wiki/IPython)**. IPython (Interactive Python) è una shell che fornisce una sintassi di comando aggiuntiva, l'evidenziazione del codice e il completamento automatico per Python.

È inoltre possibile utilizzare i notebook con molti altri linguaggi installando kernel aggiuntivi, ad es. IRkernel, IJulia, ecc.

Per l'utilizzo specifico di Jupyter Notebook, rimando alle attività che svolgeremo in classe.

![kernel.png](./imgs/jupyter/kernel.png)

### L'interfaccia

In Jupyter, un **notebook** è un documento che contiene parti di codice e vari elementi di testo (paragrafi, collegamenti e così via).

![ui_anatomy.jpg](./imgs/jupyter/ui_anatomy.jpg)

Abbiamo evidenziato le parti principali dell'interfaccia. Vediamole più da vicino.

1. L'unità principale di un blocco note è la **cella**. È qui che si può scrivere il codice o aggiungere qualsiasi informazione testuale. Ogni cella può essere eseguita in modo indipendente.
2. Per impostazione predefinita, un blocco note ha il nome "*Senza titolo*", ma è possibile cambiarlo facilmente facendo clic su di esso.
3. Il pulsante "*File*" consente di copiare, salvare, rinominare o scaricare il file. Si tenga presente che ci sono molte estensioni che possono salvare il blocco note. Ci concentreremo su due di esse: `.py` e `.ipynb`. La prima è un'estensione standard dei file Python che possono essere eseguiti con la console Python. La seconda estensione, `.ipynb`, sta per **IPython Notebook** ed è l'estensione predefinita del blocco note.
4. Il simbolo del *floppy disk* consente di salvare il blocco note.
5. Il simbolo "*Più*" (+) aggiunge celle.
6. I tre pulsanti successivi consentono di rimuovere, copiare o inserire una cella.
7. Le frecce "*Su*" e "*Giù*" spostano una cella.
8. Premendo i pulsanti successivi, è possibile eseguire una cella, interrompere il kernel o riavviare il kernel. Per eseguire una cella, si può anche usare `Maiusc+Invio` . Per ulteriori informazioni sulle scorciatoie, consultare la [documentazione](https://jupyter-notebook.readthedocs.io/en/latest/examples/Notebook/Notebook%20Basics.html?highlight=keyboard#Keyboard-Navigation). L'interruzione del kernel è utile nel caso in cui si verifichi un ciclo infinito. Il riavvio consente di cancellare tutte le variabili.
9. È inoltre possibile cambiare il tipo di cella facendo clic sul pulsante "*Codice*". Esistono quattro tipi: *codice*, *markdown*, *raw NBConvert* e *intestazione* (*heading*). Se è necessario modificare il titolo del notebook, utilizzare l'**intestazione**. La cella **markdown** viene utilizzata per scrivere un testo e trasformarlo con la speciale sintassi markdown. Per saperne di più, consulta la [guida di Markdown](https://www.markdownguide.org/basic-syntax/). Il tipo **Raw NBConvert** è utilizzato per i contenuti non modificati.
10. Una volta che il codice è pronto, premere il pulsante "*Logout*" nell'angolo superiore destro della pagina. La sessione verrà interrotta.

Le scorciatoie da tastiera più utili sono:

* Per eseguire il codice Python dentro una cella di Jupyter o per uscire dalla modalità modifica Markdown, premi `Control+Invio`
* Per eseguire il codice Python dentro una cella di Jupyter o per uscire dalla modalità modifica Markdown e selezionare la cella seguente, premi `Maiusct+Invio`
* Per eseguire il codice Python dentro una cella di Jupyter o per uscire dalla modalità modifica Markdown e creare una nuova cella subito dopo, premi `Alt+Invio`
* Se per caso il Notebook sembra inchiodato, prova a selezionare `Kernel -> Restart`

Naturalmente, queste sono solo le basi. È possibile anche formattare le stringhe (cambiare i colori, ad esempio), aggiungere temi per l'intero blocco note, visualizzare i risultati e così via. Ecco perché sempre più scienziati, docenti e studenti passano a Jupyter notebook.

### Esempio di programma

Discutiamo la pipeline di programmazione in modo più dettagliato. Supponiamo di dover scrivere una calcolatrice di base per sommare due numeri interi. Di seguito è riportato un esempio di questo programma (le schermate sono state ritagliate per motivi di leggibilità):

In [1]:
a = 15
b = 34

In [2]:
c = a + b

In [3]:
print(c)

49


I risultati vengono stampati subito dopo la cella. Naturalmente, è possibile scrivere tutto in una cella.

A proposito, avete notato i numeri nelle parentesi quadre a sinistra delle celle? Indicano l'ordine di esecuzione delle celle. Questo ordine è fondamentale in Jupyter Notebook. Supponiamo che si esegua prima la cella centrale. Cosa succederà in questo caso?

![cell_error.png](./imgs/jupyter/cell_error.png)

Verrà generato un errore poiché non sono state impostate le variabili! Fate attenzione all'ordine di esecuzione.

Possiamo anche installare le librerie con Jupyter Notebook. È possibile eseguire comandi da terminale direttamente in Jupyter Notebook. Per farlo, mettere un punto esclamativo `!` all'inizio del comando. Questo indicherà all'applicazione che non si tratta di un comando Python.

![import.png](./imgs/jupyter/import.png)

Abbiamo quindi installato e importato una libreria e ora possiamo lavorare con essa come al solito.

### Riassumendo
Che cosa abbiamo imparato finora su Jupyter Notebook?

- L'ambiente di lavoro Jupyter è noto come notebook; un notebook è costituito da celle di codice e di testo.
- I notebook sono dei file con estensione `.ipynb` (**I**nteractive **Py**thon **N**ote**B**ook).
- Può essere installato in diversi modi: con `pip` o con Anaconda.

Ora avete una conoscenza di base dell'interfaccia e sapete come eseguire le celle e installare le librerie.

Se siete interessati a maggiori informazioni, potete sempre leggere la [documentazione ufficiale](https://jupyter-notebook.readthedocs.io/en/stable/).

### Markdown

![markdown_logo.png](./imgs/jupyter/markdown_logo.png)

Markdown è un [linguaggio di markup](https://it.wikipedia.org/wiki/Linguaggio_di_markup) leggero che consente di creare testo formattato utilizzando un editor di testo semplice (*plain text*). In particolare permette di generare HTML da un file di testo opportunamente "formattato".

Con esso è possibile aggiungere titoli agli articoli, rendere le parole in grassetto o in corsivo, inserire elenchi e molto altro. Allo stesso tempo, il testo rimarrà comprensibile e facilmente leggibile per le persone in quanto Markdown ha una sintassi intuitiva e poco invasiva. Markdown è spesso usato per scrivere testi e semplici descrizioni, come i post sui forum (es. Stack Overflow), gli articoli sui blog o la documentazione e le descrizioni dei progetti su Github e Gitlab (es. i file README).

Anche Jupiter Notebook lo usa per le parti testuali e le guide di questo corso sono scritte proprio con questa sintassi: ciò che stai leggendo è un testo scritto Markdown!

Se stai leggendo dall'editor di testo, ti basta fare doppio click su questo *blocco* per vedere le "sorgenti" del testo.

Saper interpretare ed usare questa sintassi sarà un requisito fondamentale come sviluppatori in quanto, come abbiamo detto, è molto usata per scrivere la documentazione dei software. È quindi importante imparare a famigliarizzare fin da subito con Markdown perché prima o poi sarete costretti ad usarlo. È possibile trovare tutte le informazioni sulla sintassi di Markdown sul web. Seguono alcune risorse utili.

Sintassi specifica utilizzabile in Jupiter Notebook:
- [Guida completa di Markdown in Jupiter Notebook](https://jupyter.brynmawr.edu/services/public/dblank/Jupyter%20Notebook%20Users%20Manual.ipynb#4.-Using-Markdown-Cells-for-Writing)
- [Cheatsheet di Markdown in Jupiter Notebook (PDF)](https://notebook.community/tschinz/iPython_Workspace/00_Admin/CheatSheet/Markdown%20CheatSheet)

Sintassi standard utilizzabile (non tutte le funzioni elencate in queste guide sono disponibili con Jupiter Notebook):
- [Guida di Markdown standard](https://www.markdownguide.org/)
- [Cheatsheet di Markdown standard (PDF)](https://sqlbak.com/blog/wp-content/uploads/2020/12/Jupyter-Notebook-Markdown-Cheatsheet2.pdf)

Per fare un po di pratica, prova ad esercitarti con la sintassi aggiungendo un blocco "Markdown" nel presente documento o in un nuovo notebook creato apposta (crei un nuovo file in Visual Studio Code e lo salvi subito con estensione `.ipynb`).

Per avere un'idea più interattiva di come funziona il Markdown, potete smanettare un po' sulla web app [StackEdit](https://stackedit.io/). Tenete presente però che Jupiter Notebook potrebbe non riconoscere alcune sintassi particolari implementate come estensioni di Markdown e disponinbili in altri software.

#### Un po' di storia

Markdown è stato pubblicato nel 2004 dallo sforzo congiunto di John Gruber e Aaron Swartz, che avevano l'obiettivo di creare un linguaggio di markup che fosse gradevole per un lettore umano anche nella sua forma di codice sorgente. Gruber e Swartz si sono ispirati da convenzioni preesistenti per la marcatura del testo semplice nelle e-mail e nei post di *usenet*, come i linguaggi di markup *setext*, *Textile* o *reStructuredText*.

Tutto iniziò quando nel 2002 Aaron Swartz, amico di Gruber, creò *atx*, definendolo come "il vero formato di testo strutturato". Gruber, ha poi proseguito il lavoro (sempre con l'aiuto e i suggerimenti di Swartz) per arrivare alla [pubblicazione dell linguaggio Markdown nel 2004](https://daringfireball.net/projects/markdown/), con l'obiettivo di consentire alle persone "*di scrivere utilizzando un formato di testo semplice e di facile lettura, che possa facoltativamente essere convertito in XHTML (o HTML) strutturalmente valido*".

#### Un po' di cultura generale

Se non conoscete la storia di [Aaron H. Swartz](https://it.wikipedia.org/wiki/Aaron_Swartz), vi suggerisco di porre rimedio. Ovviamente basta cercare sul web per scoprire di più sulla sua intensa e purtoppo breve vita, ma esiste un documentario molto ben fatto dal titolo "[The Internet's Own Boy: The Story of Aaron Swartz](https://www.youtube.com/watch?v=gQLIodJVbz8)", pubblicato ora sotto licenza libera Creative Commons, che vi consiglio caldamente di vedere.

### Google Colab

![colab_logo.png](./imgs/jupyter/colab_logo.png)

Ora dovresti conoscere le basi di Jupyter Notebook. Immagina però che tu debba lavorare con dei *[big data](https://it.wikipedia.org/wiki/Big_data)* e che il tuo PC non abbia sufficiente potenza di calcolo.

È qui che [Google Colab](https://colab.research.google.com/) si rivela utile. Si tratta di un servizio online offerto da Google. Con **Colab** o "*Colaboratory*" è possibile scrivere ed eseguire notebook e programmi di Jupyter Notebook, salvare e condividere i risultati, il tutto avendo accesso alle potenti risorse di calcolo che possono offrire i datacenter di Google. Tutto nel proprio browser.

In questo argomento mostreremo i principali vantaggi e svantaggi del servizio e descriveremo come lavorare con esso.

Confrontiamo le caratteristiche principali di Google Colab e Jupyter Notebook.

|Google Colab | Jupyter Notebook|
|------------ | --------------- |
|Consente di avviare sessioni online per lavorare con il proprio team. | Non consente un lavoro di gruppo immediato. Un ricercatore deve aspettare che un altro finisca la sua parte di codice e la invii per poterla modificare a sua volta.|
|Utilizza la potenza di calcolo di Google. | Utilizza solo la potenza del vostro computer.|
|La maggior parte delle librerie ML (*machine learning*) sono integrate. | È necessario installare prima le librerie sul proprio computer.|
|Ogni riga di codice può essere salvata su Google Drive. | A volte è difficile navigare tra i vari notebook presenti nelle varie cartelle locali.|

Google Colab ha però anche qualche piccolo svantaggio: non può essere eseguito offline. È inoltre possibile perdere parte del lavoro se si chiude l'ambiente senza salvere/scaricare il codice e/o i risultati.

Inoltre senza un abbonamento "pro" a Google, i notebook possono essere eseguiti per un massimo di **12 ore**.

Stando alle [FAQ ufficiali](https://research.google.com/colaboratory/intl/it/faq.html), nella versione gratuita di Colab i notebook possono essere eseguiti per un massimo di **12 ore**, a seconda della disponibilità delle risorte da parte di Google e delle modalità di utilizzo da parte dell'utente. Inoltre viene sottolineato che Colab dà priorità al calcolo interattivo e dunque il runtime viene interrotto se l'utente è inattivo.

Riassumendo, Google Colab:

- È un'applicazione Google eseguita nel cloud.
- Permette di modificare i file `.ipynb` di Jupiter Notebook.
- Permette di lavorare online con i propri amici e colleghi.
- Possiede la maggior parte delle librerie per il *machine learning* già pre-installate, quindi si possono usare fin da subito.
- Permette di caricare i propri notebook e i file che devono essere processati nell'ambiente Colab e scaricarli di nuovo al termine del lavoro.

Naturalmente, questo è solo un assaggio. La pagina [Welcome to Colaboratory](https://colab.research.google.com/notebooks/intro.ipynb) contiene ulteriori informazioni su questo ambiente.

Se lo desideri, puoi usarlo per visualizzare i notebook delle nostre lezioni.

## Git (e GitHub)

In questo argomento inizieremo a esplorare Git, uno strumento essenziale per gestire, controllare e unire le versioni del codice. Impareremo cos'è Git, quando usarlo e come installarlo sui tre principali sistemi operativi.

### Che cos'è Git?

![git_logo.png](./imgs/git/git_logo.png)

Git è un sistema *distribuito* per il controllo di versione (*version control*) che aiuta gli sviluppatori a tracciare e registrare le modifiche ai file.

Questi possono essere qualsiasi file con cui si voglia lavorare, ma in questo corso ci occuperemo più da vicino dei codici sorgente dei programmi. Con Git è possibile tornare a una versione precedente del progetto, confrontarla, analizzarla e unire le modifiche. Questo processo si chiama appunto *controllo di versione*.
Git è *distribuito*, cioè non dipende da un singolo server centrale che memorizza i file. Funziona invece interamente a livello locale, memorizzando i dati in cartelle sul disco rigido chiamate *repository*. Il repository locale esiste solo sul disco del proprio computer. Tuttavia, è possibile mantenerne una copia online, cosa che facilita molto le cose quando più persone devono lavorare sullo stesso progetto. In questo caso, si parla di repository remoto.

È possibile installare e creare il proprio server Git, tuttavia esistono numerosi servizi che forniscono hosting per i repository Git; tra i più famosi vi sono GitHub, GitLab, Bitbucket, Launchpad, SourceForge Codebase.

Di seguito, discuteremo solo di GitHub dato che è la più popolare tra queste risorse. In ogni caso, per i vostri progetti, potete utilizzare indifferentemente uno qualunque dei servizi citati dato che le basi di funzionamento di Git sono le medesime.

Git è un software gratuito e open-source sviluppato principalmente per Linux, ma supporta anche la maggior parte dei principali sistemi operativi, compresi macOS e Windows.

### Struttura e funzionamento di Git

Come abbiamo detto, Git è un sistema di controllo delle versioni. Ma cosa c'è dietro questa definizione? Come funziona il sistema e perché è così conveniente utilizzarlo?

Il compito principale quando si lavora con Git è il *versionamento del progetto*. Per farlo, è necessario:

- disporre degli "strumenti di lavoro" che sono contenuti in una cartella `.git` che viene creata subito dopo la dichiarazione di un nuovo repository;

- tracciare lo stato dei file per capire a quale stadio di lavorazione si trova il progetto e in che direzione prenderà in seguito;

- fare il commit delle modifiche apportate ai file del progetto quando il lavoro è terminato.

### Installazione di Git

#### Windows

Ci sono diversi modi per installare Git su Windows. Innanzitutto, si può andare sul [sito ufficiale di Git](http://git-scm.com/download/win) e il download si avvierà automaticamente. Dopo l'installazione, è necessario selezionare le opzioni necessarie nelle impostazioni.

Un altro modo semplice per installare Git è installare **GitHub Desktop**. Il suo programma di installazione include i tool per la riga di comando e un'interfaccia grafica per Git. È possibile scaricare GitHub per Windows dal [sito web di GitHub](https://desktop.github.com/).

#### Linux

Potete semplicemente aprire un terminale e installare l'applicazione utilizzando il gestore di pacchetti della vostra distribuzione.

Per esempio, se avete una distribuzione basata su Debian come Ubuntu, provate con `apt`:

        $ sudo apt install git

#### macOS

Ci sono diversi modi per installare Git su Mac.

È possibile installare gli strumenti a riga di comando di Xcode digitando il seguente comando nel terminale:

        $ xcode-select --install

Poi si può semplicemente controllare se Git è già installato:

        $ git --version

Se Git non è installato, verrà richiesto di installarlo.

Se poi di solito usate [Homebrew](https://brew.sh/) e lo avete installato, il comando è questo:

        $ brew install git

Infine, come per Windows un modo semplice per installare Git è installare GitHub Desktop che, oltre a un'interfaccia grafica per Git, ha un'opzione ad hoc per installare gli strumenti per la riga di comando. È possibile scaricare GitHub per Mac dal [sito web di GitHub](https://desktop.github.com/).

### `git config`: impostazioni di base

Dopo aver installato Git dobbiamo sistemare alcune impostazioni. Ci sono diverse opzioni con cui smanettare, ma noi imposteremo le più importanti: il nostro nome utente e l'indirizzo e-mail. Aprite il terminale ed eseguite i comandi:

```bash
$ git config --global user.name "Leonardo da Vinci"
$ git config --global user.email leonardo@davinci.com
```

Da questo momento, ogni nostra azione sarà contrassegnata con il nostro nome e il nostro indirizzo e-mail. In questo modo, tutti sapranno sempre chi è responsabile di certe modifiche: questo porta ordine!

### `git --version`: controllo dell'installazione

Di solito l'installazione va a buon fine, ma per sicurezza vi consigliamo di verificare che sia stata effettivamente installata l'ultima versione di Git eseguendo il comando `git --version` nel terminale.

```bash
$ git --version
```

```bash
git version 2.37.1
```

Le versioni vengono aggiornate, quindi ne potreste avere una diversa. Nel nostro esempio, si tratta della versione `2.37.1`. Assicurati di avere una versione maggiore o uguale alla `2.35`.

A questo punto Git dovrebbe essere installato e si può iniziare a lavorare con esso.

Ora possiamo creare il nostro primo repository Git, cioè la directory del file system che contiene i file. È evidente che il repository è lo spazio in cui lavoriamo con Git, quindi prima di tutto dobbiamo crearlo.

Ricordate i due tipi di repository: locale e remoto? Poiché all'inizio di solito tutto viene fatto localmente e solo in seguito viene trasferito in remoto, dovremmo creare prima un repository locale.

### Creazione di un repository locale

Per prima cosa creiamo una cartella che sarà il contenitore del nostro repository, quella che viene chiamata la _**working directory**_, ovvero la cartella di lavoro.

```bash
$ mkdir tutorial_project
```

E entriamo all'interno della cartella appena creata:

```bash
$ cd tutorial_project
```

### `git status`: com'è la situazione?

Innanzitutto controlliamo di non essere già all'interno di un repository Git. Per fare questo verifichiamo lo stato del repository usando il comando `git status` nella cartella appena creata:

```bash
$ git status
```

```bash
fatal: not a git repository (or any of the parent directories): .git
```

Questo output vuol dire che Git non ha trovato nessun repository nella cartella o in una sua cartella genitore. Bene.

Una volta creata la cartella contenitore possiamo procedere con inizializzare il repository.

### `git init`: inizializzare il repository

Git memorizza i suoi file e la sua cronologia proprio nella cartella del progetto. Per creare un nuovo repository, dobbiamo aprire un terminale, andare nella cartella del progetto ed eseguire il comando `git init`:

```bash
$ git init
```

```bash
Initialized empty Git repository in /percorso/al/repository/tutorial_project/.git/
```

In pratica l'inizializzazione del repository consiste nella creazioe una directory `.git` nascosta, dove saranno memorizzate la cronologia e le impostazioni del repository.

Se eseguiamo di nuovo il comando git status:

```bash
$ git status
```

```bash
On branch master

No commits yet

nothing to commit (create/copy files and use "git add" to track)
```

L'output del comando mostra che il repository è stato creato con successo, ma è ancora vuoto. Come ci viene suggerito, dobbiamo creare o copiare dei file e poi usare "git add" per iniziare a tracciare/monitorare le loro modifiche.

> IMPORTANTE: Abituatevi ad usare sovente il comando `git status`, in qualsiasi fase del lavoro con il repository, in modo da poter sempre controllare se tutto è corretto ed avere eventuali suggerimenti sulle prossime azioni da compiere. Nel testo dell'output ci saranno ancora concetti che possono risultare incomprensibili, come "On branch master", ma li spiegheremo più avanti.

### Cartella `.git`

Dopo aver creato un nuovo repository, Git crea la cartella `.git`. La cartella contiene tutto ciò che serve per lavorare con Git. È anche possibile eliminarla se non si ha bisogno di Git nel progetto. I file del progetto rimarranno sul disco.

Ecco il contenuto di una tipica cartella `.git` prima del primo commit:

- `HEAD`: è il file che contiene un puntatore al _**branch corrente**_ e in particolare all'_**ultimo commit**_ effettuato; in pratica indica dove ci troviamo quando stiamo operando con Git.
- `config`: questo file contiene le impostazioni per il repository; qui, per esempio, sono memorizzati l'URL del repository, il proprio nome, l'email, che si possono configurare usando il comando git config dopo aver creato il repository. Ogni volta che si esegue git config, si farà riferimento a questo file;
- `description` è un file usato dall'interfaccia di Gitweb per visualizzare una descrizione del repository;
- `hooks/`: questa cartella contiene script che possono essere eseguiti in varie fasi dell'esecuzione di Git. Un esempio di hook è lo script di controllo dello stile prima del push al repository;
- `info/exclude`: in questo file sono descritti i file che non si vogliono includere nel repository.

### Aggiungere i file alla *working directory*

Creiamo dunque dei file di esempio:

```bash
$ touch index.html
$ touch style.css
```

E verifichiamo di nuovo lo stato del nostro repository:

```bash
$ git status
```

```bash
On branch master

No commits yet

Untracked files:
(use "git add <file>..." to include in what will be committed)
    index.html
 style.css

nothing added to commit but untracked files present (use "git add" to track)
```

Git ci informa che ci sono file non tracciati e che posssiamo usare il comando `git add <file>...` per includere i file che si intende inserire nel prossimo commit. Inoltre ci dice che il commit è ancora vuoto. In gergo tecnico, il luogo in cui vengono "raccolte" le modifiche che faranno parte del prossimo commit, viene chiamato _**staging area**_. Facciamo dunque come dice e ordininamo a Git di iniziare il tracking su questi due nuovi file rendendoli, come si suol dire, _**staged**_.

### `git add`: aggiungere le modifiche alla *staging area*

Abbiamo due opzioni: possiamo aggiungere i file uno alla volta usando il comando `git add <file>...`

```bash
$ git add index.html
$ git add style.css
```

Oppure aggiungere tutti i file attualmennte untraked con `git add -A` o `--all`:

```bash
$ git add -A
```

> NOTA: Ci sono delle differenze tra un metodo e l'altro a seconda che i file siano stati creati, modificati o eliminati, ma di questo ce ne occuperemo più avanti.

Bene, ora abbiamo i file, ma per essere sicuri di aver fatto tutto correttamente e per controllare le modifiche, controlliamo di nuovo lo stato del repository usando il comando `git status`.

```bash
$ git status             
```

```bash
On branch master
    
No commits yet
    
Changes to be committed:
(use "git rm --cached <file>..." to unstage)
        new file:   index.html
        new file:   style.css
```

L'output del comando mostra che ci sono cambiamenti nella _**staging area**_ per i quali può essere fatto un _**commit**_. Inoltre per ciascun file viene indicato il tipo di modifica, ovvero "_new file_".

Passiamo ora alla fase finale di questo primo esperimento, che consiste nel fare il _**commit**_ delle modifiche al repository, cioè nell'applicare e confermare i cambiamenti apportati che, in questo caso specifico, consistono nell'aggiunta di due file. Per farlo, useremo il comando `git commit`.

### `git commit`: applicare le modifiche al *repository*

Il verbo "_to commit_" non è propriamente traducibile, ma significa applicare, registrare, confermare o letteralmente "commettere" le modifiche che abbiamo precedeentemente inserito nella _**staging area**_.

Usato come sostantivo, un "_commit_" rappresenta lo stato, una "fotografia" del repository in un momento specifico.

In pratica, ogni commit applica e fissa le modifiche fatte rispetto al commit precedente in modo da tenerne traccia e consentirci di ripercorrere la loro "storia" in seguito.

Per eseguire il commit delle modifiche, è necessaria almeno una *modifica di staging*, ad esempio l'aggiunta di nuovi file come abbiamo appena fatto. Dopodiché, digitiamo:

```bash
$ git commit -m "Primo commit"
```

```bash
[master (root-commit) 5ddcc57] Primo commit
2 files changed, 0 insertions(+), 0 deletions(-)
create mode 100644 index.html
create mode 100644 style.css
```

Questo comando creerà un nuovo commit con tutte le modifiche di staging.

L'opzione `-m` sta per "message" e `"Primo commit"` è il messaggio o, in altre parole, il commento che si aggiunge al commit.

È considerata una buona pratica fare commit frequentemente e scrivere sempre commenti significativi, perché questo rende più facile per voi e per gli altri capire e ricordare quello che è stato fatto.

Controllando di nuovo lo stato, ora dovremmo ottenere:

```bash
$ git status 
```

```bash
On branch master
nothing to commit, working tree clean
```

L'output indica che non c'è più nulla per cui è necessario fare un commit e che la cartella di lavoro (working tree/directory) è pulita.

Ottimo! Abbiamo fatto il nostro primo commit!

Ora modifichiamo un file ed eliminiamo l'altro. Poi proviamo a controllare di nuovo lo stato:
```bash
$ echo "Ciao mondo!" > index.html 
$ rm style.css
```

```bash
$ git status
        
On branch master
Changes not staged for commit:
(use "git add <file>..." to update what will be committed)
(use "git restore <file>..." to discard changes in working directory)
    modified:   index.html
    deleted:    style.css

no changes added to commit (use "git add" and/or "git commit -a")
```

Adesso l'output ci informa che ci sono modifiche non ancora aggiunte alla staging area e che possiamo aggiungerle in modo che vengano incluse nel prossimo commit, oppure possiamo annullare le modifiche e ripristinare il file all'ultima versione registrata. Inoltre informa che la staging area non contiene modifiche utili a un commit.

Procediamo dunque ad aggiungere il file modificato alla staging area e verifichiamo di nuovo lo stato.

```bash
$ git add -A
```

```bash
$ git status

On branch master
Changes to be committed:
(use "git restore --staged <file>..." to unstage)
    modified:   index.html
    deleted:    style.css
```

Questa volta, invece della dicitura `new file` abbiamo `modified` e `deleted`, il che indica che il cambiamento inserito nella staging area è rispettivamennte una modifica e una eliminazione.

Chiudiamo infine con un'ultimo commit:

```bash
$ git commit -m "Secondo commit"

[master a9c7f66] Secondo commit
2 files changed, 1 insertion(+)
delete mode 100644 style.css
```
```bash
$ git status 

On branch master
nothing to commit, working tree clean
```

Anche in questo caso, l'output del comando `commit` ci fornisce la conferma che 2 file sono stati modificati: su uno è stata fatta una modifica mentre l'altro è stato eliminato.

### Monitoraggio dei commit

Abbiamo imparato a fare i commit delle nostre modifiche ai file. Ma cosa serve salvare tutte le versioni se poi non sappiamo come accedervi? Immagina per esempio di lavorare con dei colleghi e di trovare un errore nel codice di un certo file. Come possiamo sapere chi e quando ha introdotto la modifica con quell'errore? E se volessimo annullare quella modifica, ripristinando il file ad una versione precedente? In tutti questi casi è necessario poter accedere alla cronologia (*log*) dei commit per poter vedere cosa è successo in precedenza.

Prima di iniziare facciamo un'ulteriore modifica al nostro repository di esempio e creiamo un nuovo commit.

```bash
$ echo "Questa è una nuova riga aggiunta con il terzo commit." >> index.html
```

```bash
$ git add index.html
```

```bash
$ git commit -m "Terzo commit"

[master 131bd0d] Terzo commit
1 file changed, 1 insertion(+)
```

#### `git log`: vedere tutti i commit

Ogni commit ha un proprio ***identificativo*** (*identifier*) univoco sotto forma di una stringa di numeri e lettere. Per vedere un elenco di tutti i commit e dei loro ID, si può usare il comando `git log`:

```bash
$ git log
```

```bash
commit 131bd0d184f0606935928564e9c06d40c2873348 (HEAD -> master)
Author: Leonardo da Vinci <leonardo@davinci.com>
Date:   Mon Feb 13 15:57:49 2023 +0100

    Terzo commit

commit a9c7f663dbcde945ffa657679c66ba9afafafe3a
Author: Leonardo da Vinci <leonardo@davinci.com>
Date:   Mon Feb 13 10:43:30 2023 +0100

    Secondo commit

commit 5ddcc574d6041edd5c24201bcfbc4b9683eb0515
Author: Leonardo da Vinci <leonardo@davinci.com>
Date:   Mon Feb 13 08:03:11 2023 +0100

    Primo commit
```

#### `git show`: vedere un commit specifico

Come si può vedere, gli identificatori sono piuttosto lunghi e inquietanti, ma non è necessario copiare l'intera stringa per lavorarci, sono sufficienti i primi caratteri. Per vedere cosa c'è di nuovo nel commit, possiamo usare il comando `git show <ID commit>`. Per vedere i dettagli del secondo commit, possiamo fare: 

```bash    
$ git show a9c7f66
```

```bash
commit a9c7f663dbcde945ffa657679c66ba9afafafe3a
Author: Leonardo da Vinci <leonardo@davinci.com>
Date:   Mon Feb 13 10:43:30 2023 +0100

    Secondo commit

diff --git a/index.html b/index.html
index e69de29..a09ebc6 100644
--- a/index.html
+++ b/index.html
@@ -0,0 +1 @@
+Ciao mondo!

diff --git a/style.css b/style.css
deleted file mode 100644
index e69de29..0000000
```

Questo esempio mostra differenze rispetto al commit precedente (in questo caso il "5ddcc57"). Possiamo vedere quando i file sono stati modificati, da chi e che tipo di modifica è stata apportata: sul file `index.html` è stata aggiunta una riga di testo che contiene "*Ciao mondo!*" e il file `style.css` è stato eliminato.

#### `git diff`: vedere le differenze tra i commit

Per vedere invece le differenze tra due commit specifici e scoprrire come, quando e chi ha fatto delle modifiche, si può usare il comando `git diff <ID commit A>..<ID commit B>`.

Proviamo a confrontare il primo commit con l'ultimo per vedere tutte le modifiche apportate.

```bash
git diff 5ddcc57..131bd0d
```

```bash
diff --git a/index.html b/index.html
index e69de29..95e6f67 100644
--- a/index.html
+++ b/index.html
@@ -0,0 +1,2 @@
+Ciao mondo!
+Questa è una nuova riga aggiunta con il terzo commit.

diff --git a/style.css b/style.css
deleted file mode 100644
index e69de29..0000000
```

Rispetto all'esempio precedente sul file `index.html` sono state aggiunte due righe di testo: "*Ciao mondo!*" e "*Questa è una nuova riga aggiunta con il terzo commit.*".

### Il flusso di lavoro con Git

Per riassumere quanto abiamo visto fino ad ora, ci sono quattro stati principali in cui possono trovarsi i file:

- _**untracked**_, cioè il file è stato creato o eliminato ma non è nella staging area e quindi non può ancora essere oggetto di un commit;
- _**committed**_/_**unmodified**_, cioè il file, con tutte le modifiche applicate, salvato nel database locale;
- _**modified**_, cioè il file contiene delle modifiche non inserite nella staging area e che quindi non possono ancora essere oggetto di un commit;
- _**staged**_, cioè le modifiche a un file vengono aggiunte alla staging area e dunque è come se fossero contrassegnate per essere incluse nel prossimo commit.

![lifecycle_states.png](./imgs/git/lifecycle_states.png)

Rispettivamente questi stati si possono ricondurre a tre "location" principali sull'architettura di Git, le tre sezioni fondamentali di un progetto Git. *NOTA: non vi è corrispondenza di colori tra l'immagine precedente e quella che segue.*

![lifecycle_locations.png](./imgs/git/lifecycle_locations.png)

- La ***working directory*** (directory di lavoro) contiene l'istantanea di una specifica versione del progetto, ovviamente di solito lavoriamo sulla versione corrente. I file vengono decompressi da un database compresso in una directory Git e messi su disco nella working directory, in modo da poterli usare e modificare.

- La ***staging area*** è un file situato nella directory `.git` che contiene informazioni sulle modifiche che verranno apportate ed inserite al prossimo commit. Quest'area è chiamata anche "indice", ma è comune chiamarla area di stage. Quando si aggiunge un file con il comado `add`, questo viene inserito subito nell'indice e solo dopo il commit esso è registrato nel repository vero e proprio.

- La ***directory `.git`*** è il luogo in cui Git memorizza i metadati e il database del progetto, ovvero il ***repository*** vero e proprio. È la parte più importante di Git, che viene copiata quando si clona un repository da/su un'altra macchina.

Riassumendo, l'approccio di base di Git è il seguente:

1. Si modificano i file nella propria directory di lavoro.
2. Si aggiungono i file all'indice, aggiungendo così le loro istantanee alla staging area.
3. Quando si esegue il commit, i file presenti nell'indice (staging area) vengono utilizzati così come sono e questa istantanea viene salvata nella directory `.git` del progetto.

L'intera struttura di Git si basa in gran parte sulla necessità di salvare di volta in volta la versione corrente del progetto. Immaginate come sarebbe se non avessimo questo sistema e quanto sarebbe scomodo lavorare con i file. Se il file venisse modificato, ma fosse necessario tornare alla versione precedente a causa, ad esempio, di modifiche errate, sarebbe molto complicato ripristinare lo status quo e correggere l'errore a partire da semplici copie di backup effettuate di tanto in tanto.

Ecco perché uno dei concetti più importanti di Git è quello di commit, che significa salvare lo stato attuale del progetto. Ogni volta che si effettua un commit, il sistema registra l'aspetto di ogni file in quel momento e salva un link a questa istantanea. Per aumentare l'efficienza, a meno che non si faccia commit di un nuovo file, Git individua e archivia solo le modifiche al file (ovvero le differenze), non tutto il file per intero. Se non ci sono state modifiche, Git crea solo un "link" alla versione precedente del file identico già salvato.

Tutte le modifiche sono memorizzate nel database locale contenuto nella cartella `.git` che, come abbiamo detto, viene creata subito dopo l'inizializzazione di Git nella cartella del progetto. Ciò significa che la cronologia completa del progetto è accessibile sempre e istantaneamente. Se è necessario esaminare le modifiche apportate tra la versione corrente di un file e una versione creata un mese fa, Git è in grado di trovare il file di un mese fa e di calcolare le differenze.

Git possiede inoltre un sistema per assicurare la consistenza di questo database. In pratica non è possibile prendere e modificare il contenuto di un qualunque file (né della versione corrente né di una precedente) senza che Git se ne accorga. Questa funzionalità è integrata in Git a basso livello. In questo modo, per esempio durante un trasferimento dati, non si corre il rischio di perdere informazioni o di ottenere file danneggiati; se così fosse, Git se ne accorgerebbe immediatamente e ci avviserebbe che il database è stato corrotto.

### Modifica dei commit

Ma cosa succede se ci sono molte modifiche e alcune di esse si rivelano errate? E se abbiamo sbagliato l'ultimo commit e vogliamo annullarlo? Oppure se volgiamo ripristinare un file (o l'intero repository) alla sua versione precedente? Vediamo come fare.

Ci sono vari modi in cui è possibile procedere.

#### `git commit --amend`: annullare l'ultimo commit

Innanzitutto, se si è fatto un commit e ci si è subito resi conto che era sbagliato, si può usare il comando `git commit --amend`. Questo comando aggiunge tutto ciò che è stato fatto nell'ultimo commit all'area di staging e tenta di fare un nuovo commit, per cui è sufficiente digitarlo dopo il comando `git commit`. In questo modo è possibile correggere il commento o aggiungere i file mancanti all'area di staging.

#### `git revert`: annullare le modifiche apportate da un commit

Se l'errore è stato commesso diversi commit fa e le modifiche sono già state inviate al server, è necessario usare il comando `git revert`. Questo comando crea un commit che annulla le modifiche apportate nel commit con l'ID indicato:

```bash
$ git revert b10cc123
```

È possibile accedere al commit più recente inviato al server aggiungendo `HEAD` al comando `git revert` senza ID:

```bash
$ git revert HEAD
```

Quando si annullano i vecchi commit, bisogna essere preparati ai **conflitti**. Questi si verificano se il file è stato modificato da un altro commit più recente e ora git non riesce a trovare le righe che devono essere annullate perché, per esempio, potrebbero non esistere più. Cercate di tenerne conto.

#### `git checkout`: ripristinare una versione precedente

C'è un altro modo per gestire i commit errati, usando il comando `git checkout`. Se si vuole ottenere un file da un altro commit in cui l'errore non c'è ancora o è stato corretto, è possibile ottenerlo tramite `git checkout`. È necessario scrivere il comando stesso, l'ID del commit che si vuole eliminare e il nome del file in cui è stata apportata la modifica errata.

```bash
$ git checkout 09bd8cc1 my_file.txt
```

Torneremo sul comando `git checkout` quando parleremo di ***branching***, ma lì sarà usato in un contesto completamente diverso.

### Riassumendo

In questa sezione abbiamo visto i comandi base per operare su un repository locale. Riassumiamo quanto abbiamo imparato fino ad ora:

- Per creare un nuovo repository, usare il comando `git init`.
- Per controllare lo stato del repository in qualsiasi momento, usare il comando `git status`.
- Per aggiungere file al repository, usare `git add <filename.extension>` o `git add -A` per aggiungere tutti i file modificati nella working directory.
- Per fare il commit delle modifiche, usare `git commit` e non dimenticare di scrivere il commento!
- Per vedere quali commit sono stati fatti, è necessario ricordare i seguenti tre comandi:
    - `git log` per individuare il ***commit idetifier*** (ID commmit);
    - `git show <ID commit>` per vedere un commit specifico in base al suo identificatore;
    - `git diff <ID commit A>..<ID commit B>` per confrontare i commit.
- Per modificare i commit, usare:
    - `commit --amend` se ci si accorge dell'errore subito dopo aver fatto un commit;
    - se le modifiche sono già presenti sul server, usare `git revert <ID commit>` o `git revert HEAD` per l'ultimo commit.
- Per annullare il commit, usare il comando `git checkout`.

### GitHub

![github_logo.png](./imgs/git/github_logo.png)

Dato che useremo GitHub come provider di hosting Git, apriamo un breve intermezzo, prima di affrontare il discorso sui repository remoti. Vediamo cos'è GitHub, come creare un account e come impostare un repo remoto.

**[GitHub](https://github.com/)** è una piattaforma di hosting di codice. È un luogo in cui gli sviluppatori possono archiviare i loro progetti e lavorare insieme per svilupparne di nuovi. In questo modo è più facile collaborare e controllare le varie versioni dei software. **GitHub** si basa sul popolare sistema di controllo delle versioni **Git** e offre alcune funzionalità aggiuntive come un'interfaccia web, strumenti di collaborazione, un issue tracker, statistiche sui progetti e altro ancora.

GitHub è il più grande host di codice sorgente al mondo. Potete trovare molti progetti open-source popolari ospitati su GitHub e dare il vostro contributo.

In questa sezione imparerete a utilizzare GitHub attraverso il browser web. Vi consigliamo di ripetere passo dopo passo tutto ciò che facciamo qui.

#### Creare un account su GitHub

Per proccedere nel corso, è necessario [creare un account gratuito su GitHub](https://github.com/signup) (o utilizzarne uno esistente).

Il profilo è la vostra pagina pubblica su GitHub, proprio come il profilo di un social network. Quando cercate un lavoro come programmatore, i potenziali datori di lavoro potrebbero controllare il vostro profilo su GitHub e tenerne conto per valutare la vostra candidatura.

Quando create un account, vi verranno fatte tutta una serie di domande. Per ora è sufficiente indicare cbe non lavorate in team, che siete degli studenti e che userete la piattaforma per fare *collaborative coding*. Nell'ultimo passaggio scegliete infine "*Continue for free*".

Dopo aver completato la registrazione, sarete reindirizzati alla vostra dashboard. Nella parte superiore della pagina troverete la casella di ricerca e le informazioni sul vostro profilo. Potete aprire il vostro **profilo** e apportare modifiche (ad esempio, potete aggiungere una biografia o caricare una foto).

#### github.dev

L'editor web di [`github.dev`](`github.dev`) consente di visualizzare e modficare file dei repository GitHub direttamente nel browser. In pratica è un IDE online basato su Visual Studio Code.

Ci sono due modi per passare all'ambiente Visual Studio Code di `github.dev` nel browser e iniziare la codifica:

- Premere il tasto `.` su qualsiasi repository o richiesta di pull.
- Sostituire `.com` con `.dev` nell'URL. Ad esempio, questo repository https://github.COM/github/dev diventa http://github.DEV/github/dev.

Tuttavia non è possibile eseguire o fare il debug di codice Python, per fare ciò è necessario un container o una macchina virtuale, disponibile invece con _**GitHub Codespace**_. 

#### GitHub Codespace

Dalla tua dashboard di GitHub hai anche accesso a [Codespace](https://github.com/codespaces), un IDE online "istataneo", basato su Visual Studio Code, che puoi usare con il tuo browser.

A differenza di `github.dev` Per funzionare deve essere creato un container Docker, in esecuzione su una macchina virtuale (Ubuntu Linux di default) nel cloud di GitHub.

A febbraio 2023, con l'account gratuito, ogni mese potete usare Codespace per:

- 60 ore con una CPU da 2 core e 4 GB di RAM.
- 30 ore con una CPU da 4 core e 8 GB di RAM.

Inoltre avete 15 GB di spazio gratuito su disco.

#### Esplorare un repository

GitHub ospita milioni di progetti scritti in diversi linguaggi di programmazione. Ogni progetto è inserito in un proprio contenitore chiamato ***repository*** (o ***repo***) che può contenere codice, configurazioni, set di dati, immagini e altri file inclusi nel progetto.

Tutte le modifiche apportate ai file all'interno di un repository vengono tracciate tramite il controllo di versione.

Dopo aver ottenuto il proprio account, non si dispone di alcun repository. Nella dashboard personale potete cliccare sul pulsante verde a sinistra, "Crea un repository" e seguire le istruzioni.

Se si desidera trovare un repository specifico di un progetto, digitarne il nome o parte del nome nella casella di ricerca. Verrà visualizzato un elenco di repository adatti. A volte potrebbero esserci molti repository con lo stesso nome. Ad esempio, provare a cercare "`libgit2`". Di solito, si parte da un link a un repository. Molti progetti open-source pubblicano i link sui loro siti web personali, oppure i vostri colleghi potrebbero darvi un link a un repository di un progetto.

Ecco il link diretto a un [repository di esempio](https://github.com/libgit2/libgit2) esistente. Aprite questo repository e date un'occhiata alla sua struttura interna.

> NOTA: Su Github, dal 1° ottobre 2020, il ramo di default `master` è stato rinominato in `main`. Ora, in tutti i repository che verranno creati, il ramo principale si chiamerà `main`, mentre i vecchi repository creati prima di ottobre di quest'anno rimarranno invariati.

Ci sono molti file nella scheda **Code**. `README.md` è un file che descrive il progetto; ogni repository dovrebbe avere questo file. GitHub trova questo file e ne visualizza il contenuto sotto il repo. Un altro file è `.gitignore`, che contiene una lista di quali file e directory Git deve ignorare.

Anche se questo repo è pubblico, non si possono modificare direttamente i file in esso contenuti, perché si ha accesso in sola lettura a qualsiasi repository pubblico. Per modificare i file, è necessario essere un **collaboratore** di questo progetto.

La scheda **Pull requests** contiene proposte di modifica dei file presenti nel repository (aggiunta, eliminazione o modifica di file). I proprietari del repository possono esaminare una richiesta e approvare le modifiche se sono sufficientemente valide.

È possibile creare una **Issue** o fare una **Pull request** (PR) per contribuire al progetto, anche se non si è un collaboratore.

In questo progetto, non è attiva la scheda **Wiki**, ma in teoria è il luogo in cui dovrebbe essere conservata la documentazione del progetto (come usarlo, come è stato progettato, i suoi principi fondamentali e così via). In pratica è usato raramente e i progetti open source usano spesso piattaforme di terze parti come "[Read the Docs](https://readthedocs.org/)" o il servizio interno "[GitHub Pages](https://pages.github.com/)", offerto sempre sulla medesima piattaforma.

Mentre un `README.md` serve a far sapere rapidamente ai lettori cosa è in grado di fare il progetto, i wiki aiutano a fornire ulteriori informazioni.

In questa lezione non discutiamo le scheda **Projects**, **Actions** e **Security**.

Nella scheda **Insight** si possono trovare statistiche e informazioni sul repository.

Si possono anche vedere i **commit** che rappresentano le modifiche al contenuto del repository. [Ecco un link](https://github.com/libgit2/libgit2/commits/main) per vederli direttamente.

#### Riassumendo

GitHub è una piattaforma web in cui le persone possono archiviare i loro progetti come repo Git. Utilizzando la sua interfaccia web, è possibile creare un account, un repo e cercare i repo di altri progetti. Ogni repo sulla piattaforma ha diverse schede al suo interno, come **Code** con il file `README.md`, **Pull requests** dove è possibile proporre modifiche ai file, la scheda **Wiki** con la documentazione del progetto e **Insights** con le statistiche sul repository.

### Lavorare con un repository remoto

Immaginate che voi e il vostro team stiate sviluppando un progetto grande e complesso. Avete deciso di dividerlo in parti, di modo che ognuno possa concentrarsi su una di esse, e alla fine di unire i contributi di tutti. Qual è il modo migliore per farlo? L'approccio più semplice è quello di creare un repository remoto in cui ognuno caricherà le proprie versioni. In questo modo, non rischierete di fare confusione con le varie versioni del codice e di perdere gli aggiornamenti che provengono dagli altri membri.

In altre parole, quando qualcuno completa una parte del progetto, i nuovi dati vengono caricati nel repository remoto. Dopo aver aggiornato i dati, un altro membro del team potrà scaricarli, allineare il suo repo locale e continuare a lavorarci.

Esistono comandi utili, git clone, git push e git pull, per caricare e scaricare i dati da lì. Vediamo come funzionano.

Abbiamo due possibilità.

- Il repository remoto è già esistente e vogliamo scaricarlo per lavorare su di esso.
- Il repository è stato creato in locale e si desidera copiarlo su un server remoto.

Vediamo prima il caso, in cui il repo remoto sia già esistente.

Questo repository remoto può essere stato creato ex novo (originale) oppure facendo il _**fork**_ di un'altro repository, il punto fondamentale è che dovete avere pieno accesso ad esso.

#### Modifiche tramite interfaccia web

Alcuni provideri di hosting Git mettono a disposizione degli strumenti che consentono di modificare i file i file dei propri repositpry ed eseguire i commit direttamente tramite un'interfaccia web.

Questa interfaccia può essere un semplice editor di testo o un vero e proprio IDE sviluppato come una web app. Per esempio GitHub o GitLab offrono questo servizio.

Tuttavia gli strumenti di sviluppo messi a disposizione sono più limitati rispetto a un IDE installato sul proprio PC e molte operazioni sul codice (es. esecuzione e debug) è possibile eseguirle più facilmente e velocemente in locale;

Il metodo standard consiste dunque nel _**clonare**_ un repository remoto in una cartella locale e lavorare su di essa, preoccupandosi poi di mantenere allineate la copia locale e quella remota.

#### Usare repository pubblici

Supponiamo di voler modificare il progetto di qualcun altro o di usare il progetto di qualcun altro come punto di partenza per la nostra idea. Se non si è un collaboratore, non si possono modificare i file nel repo del progetto. Questo vale per un qualsiasi repository remoto non di vostra proprietà o, genericamente, su quelli per cui non avete le credenziali di accesso.

Possiamo clonare direttamente in locale qualunque repository pubblico, ma poi dove carichiamo in remoto le nuove modifiche se non abbiamo accesso al repo originale?

È duque consigliabile effettuare prima un _**fork**_ del repo tramite l'interfaccia web del nostro provider Git. Questa operazione crea una copia del repo originale nel nostro account, rendendoci così proprietari di quella copia.

Successivamente possiamo poi _**clonare**_ in locale il fork appena creato, su cui abbiamo il premesso di scriviere.

Possiamo ovviamente clonare in locale direttamente il repo originale, creare poi un repo rermoto vuoto di nostra proprietà e infine caricare su di esso il repo locale. In questo modo, non utilizzando l'opzione di fork, il nostro provider Git non identificherà automaticamente il nostro repo come un fork di quello originale. Anche se è possibile sistemare le cose in seguito, questo complica le operazioni in caso decidessimo di collaborare col progetto originale.

Se lo desideriamo è infatti possibile proporre ai manutentori del progetto originale le modifiche che abbiamo apportato tramite una _**richiesta di pull**_ (_**pull request**_ o PR). Se i proprietari/collaboratori del progetto apprezzano le vostre modifiche, potrebbero inserirle nel repository originale. Se il nostro repo clonato risulta essere un fork dell'originale, il nostro provider Git ci semplificherà le operazioni di pull request.

#### Creare un *fork*

Dato che usiamo GitHub come provider Git, per creare un fork, è necessario inanzitutto fare il login su GitHub. Aprite [questo repository di esempio](https://github.com/libgit2/libgit2) e fate clic su **Fork** nell'angolo in alto a destra della pagina.

Si aprirà una pagina che vi consente di:

- Scegliere un nome per il repository. Lasiamo `libgit2`.
- Decidere se copiare solo il branch principale (`main`) anziché l'intero repository (con tutti gli altri branch). Lasciamo spuntata l'opzione e copiamo solo il branch `main`.

![github-fork.png](./imgs/git/github-fork.png)

Dopo che avrete confermato, verrete automaticamente reindirizzati al vostro fork del repository originale. Potete trovarlo anche nella pagina "Your repositories" (cliccate sul vostro profilo nell'angolo in alto a destra della pagina).

Una volta effettuato il fork del [repository di esempio](https://github.com/libgit2/libgit2), dovremmo avere la seguente situazione:

- https://github.com/libgit2/libgit2 che ospita il repository originale.
- https://github.com/MyAccountName/libgit2 che ospita il nostro fork.

Un fork non è altro che un normale repository ospitato su GitHub, come quello originale.

Per mantenere aggiornato il vostro fork, potete usare la fuzione "Sync":

![github-forked-repo.png](./imgs/git/github-forked-repo.png)

D'ora in avanti la seguente esercitazione userà il repository fittizio `https://github.com/MyAccountName/libgit2.git`. Nauralmente dovrete sostituire "`MyAccountName`" con il nome del vostro account GitHub.

#### Flusso di lavoro con GitHub

L'approccio standard per lavorare con un progetto è dunque quello di avere una copia locale del repository e fare il commit delle modifiche su questa copia. Questo repository locale ha la cronologia completa delle versioni del progetto, che può essere utile quando si lavora senza una connessione a Internet. Dopo aver modificato qualcosa nel repository locale, si possono inviare le modifiche al repository remoto per renderle visibili agli altri sviluppatori.

L'immagine seguente mostra il flusso di lavoro valido con un qualsiasi provider di hosting Git.

![lifecycle_local_remote.png](./imgs/git/lifecycle_local_remote.png)

Osserviamko il blocco relativo al Git hosting provider. Ci sono due repository:

- `upstream` è il repository originale del progetto che avete biforcato;
- `origin` è il vostro ***fork*** (copia) su GitHub a cui avete pieno accesso.

Per implementare le modifiche dal vostro fork al repo originale del progetto, dovete fare una ***pull request*** come abbiamo detto in precedenza, ma questo è un argomento più avanzato che potrete approfondire per conto vostro, se e quando ne avrete la necessità.