(intro_Python_notebook)=
# Introduzione a Python

Questo capitolo descrive brevemente alcuni concetti che risultano utili per analizzare dati in modo esplorativo usando Python come linguaggio di programmazione e jupyter come ambiente di elaborazione. Qui fornirò solo dei brevi accenni a questa materia: ci sono tantissime risorse in rete dove potere approfondire questo argomento. Tra le tante, suggerisco [*Python Programming for Data Science*](https://www.tomasbeuzen.com/Python-programming-for-data-science/README.html) di Tomas Beuzen.

## Cosa significa "programmare"?

Python è un linguaggio "general purpose", il che significa che può essere utilizzato per scopi molto diversi: dai giochi per computer alla creazione di siti Web (ad esempio, il presente sito web), dalla data science alle applicazioni software; viene persino utilizzato per controllare un elicottero che vola su Marte. Conoscere Python è molto [utile](https://www.apa.org/science/about/psa/2019/07/python-research), anche perché, in seguito, risulta più semplice imparare linguaggi più specializzati come R o JavaScript. I concetti di programmazione di base che discuteremo in questo insegnamento vengono utilizzati in tutti i linguaggi di programmazione. 

Python ha la fama di essere semplice da capire ma anche divertente da usare. Il suo nome, infatti, è un omaggio ai comici inglesi [Monty Python](https://www.youtube.com/results?search_query=monty+Python). Tuttavia, è anche ovvio che, come tutti i linguaggi di programmazione, richiede tempo ed esercizio per essere appreso. È bene chiarire fin dall'inizio che *nessuno* memorizza neppure la metà di tutte le istruzioni e le regole sintattiche che verranno presentate in questo libro. La maggior parte del tempo che si spende a programmare è in realtà tempo speso a cercare online come risolvere questo o quel problema, a fare il "debugging" del codice per trovare gli errori, o a testare il codice. Questo vale per tutti i programmatori, indipendentemente dal loro livello. Lo scopo di ciò che dirò in questa dispensa è presentare **i concetti** di base della programmazione, **non la sintassi precisa** (quella è facile da trovare su web una volta che si è capito *cosa* cercare). Sapere usare Google è dunque una delle abilità più importanti di qualsiasi programmatore. Ricordati: *Google is your friend.*

## I tipi di dati semplici e gli operatori

Iniziamo a capire che cosa viene manipolato da Python e con quali strumenti. Ovvero, introduciamo i dati semplici e gli operatori. Ogni valore in Python ha un *tipo* che indica il genere di dato che il valore rappresenta. I tipi di dati fondamentali sono quello booleano (`bool`, che fa riferimento alle costanti `True` e `False`), quello intero (`int`) e quello a virgola mobile (`float`). 

Il tipo di dato intero permette di memorizzare numeri interi. Il tipo di dato a virgola mobile permette di memorizzare numeri decimali. Per esso si utilizza la notazione tipica in ambito informatico per cui si indica il segno, seguito dalle cifre intere, dal carattere `.` e dalle cifre decimali. Nel caso in cui si debbano specificare dei valori molto grandi o molto piccoli si usa la notazione _scientifica_: si indica un valore di _mantissa_ (con o senza virgola) seguito dal carattere `E` (o `e`) e da un numero intero detto _esponente_, e tale espressione genera il valore numerico pari al prodotto della mantissa per `10` elevato all'esponente. Pertanto `1E9` e `1E-9` indicano rispettivamente un miliardo e un miliardesimo.

Per vedere il tipo di un valore, si usa la funzione `type()`:

In [1]:
type(42)

int

In [2]:
type(3.7)

float

In [3]:
type(True)

bool

Utilizzando i valori booleani, interi o a virgola mobile è possibile costruire espressioni arbitrariamente complesse utilizzando degli _operatori_. Considereremo qui quelli di tipo _binario_ (cioè che si applicano a due argomenti). Gli operatori vengono utilizzati per codificare operazioni logiche e relazioni aritmetiche. La tabella seguente riassume i principali simboli utilizzati in Python per questo tipo di operatori binari.

| Operazione         | Simbolo   |
|--------------------|-----------|
|addizione           | `+`       |
|sottrazione         | `-`       |
|moltiplicazione     | `*`       |
|divisione (reale)   | `/`       |
|divisione (intera)  | `//`      |
|resto (modulo)      | `%`       |
|elevamento a potenza| `**`      |

L'applicazione degli operatori aritmetici in Python dipende dalle seguenti regole di precedenza degli operatori, che sono analoghe a quelle usate in algebra.

1. Le espressioni tra parentesi vengono valutate per prime. 
2. Successivamente si valutano gli elevamenti a potenza. 
3. In seguito, si valutano moltiplicazioni, divisioni e moduli. 
4. Per ultime vengono valutate somme e sottrazioni. 

Spendiamo ancora qualche parola sui valori booleani. Il tipo booleano è un tipo di dati i cui unici valori possibili sono `True` e `False`. Esistono due tipi di operazioni associate ai valori booleani: operazioni booleane, in cui vengono combinati i valori booleani esistenti, e operazioni condizionali, che creano un valore booleano quando vengono eseguite.

Gli operatori booleani che restituiscono valori booleani sono i seguenti:

| Operatore |  Descrizione                     |
| :-------: | :------------------------------- |
| `x and y` | "x" e "y" sono entrambi veri?    |
| `x or y`  | è vero almeno uno tra `x` e `y`? |
| `not x`   | `x` è falso?                     |

Questi operatori si comportano come ci possiamo aspettare. "True and False" restituisce "False":

In [1]:
True and False

False

Mentre "True or False" restituisce "True":

In [2]:
True or False

True

C'è anche la parola chiave `not`. Per esempio

In [3]:
not True

False

È possibile eseguire le operazioni aritmetiche sui valori booleani: True equivale a 1 e False a 0. Per esempio:

In [5]:
True + True + False

2

Una condizione è un'espressione che ritorna un valore booleano. Per esempio:

In [6]:
10 == 20

False

L'operatore `==` confronta gli oggetti su entrambi i lati e restituisce `True` se hanno gli stessi *valori* e `False` altrimenti. Ecco una tabella di condizioni che restituiscono valori booleani:

| Operatore | Descrizione |
| :-------- | :----------------------------------- |
| `x == y` | `x` è uguale a `y`? |
| `x != y` | `x` non è uguale a `y`? |
| `x > y` | `x` è maggiore di `y`? |
| `x >= y` | "x" è maggiore o uguale a "y"? |
| `x <y` | `x` è minore di `y`? |
| `x <= y` | "x" è minore o uguale a "y"? |
| `x è y` | "x" è lo stesso oggetto di "y"? |

Come si può vedere dalla tabella, l'opposto di `==` è `!=`, che si può leggere come 'non uguale al valore di'. 

Nella cella seguente si presti attenzione all'uso di `=` e di `==`:

In [1]:
boolean_condition = 10 == 20
print(boolean_condition)

False


L'operatore `=` è un'istruzione di *assegnazione*. Ovvero, crea un nuovo oggetto. Tutte le istruzioni Python in cui vengono creati degli oggetti (istruzioni di *assegnazione*) hanno la stessa forma:

```
object_name = value
```

Quando leggiamo l'istruzione precedente possiamo pensare: "`object_name` ottiene il valore `value`". Per esempio:

In [2]:
a = 3
print(a)

3


L'operatore `==` valuta invece una condizione logica e ritorna un valore booleano. Per esempio:

In [4]:
a == 10

False

È sempre possibile capire cosa contiene un oggetto già creato semplicemente digitando il nome dell'oggetto in una cella di notebook Jupiter:

In [5]:
a

3

## I tipi di dati strutturati

Oltre ai numeri e ai valori booleani, Python supporta anche un insieme di "contenitori", ovvero i seguenti tipi strutturati: le liste, le tuple, le stringhe, gli insiemi e i dizionari. 

### Le liste
Una lista è una struttura dati *eterogenea* contentente una sequenza di elementi che possono essere di tipo diverso. Una lista si indica separando i suoi elementi tramite virgola e racchiudendo il tutto tra parentesi quadre. 

In [8]:
my_list = ['Pippo', 3, -2.953, [1, 2, 3]]
my_list

['Pippo', 3, -2.953, [1, 2, 3]]

La lista `my_list` contiene una stringa ('Pippo'), un numero intero (3), un numero decimale (-2.953) e un'altra lista ([1, 2, 3]). Si noti che l'elemento 'Pippo' (una stringa) è racchiuso tra singoli apici (ma potrebbero anche essere doppi apici). 

Gli elementi della lista sono ordinati per indice (index), un numero che si riferisce alla loro posizione nella lista. Gli indici delle liste partono da 0 e aumentano di uno. Per accedere ad un elemento della lista per indice si usa la notazione con la parentesi quadra: `list_name[index]`. Per esempio:

In [9]:
my_list[1]

3

In [10]:
my_list[0]

'Pippo'

Python prevede alcune funzioni che elaborano liste, come per esempio `len` che restituisce il numero di elementi contenuti in una lista:

In [11]:
len(my_list)

4

Python è un linguaggio di programmazione orientato agli oggetti e le liste sono degli oggetti su cui è possibile invocare *metodi*. Supponiamo di voler mettere in ordine alfabetico i nomi che costituiscono gli elementi di una lista: la corrispondente operazione di ordinamento richiede di invocare sulla lista il metodo `sort` usando la _dot notation_:

In [12]:
names = ['Carlo', 'Giovanni', 'Giacomo']
names.sort()

Tale metodo però non restituisce alcun valore, in quanto l'ordinamento è eseguito _in place_: dopo l'invocazione, gli elementi della lista saranno stati riposizionati nell'ordine richiesto.  Visualizziamo la listra trasformata:

In [13]:
names

['Carlo', 'Giacomo', 'Giovanni']

L'invocazione di metodi (e di funzioni) prevede anche la possibilità di specificare degli argomenti _opzionali_. Per esempio:

In [21]:
names.sort(reverse=True)
names

['Giovanni', 'Giacomo', 'Carlo']

### Le tuple
Una tupla è una lista immutabile: una volta creata non è possibile modificarne i contenuti. Gli elementi di una tupla, separati da virgole, sono delimitati da parentesi tonde.

In [22]:
colors = ('Rosso', 'Nero', 'Bianco')
colors

('Rosso', 'Nero', 'Bianco')

Le stringhe sono tuple di caratteri. Pertanto non sono modificabili.

### Gli insiemi
Gli insiemi sono una collezione finita di elementi tra loro distinguibili e non memorizzati in un ordine particolare. Non è possibile che un insieme contenga più di un'istanza di un medesimo elemento. 

###  I dizionari
I dizionari servono a memorizzare delle associazioni tra oggetti. Sono costituiti da insiemi di coppie (chiave, valore), dove una data chiave non occorre più di una volta. Un dizionario viene creato indicando ogni coppia come `chiave : valore`, separando le varie coppie con delle virgole e racchiudendo il tutto tra parentesi graffe. Ad esempio:

In [23]:
music = {'blues': 'Betty Smith',
         'classical': 'Gustav Mahler',
         'pop': 'David Bowie'}

L'accesso agli elementi di un dizionario viene fatto specificando all'interno di parentesi quadre la chiave per ottenere o modificare il valore corrispondente:

In [24]:
music['pop']

'David Bowie'

### Contenitori vuoti

A volte è utile creare dei contenitori vuoti. I comandi per creare liste vuote, tuple vuote, dizionari vuoti e insiemi vuoti sono rispettivamente `lst = []`, `tup=()`, `dic={}` e `st = set()`.

## Funzioni
Nella programmazione una funzione ha un input, esegue delle operazioni e restituisce un eventuale output. Python ha un gran numero di funzioni integrate. È possibile importare altre funzioni da pacchetti aggiuntivi o definire nuove funzioni. La cella seguente riporta un esempio in cui importiamo la libreria `numpy`:

In [14]:
import numpy as np

Calcolo la somma degli elementi di della lista numerica `primes` usando funzione `np.sum()` contenuta nella libreria numpy che ho importato con il nome di `np`:

In [17]:
primes = [1, 2, 3, 5, 7, 11, 13]
np.sum(primes)

42

Applichiamo la funzione `np.mean()`:

In [27]:
np.mean(primes)

6.0

È anche possibile definire nuove funzioni. La definizione di una funzione in Python viene fatta utilizzando la parola chiave `def` seguita dal nome del metodo e dai nomi simbolici per i suoi argomenti, separati da virgole e racchiusi tra parentesi. La definizione procede con un carattere di due punti e dal corpo della funzione le cui istruzioni devono essere indentate di un livello.

Per fare un esempio di creazione di una funzione, scrivo la funzione della media, $n^{-1}\sum_{i=1}^n x_i$:

In [28]:
def my_mean(x):
    res = np.sum(x) / len(x)
    return res

In [29]:
my_mean(primes)

6.0

Si notino due cose. 1. È possibile, nel corpo di una funzione, usare altre funzioni. 2. Indentare il codice è una pratica comune in tutti i linguaggi, perché semplifica la lettura del codice e la compresione della sua struttura. In Python, tuttavia, l'indentazione è obbligatoria, nel senso che, nell'esempio precedente, delimita il blocco di codice che costituisce il corpo della funzione. Dunque, indentare in modo incorretto comporta la comparsa di errori.

È sempre possibile usare la funzione di `help` su una funzione:

In [30]:
help(sum)

Help on built-in function sum in module builtins:

sum(iterable, /, start=0)
    Return the sum of a 'start' value (default: 0) plus an iterable of numbers
    
    When the iterable is empty, return the start value.
    This function is intended specifically for use with numeric values and may
    reject non-numeric types.



In Visual Studio Code è sufficiente posizionare il cursore sul nome della funzione.

## Il flusso di esecuzione

In Python il codice viene eseguito sequenzialmente, partendo dalla prima riga fino a quando non c'è più nulla da eseguire. L'ordine di esecuzione delle varie istruzioni è detto *flusso di esecuzione*. 

Per esempio la cella seguente crea tre liste, una con nomi di psicologia e le altre due con i corrispondenti anni di nascita e di morte, e le memorizza nelle variabili `names`, `born` e `dead`.

In [None]:
names = ['Sigmund Freud', 'Jean Piaget', 'Burrhus Frederic Skinner', 'Albert Bandura']
born = [1856, 1896, 1904, 1925]
dead = [1939, 1980, 1990, None]

Il valore speciale `None` è stato utilizzato nel caso in cui non risulta disponibile l'anno. In queste situazioni si parla di *valori mancanti* (*missing values*) che di norma vengono indicati con la sigla NA (*not available*). 

Lo script include istruzioni condizionali che specificano se e quando devono essere eseguiti determinati blocchi di codice.

La più semplice istruzione di controllo è l'istruzione `if`. Per esempio:

In [None]:
name = "Maria"
grade = 29

if name == "Maria" and grade > 28:
    print("Maria, hai ottenuto un ottimo voto all'esame!")

if name == "Giovanna" or grade > 28:
    print("Tu potresti essere Giovanna o potresti avere ottenuto un ottimo voto all'esame.")

if name != "Giovanna" and grade > 28:
    print("Tu non sei Giovanna ma hai ottenuto un ottimo voto all'esame.")

Tutte e tre le condizioni precedenti ritornano `True`, quindi vengono stampati tutti e tre i messaggi. 

Si noti che `==` e `!=` confrontano *valori*, mentre `is` e `not` confrontano *oggetti*. Per esempio,

In [None]:
name_list = ["Maria", "Giovanna"]
name_list_two = ["Marco", "Francesco"]

# Compare values
print(name_list == name_list_two)

# Compare objects
print(name_list is name_list_two)

Una delle parole chiave condizionali più utili è `in`. Un esempio è il seguente:

In [None]:
name_list = ["Maria", "Giovanna", "Marco", "Francesco"]

print("Giovanna" in name_list)
print("Luca" in name_list)

La condizione opposta è `not in`.

In [None]:
print("Luca" not in name_list)

Facciamo un altro esempio.

In [None]:
age = 26
if age >= 18:
    print("Sei maggiorenne")

Una struttura di selezione leggermente più complessa è "if-else". La sintassi di questa struttura è la seguente:

```
if <condizione>:
    <istruzione_se_condizione_vera>
else:
    <istruzione_se_condizione_falsa>
```

La semantica di "if-else" è quella che ci si aspetta: la condizione tra la parola chiave `if` e il carattere di due punti viene valutata: se risulta vera viene eseguita l'istruzione alla linea seguente, altrimenti viene eseguita l'istruzione dopo la parola chiave `else`. Anche in questo caso l'indentazione permette di identificare quali istruzioni devono essere eseguite nei due rami della selezione. Per esempio:

In [20]:
age = 16
if age >= 18:
    print("Sei maggiorenne")
else:
    print("Sei minorenne")

Sei minorenne


In presenza di più di due possibilità mutuamente esclusive ed esaustive possiamo usare l'istruzione `elif`. Per esempio:

In [21]:
cfu = 36
thesis_defense = False

if cfu >= 180 and thesis_defense == True:
    print("Puoi andare a festeggiare!")
elif cfu >= 180 and thesis_defense == False:
    print("Devi ancora superare la prova finale!")
else:
    print("Ripassa tra qualche anno!")

Ripassa tra qualche anno!


### Commenti
In Python è possibile usare il carattere # per aggiungere commenti al codice. Ogni riga di commento deve essere preceduta da un #. I commenti non devono spiegare il metodo (cosa fa il codice: quello si vede), ma bensì lo scopo: *quello che noi intendiamo ottenere*. I primi destinatari dei commenti siamo noi stessi tra un po' di tempo, ovvero quando ci saremo dimenticati cosa avevamo in mente quando abbiamo scritto il codice.

In [18]:
# This is a comment and will not be executed.

## Cicli

### Il ciclo `while`
il ciclo `while` permette l'esecuzione di un blocco di codice finché una determinata condizione è True. Per esempio:

In [31]:
counter = 0

while counter <= 10:
    print(counter)
    counter += 1

0
1
2
3
4
5
6
7
8
9
10


Il codice `counter += 1` è equivalente a `counter = counter + 1` e, ogni qualvolta viene eseguito il ciclo, riassegna alla variabile `counter` il valore che aveva in precedenza + 1.

L'istruzione `while` controlla se alla variabile `counter` è associato un valore minore o uguale a 10. Nel primo passo del ciclo la condizione è soddisfatta, avendo noi definito `counter = 0`, pertanto il programma entra nel loop, stampa il valore della variabile `counter` e incrementa `counter` di un'unità. 

Questo comportamento si ripete finché la condizione `counter <= 10` risulta True. Quando il contatore `counter` assume il valore 11 il ciclo `while` si interrompe e il blocco di codice del ciclo non viene più eseguito.

### Il ciclo `for`

Il ciclo `for` permette di ripetere l'esecuzione di una determinata porzione di codice più volte finché la condizione di controllo resta True:

In [None]:
for number in range(11):
    print(number)

La funzione `range()` permette di impostare un intervallo di esecuzione tanto ampio quanto il numero che le passiamo come parametro meno uno. L'indicizzazione Python parte da 0; quindi l'intervallo definito sopra può essere compreso come una lista di 11 elementi, da 0 a 10 inclusi. L'intervallo di `range()` corrisponde al numero di iterazioni che verranno eseguite, ovvero al numero di volte che il ciclo for verrà processato.

La funzione range prende tre parametri (start, stop e step), ovvero un punto di inizio dell'intervallo, un punto di fine e un passo di avanzamento. Ad esempio, impostiamo un punto di inizio a 3, il punto di fine a 11 e un passo di 2:

In [None]:
for number in range(3, 11, 2):
    print(number)

Esaminiamo un esempio più complesso. Nel seguente ciclo `for`, la parola chiave `enumerate` implicitamente definisce un indice che tiene traccia della posizione degli elementi nella lista:

In [53]:
name_list = ["Maria", "Marco", "Francesco", "Giovanna"]

for i, name in enumerate(name_list):
    print(f"Nella lista l'indice {i} è associato al nome {name}")

Nella lista l'indice 0 è associato al nome Maria
Nella lista l'indice 1 è associato al nome Marco
Nella lista l'indice 2 è associato al nome Francesco
Nella lista l'indice 3 è associato al nome Giovanna


Si noti la formattazione f-string. Le stringhe formattate, chiamate anche f-string, consentono di inserire delle espressioni Python in una stringa di testo, racchiudendole dentro parentesi graffe. Nell'esempio precedente il testo all'interno delle virgolette viene visualizzato esattamente come digitato. Le parentesi graffe sono un segnaposto che contiene variabili Python. Una volta eseguito il codice la funzione `print()` visualizza la parte letterale (il testo) insieme ai valori delle variabili a cui abbiamo fatto riferimento. Si noti anche che il ciclo fa simulteneamente riferimento a due contatori: `i` e `name`.

Un altro utile tipo di ciclo `for` fa uso della funzione `zip`. Puoi pensare alla funzione `zip` come a una cerniera lampo, che riunisce gli elementi di due diversi iteratori. Ecco un esempio:

In [28]:
first_names = ["Maria", "Marco", "Francesco", "Giovanna"]
last_names = ["Blu", "Giallo", "Bianco", "Nero"]

for forename, surname in zip(first_names, last_names):
    print(f"{forename} {surname}")

Maria Blu
Marco Giallo
Francesco Bianco
Giovanna Nero


### List comprehension

C'è un secondo modo per eseguire i cicli in Python e, nella maggior parte dei casi, funziona più velocemente. Si chiamano *list comprehensions*.

Una *list comprehension* combina un ciclo `for` e (se necessario) una condizione logica in una singola riga di codice. 

Consideriamo l'esempio di un ciclo `for` che aggiunge '1' a ogni valore di una lista. 

In [23]:
primes

[1, 2, 3, 5, 7, 11, 13]

In [24]:
for prime in primes:
    print(prime + 1)

2
3
4
6
8
12
14


Usiamo ora una *list comprehension*:

In [26]:
[1 + prime for prime in primes]

[2, 3, 4, 6, 8, 12, 14]

Si noti che la parola `prime` avrebbe potuto essere quasi qualsiasi parola. La possiamo immaginare con la seguente definizione: `...per ogni elemento in ...`. 

Facciamo un altro esempio usando `range()`:

In [55]:
num_list = range(50, 60)
[1 + num for num in num_list]

[51, 52, 53, 54, 55, 56, 57, 58, 59, 60]

La sintassi di una *list comprehensions* si legge distinguendo il ciclo `for` da quello che c'è scritto prima. Indichiamo l'operazione da eseguire prima della parola chiave `for`  -- in questo caso, sommare 1. L'operazione si applica all'oggetto indicato da una parola arbitraria (qui `num`) che si riferisce agli elementi della lista indicata (qui `num_range`). 

In questo esempio vengono selezionati solo i nomi inclusi nella lista `female_names`:

In [32]:
female_names = ["Maria", "Giovanna"]
female_list = [x for x in first_names if x in female_names]
print(female_list)

['Maria', 'Giovanna']


## Librerie e moduli

### Importare moduli

I moduli (anche conosciuti come librerie in altri linguaggi) sono dei file usati per raggruppare funzioni e altri oggetti. Python include già una lista estensiva di moduli standard (anche conosciuti come Standard Library), ma è anche possibile scaricarne o definirne di nuovi. Prima di potere utilizzare le funzioni non presenti nella Standard Library all'interno dei nostri programmi dobbiamo importare dei moduli aggiuntivi, e per fare ciò usiamo il comando `import`. 

L'importazione può riguardare un intero modulo oppure solo uno (o più) dei suoi elementi. Consideriamo per esempio la funzione `mean` che abbiamo appena usato. Essa è disponibile nel modulo `numpy`. L'istruzione `import numpy` importa tutto il modulo [numpy](http://www.numpy.org). Dopo che un modulo è stato importato, è possibile accedere a un suo generico elemento usando il nome del modulo, seguito da un punto e dal nome dell'elemento in questione.

Indicare il nome di un modulo per poter accedere ai suoi elementi ha spesso l'effetto di allungare il codice, diminuendone al contempo la leggibilità. È per questo motivo che è possibile importare un modulo specificando un nome alternativo, più corto. È quello che succede quando scriviamo l'istruzione `import numpy as np`.

I moduli più complessi sono organizzati in strutture gerarchiche chiamate _package_. La seguente cella importa il modulo `pyplot` che è contenuto nel modulo `matplotlib` ([matplotlib](http://matplotlib.org) è la libreria di riferimento in Python per la creazione di grafici).

In [None]:
import matplotlib.pyplot as plt

Nella cella seguente importo `seaborn` con il nome `sns` e uso le sue funzionalità per  impostare uno stile e una palette di colori per la visualizzazione dei grafici.

In [None]:
import seaborn as sns
sns.set_theme()
sns.set_palette("colorblind")

## Leggere dati da file 
Di solito la quantità di dati da analizzare è tale che non è pensabile di poterli immettere manualmente in una o più liste come abbiamo fatto sopra. Normalmente i dati sono memorizzati su un file ed è necessario leggerli. La lettura (importazione) dei file è il primo fondamentale passo nel processo più generale di analisi dei dati. 


Per fare un esempio, consideriamo file `penguins.csv` contenuto nella directory `data`. La cella seguente legge i contenuti del file `penguins.csv` e li inserisce nell'oggetto `df` udando la funzione `read_csv()` del modulo pandas.

In [33]:
import pandas as pd

df = pd.read_csv('data/penguins.csv')

Nella cella precedente, la funzione `read_csv()` che apre il file accetta come primo argomento il pathname corrispondente. Possiamo visualizzare le prime cinque righe dell'oggetto `df` usando il metodo `.head()`:

In [36]:
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
3,Adelie,Torgersen,,,,,,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007


Il modulo pandas verrà discusso nel capitolo {ref}`intro_pandas_notebook`.

## Watermark

In [None]:
%load_ext watermark
%watermark -n -u -v -iv -w -p pytensor