# **Python for Data Analysis Basics**

## Datetime, Loops, If-Else

In [2]:
from datetime import datetime, date, time
dt = datetime(2011, 10, 29, 20, 30, 21)

In [3]:
dt.day

29

In [4]:
dt.month

10

In [5]:
dt.year

2011

In [6]:
dt.hour

20

In [7]:
dt.minute

30

In [8]:
dt.second

21

## Estrarre gli elementi **Date e Time da un oggetto Datetime**

In [9]:
dt.date()

datetime.date(2011, 10, 29)

In [10]:
dt.time()

datetime.time(20, 30, 21)

## Conversione **da Datetime a Stringa** e diverse formattazioni

In [11]:
dt.strftime('%m/%d/%Y %H:%M')

'10/29/2011 20:30'

In [12]:
dt.strftime('%d/%m/%Y %H:%M')

'29/10/2011 20:30'

In [13]:
dt.strftime('%d/%m/%Y %H:%M %W')

'29/10/2011 20:30 43'

In [14]:
dt.strftime('%W')

'43'

In [15]:
dt.strftime('%D')

'10/29/11'

## Conversione **da Stringa a Datetime**

In [16]:
datetime.strptime('20091031', '%Y%m%d')

datetime.datetime(2009, 10, 31, 0, 0)

## **Timedelta** e formattazione degli output

In [17]:
dt2 = datetime(2011, 11, 15, 22, 30)

In [18]:
dt2.strftime('%d/%m/%Y %H:%M %W')

'15/11/2011 22:30 46'

In [19]:
delta = dt2-dt
delta

datetime.timedelta(days=17, seconds=7179)

In [20]:
((delta.seconds)/60)/60

1.9941666666666669

In [21]:
str(delta.days) + " days and " + f"{(((delta.seconds)/60)/60):.2f}" + " hours"

'17 days and 1.99 hours'

In [22]:
f"{delta.days}" + f"{' days and ' if delta.days > 1 else ' day and '}" + f"{(((delta.seconds)/60)/60):.2f}" + " hours"

'17 days and 1.99 hours'

In [23]:
(dt+delta).strftime('%d/%m/%Y %H:%M')

'15/11/2011 22:30'

## **Pacchetti/Parser Datetime**

I più veloci pacchetti/parser per oggetti Datetime in Python sono Pendulum (https://pendulum.eustace.io/docs/) e Ciso8601 (https://github.com/closeio/ciso8601).

# **Loops** e **Keywords**

**Continue** esce dal ciclo corrente al verificarsi di una condizione, inizializzando un nuovo ciclo.

In [24]:
sequence = [1, 2, None, 4, None, 5]
total = 0
for value in sequence:
    if value is None:
        continue
    total += value
total

12

**Break** esce unilateralmente da un loop.

In [25]:
sequence = [1, 2, 0, 4, 6, 5, 2, 1]
total_until_5 = 0 
for value in sequence:
    if value == 5:
        break
    total_until_5 += value
total_until_5

13

## **Ranges e Loops** 

In [26]:
range(10)

range(0, 10)

Il metodo **list()** converte una stringa o un set in una lista.

In [27]:
list(range(0, 10, 2))

[0, 2, 4, 6, 8]

La principale funzione di **range()** consiste nel produrre una set che fornisca un set di elementi su cui **iterare** un loop.

In [28]:
sum = 0
for i in range(100000):
    if i % 3 == 0 or i % 5 == 0:
        sum += i
sum

2333316668

## **Combinare blocchi if/else** in espressioni singole: le **Ternary Expressions**

#variable = <true expression> if condition else <false expression>

In [30]:
number = 1
sign = 'Positive' if number > 0 else 'Negative'
sign

'Positive'

In [31]:
number = -2
sign = 'Positive' if number > 0 else 'Negative'
sign

'Negative'

Le **Ternary Expressions** possono essere posizionate ovunque, come mostra l'esempio seguente:

In [32]:
f"{delta.days}" + f"{' days and ' if delta.days > 1 else ' day and '}" + f"{(((delta.seconds)/60)/60):.2f}" + " hours"

'17 days and 1.99 hours'

# **Strutture dati** integrate: **Tuple**, **Liste** e **Dictionaries**

## **Tuple**

Le tuple sono **sequenze di oggetti**, **immutabili** e di **lunghezza fissa**:

In [33]:
tupla = 0, 1, 2
tupla

(0, 1, 2)

In [34]:
tupla = 'cacca', 'pupù', 2
tupla

('cacca', 'pupù', 2)

E' possibile convertire ogni sequenza o iteratore in una tupla mediante la funzione tuple():

In [35]:
tuple([0, 1, 2])

(0, 1, 2)

In [36]:
tupla = tuple('cacca')
tupla

('c', 'a', 'c', 'c', 'a')

E' possibile accedere agli elementi di una tupla mediante la notazione **tupla[indice]**, il primo elemento ha sempre indice 0.

In [37]:
tupla[0]

'c'

Anche se una tupla di per sè è immutabile, ciò non preclude che gli elementi che la compongono siano immutabili:

In [38]:
tupla = tuple([0, ['cacca', 'pupù'], 2])
tupla[1].append('shit')
tupla

(0, ['cacca', 'pupù', 'shit'], 2)

E' possibile usare l'operatore **+** per **concatenare** tuple:

In [39]:
tupla = (0, 1, 2) + (3, 4) + (5, 6, 7)
tupla

(0, 1, 2, 3, 4, 5, 6, 7)

E' possibile usare l'operatore * per **copiare** una tupla N volte:

In [40]:
tupla = (0, 1, 2)
tupla*2

(0, 1, 2, 0, 1, 2)

Come tutte le strutture dati, anche le tuple dispongono di metodi, **tuttavia solo di due: count() e index()**. Count() restituisce il numero di istanze dell'argomento nella tupla, se presente.


In [41]:
tupla.count(2)

1

**Index()** restituisce l'indice dell'argomento nella tupla, se presente.

In [42]:
tupla.index(2)

2

## **Lists**

Le liste sono **sequenze di oggetti**, **modificabili** e di **lunghezza variabile**.

In [43]:
lista = [0, 1, 2, 3, 4, 5]
lista

[0, 1, 2, 3, 4, 5]

### Conversione con **List(tuple/array)**

E' possibile convertire facilmente una tupla in una lista, mediante la funzione list():

In [44]:
tupla = 'cacca','pupù','shit'
lista = list(tupla)
lista

['cacca', 'pupù', 'shit']

### Verificare la presenza di un elemento con **In/Not In**

In [45]:
'pupù' in lista

True

In [46]:
'pupù' not in lista

False

In [47]:
'merda' not in lista

True

### Modificare una lista: la notazione **[index]**, i metodi **Insert()**, **Append()**, **Extend()** e l'operatore **+**

E' possibile **cambiare** un elemento della lista richiamando il suo indice e indicando il nuovo valore:

In [48]:
lista[2] = 'merda'
lista

['cacca', 'pupù', 'merda']

Il metodo **Insert(*index*, *object*)** consente **l'inserimento** di *object* in posizione *index*, o fra 0 e la lunghezza della lista.

In [49]:
lista.insert(0, 'feci')
lista

['feci', 'cacca', 'pupù', 'merda']

Il metodo **Append(*object*)** consente **l'aggiunta** di *object* **in coda** alla lista.

In [50]:
lista.append('stronzi')
lista

['feci', 'cacca', 'pupù', 'merda', 'stronzi']

L'operatore **+** consente la concatenazione di una o più liste:

In [51]:
lista + ['toilette'] + ['water', 'wc']

['feci', 'cacca', 'pupù', 'merda', 'stronzi', 'toilette', 'water', 'wc']

La stessa operazione può esser compiuta con il metodo **Extend()** con un carico computazionale inferiore rispetto a **+**.

In [52]:
lista = ['feci', 'cacca', 'pupù', 'merda', 'stronzi']
lista.extend(['toilette','water','wc'])
lista

['feci', 'cacca', 'pupù', 'merda', 'stronzi', 'toilette', 'water', 'wc']

### **Rimuovere** un oggetto dalla lista: i metodi **Pop(*index*)** e **Remove(*value*)**

Il metodo **Pop(*index*)** rimuove e restituisce l'oggetto in posizione *index*:

In [53]:
lista.pop(4)

'stronzi'

Il metodo **Remove(*value*)** cerca e rimuove la prima istanza di value che incontra nella lista.

In [54]:
lista.remove('merda')
lista

['feci', 'cacca', 'pupù', 'toilette', 'water', 'wc']

### **Ordinamento** di una lista con **Sort()**

E' possibile ordinare una lista *in-place* con il metodo **Sort()**

In [55]:
disordinata = [9, 7, 8, 5, 6, 2, 3, 4, 1, 0]
disordinata.sort()
disordinata

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

**Sort()** può anche prevedere l'utilizzo di una funzione da utilizzare come *sort key*, come la lunghezza (len) di una stringa.

In [56]:
lista.sort(key = len)
lista

['wc', 'feci', 'pupù', 'cacca', 'water', 'toilette']

### **Partizione** di una Lista

E' possibile selezionare sezioni di una lista mediante l'utilizzo della notazione **[start : stop]**. Nella notazione **[start : stop]**, l'elemento all'indice start è incluso mentre la sezione conterrà stop-start elementi.


In [57]:
lista[1:4]

['feci', 'pupù', 'cacca']

E' possibile omettere sia **start** che **stop**, in tal caso la sezione defaulterà all'inizio o alla fine della lista.

In [58]:
lista[:4]

['wc', 'feci', 'pupù', 'cacca']

In [59]:
lista[1:]

['feci', 'pupù', 'cacca', 'water', 'toilette']

E' anche possibile assegnare uno **step *n*** alla selezione con la seguente notazione **[::*step*]**

In [60]:
lista = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
lista[::3]

[0, 3, 6, 9]

La seguente notazione usa liste, range e slicing in modo creativo per elencare tutti i multipli dello step, fino a ***n*-step**.

In [61]:
list(range(0, 40))[0::5]

[0, 5, 10, 15, 20, 25, 30, 35]

Invece la notazione **[::-1]** produrrà l'inversione della lista.

In [62]:
lista[::-1]

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

## **Dictionaries**

Una delle più importanti strutture dati in Python, i Dizionari sono delle collezioni di coppie **chiave-valore**, di lunghezza variabile, dove sia **chiave** che **valore** sono degli oggetti di Python. Un dizionario è inizializzato mediante parentesi grafe **{ }**, mentre i suoi elementi sono rappresentati come **{chiave1:valore1, chiave2:valore2}**, separati da virgole. Similmente a liste e tuple, si accedeno, inseriscono o settano elementi di un dizionario con la notazione **[ ]**.
 


In [63]:
dizionario = {"a" : "un valore", "b" : "un altro valore" }
dizionario

{'a': 'un valore', 'b': 'un altro valore'}

In [64]:
dizionario['a']

'un valore'

In [65]:
dizionario['c'] = 'un ulteriore valore'
dizionario

{'a': 'un valore', 'b': 'un altro valore', 'c': 'un ulteriore valore'}

Si controlla la presenza o meno di una chiave con la stessa notazione delle liste:

In [66]:
'a' in dizionario

True

E' possibile eliminare dei valori da un dizionario mediante la chiave ***del*** oppoure il metodo **pop()**.

In [67]:
del dizionario['c']
dizionario

{'a': 'un valore', 'b': 'un altro valore'}

In [68]:
dizionario.pop('b')

'un altro valore'

In [69]:
dizionario

{'a': 'un valore'}

I metodi **keys()** e **values()** forniscono **iteratori** rispettivamente delle *chiavi* e dei *valori* del dizionario: 

In [70]:
dizionario = {'a': 'un valore', 'b': 'un altro valore', 'c': 'un ulteriore valore'}
list(dizionario.keys())

['a', 'b', 'c']

In [71]:
list(dizionario.values())

['un valore', 'un altro valore', 'un ulteriore valore']

Il metodo **update()** permette di unire un dizionario ad un altro, con un operazione *in-place*: 

In [72]:
dizionario.update({'d': 'un altro valore ancora', 'e': 'un ultimo valore'})
dizionario

{'a': 'un valore',
 'b': 'un altro valore',
 'c': 'un ulteriore valore',
 'd': 'un altro valore ancora',
 'e': 'un ultimo valore'}

## **Set**

Un set è una **collezione inordinata di elementi unici**. Un **set** può esser creato in due modi:

- Mediante la funzione **set()**;
- Mediante la notazione **{}**;

In [73]:
esempio = set([2, 2, 2, 1, 3, 3])
esempio

{1, 2, 3}

In [74]:
esempio = {2, 2, 2, 1, 3, 3}
esempio

{1, 2, 3}

I set supportano operazioni matematiche come:

In [75]:
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}

**UNIONE**, cioè il set composto dagli elementi unici distinti presenti nei set di partenza. Si può calcolare con il metodo **union()** oppure con l'operatore **|**. La formula **|=** corrisponde alla versione *in place* dell'operazione.

In [76]:
a.union(b)

{1, 2, 3, 4, 5, 6, 7, 8}

In [77]:
a | b

{1, 2, 3, 4, 5, 6, 7, 8}

**INTERSEZIONE**, il set composto dagli elementi comuni presenti nei set di partenza. Si calcola con il metodo **intersection()** oppure con l'operatore **&**. La formula **&=** corisponde alla versione *in place* dell'operazione.

In [78]:
a.intersection(b)

{3, 4, 5}

In [79]:
a & b

{3, 4, 5}

**DIFFERENZA**, il set composto dagli elementi di A che non sono in B. Si calcola con il metodo **difference()** oppure con l'operatore **-**. La formula **-=** corrisponde alla versione *in place* dell'operazione.

In [80]:
a.difference(b)

{1, 2}

In [81]:
a - b

{1, 2}

**DIFFERENZA SIMMETRICA**, il set composto dagli elementi di A e B, tranne quelli in comune. Si calcola con il metodo **symmetric_difference()** o con l'operatore **^**. La formula **^=** corrisponde alla versione *in place* dell'operazione.

In [83]:
a.symmetric_difference(b)

{1, 2, 6, 7, 8}

In [84]:
a ^ b

{1, 2, 6, 7, 8}

Il metodo **a.issubset(b)** restituisce **TRUE** se gli elementi di A sono tutti contenuti in B.

In [85]:
a.issubset(b)

False

Il medoto **a.issuperset(b)** restituisce **TRUE** se gli elementi di B sono tutti contenuti in A. 

In [86]:
a.issuperset(b)

False

## **Collections (List, Set and Dictionary) Comprehensions**

Consentono di formare una nuova collezione filtrando gli elementi o trasformandoli in una singola espressione concisa. La forma base di una collection comprehension è:

**[** *expression* **for** *value* **in** *collection* **if** *condition* **]**

Equivalente al ciclo **for** seguente:

In [None]:
risultato = []
for value in collection:
    if condition
        result.append(expression)

### **Simple List Comprehension**

In [89]:
esempio = ['a', 'as', 'bat', 'car', 'dove', 'python']
esempio = [word.upper() for word in esempio if len(word) > 2]
esempio

['BAT', 'CAR', 'DOVE', 'PYTHON']

### **Nested List Comprehension**

La seguente comprehension:

In [91]:
lista_tuple = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
risultato = [numero for tupla in lista_tuple for numero in tupla]
risultato

[1, 2, 3, 4, 5, 6, 7, 8, 9]

Corrisponde ai cicli annidati:

In [93]:
risultato = []

for tupla in lista_tuple:
    for numero in tupla:
        risultato.append(numero)
risultato
        

[1, 2, 3, 4, 5, 6, 7, 8, 9]

### **Dictionary Comprehension**

**{** *chiave-espressione* **:** *valore-espressione* **for** *valore* **in** *collezione* **if** *condizione* **}**

La comprehension seguente mappa in un dizionario la locazione delle stringhe nella lista *esempio*:

In [94]:
esempio = ['a', 'as', 'bat', 'car', 'dove', 'python']
mappatura_stringhe = {valore : indice for indice, valore in enumerate(esempio)}
mappatura_stringhe

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

# **Funzioni**: sono **Oggetti**!

Si consideri il seguente esempio:

In [2]:
import re

stati = [' Alabama ','Georgia!', 'georgia', 'FlOrida', 'south  carolina##', 'West virginia?']

def remove_punctuation(value):
    return re.sub('[!#?]', '', value)

def clean_strings(strings, pipeline):
    result = []
    for value in strings:
        for function in pipeline:
            value = function(value)
        result.append(value)
    return result

cleaning_pipeline = [str.strip, remove_punctuation, str.title]

clean_strings(stati, cleaning_pipeline)

['Alabama',
 'Georgia',
 'Georgia',
 'Florida',
 'South  Carolina',
 'West Virginia']

## Funzioni **Lambda**

Le funzioni *anonime* o **lambda** costituiscono un metodo di definizione di funzioni che consistono di una sola espressione, il risultato della quale è il **return value**. La funzione *lambda* seguente ordina una lista di stringhe per il numero di lettere distinte in ogni stringa: 

In [4]:
stringhe = ['cacca', 'pupù', 'merda', 'shit', 'water', 'toilette']
stringhe.sort(key = lambda x: len(set(list(x))))
stringhe

['cacca', 'pupù', 'shit', 'merda', 'water', 'toilette']

## **Iterators** e **Generators**

Una delle feature più importanti di Python è la possibilità di iterare su sequenze o collezioni: come i caratteri di una stringa, gli oggetti contenuti una lista, le chiavi di un dizionario, oppure le righe di un file. In Python un **Iteratore** è ogni oggetto che possa consegnare oggetti all'interprete di quando viene invocato nel contesto di un *ciclo for*.

In [1]:
dizionario = {'a': 1, 'b': 2, 'c': 3, 'b': 4}

for chiave in dizionario:
    print(chiave)

a
b
c


In [2]:
list(iter(dizionario))

['a', 'b', 'c']

I **Generators** e le **Generator Expressions** costituiscono delle modalità concise tramite le quali costruire dei nuovi **Iteratori**. A differenza delle comuni funzioni, un generatore restituise risultati multipli, si dice in modalità **lazy** e cioè pausando fra un risultato ed un altro, finchè il prossimo sarà richiesto.

In [10]:
def squares(n):
    print('Generazione dei quadrati da 1 a {0}'.format(n**2))
    for i in range(1, n+1):
        yield i**2
        
for x in squares(10):
    print(x, end=' ')

Generazione dei quadrati da 1 a 100
1 4 9 16 25 36 49 64 81 100 

In [19]:
generator_expression = list(x**2 for x in range(1, 11))
generator_expression, sum(generator_expression)

([1, 4, 9, 16, 25, 36, 49, 64, 81, 100], 385)

Le **Generator Expressions** possono anche essere usate in luogo di una **List Comprehension** come argomenti di una funzione:

In [18]:
sum(x**2 for x in range(1, 11))

385

In [1]:
dict((x, x**2) for x in range(1, 11))

{1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81, 10: 100}

# Errori ed Eccezioni.

In Python le eccezioni si gestiscono mediante una serie di blocchi così distinta:

- **try:**
- **except:**
- **else:**
- **finally:**

Ad esempio, durante l'apertura di un file vorremmo includere:

In [None]:
f = open(path, 'w')

#Prova ad eseguire l'operazione...
try:
    write_to_file(f)

#Se l'operazione solleva qualche eccezione che possiamo indicare con la sintassi except(ecc_1, ecc_2, ..., ecc_n):
except:
    print('Operazione Fallita.')
    
#Se l'operazione va a buon fine...
else:
    print('Eseguito con Successo!')

#Blocco di codice da eseguire comunque vada, e.g. la chiusura di un file aperto, se non gestita col il blocco **with**...
finally:
    f.close()

## Gestione dei **File** nel Sistema Operativo.

Uno dei modi più sicuri per gestire l'apertura e la chiusura di un semplice file in Python è mediante un blocco **with**: 

In [None]:
with open('Inserisci percorso file locale o web', 'Inserisci modalità lettura/scrittura') as handle :
    #Inserisci operazione da svolgere sul file

L'uscita dal blocco **with** comporterà anche una chiusura pulita del file. Vi sono diverse modalità di lettura/scrittura di un file:

- **t** — **DEFAULT**, modalità testuale impostata automaticamente per la decodifica a UNICODE. Aggiungere come 'rt' o 'xt' per combinarla con altre modalità
- **r** — Sola lettura.
- **w** — Sola scrittura, crea un nuovo file cancellando qualsiasi file con lo stesso nome nella directory.
- **x** — Sola scrittura, a differenza di **w** fallisce se trova un file con lo stesso nome nella directory.
- **a** — Aggancia in coda ad un file esistente, creandolo se non esiste.
- **r+** — Lettura/Scrittura.
- **b** — Aggiungere come 'rb', 'wb' per lettura/scrittura su file binari.

# Scientific Python: **NumPy**

La caratteristica fondamentale di NumPy è costituita dagli **Array N-Dimensionali** o **ndarray**. Gli ndarray consentono l'esecuzione di operazioni matematiche su interi blocchi di dati, impiegando una sintassi simile ad operazioni simili su elementi *scalari*, cioè composti da *un solo elemento*:

In [1]:
import numpy as np

#Genero un ndarray di numeri casuali con shape 10,5
dati = np.random.randn(5, 3)
dati

array([[-0.93668834, -0.42793882,  0.60538627],
       [ 1.30071866,  1.59723658,  0.2342186 ],
       [ 0.7120891 , -0.97464029, -0.66465276],
       [ 0.61115969, -0.41003002, -0.2046902 ],
       [ 1.38900377,  1.20305097, -0.17170191]])

In [2]:
dati + dati

array([[-1.87337668, -0.85587765,  1.21077254],
       [ 2.60143732,  3.19447316,  0.4684372 ],
       [ 1.42417819, -1.94928058, -1.32930551],
       [ 1.22231939, -0.82006003, -0.40938039],
       [ 2.77800754,  2.40610194, -0.34340382]])

In [3]:
dati * 10

array([[-9.36688342, -4.27938824,  6.0538627 ],
       [13.0071866 , 15.97236579,  2.34218598],
       [ 7.12089096, -9.74640289, -6.64652755],
       [ 6.11159695, -4.10030017, -2.04690195],
       [13.89003769, 12.0305097 , -1.71701912]])

In [4]:
(dati + dati) * 10

array([[-18.73376683,  -8.55877649,  12.1077254 ],
       [ 26.01437319,  31.94473158,   4.68437196],
       [ 14.24178192, -19.49280578, -13.2930551 ],
       [ 12.2231939 ,  -8.20060035,  -4.0938039 ],
       [ 27.78007538,  24.0610194 ,  -3.43403824]])

## Creazione di un **ndarray**

Il metodo più immediato per la creazione di un ndarray è l'uso della funzione **np.array(*data*)**:

In [5]:
dati = [1, 2.0, 3, 4, 5, 6]
array_dati = np.array(dati)
array_dati

array([1., 2., 3., 4., 5., 6.])

Sequenze annidate, come una lista di liste, saranno convertite in array multidimensionali:

In [6]:
dati = [[1, 2, 3, 4], [5, 6, 7, 8]]
array_dati = np.array(dati)
print(array_dati, "\n\n"+"Le dimensioni di questo array sono: "+str(array_dati.shape))

[[1 2 3 4]
 [5 6 7 8]] 

Le dimensioni di questo array sono: (2, 4)


In aggiunta a **np.array** vi sono numerose altre funzioni per inizializzare nuovi ndarray. Ad esempio, **np.zeros((shape as tuple))**, **np.ones((shape as tuple))** e **np.empty((shape as tuple))** inizializzeranno rispettivamente: un array di 0, 1 o un array vuoto:

In [7]:
array_dati = np.zeros((5,3))
array_dati

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [8]:
array_dati = np.ones((5,3))
array_dati

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

Una generalizzazione delle funzioni **np.zeros()** e **np.ones()** è **np.full(*shape, fill_value, dtype=None, order='C'*)**:

In [9]:
array_dati = np.full((5,3), 2.0)
array_dati

array([[2., 2., 2.],
       [2., 2., 2.],
       [2., 2., 2.],
       [2., 2., 2.],
       [2., 2., 2.]])

Similmente, la funzione **np.full_like(*array, fill_value, dtype=None, ...*)** produce un array simile per *shape* e *dtype* a quello fornito in argomento, e riempito con il valore indicato in *fill_value*:

In [10]:
array_dati_facsimile = np.full_like(array_dati, 4.0)
array_dati_facsimile

array([[4., 4., 4.],
       [4., 4., 4.],
       [4., 4., 4.],
       [4., 4., 4.],
       [4., 4., 4.]])

La specificazione del parametro *dtype* negli argomenti di np.full_like() **provocherà un override del tipo dei dati**:

In [11]:
array_dati_facsimile = np.full_like(array_dati, 4.0, dtype = np.int8)
array_dati_facsimile

array([[4, 4, 4],
       [4, 4, 4],
       [4, 4, 4],
       [4, 4, 4],
       [4, 4, 4]], dtype=int8)

## **Datatypes** o ***dtypes*** per gli ndarray

*Quando non indicato esplicitamente*, NumPy proverà a inferire il miglior tipo di dati da assegnare all'ndarray, fra quelli disponibili:

- **int/uint8, 16, 32, 64**
- **float16, 32, 64, 128**
- **complex64, 128, 256**
- **bool**
- **object**
- **string_**, stringa di lunghezza fissa (similmente al tipo CHAR di SQL)
- **unicode_**

Il tipo di dati di un ndarray è conservato nell'attributo **dtype**. E' possibile indicare il dtype di un ndarray mediante la dichiarazione **dtype = np.*tipo***:

In [12]:
array_dati = np.ones((5,3), dtype = np.int8)
array_dati

array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]], dtype=int8)

In [13]:
array_dati.dtype

dtype('int8')

E' possibile convertire o *castare* un array da dtype ad un altro usando il metodo **astype(**dtype**)**:

In [14]:
array_dati = array_dati.astype(np.string_)
array_dati

array([[b'1', b'1', b'1'],
       [b'1', b'1', b'1'],
       [b'1', b'1', b'1'],
       [b'1', b'1', b'1'],
       [b'1', b'1', b'1']], dtype='|S4')

La conversione di un dtype *float* ad un *int* **provocherà la troncatura** *(non l'approssimazione!)* **della parte decimale**:

In [15]:
array_dati = np.random.randn(5, 3)
print('\033[1m'+str(array_dati.dtype)+'\033[0m', \
      ":\n\n", \
      array_dati, \
      "\n\n", \
      '\033[1m'+str(array_dati.astype(np.int8).dtype)+'\033[0m', \
      ":\n\n", \
      array_dati.astype(np.int8))

#'\033[1m' e '\033[0m' rispettivamnte aprono e chiudono la formattazione in grassetto per una stringa.

[1mfloat64[0m :

 [[ 0.51036459 -0.94060651  0.52624408]
 [-1.18186993 -0.04447516 -0.01742975]
 [-0.38735063 -0.29274689  0.09398373]
 [-0.89372628 -2.12497009  0.47525423]
 [-0.24102476  0.42086684 -1.31204174]] 

 [1mint8[0m :

 [[ 0  0  0]
 [-1  0  0]
 [ 0  0  0]
 [ 0 -2  0]
 [ 0  0 -1]]


## **Indicizzazione** e **Partizione** in NumPy

L'indicizzazione di un array in NumPy opera superficialmente in modo analogo a quella vista per le liste, con la notazione **array[inizio : fine]**. 

In [3]:
import numpy as np

array = np.arange(1,10)
array, array[5:8]

(array([1, 2, 3, 4, 5, 6, 7, 8, 9]), array([6, 7, 8]))

Tuttavia occorre notare che, a differenza delle liste, **le partizioni in NumPy non sono copie dei dati, ma SOLO viste o *view* sui dati**. Sotto questa logica, **tutte le modifiche alla vista/partizione** verranno riflesse sulla fonte: **l'array di partenza**.

In [11]:
array[5:8] = 0
array

array([1, 2, 3, 4, 5, 0, 0, 0, 9])

In [12]:
partizione = array[5:8]
partizione

array([0, 0, 0])

In [13]:
partizione[1] = 12345
partizione, array

(array([    0, 12345,     0]),
 array([    1,     2,     3,     4,     5,     0, 12345,     0,     9]))

Se si desiderasse effettuare una copia di un array anzichè una vista, occorrerà usare il metodo **.copy()**.

La notazione **[:]** invece comporta l'assegnazione di un valore a tutti gli elementi di un array:

In [15]:
partizione_copia = array[5:8].copy()
partizione[:] = 1
partizione_copia[:] = 0
array, partizione, partizione_copia

(array([1, 2, 3, 4, 5, 1, 1, 1, 9]), array([1, 1, 1]), array([0, 0, 0]))

Indicizzazione e la partizione con le matrici si ottengono mediante la notazione **[riga, colonna]**. Per le righe, la notazione **[riga]** e **[riga, :]** coincidono, mentre per le colonne vi è un'unica notazione **[:, colonna]**.

In [50]:
matrice = np.array([[1,2,3], 
                    [4,5,6], 
                    [7,8,9]])

print(matrice, \
      "\n\nprima riga:", matrice[0,:], \
      "\nseconda riga:", matrice[1,:], \
      "\nterza riga:", matrice[2,:], \
      
      "\n\nprima colonna:", matrice[:,0], \
      "\nseconda colonna:", matrice[:,1], \
      "\nterza colonna:", matrice[:,2], \
      
      "\n\ndiagonale:", matrice[0,0], matrice[1,1], matrice[2,2]
      
     )

[[1 2 3]
 [4 5 6]
 [7 8 9]] 

prima riga: [1 2 3] 
seconda riga: [4 5 6] 
terza riga: [7 8 9] 

prima colonna: [1 4 7] 
seconda colonna: [2 5 8] 
terza colonna: [3 6 9] 

diagonale: 1 5 9


La notazione **:** può essere usata per estendere ulteriormente le possibilità di partizione di una matrice. Se **:** è indicato prima dell'indice starà a significare **"tutte le righe/colonne entro questo valore"**, mentre un **:** posizionato successivamente all'indice indicherà **"tutte le righe/colonne successive a questo valore"**.

In [52]:
#Seleziona solo le righe e le colonne dalla seconda in poi.
matrice[1:,1:]

array([[5, 6],
       [8, 9]])

In [55]:
#Selezione solo le righe e le colonne fino alla seconda.
matrice[:2,:2]

array([[1, 2],
       [4, 5]])

In [56]:
#Selezione le righe fino alla seconda e le colonne dalla seconda in poi.
matrice[:2,1:]

array([[2, 3],
       [5, 6]])

In [58]:
#Selezione le righe dalla seconda in poi e le colonne fino alla seconda. 
matrice[1:,:2]

array([[4, 5],
       [7, 8]])

## **Partizionare/Selezionare elementi** in base a condizioni con **numpy.where(*cond, expr. if true, expr. if false*)**

Un metodo molto efficiente per replicare in NumPy la logica di una **Ternary Expression** del tipo ***a = if condition then x else y*** è quello di utilizzare **numpy.where**. Un tipico uso di questa funzione si ha quando si vuole produrre un nuovo array/matrice di valori in base a delle valutazioni su valori presenti in altri array. Ad esempio: 

In [21]:
import numpy as np

#inizializzo un array di numeri da -10 a 10.
array = np.arange(-10,10).reshape(5,-1)

#Produco un array di booleani per indicare i valori positivi, 
#Pppure produco i soli valori positivi dell'array di partenza, riducendo gli altri a zero,
#O ancora, effettuo un'operazione solo su i valori negativi, mettendo i positivi a zero. Appiattisco il risultato con flatten().
array, np.where(array > 0, 1, 0), np.where(array > 0, array, 0), np.where(array < 0, np.power(array, 2), 0).flatten()

(array([[-10,  -9,  -8,  -7],
        [ -6,  -5,  -4,  -3],
        [ -2,  -1,   0,   1],
        [  2,   3,   4,   5],
        [  6,   7,   8,   9]]),
 array([[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]),
 array([[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 1],
        [2, 3, 4, 5],
        [6, 7, 8, 9]]),
 array([100,  81,  64,  49,  36,  25,  16,   9,   4,   1,   0,   0,   0,
          0,   0,   0,   0,   0,   0,   0], dtype=int32))

## Cambiare dimensioni ed assi con **Reshape()**, **Transpose()**, **Flatten()** & **Ravel()**

### **Reshape()**

La conversione di un array da una *shape* ad un altra è definita dal metodo **reshape(*shape*)**. In reshape possiamo indicare nella tupla **(righe, colonne)** con le dimensioni desiderate. Un particolare caso di reshape è la conversone di una array unidimensionale ad una matrice:

In [2]:
import numpy as np

array = np.arange(45)
matrice = array.reshape((15,3))
array, matrice

(array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
        34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44]),
 array([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17],
        [18, 19, 20],
        [21, 22, 23],
        [24, 25, 26],
        [27, 28, 29],
        [30, 31, 32],
        [33, 34, 35],
        [36, 37, 38],
        [39, 40, 41],
        [42, 43, 44]]))

#### **Reshape ad una dimensione sconosciuta con -1**

Nel caso dimostrato qui sopra l'array è stato convertito nella matrice di forma 15x3 (infatti 15x3 = 45). Ma se una delle due dimensioni non fosse di immediata comprensione o volessimo dare al sistema la possibilità di trovare la forma più adatta? Ciò è possibile in NumPy impostando una delle due dimensioni **(righe, colonne)** come **-1**. A questo punto, Numpy inferirà la dimensione mancante più adatta per il reshape dell'array.

In [10]:
array = np.arange(45)
matrice = array.reshape((15,-1))
array, matrice

(array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
        34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44]),
 array([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17],
        [18, 19, 20],
        [21, 22, 23],
        [24, 25, 26],
        [27, 28, 29],
        [30, 31, 32],
        [33, 34, 35],
        [36, 37, 38],
        [39, 40, 41],
        [42, 43, 44]]))

### Le operazioni inverse di Reshape: **Flatten()** e **Ravel()**

Le operazioni opposte a **Reshape()** sono **Ravel()** e **Flatten()**. La sola differenza fra le due consiste nel fatto che **Flatten() consegna sempre una copia dell'array di partenza**. 

In [14]:
array = np.arange(45)
reshaped = array.reshape((15,3))
raveled = reshaped.ravel()
flattened = reshaped.flatten()
array, reshaped, raveled, flattened

(array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
        34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44]),
 array([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17],
        [18, 19, 20],
        [21, 22, 23],
        [24, 25, 26],
        [27, 28, 29],
        [30, 31, 32],
        [33, 34, 35],
        [36, 37, 38],
        [39, 40, 41],
        [42, 43, 44]]),
 array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
        34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44]),
 array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
        34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44]))

### Scambiare gli assi con **Transpose()**

La trasposizione di un ndarray/matrice è una speciale forma di reshape mediante la quale possiamo **scambiare le righe in colonne e le colonne in righe**. Ciò può esser fatto in due modi:

- Il metodo **Transpose()**

- **L'attributo T** dell'ndarray

Similmente a Reshape(), **Transpose() corrisponde solamente ad una view sui dati sottostanti e non ad una copia**. Come sempre, però, per effettuare una copia sarà sufficente concatenare a Reshape() o Transpose() il metodo **.copy()**.

In [20]:
array = np.arange(15).reshape((3,5))
transposed = array.transpose().copy()
T_attribute = array.T.copy()
array, transposed, T_attribute

(array([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]]),
 array([[ 0,  5, 10],
        [ 1,  6, 11],
        [ 2,  7, 12],
        [ 3,  8, 13],
        [ 4,  9, 14]]),
 array([[ 0,  5, 10],
        [ 1,  6, 11],
        [ 2,  7, 12],
        [ 3,  8, 13],
        [ 4,  9, 14]]))

## Operazioni Matematiche e Statistica Descrittiva in NumPy con le **Universal Functions** e la **Vettorizzazione**

Un aspetto fondamentale di NumPy è la capacità di estendere un'operazione a tutto l'ndarray senza ricorrere ad alcun ciclo for. Tale funzionalità è chiamata **vettorizzazione**. La vettorizzazione può essere sfuttata per velocizzare di diversi ordini di grandezza numerosi calcoli matematici o statistici da applicare sugli assi o sull'intero array. Le funzioni che sfruttano la vettorizzazione sono definite **universal functions** o **ufunc**.

### L'argomento ***out***

Tutte le unfuncs accettano di utilizzare come output un array/matrice specificata nell'argomento opzionale ***out***. Out può essere sia un argomento posizionale — ovvero deve rispettare una posizione predeterminata all'interno della lista degli argomenti della funzione — oppure come una parola chiave *out = array / out = (array1, array2, ...)*, **singolarmente o come tupla di array output** a seconda che la funzioni risulti in uno o più outuput.

### L'argomento opzionale ***where***

Accetta una matrice booleana che viene trasmessa insieme agli operandi. I valori di **True** indicano di calcolare la funzione in quella posizione, i valori di **False** indicano di lasciare il valore di output inalterato. Questo argomento non può essere utilizzato per le universal functions generiche poiché queste accettano input non scalari — cioè non accettano numeri, in sostanza. Si noti che se viene creato un array di ritorno non inizializzato, all'indice la cui condizione risulta in **False**, i valori presenti rimarranno non inizializzati, con il conseguente rischio di produrre un risultato errato e dall'esito casuale in tali posizioni.

### **Documentazione**

Tutte le ufuncs possono essere trovate qui: https://numpy.org/doc/stable/reference/ufuncs.html#available-ufuncs

### **Radice Quadrata** con **np.sqrt()**

In [16]:
array_dati = np.full((5,3), 2.0)
np.sqrt(array_dati)

array([[1.41421356, 1.41421356, 1.41421356],
       [1.41421356, 1.41421356, 1.41421356],
       [1.41421356, 1.41421356, 1.41421356],
       [1.41421356, 1.41421356, 1.41421356],
       [1.41421356, 1.41421356, 1.41421356]])

In [17]:
array_dati = np.random.randint(0, 100, size = (5,3))

### **Esponenziale** con **np.exp()**

In [18]:
#calcola e^x per ogni elemento x.
np.exp(array_dati)

array([[1.20260428e+06, 1.95729609e+11, 2.83075330e+23],
       [4.48961282e+38, 8.88611052e+06, 8.88611052e+06],
       [1.20260428e+06, 1.73927494e+18, 5.05239363e+31],
       [2.58131289e+20, 1.31881573e+09, 1.48413159e+02],
       [5.68572000e+24, 6.66317622e+40, 2.09165950e+24]])

### **Logaritmo Naturale** con **np.log()**

In [19]:
#logaritmo naturale. Altre funzioni simili sono: log10, log2, log1p.
np.log(array_dati) 

array([[2.63905733, 3.25809654, 3.98898405],
       [4.48863637, 2.77258872, 2.77258872],
       [2.63905733, 3.73766962, 4.29045944],
       [3.8501476 , 3.04452244, 1.60943791],
       [4.04305127, 4.54329478, 4.02535169]])

### **Funzioni Trigonometriche** con **np.sqrt()**

In [20]:
#funzione trigonometrica seno. Altre funzioni simili sono: cos, cosh, tan, tanh, arccos, arccosh, etc...
np.sin(array_dati)

array([[ 0.99060736,  0.76255845, -0.55878905],
       [ 0.86006941, -0.28790332, -0.28790332],
       [ 0.99060736, -0.91652155, -0.67677196],
       [ 0.12357312,  0.83665564, -0.95892427],
       [ 0.43616476, -0.24525199, -0.521551  ]])

### **Arrotondamento, Valore Assoluto e Modulo** con **np.rint(), np.abs(), np.modf()**

In [21]:
#arrotonda i singoli valori all'intero più vicino preservando il dtype originale.
np.rint(np.sin(array_dati))

array([[ 1.,  1., -1.],
       [ 1., -0., -0.],
       [ 1., -1., -1.],
       [ 0.,  1., -1.],
       [ 0., -0., -1.]])

In [22]:
#valore assoluto dei singoli valori.
np.abs(np.sin(array_dati))

array([[0.99060736, 0.76255845, 0.55878905],
       [0.86006941, 0.28790332, 0.28790332],
       [0.99060736, 0.91652155, 0.67677196],
       [0.12357312, 0.83665564, 0.95892427],
       [0.43616476, 0.24525199, 0.521551  ]])

In [23]:
#restituisce due array: parte decimale e parte intera dei singoli valori dell'array di partenza.
np.modf(np.log(array_dati))

(array([[0.63905733, 0.25809654, 0.98898405],
        [0.48863637, 0.77258872, 0.77258872],
        [0.63905733, 0.73766962, 0.29045944],
        [0.8501476 , 0.04452244, 0.60943791],
        [0.04305127, 0.54329478, 0.02535169]]),
 array([[2., 3., 3.],
        [4., 2., 2.],
        [2., 3., 4.],
        [3., 3., 1.],
        [4., 4., 4.]]))

### **Media, Deviazione Standard e Varianza** con **np.mean(), np.std(), np.var()**

Funzionano come le omonime statistiche descrittive. Esistono come funzioni top-level *e.g.* **np.mean(array)** oppure come metodi **array.mean()**. Posseggono un **argomento opzionale *axis=1/0*** il quale permette di specificare il calcolo della funzione su colonne (axis = 1) o righe (axis = 0).  

In [30]:
array = np.random.randn(5,4)
array

array([[-0.68546521,  0.83280082, -1.70630025, -1.29742529],
       [-1.4169098 , -1.28142224, -0.66153357,  1.43866936],
       [ 0.78976023, -0.43453253,  0.20320139,  0.42048234],
       [-0.37887316,  0.64135089, -0.55859258,  0.59763705],
       [-0.12503985,  0.00284165, -0.84324767,  0.16227236]])

In [31]:
array.mean(), np.mean(array)

(-0.21501630407224384, -0.21501630407224384)

In [32]:
#media di tutte le righe e della riga zero, codificato in vari modi.
array.mean(axis = 1), array[0,:].mean(), array.mean(axis = 1)[0]

(array([-0.71409748, -0.48029906,  0.24472786,  0.07538055, -0.20079338]),
 -0.714097482388703,
 -0.714097482388703)

In [33]:
#media di tutte le colonne e della colonna zero, codificato in vari modi.
array.mean(axis = 0), array[:,0].mean(), array.mean(axis = 0)[0]

(array([-0.36330556, -0.04779228, -0.71329454,  0.26432716]),
 -0.3633055595031909,
 -0.3633055595031909)

In [34]:
array.std(axis = 0), array.var(axis = 0)

(array([0.72117159, 0.76476627, 0.61147769, 0.89039827]),
 array([0.52008847, 0.58486744, 0.37390497, 0.79280908]))

### **Somme e Prodotti Cumulativi** con **np.cumsum()** e **np.cumprod()** 

In [38]:
array[:] = 1

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [39]:
array.cumsum(axis = 0), array.cumsum(axis = 1)

(array([[1., 1., 1., 1.],
        [2., 2., 2., 2.],
        [3., 3., 3., 3.],
        [4., 4., 4., 4.],
        [5., 5., 5., 5.]]),
 array([[1., 2., 3., 4.],
        [1., 2., 3., 4.],
        [1., 2., 3., 4.],
        [1., 2., 3., 4.],
        [1., 2., 3., 4.]]))

In [41]:
array[:] = 2
array.cumprod(axis = 0), array.cumprod(axis = 1)

(array([[ 2.,  2.,  2.,  2.],
        [ 4.,  4.,  4.,  4.],
        [ 8.,  8.,  8.,  8.],
        [16., 16., 16., 16.],
        [32., 32., 32., 32.]]),
 array([[ 2.,  4.,  8., 16.],
        [ 2.,  4.,  8., 16.],
        [ 2.,  4.,  8., 16.],
        [ 2.,  4.,  8., 16.],
        [ 2.,  4.,  8., 16.]]))

### **Universal Functions a più argomenti**

In [24]:
dati1 = np.random.randint(0, 100, size = (5,3))
dati2 = np.random.randint(0, 100, size = (5,3))

dati1, dati2

(array([[51, 72, 65],
        [11, 75, 86],
        [93, 16, 99],
        [89, 25, 91],
        [57, 16, 64]]),
 array([[98,  6, 91],
        [46, 15, 45],
        [57, 33, 49],
        [94,  1, 71],
        [84, 28, 78]]))

In [25]:
#Restituisce l'array con l'elemento più grande in ogni posizione. Funzione opposta è: np.minimum()
np.maximum(dati1, dati2) 

array([[98, 72, 91],
       [46, 75, 86],
       [93, 33, 99],
       [94, 25, 91],
       [84, 28, 78]])

In [26]:
#Sottrae gli elementi del secondo array al primo. (LENTO, SICURO)
np.subtract(dati1, dati2, where = np.where(dati1 > dati2, 1, 0).astype(bool))

array([[ 0, 66,  0],
       [ 0, 60, 41],
       [36,  0, 50],
       [ 0, 24, 20],
       [ 0,  0,  0]])

In [29]:
#Funzione equivalente alla precedente solo che np.greater(...) fornisce il risultato corretto solo alla prima iterazione...
#VELOCE x10, ESITO INSICURO PERCHE'?
np.subtract(dati1, dati2, where = np.greater(dati1, dati2))

array([[ 0, 66,  0],
       [ 0, 60, 41],
       [36,  0, 50],
       [ 0, 24, 20],
       [ 0,  0,  0]])

In [46]:
#Creo un array di interi casuali da 1 a 16, poi creo un array di esponenti. Elevo il primo al secondo, riportando il risultato
#in un altro array.

numeri = np.arange(2, 17, 2)
esponenti = np.full_like(numeri, 3)

#Si ottiene lo stesso risultato, ma più concisamente, inizializzando potenze = np.empty_like(numeri)
#np.power(numeri, esponenti, potenze) o np.power(numeri, esponenti, out = potenze)
potenze = np.power(numeri, esponenti)

numeri, esponenti, potenze

(array([ 2,  4,  6,  8, 10, 12, 14, 16]),
 array([3, 3, 3, 3, 3, 3, 3, 3]),
 array([   8,   64,  216,  512, 1000, 1728, 2744, 4096]))

# Operazioni con **Set in NumPy**

NumPy dispone di alcune semplici operazioni in logica set per array unidimensionali. Queste sono:

- **unique(x)** — Produce l'array ordinato degli elementi unici di x;
- **intersect1d(x, y)** — Produce l'array ordinato degli elementi comuni fra x e y;
- **union1d(x, y)** — Produce l'array ordinato dell'unione fra gli elementi di x e y;
- **in1d(x, y)** — Produce un array di booleani a indicare se ciascun elemento di x è contenuto in y **[UTILE PER BOOLEAN INDEXING]**;
- **setdiff1d(x, y)** — Set difference. **Elementi di x che non sono presenti in y**;
- **setxor1d(x, y)** — Set symmetric difference. **Elementi che sono in x e y, ma non entrambi**.

# Scientific Python: **Pandas**

Comprendere e utilizzare appieno Pandas significa diventare confortevoli con le sue **due principali strutture dati**: *Series* e *Dataframe*.

In [None]:
import pandas as pd
import numpy as np

## **Pandas** ***Series***

### Inizializzazione

In Pandas una *Serie* o *Series* è un array unidimensionale che **contiene una sequenza di valori e**, ad esso associato, **un array di etichette o** ***labels*** **definito** ***indice.*** La più semplice serie è formata da un unico array di dati:

In [13]:
serie = pd.Series([4, 7, -5, 3])
serie       

0    4
1    7
2   -5
3    3
dtype: int64

### Valori e Indici

Quando non esplicitamente specificato, all'inizializzazione di una serie viene creato un **indice di default composto da interi che vanno da 0 a N-1**, dove **N** corrisponde alla lunghezza della serie. E' tuttavia desiderabile esplicitare un indice, così da identificare ciascun dato/osservazione con un'etichetta. In tal senso, è utile interpretare una Pandas Series come un **dizionario ordinato di lunghezza fissa**, in quanto è una mappatura di indici-valori.

In [17]:
serie = pd.Series([4, 7, -5, 3], index = ['d', 'b', 'a', 'c'])
serie

d    4
b    7
a   -5
c    3
dtype: int64

Proprio come in un dizionario è possibile accedere al valore mediante il suo indice:

In [19]:
serie['a']

-5

Si ottengono rispettivamente le rappresentazioni dei valori e degli indici mediante i relativi attributi:

In [20]:
serie.values, serie.index

(array([ 4,  7, -5,  3], dtype=int64),
 Index(['d', 'b', 'a', 'c'], dtype='object'))