# **Librerie**

## **Numpy**

Numpy è una libreria fondamentale per il calcolo scientifico in Python.

In [2]:
import numpy as np

### **Creazione Array**

* `np.array()` crea un array NumPy a partire da una sequenza in input:

* `np.ones()` crea un array con tutti gli elementi uguali a 1 specificando la forma dell'array (numero di righe e colonne):

* `np.zeros()` crea un array con tutti gli elementi uguali a 0 specificando la forma.:

* `np.eye()` crea una matrice identità, dove gli elementi della diagonale principale sono 1 e tutti gli altri sono 0, specificando la dimensione della matrice:

* `np.arange(start:stop:step)` crea un array contenete una sequenza di numeri (simile a `range()` di Pyhton):

    - `start` è valore iniziale (inclusivo); default è 0.
    - `stop` è il valore finale (esclusivo).
    - `step` differenza tra due valori consecutivi; default è 1.

In [3]:
array = np.arange(2, 10, 2)
print(array)

[2 4 6 8]


* `np.linspace(start,stop,num)` genera un array di numeri equamente distanziati tra un valore iniziale e uno finale:

    - `start`è valore iniziale (incluso).
    - `stop`è Il valore finale (di default incluso).
    - `num`è il numero di valori da generare.

In [4]:
array = np.linspace(0, 10, 5)
print(array)

[ 0.   2.5  5.   7.5 10. ]


* `np.random` fornisce vari metodi per generare array con numeri casuali:

    - `np.random.rand()` genera numeri casuali uniformemente distribuiti nell'intervallo $[0, 1)$ specificando le dimensioni.

    - `np.random.randn()` genera numeri casuali normalmente distribuiti (distribuzione normale standard, media 0 e deviazione standard 1).

    - `np.random.randint()` genera numeri interi casuali nell'intervallo specificato date le dimensioni; il limite superiore è esclusivo.

    - `np.random.choice()` seleziona casualmente elementi da un array dato date le dimensioni.
    
    - `np.random.uniform()` genera numeri casuali uniformemente distribuiti in un intervallo specificato date le dimensioni.

In [5]:
rand = np.random.rand(2, 3)
print(rand)

[[0.91524837 0.1894257  0.96604892]
 [0.15079908 0.72892605 0.69385763]]


In [6]:
randn = np.random.randn(2, 3)
print(randn)

[[ 0.72705665 -0.47558282 -0.25027418]
 [-1.93577859 -0.98094544  1.0522268 ]]


In [7]:
randint = np.random.randint(1, 100, size=(3, 3))
print(randint)

[[40  9  9]
 [89 51 30]
 [99 28 91]]


In [8]:
choice = np.random.choice([1, 2, 3, 4, 5], size=3)
print(choice)

[2 1 1]


uniform = np.random.uniform(-1, 1, size=(2, 3))
print(uniform)

### **Proprietà Array**

* `np.dytipe()` specifica il tipo di dati contenuti nell'array

* `np.shape()` restituisce una tupla che rappresenta le dimensioni dell'array

* `np.reshape()` cambia la forma di un array senza modificarne i dati.

* `np.ndim()`

#### **Slicing**

Lo *slicing* consente di estrarre una parte di array da un array più grande:
```
stringa[start:stop:step]
```
* `start` è l'indice da cui iniziare l'affettamento (inclusivo); se omesso, si inizia dall'inizio dell'array.
* `stop` è l'indice a cui fermarsi (esclusivo); se omesso, si prosegue fino alla fine dell'array.
* `step` è il passo tra gli indici; se omesso, il passo predefinito è 1.

#### **Fancy Indexing**

*Fancy indexing* è una tecnica che permette di selezione elementi di un array utilizzando array di indici interni.

### **Funzioni Matematiche**

* `np.sum()`

* `np.mean()`

* `np.std()`

### **Algebra Lineare**
NumPy include un modulo per l'algebra lineare `numpy.linalg`.

* `np.dot()`

* `np.matmul()`

* `np.linalg.det()`

* `np.linalg.eig()`

* `np.linalg.solve()`

* `np.linalg.norm()`

## **Pandas**
Pandas è una libreria per Python per la manipolazione e l'analisi dei dati introducendo due strutture fondamentali:

* **Dataframe**
Sono una struttura dati bidimensionale composto da righe e colonne, dove ogni colonna può contenere dati di un tipo specifico.

* **Series**
Sono una struttura dati unidimensionale vista come una colonna di Dataframe. Ogni serie ha un solo tipo di dato.

In [9]:
import pandas as pd

### **Creare un Dataframe**

* `pd.read_csv() `

* `pd.DataFrame()`

In [10]:
data = {
    'Nome':['Martina','Alice','Carla'],
    'Età':[25,30,22],
    'Città':['Milano','Roma','Cosenza']
}

df=pd.DataFrame(data)

print(df)

      Nome  Età    Città
0  Martina   25   Milano
1    Alice   30     Roma
2    Carla   22  Cosenza


### **Operazioni tra Dataframe**

In [13]:
# Dati di esempio
data = {
    'Data': ['2021-01-01', '2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02'],
    'Città': ['Roma', 'Milano', 'Napoli', 'Roma', 'Milano'],
    'Prodotto': ['Mouse', 'Tastiera', 'Mouse', 'Tastiera', 'Mouse'],
    'Vendite': [100, 200, 150, 300, 250]
}

# Creazione del DataFrame
df = pd.DataFrame(data)
print(df)

         Data   Città  Prodotto  Vendite
0  2021-01-01    Roma     Mouse      100
1  2021-01-01  Milano  Tastiera      200
2  2021-01-01  Napoli     Mouse      150
3  2021-01-02    Roma  Tastiera      300
4  2021-01-02  Milano     Mouse      250


* **Indicizzazione avanzata**: Pandas permette un'indicizzazione flessibile e sofisticata, facilitando l'accesso ai dati e la loro manipolazione. Per esempio, l'uso di indici gerarchici (MultiIndex) consente di lavorare con dati ad alta dimensionalità in strutture tabulari bidimensionali.

* **Unione e Concatenazione**: è possibile combinare
facilmente diverse fonti di dati attraverso operazioni
come merge per unire DataFrame simili a un join SQL, o
concat per concatenare DataFrame lungo un asse specifico,
gestendo anche indici che non si allinea.

* **Risistemazione e Pivot**: sono metodi potenti che permettono di trasformare i dati, facilitando la ristrutturazione e la creazione di tabelle pivot; questo è utile per riorganizzare i dati in un formato più appropriato per l'analisi specifica.

In [12]:
# Creazione della tabella pivot
pivot_df = df.pivot_table(values='Vendite', index='Prodotto', columns='Città', aggfunc='mean')

# Stampa della tabella pivot
print(pivot_df)

Città     Milano  Napoli   Roma
Prodotto                       
Mouse      250.0   150.0  100.0
Tastiera   200.0     NaN  300.0


* **GroupBy**: questa tecnica, ispirata da una funzionalità simile presente in SQL, permette di dividere i dati in gruppi, applicare una funzione a ciascun gruppo indipendentemente, e combinare i risultati in una struttura di dati; è estremamente utile per aggregazioni complesse, trasformazioni e filtraggi.

In [14]:
# Utilizzo di groupby per aggregare i dati
grouped_df = df.groupby('Prodotto').sum()

# Stampa del DataFrame aggregato
print(grouped_df)

          Vendite
Prodotto         
Mouse         500
Tastiera      500


  grouped_df = df.groupby('Prodotto').sum()


* **Gestione del tempo**: Pandas offre robuste funzionalità per la
manipolazione delle serie temporali, che includono la generazione di
periodi di tempo, la conversione di frequenze, il windowing o rolling
statistics, e la manipolazione di date e orari.

### **Visualizzazione dei Dati**

* `df.head()`

* `df.tail()`

### **Pulizia dei Dati**

* `df.drop_duplicates()`

* `df.dropna()`

* `df[].fillna(,inplace=)`