# Introduzione a Pandas
di Emiliano Citarella_youlysses_soc_cooperativa

## Modulo_1 Introduzione alle Series
Impareremo a creare una Series in Python, faremo matematica sulle Series.
> Capiremo come descrivere i dati, filtrare i dati ed operare su di una Series di stringhe.

## Cos'è Pandas?
La principale libreria di analisi dei dati per Python: realizzate per acquisire, pulire, organizzare, analizzare ed esportare i dati.

`Series` e `DataFrame` sono i due tipi dati fondamentali: 
- Le `Series` rappresentano dati ad una dimensione, come i valori restituiti da una funzione, le sequenze temporali ed i calendari.
- I `DataFrame` rappresentano dati a due dimensioni, come una matrice quadrata, un file csv, una data table. 
- Ogni colonna di un `DataFrame` è una `Series`.

##  Series Parte 1
- Creazione di una serie di oggetti da oggetti uni-dimensionali come liste e ranges.
- Assegnazione della serie.
- Fare matematica in serie.
- Descrivere una serie con statistiche, metodi ed attributi. 

In [1]:
import pandas as pd

## Series
 
Una Series è una struttura dati monodimensionale molto simile a un array di NumPy, ma con alcune funzionalità extra: **ogni elemento è associato a un indice**.

Una Series è un **vettore etichettato** che può contenere dati di qualsiasi tipo (interi, stringhe, numeri in virgola mobile, oggetti Python, ecc.).

In [3]:
pd.Series([7, 8, 9])

0    7
1    8
2    9
dtype: int64

Una Serie è un array monodimensionale, con un axis etichettato, che può contenere oggetti di qualsiasi tipo Numpy.
- L'`axis` è chiamato `Index` e può essere utilizzato per accedere agli elementi. 

Creiamo una Series attraverso il costruttore Series, passando la sequenza di n valori, a cui verrà associato esplicitamente un indice numerico che va da 0 a n-1.

In [5]:
results = pd.Series([True, False, True, False]) # assegno una Series ad una variabile
results

0     True
1    False
2     True
3    False
dtype: bool

Le Series possono essere qualsiasi tipo di dati Python.\
L'index di default è 0.

In [6]:
colors = ["red", "orange", "yellow", "green", "blue", "indigo", "violet"]
colors = pd.Series(colors)
colors

0       red
1    orange
2    yellow
3     green
4      blue
5    indigo
6    violet
dtype: object

# Esercitazioni
Creare una serie Pandas con i quadrati di 3 numeri interi consecutivi `[16,25,36]`.
|<br>
|<br>
|<br>
|<br>
|<br>

In [7]:
import pandas as pd

numeri = pd.Series([16, 25, 36])  # quadrati di 4, 5, 6
print("Serie di quadrati:")
print(numeri)

Serie di quadrati:
0    16
1    25
2    36
dtype: int64


Creare una serie con una lista di frutti tropicali `["mango", "papaya", "ananas", "guava"]`.
|<br>
|<br>
|<br>
|<br>
|<br>

In [1]:
import pandas as pd

frutti = ["mango", "papaya", "ananas", "guava"]
frutti_series = pd.Series(frutti)

print("Serie di frutti tropicali:")
print(frutti_series)


Serie di frutti tropicali:
0     mango
1    papaya
2    ananas
3     guava
dtype: object


Creiamo una `Series` che associa **nome (indice)** ad un **anno di nascita**.

In [13]:
my_series = pd.Series([1977, 1978, 1977], index=["Emiliano", "Carlo", "Roberto"])
dictionary = {}
dictionary["La mia Series"] = my_series

print(dictionary)
print(dictionary["La mia Series"])

{'La mia Series': Emiliano    1977
Carlo       1978
Roberto     1977
dtype: int64}
Emiliano    1977
Carlo       1978
Roberto     1977
dtype: int64


# Esercitazione
1. Crea una Series con 3 scrittori e i rispettivi anni di nascita
2. Salvala in un dizionario con chiave "Scrittori"
3. Stampa:
* tutto il dizionario
* solo la Series
|<br>
|<br>
|<br>
|<br>
|<br>

In [9]:
import pandas as pd

scrittori = pd.Series([1922, 1899, 1904], index=["Sciascia", "Hemingway", "Orwell"])
diz = {}
diz["Scrittori"] = scrittori

print(diz)
print(diz["Scrittori"])

{'Scrittori': Sciascia     1922
Hemingway    1899
Orwell       1904
dtype: int64}
Sciascia     1922
Hemingway    1899
Orwell       1904
dtype: int64


### Possiamo assegnare intervalli per fare Series di numeri

In [42]:
numbers = pd.Series(range(-3, 3))
numbers

0   -3
1   -2
2   -1
3    0
4    1
5    2
dtype: int64

## Possiamo fare aritmetica su intere Series con i nostri operatori matematici

In [11]:
numbers + 1

0   -2
1   -1
2    0
3    1
4    2
5    3
dtype: int64

## Pandas segue PEMDAS come ordine di operazioni 

In [30]:
numbers * 2 + 5

0   -1
1    1
2    3
3    5
4    7
5    9
dtype: int64

- P `Parentheses (parentesi)`: Risolvi prima tutto ciò che è dentro le parentesi.
- E `Exponents (esponenti)`: Calcola i poteri e le radici.
- MD `Multiplication and Division (moltiplicazione e divisione)`: Procedi da sinistra a destra per queste operazioni, nell'ordine in cui appaiono.
- AS `Addition and Subtraction (addizione e sottrazione)`: Anche qui, procedi da sinistra a destra, nell'ordine in cui appaiono.

## Gli operatori integrati di Python lavorano sull'intera Series

In [12]:
numbers ** 2

0    9
1    4
2    1
3    0
4    1
5    4
dtype: int64

## La vettorizzazione
Ogni cosa in Pandas è vettorializzata, che significa che l'operazione avviene sull'interezza del DataSet.

La vettorizzazione in Pandas significa applicare operazioni direttamente su intere strutture di dati (come Series o DataFrame) senza dover scrivere cicli espliciti (for, while).

> Invece di fare operazioni elemento per elemento, Pandas (e sotto, NumPy) le applica in blocco, molto più velocemente.

In [13]:
import pandas as pd

numbers = pd.Series(range(-3, 3))
print("Serie originale:")
print(numbers)

print("\nRadice quadrata:")
print(numbers ** (1/2))

Serie originale:
0   -3
1   -2
2   -1
3    0
4    1
5    2
dtype: int64

Radice quadrata:
0         NaN
1         NaN
2         NaN
3    0.000000
4    1.000000
5    1.414214
dtype: float64


Quando eseguiamo `**(1/2)`, i numeri negativi producono un valore `NaN` o valore complesso non visualizzabile, perché la radice quadrata di un numero negativo non è un numero reale. \
L'aritmetica non cambia la serie originale


In [14]:
numbers

0   -3
1   -2
2   -1
3    0
4    1
5    2
dtype: int64

Assegno il risultato di un'operazione a una nuova variabile

In [15]:
triple = numbers * 3
triple

0   -9
1   -6
2   -3
3    0
4    3
5    6
dtype: int64

In [16]:
prices = pd.Series([1.30, 2.50, 2.50, 5.60, 10.10])
prices

0     1.3
1     2.5
2     2.5
3     5.6
4    10.1
dtype: float64

Riassegno una variabile per sovrascrivere i valori con il risultato di un'operazione

In [36]:
prices = prices * .8
prices

0    1.04
1    2.00
2    2.00
3    4.48
4    8.08
dtype: float64

## `.index`
L'attributo `.index` restituisce informazioni sull'indice(le etichette):
* Gli indici interi basati su zero sono l'impostazione predefinita
* Pandas può anche usare stringhe e date come valori di indice

In [21]:
import pandas as pd

serie = pd.Series([100, 200, 300], index=["Luca", "Anna", "Marta"])

print("Valori:")
print(serie)

print("\nIndice:")
print(serie.index)

Valori:
Luca     100
Anna     200
Marta    300
dtype: int64

Indice:
Index(['Luca', 'Anna', 'Marta'], dtype='object')


In [23]:
s = pd.Series([7, 8, 8, 9, 9, 9])
s

0    7
1    8
2    8
3    9
4    9
5    9
dtype: int64

`RangeIndex` è un tipo di indice ottimizzato e automatico che Pandas crea per gli oggetti indicizzati da 0 a N-1.

In [26]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [27]:
s.dtype

dtype('int64')

## `.values` 
L'attributo `.values` restituisce solo i valori di un set di dati Pandas.

In [29]:
s.values

array([7, 8, 8, 9, 9, 9])

# `.shape`
* Su una Series, `.shape` restituisce il numero di elementi in quella serie.
* Su un DataFrame, `.shape` restituisce il numero di righe e colonne.

In [31]:
s.shape

(6,)

# `.value_counts`
Restituisce un conteggio di frequenza dei valori:
* è esso stesso un'altra Series;
* l'indice è il valore.

In [32]:
s.value_counts()

9    3
8    2
7    1
Name: count, dtype: int64

# `.mode`
La modalità è il valore più frequente in un set di dati

In [33]:
s.mode()

0    9
dtype: int64

# `.median`
La mediana è il mezzo ordinale dei dati ordinati

In [34]:
s.median()

8.5

# `.mean`

In [35]:
s.mean()

8.333333333333334

# `.std`
La deviazione standard è una misura di dispersione

In [37]:
s.std()

0.816496580927726

In [38]:
# .min Restituisce il valore più basso
s.min()

7

In [39]:
# argmin Restituisce l'indice del valore più basso
s.argmin()

0

In [40]:
s.max()

9

In [41]:
s.argmax()

3

# Esercitazione
1. Creare una Series contenente i voti di alcuni studenti.
2. Utilizzare i metodi richiesti per analizzare i dati.

* .values
* .mean()
* .median()
* .shape
* .value_counts()
* .mode()
* .index
* .std()

* `[28, 30, 27, 30, 25, 28, 22, 30, 30, 27]`
* `[Anna", "Luca", "Marco", "Sara", "Paolo", "Giulia", "Elena", "Tommaso", "Viola", "Giorgio"]`

Attenzione alle parentesi tonde...

|<br>
|<br>
|<br>
|<br>
|<br>

In [43]:
import pandas as pd

# 1. Serie di voti
voti = pd.Series([28, 30, 27, 30, 25, 28, 22, 30, 30, 27],
                 index=["Anna", "Luca", "Marco", "Sara", "Paolo", "Giulia", "Elena", "Tommaso", "Viola", "Giorgio"])

# 2. Visualizza valori e indice
print("Valori:", voti.values)
print("Indice:", voti.index.tolist())

# 3. Statistiche
print("Media (mean):", voti.mean())
print("Mediana (median):", voti.median())
print("Deviazione standard (std):", voti.std())

# 4. Conteggio voti
print("\nFrequenza dei voti:")
print(voti.value_counts())

# 5. Voto più frequente (moda)
print("Moda (voto più frequente):")
print(voti.mode())

# 6. Dimensione
print("Forma della Serie (shape):", voti.shape)

Valori: [28 30 27 30 25 28 22 30 30 27]
Indice: ['Anna', 'Luca', 'Marco', 'Sara', 'Paolo', 'Giulia', 'Elena', 'Tommaso', 'Viola', 'Giorgio']
Media (mean): 27.7
Mediana (median): 28.0
Deviazione standard (std): 2.62678510731274

Frequenza dei voti:
30    4
28    2
27    2
25    1
22    1
Name: count, dtype: int64
Moda (voto più frequente):
0    30
dtype: int64
Forma della Serie (shape): (10,)


# `.describe`
Restituisce alcune utili statistiche descrittive

In [45]:
s.describe()

count    6.000000
mean     8.333333
std      0.816497
min      7.000000
25%      8.000000
50%      8.500000
75%      9.000000
max      9.000000
dtype: float64

### Esercitiamoci!
- Crea una Series chiamata `a` con `[1, 2, 3, 4, 5]`
- Crea una Series chiamata `b` con `[1, 1, 2, 3, 5]`
- Fai il quadrato di  `a` e reassegnalo alla variabile `a`
- Fai il quadrato `b` e reassegnalo alla variabile `b`
- Somma i quadrati di `a` e `b` ed assegna la variabile chiamata `sum_of_squares`
- Fai la radice quadrato di quella somma (*suggerimento* l'elevamento alla 0.5 potenza è la radice quadrata)

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>

In [47]:
import pandas as pd

a=pd.Series([1,2,3,4,5])
a

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [48]:
b=pd.Series([1,1,2,3,5])
b

0    1
1    1
2    2
3    3
4    5
dtype: int64

In [49]:
a=a**2
a

0     1
1     4
2     9
3    16
4    25
dtype: int64

In [50]:
b=b**2
b

0     1
1     1
2     4
3     9
4    25
dtype: int64

In [51]:
sum_of_squares= a+b
sum_of_squares

0     2
1     5
2    13
3    25
4    50
dtype: int64

In [52]:
sum_of_squares ** (1/2)

0    1.414214
1    2.236068
2    3.605551
3    5.000000
4    7.071068
dtype: float64