## Pandas
si basa su NumPy. Utilizza i DataFrame, cioè delle tabelle di dati in memoria

https://pandas.pydata.org/

Pandas provides two types of classes for handling data:

Series: a one-dimensional labeled array holding data of any type
such as integers, strings, Python objects etc.

DataFrame: a two-dimensional data structure that holds data like a two-dimension array or a table with rows and columns.


In [2]:
#pip install pandas

import pandas as pd


Creiamo una serie da un elenco valori. Notare la presenza dell'indice

In [5]:
s = pd.Series([10, 30, 50, 44, 65, 86])
print(s)

0    10
1    30
2    50
3    44
4    65
5    86
dtype: int64


Creiamo una tabella DataFrame

In [8]:
#creo un range di date a partire da una data e per 6 giorni
dates = pd.date_range("20240901", periods=6)
print(dates)


DatetimeIndex(['2024-09-01', '2024-09-02', '2024-09-03', '2024-09-04',
               '2024-09-05', '2024-09-06'],
              dtype='datetime64[ns]', freq='D')


In [9]:
#poi genero i dati
import numpy as np
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
print(df)


                   A         B         C         D
2024-09-01  1.061596 -0.816070  0.202270  2.267714
2024-09-02  0.126449  0.944895  0.117183  0.862494
2024-09-03 -0.248540  0.004117  0.511677 -0.634134
2024-09-04 -0.556455  0.095939 -1.207228  0.284192
2024-09-05 -2.189344 -0.226022 -1.016297  1.716083
2024-09-06  0.581013  0.000215 -0.588177 -1.072914


In [12]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20240901"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["mele", "pere", "kiwi", "fragole"]),
        "F": "test",
    }
)
print(df2)

     A          B    C  D        E     F
0  1.0 2024-09-01  1.0  3     mele  test
1  1.0 2024-09-01  1.0  3     pere  test
2  1.0 2024-09-01  1.0  3     kiwi  test
3  1.0 2024-09-01  1.0  3  fragole  test
0    1.0
1    1.0
2    1.0
3    1.0
dtype: float32


Un dataframe si può ottenere da un file CSV. File generato da chatgpt o gemini. "genera 10 righe di un file CVS con le seguenti colonne: nome, cognome, peso, altezza, data_nascita, sesso"


In [13]:
tab = pd.read_csv('fake_data.csv', delimiter=',')
print(tab)

       nome    cognome  peso  altezza data_nascita sesso
0  Giacobbe  Trapanese  63.6     1.94   1971-12-26     M
1  Giovanni  Barillaro  84.0     1.80   1984-08-10     F
2   Bettina       Toso  93.5     1.88   1960-01-25     F
3     Carlo    Bettoni  80.5     1.79   1957-04-15     F
4     Mauro   Bompiani  96.4     1.64   1990-10-18     M
5   Gustavo    Galuppi  67.6     1.82   1966-07-09     M
6    Puccio    Tartini  54.9     1.59   1973-04-05     M
7      Tina  Gagliardi  83.1     1.84   1997-05-11     F
8      Pier    Udinesi  55.5     1.89   1993-05-15     M
9  Alderano     Turchi  82.8     1.94   1962-03-03     M


In [15]:
print(tab.dtypes)

nome             object
cognome          object
peso            float64
altezza         float64
data_nascita     object
sesso            object
dtype: object


La data di nascita non è stata riconosciuta. 
con tab['data_nascita'] faccio rif a una colonna. si può usare anche tab.data_nascita se la colonna esiste

In [16]:
tab['data_nascita'] = pd.to_datetime(tab['data_nascita'])
print(tab.dtypes)
print(tab)

nome                    object
cognome                 object
peso                   float64
altezza                float64
data_nascita    datetime64[ns]
sesso                   object
dtype: object
       nome    cognome  peso  altezza data_nascita sesso
0  Giacobbe  Trapanese  63.6     1.94   1971-12-26     M
1  Giovanni  Barillaro  84.0     1.80   1984-08-10     F
2   Bettina       Toso  93.5     1.88   1960-01-25     F
3     Carlo    Bettoni  80.5     1.79   1957-04-15     F
4     Mauro   Bompiani  96.4     1.64   1990-10-18     M
5   Gustavo    Galuppi  67.6     1.82   1966-07-09     M
6    Puccio    Tartini  54.9     1.59   1973-04-05     M
7      Tina  Gagliardi  83.1     1.84   1997-05-11     F
8      Pier    Udinesi  55.5     1.89   1993-05-15     M
9  Alderano     Turchi  82.8     1.94   1962-03-03     M


Aggiungo una colonna

In [17]:
tab["genere"] = tab["sesso"].apply(lambda x: 'MALE' if x=='M' else 'FEMALE')
print(tab)

       nome    cognome  peso  altezza data_nascita sesso  genere
0  Giacobbe  Trapanese  63.6     1.94   1971-12-26     M    MALE
1  Giovanni  Barillaro  84.0     1.80   1984-08-10     F  FEMALE
2   Bettina       Toso  93.5     1.88   1960-01-25     F  FEMALE
3     Carlo    Bettoni  80.5     1.79   1957-04-15     F  FEMALE
4     Mauro   Bompiani  96.4     1.64   1990-10-18     M    MALE
5   Gustavo    Galuppi  67.6     1.82   1966-07-09     M    MALE
6    Puccio    Tartini  54.9     1.59   1973-04-05     M    MALE
7      Tina  Gagliardi  83.1     1.84   1997-05-11     F  FEMALE
8      Pier    Udinesi  55.5     1.89   1993-05-15     M    MALE
9  Alderano     Turchi  82.8     1.94   1962-03-03     M    MALE


posso estrarre un dataframe selezionando le colonne che interessano


In [18]:
tab2 = tab[['cognome', 'nome']]
print(tab2)

     cognome      nome
0  Trapanese  Giacobbe
1  Barillaro  Giovanni
2       Toso   Bettina
3    Bettoni     Carlo
4   Bompiani     Mauro
5    Galuppi   Gustavo
6    Tartini    Puccio
7  Gagliardi      Tina
8    Udinesi      Pier
9     Turchi  Alderano


In [20]:
tab3 = tab2.sort_values(by='cognome')
print(tab3)

     cognome      nome
1  Barillaro  Giovanni
3    Bettoni     Carlo
4   Bompiani     Mauro
7  Gagliardi      Tina
5    Galuppi   Gustavo
6    Tartini    Puccio
2       Toso   Bettina
0  Trapanese  Giacobbe
9     Turchi  Alderano
8    Udinesi      Pier
