# PANDAS

Pandas è una libreria open-source per la manipolazione e l'analisi dei dati in Python. È ampiamente utilizzata nel campo della data science, dell'analisi dei dati e della ricerca scientifica per la sua potenza e versatilità nel trattare dati strutturati e etichettati.

## GUIDA UFFICIALE

https://pandas.pydata.org/docs/user_guide/index.html#user-guide

## ANACONDA INSTALLAZIONE

https://www.anaconda.com/

## KAGGLE

Kaggle è una piattaforma online che offre strumenti e risorse per data science e machine learning. È  nota per le sue competizioni di data science, dove individui e team competono per risolvere problemi di analisi dei dati e modellazione predittiva. 
Inoltre Kaggle fornisce un'ampia varietà di dataset, che coprono molteplici ambiti come il business, la finanza, la salute, le scienze sociali e altro ancora. I dati sono disponibili per chiunque voglia praticare l'analisi dei dati e il machine learning.

## Caratteristiche principali di Pandas includono:
- Strutture dati potenti: Pandas offre due principali strutture dati: Series e DataFrame.

    - Una Series è un array unidimensionale con etichette sugli assi (axis labels) chiamate "indice".
    - Un DataFrame è una struttura dati bidimensionale simile a un foglio di calcolo con righe e colonne, dove ogni colonna può essere di un tipo diverso (come numeri, stringhe, date, ecc.)..
 
      

- Facilità di caricamento e salvataggio dei dati: Pandas supporta il caricamento e il salvataggio di dati da e verso diversi formati di file, come CSV, Excel, SQL database, JSON, HDF5, e molti altri.

- Operazioni di manipolazione dei dati: Pandas offre una vasta gamma di funzionalità per la manipolazione dei dati, come la selezione, l'indicizzazione, la modifica, la trasformazione e la pulizia dei dati.

- Gestione delle serie temporali: Supporta la manipolazione delle serie temporali, inclusi strumenti per la generazione di date, il cambiamento di frequenza e la gestione dei fusi orari.

- Raggruppamento e aggregazione: Pandas permette di raggruppare dati in base a determinate condizioni e di calcolare statistiche aggregate (come la media, la somma, ecc.) su questi gruppi.

- Join e merge dei dati: Fornisce funzionalità per combinare dati da diverse fonti in base a una o più chiavi di join.

- Gestione dei dati mancanti: Pandas offre metodi per gestire i dati mancanti (NaN) in modo efficace, inclusi riempimenti, eliminazioni o interpolazioni.

- Analisi dei dati: Include funzioni per la statistica descrittiva, la visualizzazione dei dati (integrata con librerie come Matplotlib e Seaborn) e la creazione di grafici per esplorare e comunicare i risultati.

In [26]:
#creare un DataFrame da dizionario
import pandas as pd

# Dati dei personaggi Disney
data = {
    'Name': ['Mickey Mouse', 'Minnie Mouse', 'Donald Duck', 'Goofy', 'Pluto', 'Cinderella', 'Simba', 'Ariel'],
    'Age': [92, 90, 86, 85, 91, None, 25, 30],
    'City': ['Disneyland', 'Disneyland', 'Duckburg', None, 'Mickeytown', 'Castle', 'Pride Rock', 'Atlantica'],
    'Species': ['Mouse', 'Mouse', 'Duck', 'Dog', 'Dog', 'Human', 'Lion', 'Mermaid'],
    'Role': ['Main Character', 'Main Character', 'Main Character', 'Supporting Character', 'Supporting Character', 'Main Character', 'Main Character', 'Main Character']
}

df_disney = pd.DataFrame(data)
df_disney



Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
3,Goofy,85.0,,Dog,Supporting Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
5,Cinderella,,Castle,Human,Main Character
6,Simba,25.0,Pride Rock,Lion,Main Character
7,Ariel,30.0,Atlantica,Mermaid,Main Character


## VISUALIZZAZIONE DATI e metodi principali


In [16]:
# Visualizzazione delle prime 5 righe
df_disney.head()

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
3,Goofy,85.0,,Dog,Supporting Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character


In [17]:
# Visualizzazione le ultime 5 righe
df_disney.tail()

Unnamed: 0,Name,Age,City,Species,Role
3,Goofy,85.0,,Dog,Supporting Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
5,Cinderella,,Castle,Human,Main Character
6,Simba,25.0,Pride Rock,Lion,Main Character
7,Ariel,30.0,Atlantica,Mermaid,Main Character


In [18]:
df_disney.shape#forma del dataframe

(8, 5)

In [5]:
df_disney.size

40

In [6]:
len(df_disney)

8

In [7]:
len(df_disney.columns)

5

In [19]:
# Impostare un indice delle righe diverso, ad esmepio utilizzando la colonna 'Name'
df_disney.index


RangeIndex(start=0, stop=8, step=1)

In [31]:
# Impostare un indice delle righe diverso, ad esmepio utilizzando la colonna 'Name'
df_disney = df_disney.set_index('Name')
print("\nDataFrame con l'indice rinominato:")
df_disney


DataFrame con l'indice rinominato:


Unnamed: 0_level_0,Age,City,Species,Role
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mickey Mouse,92.0,Disneyland,Mouse,Main Character
Minnie Mouse,90.0,Disneyland,Mouse,Main Character
Donald Duck,86.0,Duckburg,Duck,Main Character
Goofy,85.0,,Dog,Supporting Character
Pluto,91.0,Mickeytown,Dog,Supporting Character
Cinderella,,Castle,Human,Main Character
Simba,25.0,Pride Rock,Lion,Main Character
Ariel,30.0,Atlantica,Mermaid,Main Character


In [28]:
df_disney.set_index(['City', 'Species']) #Impostare più colonne come indice

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,Age,Role
City,Species,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Disneyland,Mouse,Mickey Mouse,92.0,Main Character
Disneyland,Mouse,Minnie Mouse,90.0,Main Character
Duckburg,Duck,Donald Duck,86.0,Main Character
,Dog,Goofy,85.0,Supporting Character
Mickeytown,Dog,Pluto,91.0,Supporting Character
Castle,Human,Cinderella,,Main Character
Pride Rock,Lion,Simba,25.0,Main Character
Atlantica,Mermaid,Ariel,30.0,Main Character


In [34]:
#Ripristinare l'Indice Originale
df_disney.reset_index()

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
3,Goofy,85.0,,Dog,Supporting Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
5,Cinderella,,Castle,Human,Main Character
6,Simba,25.0,Pride Rock,Lion,Main Character
7,Ariel,30.0,Atlantica,Mermaid,Main Character


In [33]:
#creare indici personalizzati
# Creazione del DataFrame con indice personalizzato
# index = ['Person_1', 'Person_2', 'Person 3', 'Person 4'] - non molto conveninte per tanti dati dunque iteriamo
# Lunghezza del DataFrame
n_rows = len(data['Name'])

# Creazione del DataFrame con indice personalizzato utilizzando un ciclo
index_base = 'Person_'
index = [index_base + str(i+1) for i in range(n_rows)] #['Person_1', 'Person_2', 'Person_3', 'Person_4', ...]
df_disney_indice = pd.DataFrame(data, index=index)
df_disney_indice

Unnamed: 0,Name,Age,City,Species,Role
Person_1,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
Person_2,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
Person_3,Donald Duck,86.0,Duckburg,Duck,Main Character
Person_4,Goofy,85.0,,Dog,Supporting Character
Person_5,Pluto,91.0,Mickeytown,Dog,Supporting Character
Person_6,Cinderella,,Castle,Human,Main Character
Person_7,Simba,25.0,Pride Rock,Lion,Main Character
Person_8,Ariel,30.0,Atlantica,Mermaid,Main Character


In [35]:
df_disney.reset_index()

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
3,Goofy,85.0,,Dog,Supporting Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
5,Cinderella,,Castle,Human,Main Character
6,Simba,25.0,Pride Rock,Lion,Main Character
7,Ariel,30.0,Atlantica,Mermaid,Main Character


In [40]:
#rigeriamo il DataFrame
df_disney = pd.DataFrame(data)
df_disney

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
3,Goofy,85.0,,Dog,Supporting Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
5,Cinderella,,Castle,Human,Main Character
6,Simba,25.0,Pride Rock,Lion,Main Character
7,Ariel,30.0,Atlantica,Mermaid,Main Character


In [42]:
df_disney.dtypes #attribute dtypes: Return the dtypes in the DataFrame. 
#In generale, quando le colonne sono di tipo object, possono contenere una varietà di dati come stringhe, numeri, datetime, o anche valori non definiti.

Name        object
Age        float64
City        object
Species     object
Role        object
dtype: object

In [41]:
#df['colonna']: Seleziona una singola colonna come Serie.
#df[['colonna1', 'colonna2']]: Seleziona più colonne come DataFrame
df_disney['Name'] #Selezionare una singola colonna da un DataFrame.

0    Mickey Mouse
1    Minnie Mouse
2     Donald Duck
3           Goofy
4           Pluto
5      Cinderella
6           Simba
7           Ariel
Name: Name, dtype: object

In [45]:
df_disney['Age']

0    92.0
1    90.0
2    86.0
3    85.0
4    91.0
5     NaN
6    25.0
7    30.0
Name: Age, dtype: float64

In [46]:
df_disney[['Name', 'Age']]

Unnamed: 0,Name,Age
0,Mickey Mouse,92.0
1,Minnie Mouse,90.0
2,Donald Duck,86.0
3,Goofy,85.0
4,Pluto,91.0
5,Cinderella,
6,Simba,25.0
7,Ariel,30.0


In [47]:
rows_even = df_disney[df_disney.index % 2 == 0] #solo righe pari - ma c'è un altro modo che vedremo sotto! 
rows_even 

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
6,Simba,25.0,Pride Rock,Lion,Main Character


In [48]:
odd_columns = df_disney[df_disney.columns[1::2]] #solo colonne dispari - esiste columns ma non esiste rows
odd_columns

Unnamed: 0,Age,Species
0,92.0,Mouse
1,90.0,Mouse
2,86.0,Duck
3,85.0,Dog
4,91.0,Dog
5,,Human
6,25.0,Lion
7,30.0,Mermaid


In [49]:
only_element = df_disney[df_disney.index == 3] #solo un elemento - dopo vedremo un altro metodo
only_element 

Unnamed: 0,Name,Age,City,Species,Role
3,Goofy,85.0,,Dog,Supporting Character


In [51]:
df_disney

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
3,Goofy,85.0,,Dog,Supporting Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
5,Cinderella,,Castle,Human,Main Character
6,Simba,25.0,Pride Rock,Lion,Main Character
7,Ariel,30.0,Atlantica,Mermaid,Main Character


In [50]:
# Accesso diretto a un singolo elemento
only_name = df_disney['Name'][3]
only_name

'Goofy'

In [52]:
# Accesso diretto ad intervallo di elementi
only_name = df_disney['Name'][3:] #dal terzo in poi
only_name

3         Goofy
4         Pluto
5    Cinderella
6         Simba
7         Ariel
Name: Name, dtype: object

In [53]:
df_disney.nunique() #restituisce il numero di valori unici presenti nella Serie o nella colonna del DataFrame. 

Name       8
Age        7
City       6
Species    6
Role       2
dtype: int64

In [54]:
df_disney['Age'].unique() #array di valori unici in una colonna

array([92., 90., 86., 85., 91., nan, 25., 30.])

In [103]:
# Selezionare solo le righe con valori nulli
# Usiamo il metodo .any() per determinare se almeno uno degli elementi in una struttura dati 
# (come una serie o un DataFrame) soddisfa una condizione specifica.
# Quando applicato a un DataFrame o a una Serie booleana, come nel caso di df_disney.isnull(), restituisce una Serie booleana in cui ogni elemento indica 
# se il corrispondente elemento nel DataFrame originale è nullo (True) o non nullo (False)
df_nulls_only = df_disney[df_disney.isnull().any(axis=1)]

# Stampare il DataFrame risultante
df_nulls_only


Unnamed: 0,Name,Age,City,Species,Role
3,Goofy,85.0,,Dog,Supporting Character
5,Cinderella,,Castle,Human,Main Character


## SERIE

In [55]:
df_disney['Name'] #Serie #NB: è case sensitive!

0    Mickey Mouse
1    Minnie Mouse
2     Donald Duck
3           Goofy
4           Pluto
5      Cinderella
6           Simba
7           Ariel
Name: Name, dtype: object

In [56]:
#convertire la serie in un dataframe
name_disney = df_disney['Name'] #Serie #NB: è case sensitive!
name_disney.to_frame()

Unnamed: 0,Name
0,Mickey Mouse
1,Minnie Mouse
2,Donald Duck
3,Goofy
4,Pluto
5,Cinderella
6,Simba
7,Ariel


## DATAFRAME

In [57]:
df_disney[['Name','Age']]

Unnamed: 0,Name,Age
0,Mickey Mouse,92.0
1,Minnie Mouse,90.0
2,Donald Duck,86.0
3,Goofy,85.0
4,Pluto,91.0
5,Cinderella,
6,Simba,25.0
7,Ariel,30.0


## LOC E ILOC

## LOC
 attributo di indicizzazione che consente di selezionare righe e colonne di un DataFrame in base alle loro etichette.
## ILOC
è un attributo di indicizzazione che consente di selezionare righe e colonne di un DataFrame in base alle loro posizioni intere (indice intero)

In [58]:
df_disney.head()

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
3,Goofy,85.0,,Dog,Supporting Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character


In [59]:
df_disney.iloc[0, :] #seleziona la prima riga e tutte le colonne [0,:] ":" è implicito

Name         Mickey Mouse
Age                  92.0
City           Disneyland
Species             Mouse
Role       Main Character
Name: 0, dtype: object

In [60]:
df_disney.iloc[0:2] #seleziona le prime due righe del DataFrame df utilizzando l'indice di posizione (iloc)

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character


In [61]:
df_disney.iloc[::2] #SOLO RIGHE PARI

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
6,Simba,25.0,Pride Rock,Lion,Main Character


In [62]:
df_disney.iloc[1::2] #SOLO RIGHE DISPARI

Unnamed: 0,Name,Age,City,Species,Role
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
3,Goofy,85.0,,Dog,Supporting Character
5,Cinderella,,Castle,Human,Main Character
7,Ariel,30.0,Atlantica,Mermaid,Main Character


In [63]:
df_disney.iloc[:, 3] #[row, col] -> tutte le righe e la colonna con indice 4
#da notare che non da le intestazioni perchè è una serie!

0      Mouse
1      Mouse
2       Duck
3        Dog
4        Dog
5      Human
6       Lion
7    Mermaid
Name: Species, dtype: object

In [64]:
df_disney.loc[0, 'Name'] #Solo la prima riga, COLUMN= 'name'  #occhio è case sensitive!!!

'Mickey Mouse'

In [65]:
df_disney.loc[1:3, ['Name', 'Age']] #selezionare più righe e più colonne

Unnamed: 0,Name,Age
1,Minnie Mouse,90.0
2,Donald Duck,86.0
3,Goofy,85.0


In [66]:
df_disney.loc[:,'Name'] #ALL ROWS, COLUMN= 'name'

0    Mickey Mouse
1    Minnie Mouse
2     Donald Duck
3           Goofy
4           Pluto
5      Cinderella
6           Simba
7           Ariel
Name: Name, dtype: object

## DATI STATISTICI

In [67]:
# Riassunto statistico
df_disney.describe()

Unnamed: 0,Age
count,7.0
mean,71.285714
std,30.05392
min,25.0
25%,57.5
50%,86.0
75%,90.5
max,92.0


In [68]:
# Eseguire la descrizione statistica solo sulla colonna 'Age'
describe_age = df_disney['Age'].describe()
describe_age

count     7.000000
mean     71.285714
std      30.053920
min      25.000000
25%      57.500000
50%      86.000000
75%      90.500000
max      92.000000
Name: Age, dtype: float64

In [70]:
df_disney.count() # restituisce il numero di valori non nulli per ciascuna colonna del DataFrame

Name       8
Age        7
City       7
Species    8
Role       8
dtype: int64

In [69]:
df_disney.head()

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
3,Goofy,85.0,,Dog,Supporting Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character


In [71]:
# Calcolare il valore minimo, massimo e la media di tutte le età
min_age = df_disney['Age'].min()
min_age

25.0

In [72]:
max_age = df_disney['Age'].max()
max_age


92.0

In [73]:
mean_age = df_disney['Age'].mean() #calcola la media dei valori non nulli 
mean_age

71.28571428571429

In [74]:
# skipna=False - consente di calcolare anche i valori nulli
mean_age2 = df_disney['Age'].mean(skipna=False) #calcola la media dei valori non nulli 
mean_age2

nan

In [75]:
# Sostituisce tutti i valori NaN con zeri
# df_filled = df_disney.fillna(0)
# Sostituisci i valori dell'età NaN con zeri
df_filled = df_disney['Age'].fillna(0) #se non voglio cambiare il dataset
df_filled
#df_disney['Age'] = df_disney['Age'].fillna(0) #se voglio cambiare il dataset

0    92.0
1    90.0
2    86.0
3    85.0
4    91.0
5     0.0
6    25.0
7    30.0
Name: Age, dtype: float64

In [80]:
df_disney

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
3,Goofy,85.0,,Dog,Supporting Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
5,Cinderella,,Castle,Human,Main Character
6,Simba,25.0,Pride Rock,Lion,Main Character
7,Ariel,30.0,Atlantica,Mermaid,Main Character


In [77]:
mean_age = df_filled.mean() #calcola la media considerando anche i valori  nulli 
mean_age

62.375

In [78]:
df_disney.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Name     8 non-null      object 
 1   Age      7 non-null      float64
 2   City     7 non-null      object 
 3   Species  8 non-null      object 
 4   Role     8 non-null      object 
dtypes: float64(1), object(4)
memory usage: 452.0+ bytes


## Filtrare


In [79]:
df_disney[df_disney['Age'] > 30] #filtrare in base all'età

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
3,Goofy,85.0,,Dog,Supporting Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character


In [81]:
df_disney[df_disney['Species'] == 'Mouse'] #filtrare in base alla specie

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character


In [82]:
df_disney[(df_disney['Species'] == 'Mouse') & (df_disney['Age'] == 90 )] #filtrare in base alla specie

Unnamed: 0,Name,Age,City,Species,Role
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character


In [83]:
df_disney

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
3,Goofy,85.0,,Dog,Supporting Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
5,Cinderella,,Castle,Human,Main Character
6,Simba,25.0,Pride Rock,Lion,Main Character
7,Ariel,30.0,Atlantica,Mermaid,Main Character


In [84]:
df_disney[df_disney['Age'].isin([85, 90])]  # Seleziona le righe dove 'Column' è in ['Value1', 'Value2']


Unnamed: 0,Name,Age,City,Species,Role
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
3,Goofy,85.0,,Dog,Supporting Character


In [85]:
df_disney[df_disney['Age'].between(85, 90)]  # Seleziona le righe dove 'Column' è in ['Value1', 'Value2']

Unnamed: 0,Name,Age,City,Species,Role
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
3,Goofy,85.0,,Dog,Supporting Character


## Raggruppare

In Pandas, il metodo ***groupby()*** è fondamentale per raggruppare i dati in base a una o più colonne di un DataFrame. Questo metodo consente di suddividere il DataFrame in gruppi basati su valori comuni nelle colonne specificate e di applicare operazioni aggregate, trasformazioni o analisi a ciascun gruppo separatamente.
### Funzionamento di groupby()
Il metodo groupby() in Pandas funziona nel seguente modo:

- Specificare all'interno delle parentesi tonde una o più colonne del DataFrame su cui desidera basare il raggruppamento.

- Il metodo groupby() crea un oggetto DataFrameGroupBy che non esegue effettivamente alcuna computazione fino a quando non si applica una funzione aggregata o un'altra operazione a questo oggetto.

- Dopo aver creato l'oggetto DataFrameGroupBy, si possono applicare funzioni aggregate come sum(), mean(), count(), size(), min(), max() e altre per calcolare statistiche o eseguire altre operazioni sui dati raggruppati.
  

In [87]:
somma_eta = df_disney.groupby('Species')['Age'].sum() #raggruppa per specie e poi fa la somma delle età
somma_eta

Species
Dog        176.0
Duck        86.0
Human        0.0
Lion        25.0
Mermaid     30.0
Mouse      182.0
Name: Age, dtype: float64

In [88]:
media_eta = df_disney.groupby('Species')['Age'].mean() #raggruppa per specie e poi fa la somma delle età
media_eta

Species
Dog        88.0
Duck       86.0
Human       NaN
Lion       25.0
Mermaid    30.0
Mouse      91.0
Name: Age, dtype: float64

In [89]:
eta_minima = df_disney.groupby('Species')['Age'].min() #raggruppa per specie e poi calcola l'età minima per ogni specie
eta_minima

Species
Dog        85.0
Duck       86.0
Human       NaN
Lion       25.0
Mermaid    30.0
Mouse      90.0
Name: Age, dtype: float64

In [90]:
species_counts = df_disney.groupby('Species').size() #raggruppa i personaggi per ogni specie e li conta
species_counts

Species
Dog        2
Duck       1
Human      1
Lion       1
Mermaid    1
Mouse      2
dtype: int64

In [91]:
# Raggruppare per 'Species' e contare i valori non nulli per ogni specie
grouped_species_counts = df_disney.groupby('Species')['Age'].count()
grouped_species_counts

Species
Dog        2
Duck       1
Human      0
Lion       1
Mermaid    1
Mouse      2
Name: Age, dtype: int64

## ORDINARE

In [94]:
df_disney.sort_values(by='Name',ignore_index=True)  # Ordina per una colonna specifica

Unnamed: 0,Name,Age,City,Species,Role
0,Ariel,30.0,Atlantica,Mermaid,Main Character
1,Cinderella,,Castle,Human,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
3,Goofy,85.0,,Dog,Supporting Character
4,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
5,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
6,Pluto,91.0,Mickeytown,Dog,Supporting Character
7,Simba,25.0,Pride Rock,Lion,Main Character


In [95]:
# ascending=False
df_disney.sort_values(by='Name', ascending=False)  # Ordina per una colonna specifica

Unnamed: 0,Name,Age,City,Species,Role
6,Simba,25.0,Pride Rock,Lion,Main Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
3,Goofy,85.0,,Dog,Supporting Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
5,Cinderella,,Castle,Human,Main Character
7,Ariel,30.0,Atlantica,Mermaid,Main Character


In [96]:
df_disney.sort_values(by=['Species', 'Name'])  # Ordina prima per Column1 e poi per Column2

Unnamed: 0,Name,Age,City,Species,Role
3,Goofy,85.0,,Dog,Supporting Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
5,Cinderella,,Castle,Human,Main Character
6,Simba,25.0,Pride Rock,Lion,Main Character
7,Ariel,30.0,Atlantica,Mermaid,Main Character
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character


In [97]:
df_disney.sort_values(by=['Species', 'Age'], ascending=[True, False])


Unnamed: 0,Name,Age,City,Species,Role
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
3,Goofy,85.0,,Dog,Supporting Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
5,Cinderella,,Castle,Human,Main Character
6,Simba,25.0,Pride Rock,Lion,Main Character
7,Ariel,30.0,Atlantica,Mermaid,Main Character
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character


In [98]:
df_disney.sort_values(by='Age', ascending=False, ignore_index=True)


Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Pluto,91.0,Mickeytown,Dog,Supporting Character
2,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
3,Donald Duck,86.0,Duckburg,Duck,Main Character
4,Goofy,85.0,,Dog,Supporting Character
5,Ariel,30.0,Atlantica,Mermaid,Main Character
6,Simba,25.0,Pride Rock,Lion,Main Character
7,Cinderella,,Castle,Human,Main Character


In [99]:
# Ordinamento in base alla colonna 'Age' in ordine decrescente
df_sorted = df_disney.sort_values(by='Age', ascending=False, ignore_index=True)

# Selezionare solo alcune colonne dopo l'ordinamento
colonnes_sceltes = ['Name', 'Age']

df_sorted_selected = df_sorted[colonnes_sceltes]
df_sorted_selected

Unnamed: 0,Name,Age
0,Mickey Mouse,92.0
1,Pluto,91.0
2,Minnie Mouse,90.0
3,Donald Duck,86.0
4,Goofy,85.0
5,Ariel,30.0
6,Simba,25.0
7,Cinderella,


In [100]:
df_disney.isnull()

Unnamed: 0,Name,Age,City,Species,Role
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,True,False,False
4,False,False,False,False,False
5,False,True,False,False,False
6,False,False,False,False,False
7,False,False,False,False,False


In [101]:
df_disney.isnull().sum() #Sum null values

Name       0
Age        1
City       1
Species    0
Role       0
dtype: int64

In [102]:
# Filtraggio dei dati per escludere le righe con valori nulli
df_no_nulls = df_disney.dropna()
df_no_nulls

Unnamed: 0,Name,Age,City,Species,Role
0,Mickey Mouse,92.0,Disneyland,Mouse,Main Character
1,Minnie Mouse,90.0,Disneyland,Mouse,Main Character
2,Donald Duck,86.0,Duckburg,Duck,Main Character
4,Pluto,91.0,Mickeytown,Dog,Supporting Character
6,Simba,25.0,Pride Rock,Lion,Main Character
7,Ariel,30.0,Atlantica,Mermaid,Main Character
