# **Pandas**
## Selezione

In [1]:
# import librerie
import pandas as pd

In [2]:
# definizione DataSet
df = pd.DataFrame({
"nome":["Mark","Andrea","Luca","Alex","Jack","Max","Lou","Kim","Frank","Sam","Paul"]
,"zona":["Sud","Nord","Sud","Nord","Sud","Sud","Centro","Centro","Nord","Sud","Centro"]
,"incassi":[50000,52000,90000,34000,42000,72000,49000,55000,67000,65000,67000]
,"spese":[42000,43000,50000,44000,38000,39000,42000,60000,39000,44000,45000]})

df

Unnamed: 0,nome,zona,incassi,spese
0,Mark,Sud,50000,42000
1,Andrea,Nord,52000,43000
2,Luca,Sud,90000,50000
3,Alex,Nord,34000,44000
4,Jack,Sud,42000,38000
5,Max,Sud,72000,39000
6,Lou,Centro,49000,42000
7,Kim,Centro,55000,60000
8,Frank,Nord,67000,39000
9,Sam,Sud,65000,44000


In [3]:
# impostazione indice nome
df.set_index('nome', inplace=True)

df

Unnamed: 0_level_0,zona,incassi,spese
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mark,Sud,50000,42000
Andrea,Nord,52000,43000
Luca,Sud,90000,50000
Alex,Nord,34000,44000
Jack,Sud,42000,38000
Max,Sud,72000,39000
Lou,Centro,49000,42000
Kim,Centro,55000,60000
Frank,Nord,67000,39000
Sam,Sud,65000,44000


In [4]:
# selezione una colonna
df['spese']

nome
Mark      42000
Andrea    43000
Luca      50000
Alex      44000
Jack      38000
Max       39000
Lou       42000
Kim       60000
Frank     39000
Sam       44000
Paul      45000
Name: spese, dtype: int64

In [5]:
type(df['spese'])

pandas.core.series.Series

In [6]:
# selezione una colonna in forma tabellare
df[['spese']]

Unnamed: 0_level_0,spese
nome,Unnamed: 1_level_1
Mark,42000
Andrea,43000
Luca,50000
Alex,44000
Jack,38000
Max,39000
Lou,42000
Kim,60000
Frank,39000
Sam,44000


In [7]:
type(df[['spese']])

pandas.core.frame.DataFrame

In [8]:
# selezione per più colonne
df[['spese', 'incassi']]

Unnamed: 0_level_0,spese,incassi
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Mark,42000,50000
Andrea,43000,52000
Luca,50000,90000
Alex,44000,34000
Jack,38000,42000
Max,39000,72000
Lou,42000,49000
Kim,60000,55000
Frank,39000,67000
Sam,44000,65000


In [9]:
# selezionare per righe e colonne
# iloc permette di visualizzare solo alcune righe e colonne basandosi sulla posizione dei dati

# selezione delle prime due righe sulle colonne zona e incassi 
# alla sx della virgola ho il criterio di selezione delle righe
# alla dx della virgola ho il criterio di selezione delle colonne
# iloc -> seleziono colonne in base alla loro posizione nel DF
df.iloc[0:2,0:2] 

Unnamed: 0_level_0,zona,incassi
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Mark,Sud,50000
Andrea,Nord,52000


In [10]:
# selezione della quarta riga della colonna spese
df.iloc[3,2]

44000

In [11]:
# selezionare per righe e colonne
# loc permette di visualizzare solo alcune righe e colonne basandosi sugli indici

# selezione spese di Mark
df.loc['Mark','spese']

42000

In [12]:
# selezione spese di tutti
df.loc[:,'spese']

nome
Mark      42000
Andrea    43000
Luca      50000
Alex      44000
Jack      38000
Max       39000
Lou       42000
Kim       60000
Frank     39000
Sam       44000
Paul      45000
Name: spese, dtype: int64

In [13]:
# descrizione DataFrame
df.describe().T
# nota: la descrizione del DataFrame avverrà solo per i valori numerici

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
incassi,11.0,58454.545455,15654.798858,34000.0,49500.0,55000.0,67000.0,90000.0
spese,11.0,44181.818182,6226.045002,38000.0,40500.0,43000.0,44500.0,60000.0


In [14]:
# calcolo media per colonne
df.mean(numeric_only=True)

incassi    58454.545455
spese      44181.818182
dtype: float64

In [15]:
# calcolo deviazione standard per colonne
df.std(numeric_only=True)

incassi    15654.798858
spese       6226.045002
dtype: float64

In [16]:
# calcolo minimo per colonne
df.min(numeric_only=True)

incassi    34000
spese      38000
dtype: int64

In [17]:
# calcolo massimo per colonne
df.max(numeric_only=True)


incassi    90000
spese      60000
dtype: int64

In [18]:
# calcolo minimo per riga
df.min(0, numeric_only=True)

incassi    34000
spese      38000
dtype: int64

In [19]:
# calcolo massimo per riga
df.max(axis=1, numeric_only=True)

nome
Mark      50000
Andrea    52000
Luca      90000
Alex      44000
Jack      42000
Max       72000
Lou       49000
Kim       60000
Frank     67000
Sam       65000
Paul      67000
dtype: int64

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 11 entries, Mark to Paul
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   zona     11 non-null     object
 1   incassi  11 non-null     int64 
 2   spese    11 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 652.0+ bytes
