Rimportiamo i dataset necessari...

In [6]:
import pandas as pd

In [7]:
df = pd.read_csv('esempi/dataset/star_trek.csv')

In [None]:
df

In [8]:
movies = pd.read_csv('esempi/dataset/movies_mod.csv') #contiene dei NaN

### Selezionare dei subset da DataFrame
![subset](img/03_subset_columns.svg)
Spesso ci troveremo a dover lavorare con solo dei sotto insiemi dell'intero `Dataframe`, vediamo per esempio come fare per selezionare specifiche colonne.  
Supponiamo di voler vedere solo quali film sono di fantascienza 'Sci-Fi'

In [9]:
# Prima pulisco dai valori NaN creando un DataFrame senza quelle righe
movies_clean = movies[movies['movieId'].notna()]
# creo un nuovo dataframe selezionando solo dalla col. "genres"
# i campi che contengono la stringa Sci-Fi
# 
scifi = movies_clean[movies_clean['genres'].str.contains('Sci-Fi')]

Nell'esempio sopra abbiamo usato la funzione `notna()`. Questa ritorna un `True` per ogni riga che non ha un valore nullo tipo `NaN`.  
Con essa possiamo quindi analizzare dal nostro `DataFrame` tutte le righe con valori buoni.  
A seguire abbiamo ulteriormente filtrato i valori cercando le righe che nella colonna 'genres' avessero la stringa 'Sci-Fi' con la funzione `str.contains()` (**[qui](https://pandas.pydata.org/docs/getting_started/intro_tutorials/10_text_data.html)** per vedere altri metodi sulle stringhe).

In [10]:
scifi

Unnamed: 0,movieId,title,genres
23,24.0,Powder (1995),Drama|Sci-Fi
28,29.0,"City of Lost Children, The (Cité des enfants p...",Adventure|Drama|Fantasy|Mystery|Sci-Fi
31,32.0,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller
59,66.0,Lawnmower Man 2: Beyond Cyberspace (1996),Action|Sci-Fi|Thriller
68,76.0,Screamers (1995),Action|Sci-Fi|Thriller
...,...,...,...
9713,188301.0,Ant-Man and the Wasp (2018),Action|Adventure|Comedy|Fantasy|Sci-Fi
9722,189547.0,Iron Soldier (2010),Action|Sci-Fi
9724,190183.0,The Darkest Minds (2018),Sci-Fi|Thriller
9731,191005.0,Gintama (2017),Action|Adventure|Comedy|Sci-Fi


In [11]:
film = scifi["title"]

In [12]:
film

23                                          Powder (1995)
28      City of Lost Children, The (Cité des enfants p...
31              Twelve Monkeys (a.k.a. 12 Monkeys) (1995)
59              Lawnmower Man 2: Beyond Cyberspace (1996)
68                                       Screamers (1995)
                              ...                        
9713                          Ant-Man and the Wasp (2018)
9722                                  Iron Soldier (2010)
9724                             The Darkest Minds (2018)
9731                                       Gintama (2017)
9732                            Gintama: The Movie (2010)
Name: title, Length: 980, dtype: object

In [13]:
type(film)

pandas.core.series.Series

In [14]:
movies["title"].shape # senza parentesi ATTRIBUTO delle Series e DataFrame

(9746,)

In [15]:
movies_clean['title'].shape

(9742,)

Se volessi estrarre dal primo `DataFrame`(quello di Star Trek) solo le età ed il sesso:

In [16]:
e_s = df[['Age', 'Sex']]

In [17]:
e_s

Unnamed: 0,Age,Sex
0,38,male
1,41,male
2,32,female
3,33,male
4,44,male
5,49,male
6,26,male
7,34,female


Per selezionare colonne multiple sopra ho usato una lista dei nomi delle colonne.

In [18]:
type(df[['Age', 'Sex']]) # la selezione di colonne ritorna un DataFrame

pandas.core.frame.DataFrame

In [19]:
df[['Age', 'Sex']].shape #con 8 righe e 2 col. Ovvero un oggetto 2-d

(8, 2)

### Come selezionare specifiche righe dal `DataFrame`
![sub_row](img/03_subset_rows.svg)

Immaginiamo di voler vedere dal `DataFrame` di Star Trek solo gli individui sopra i 33 anni

In [20]:
o35 = df[df['Age'] > 35]

In [21]:
o35

Unnamed: 0,Name,Year of Birth,Age,Sex
0,"Mr. James, Tiberius, Kirk",2233,38,male
1,Mr. S'chn T'gai Spock,2230,41,male
4,"Dott. Leonard ""Bones"" McCoy",2227,44,male
5,Mr. Scott Montgomery,2222,49,male


Per selezionare delle righe in base ad una condizione, scrivere la condizione all'interno delle parentesi `[]`  
Nell'esempio sopra la condizione `df['Age'] > 35` ha verificato per quali righe la colonna `Age` ha valori maggiori di 35.

In [22]:
df['Age'] > 35 # ritorna una serie di booleani della condizione

0     True
1     True
2    False
3    False
4     True
5     True
6    False
7    False
Name: Age, dtype: bool

La serie di booleani può quindi essere usata come filtro sul `DataFrame` **df** per selezionare le sole righe il cui valore è `True`

In [23]:
o35.shape # dimensione del nuovo dataframe diversa dall'originale

(4, 4)

Torniamo ora a giocare con il `DataFrame` dei film e selezioniamo solo i film classificati come 'Comedy' e 'Sci-Fi'

In [24]:
com_sf = movies_clean[(movies_clean['genres'].str.contains('Comedy'))\
                      & (movies_clean['genres'].str.contains('Sci-Fi'))] 

In [25]:
com_sf

Unnamed: 0,movieId,title,genres
220,256.0,Junior (1994),Comedy|Sci-Fi
285,327.0,Tank Girl (1995),Action|Comedy|Sci-Fi
379,435.0,Coneheads (1993),Comedy|Sci-Fi
478,546.0,Super Mario Bros. (1993),Action|Adventure|Children|Comedy|Fantasy|Sci-Fi
558,671.0,Mystery Science Theater 3000: The Movie (1996),Comedy|Sci-Fi
...,...,...,...
9709,187593.0,Deadpool 2 (2018),Action|Comedy|Sci-Fi
9712,188189.0,Sorry to Bother You (2018),Comedy|Fantasy|Sci-Fi
9713,188301.0,Ant-Man and the Wasp (2018),Action|Adventure|Comedy|Fantasy|Sci-Fi
9731,191005.0,Gintama (2017),Action|Adventure|Comedy|Sci-Fi


>**Nota**
>
>Quando si combinano comandi di condizioni multiple, ogni condizione deve essere scritta fra parentesi tonde `()`. Inoltre non possiamo usare 'or/and' ma dobbiamo usare gli operatori `|` per 'or' e `&` per 'and'

Il metodo `isin()` è un'altra funzione utile per filtrare i contenuto di una riga. Per esempio se volessimo cercare i film classificati solo come 'Children' potremmo fare:

In [26]:
movies[movies['genres'].isin(['Children'])]

Unnamed: 0,movieId,title,genres
301,343.0,"Baby-Sitters Club, The (1995)",Children
1097,1426.0,Zeus and Roxanne (1997),Children
9233,152658.0,Santa's Little Helper (2015),Children
9679,183301.0,The Tale of the Bunny Picnic (1986),Children


Il `DataFrame` risultante contiene solo le righe con la sola stringa 'Children'.  
Volendo fare un filtro che selezioni tutte le righe che non rispondono a questo criterio possiamo usare l'operatore Python `~` per il complemento:

In [27]:
movies[~movies['genres'].isin(['Children'])]

Unnamed: 0,movieId,title,genres
0,1.0,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2.0,Jumanji (1995),Adventure|Children|Fantasy
2,3.0,Grumpier Old Men (1995),Comedy|Romance
3,4.0,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5.0,Father of the Bride Part II (1995),Comedy
...,...,...,...
9741,193609.0,Andrew Dice Clay: Dice Rules (1991),Comedy
9742,,,
9743,,,
9744,,,


## Selezione di righe e colonne da un `DataFrame`

![righe_colonne](img/03_subset_columns_rows1.svg)
Supponiamo di voler estrarre dal `DataFrame` di Star Trek i nomi dell'equipaggio con più di 35 anni

In [None]:
nomi_o35 = df.loc[df["Age"] >35, "Name"] # ritorna una serie!
nomi_o35

In questo caso, abbiamo selezionato un _subset_ di dati filtrando righe e colonne in una sola volta; il filtro con solo le parentesi quadre`[]` non è stato più sufficiente, abbiamo introdotto infatti l'operatore `loc` prima delle parentesi quadre.  
Gli operatori `loc` e `iloc` consentono di accedere a gruppi di righe e colonne identificandole per _label_ con `loc` e per indice con `iloc`. Nella sintassi, la parte prima della virgola identifica le righe, mentre la parte a destra della virgola seleziona le colonne.  

Vediamo un po' di esempi:

In [28]:
mydict = [{'a': 1, 'b': 2, 'c': 3, 'd': 4},
          {'a': 100, 'b': 200, 'c': 300, 'd': 400},
          {'a': 1000, 'b': 2000, 'c': 3000, 'd': 4000 }]

In [29]:
test = pd.DataFrame(mydict)
test

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,100,200,300,400
2,1000,2000,3000,4000


**Selezione solo di righe** con l'utilizzo di un indice intero

In [30]:
test.iloc[0] # ritorna una serie!

a    1
b    2
c    3
d    4
Name: 0, dtype: int64

**Selezione di righe** con una lista di interi per indice

In [31]:
test.iloc[[0]] # ritorna un DataFrame!

Unnamed: 0,a,b,c,d
0,1,2,3,4


In [32]:
test.iloc[[0,1]]

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,100,200,300,400


**Selezione** tramite _slicing_

In [33]:
test.iloc[:3] # seleziona le righe da 0 a n-1 

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,100,200,300,400
2,1000,2000,3000,4000


**Selezione con** indice su entrambi gli assi

In [34]:
test.iloc[0,1] # passo degli interi come indici

2

In [35]:
test.iloc[[0,2], [1,3]] # passo 2 liste [righe] e [colonne]    

Unnamed: 0,b,d
0,2,4
2,2000,4000


**Selezione di righe e colonne** con lo _slicing_

In [36]:
test.iloc[1:3,0:3] # ricordiamoci che lo slicing ha END esclusivo

Unnamed: 0,a,b,c
1,100,200,300
2,1000,2000,3000


Volendo assegnare il valore nullo `np.NaN` ai 3 elementi della terza colonna, possiamo fare:

In [37]:
import numpy as np #import numpy per utilizzare il tipo NaN(Not A Number)
test.iloc[0:3, 3] = np.NaN 
test

Unnamed: 0,a,b,c,d
0,1,2,3,
1,100,200,300,
2,1000,2000,3000,


>**RIASSUMENDO**
- Per selezionare _subset_ di dati usare le parentesi quadre `[]`
- All'interno delle `[]` si può usare una singola _label_ per colonna o riga, oppure una lista di _label_ , una _slice_ di _label_ , un'espressione condizionale, oppure i due punti `:`
- Usare `loc` per selezionare righe e o colonne attraverso i loro nomi
- Usare `iloc` come indice della posizione delle righe e colonne nel `DataFrame`
- `loc` e `iloc` possono anche essere usate per assegnare nuovi valori.

***

## TO BE CONTINUED...