<a id='start'></a>
# Collecting

In questo notebook vengono spiegati i principali metodi per raccogliere ed effettuare una prima manipolazione sui dati. <br>
La libreria più usata per effettuare queste operazioni principali è **Pandas**. <br>
<br>
Il notebook è suddiviso nelle seguenti sezioni:<br>
- [DataFrame e Series](#section1)<a href='#section1'></a>; <br>
- [Importare i dati dall'esterno](#section2)<a href='#section2'></a>; <br>
- [Selezionare i dati del dataset](#section3)<a href='#section3'></a>; <br>
    - [Index - based Selection](#section4)<a href='#section4'></a><br>
    - [Label - based Selection](#section5)<a href='#section5'></a> <br>
    - [Conditional Selection](#section6)<a href='#section6'></a>

<a id='section1'></a>
## DataFrame e Series

Introduciamo la libreria **Pandas**, utilizzata per creare e gestire gli oggetti: **Series** e **Dataframe**.<br>

Gli oggetti *Series* e *Dataframe* possono essere importati da file (csv, xls, html, ..) oppure creati manualmente. <br>

Importiamo inizialmente la libreria Pandas

In [6]:
import pandas as pd

print("Setup Complete.")

Setup Complete.


Un **DataFrame** è una tabella che contiene un array di singole voci, ognuna delle quali ha un certo valore. Ogni voce corrisponde ad una riga (o record) e ad una colonna.

In [7]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


Un DataFrame può contenere anche caratteri stringa e non solo valori numerici

In [8]:
pd.DataFrame({'Audi': ['Migliore', 'Peggiore'], 'Mercedes': ['Peggiore', 'Migliore']})

Unnamed: 0,Audi,Mercedes
0,Migliore,Peggiore
1,Peggiore,Migliore


Le righe di un DataFrame prendono il nome di **Index** ed è possibile assegnargli un valore tramite il seguente codice:

In [9]:
pd.DataFrame({'Audi': ['Migliore', 'Peggiore'], 'Mercedes':['Peggiore', 'Migliore']}, index = ['Utilitaria', 'Sportiva'])

Unnamed: 0,Audi,Mercedes
Utilitaria,Migliore,Peggiore
Sportiva,Peggiore,Migliore


Una **Series**, è una sequenza di valori di dati. Se un DataFrame è una tabella, una serie è una lista.

In [10]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

È possibile assegnare dei valori alle righe di una Series allo stesso modo di prima, utilizzando un parametro indice. <br>
Inoltre, una Series non ha un nome di colonna, ma ha solo un nome complessivo

In [11]:
pd.Series([300, 450, 400], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product X')

2015 Sales    300
2016 Sales    450
2017 Sales    400
Name: Product X, dtype: int64

<a id='section2'></a>
## Importare i dati dall'esterno

In questa sezione del notebook ci occupiamo di come importare i dati da risorse esterne (csv, excel e html) grazie alla libreria Pandas.

### Importare dati da un csv

Il metodo da utilizzare per importare i dati da un csv con la libreria Pandas è __[read_csv](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)__. <br>
Ci sono molti parametri per il metodo *read_csv*, i più importanti sono:
- sep
- delimeter
- header
- index_col
- skiprows
- na_values <br>
...

In [12]:
dataset = pd.read_csv("dataset.csv", index_col = 0)
dataset

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C,1
2,3,"Heikkinen, Miss. Laina",female,26.0,7.925,S,1
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,S,1
4,3,"Allen, Mr. William Henry",male,35.0,8.05,S,0
5,3,"Moran, Mr. James",male,,8.4583,Q,0
6,1,"McCarthy, Mr. Timothy J",male,54.0,51.8625,S,0
7,3,"Palsson, Master. Gosta Leonard",male,2.0,21.075,S,0
8,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,11.1333,S,1
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,30.0708,C,1
10,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,16.7,S,1


In [13]:
# Il metodo .head() permette di vedere le prime righe (di default le prime 5) di un DataFrame o di una Series
dataset.head()

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C,1
2,3,"Heikkinen, Miss. Laina",female,26.0,7.925,S,1
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,S,1
4,3,"Allen, Mr. William Henry",male,35.0,8.05,S,0
5,3,"Moran, Mr. James",male,,8.4583,Q,0


In [14]:
# il metodo .tail() permette di vedere le ultime righe (di default le prime 5) di un DataFrame o di una Series
dataset.tail()

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
16,3,"Rice, Master. Eugene",male,2.0,29.125,Q,0
17,2,"Williams, Mr. Charles Eugene",male,,13.0,S,1
18,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,18.0,S,0
19,3,"Masselmani, Mrs. Fatima",female,,7.225,C,1
20,2,"Fynney, Mr. Joseph J",male,35.0,26.0,S,0


### Importare dati da un file excel

Il metodo da utilizzare per importare i dati da un file excel con la libreria Pandas è __[read_excel](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)__. <br>
In questo caso sarà necessario indicare in quale sheet del file excel si trova il dataframe che vogliamo importare utilizzando il parametro *sheet_name*.

In [15]:
dataset = pd.read_excel("dataset_excel_workbook.xlsx", sheet_name='dataset', index_col=0)
dataset

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C,1
2,3,"Heikkinen, Miss. Laina",female,26.0,7.925,S,1
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,S,1
4,3,"Allen, Mr. William Henry",male,35.0,8.05,S,0
5,3,"Moran, Mr. James",male,,8.4583,Q,0
6,1,"McCarthy, Mr. Timothy J",male,54.0,51.8625,S,0
7,3,"Palsson, Master. Gosta Leonard",male,2.0,21.075,S,0
8,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,11.1333,S,1
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,30.0708,C,1
10,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,16.7,S,1


### Importare dati da un sito web

Il metodo da utilizzare per importare una tabella da un sito web con la libreria Pandas è __[read_html](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_html.html#pandas.read_html)__. <br>


I parametri più importanti da considerare nel momento in cui si fa l'import sono i seguenti: <br>
- **skiprows** = indica il numero di righe da saltare nell'importazione; <br>
- **header** = indica la riga da utilizzare per creare le intestazioni delle colonne.

In [16]:
classifica_serie_a = pd.read_html(io="http://www.legaseriea.it/it/serie-a/classifica", skiprows=1, header=0)
classifica_serie_a

[              SQUADRE  PUNTI  G  V  N  P  G.1  V.1  N.1  P.1  G.2  V.2  N.2  \
 0            1  Inter     15  5  5  0  0    3    3    0    0    2    2    0   
 1         2  Juventus     13  5  4  1  0    2    2    0    0    3    2    1   
 2         3  Atalanta     10  5  3  1  1    2    0    1    1    3    3    0   
 3           4  Napoli      9  5  3  0  2    2    1    0    1    3    2    0   
 4         5  Cagliari      9  5  3  0  2    3    1    0    2    2    2    0   
 5           6  Torino      9  5  3  0  2    3    2    0    1    2    1    0   
 6             7  Roma      8  5  2  2  1    3    1    1    1    2    1    1   
 7          8  Bologna      8  5  2  2  1    2    1    0    1    3    1    2   
 8            9  Lazio      7  5  2  1  2    2    1    1    0    3    1    0   
 9        10  Sassuolo      6  5  2  0  3    2    2    0    0    3    0    0   
 10        11  Brescia      6  5  2  0  3    2    0    0    2    3    2    0   
 11          12  Parma      6  5  2  0  

La funzione *read_html* ritorna come oggetto una *lista di DataFrame*. <br>
Possiamo a questo punto associare la lista di Dataframe identificata dall'elemento 0 dell'oggetto ottenuto da *read_html*.

In [17]:
serie_a = classifica_serie_a[0]
serie_a.head()

Unnamed: 0,SQUADRE,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,1 Inter,15,5,5,0,0,3,3,0,0,2,2,0,0,10,1
1,2 Juventus,13,5,4,1,0,2,2,0,0,3,2,1,0,9,5
2,3 Atalanta,10,5,3,1,1,2,0,1,1,3,3,0,0,11,8
3,4 Napoli,9,5,3,0,2,2,1,0,1,3,2,0,1,13,9
4,5 Cagliari,9,5,3,0,2,3,1,0,2,2,2,0,0,8,5


È possibile ottenere i nomi delle colonne che formano un Dataframe o una Series attraverso l'attributo **.columns**

In [18]:
serie_a.columns

Index(['SQUADRE', 'PUNTI', 'G', 'V', 'N', 'P', 'G.1', 'V.1', 'N.1', 'P.1',
       'G.2', 'V.2', 'N.2', 'P.2', 'F', 'S'],
      dtype='object')

In [19]:
type(serie_a)

pandas.core.frame.DataFrame

In [20]:
serie_a

Unnamed: 0,SQUADRE,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,1 Inter,15,5,5,0,0,3,3,0,0,2,2,0,0,10,1
1,2 Juventus,13,5,4,1,0,2,2,0,0,3,2,1,0,9,5
2,3 Atalanta,10,5,3,1,1,2,0,1,1,3,3,0,0,11,8
3,4 Napoli,9,5,3,0,2,2,1,0,1,3,2,0,1,13,9
4,5 Cagliari,9,5,3,0,2,3,1,0,2,2,2,0,0,8,5
5,6 Torino,9,5,3,0,2,3,2,0,1,2,1,0,1,8,7
6,7 Roma,8,5,2,2,1,3,1,1,1,2,1,1,0,10,9
7,8 Bologna,8,5,2,2,1,2,1,0,1,3,1,2,0,7,6
8,9 Lazio,7,5,2,1,2,2,1,1,0,3,1,0,2,7,4
9,10 Sassuolo,6,5,2,0,3,2,2,0,0,3,0,0,3,10,8


<a id='section3'></a>
## Selezionare i dati del dataset

In questa sezione impareremo i principali metodi per selezionare le colonne e le righe di un dataset, identificato sottoforma di DataFrame o Series.

Prima di continuare è necessario precisare che la libreria **Pandas** _non_ utilizza la denominazione, che viene usata comunemente per individuare gli assi di un database, ovvero *dimension* e *feature*. <br>
La libreria Pandas indica le dimensioni di una matrice, con il termine **axes**, ovvero utilizza il parametro **(axis = 0)** per indicare le righe di un dataset ed il parametro **(axis = 1)** per indicare le colonne di un dataset.

<img src="axis_Pandas.jpg">

In [21]:
# Rinomiamo il dataset importato precedentemente tramite file excel
titanic = dataset
titanic.head()

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C,1
2,3,"Heikkinen, Miss. Laina",female,26.0,7.925,S,1
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,S,1
4,3,"Allen, Mr. William Henry",male,35.0,8.05,S,0
5,3,"Moran, Mr. James",male,,8.4583,Q,0


In [24]:
# Selezioniamo la colonna Age del dataset titanic

titanic['Name'] # è possibile usare anche titanic.Age

1     Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                Heikkinen, Miss. Laina
3          Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                              Allen, Mr. William Henry
5                                      Moran, Mr. James
6                               McCarthy, Mr. Timothy J
7                        Palsson, Master. Gosta Leonard
8     Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
9                   Nasser, Mrs. Nicholas (Adele Achem)
10                      Sandstrom, Miss. Marguerite Rut
11                             Bonnell, Miss. Elizabeth
12                       Saundercock, Mr. William Henry
13                          Andersson, Mr. Anders Johan
14                 Vestrom, Miss. Hulda Amanda Adolfina
15                     Hewlett, Mrs. (Mary D Kingcome) 
16                                 Rice, Master. Eugene
17                         Williams, Mr. Charles Eugene
18    Vander Planke, Mrs. Julius (Emelia Maria V

Nella cella precedente abbiamo selezionato una colonna da un DataFrame ed è stata estratta assegnandole il formato **Series**. <br>
Abbiamo indicato due metodi per estrarre una colonna da un DataFrame, nessuno dei due è il migliore ma qualora il nome della colonna avesse uno spazio, ad esempio supponiamo fosse "Age Female", in quel caso dovremmo usare la notazione con le parentesi quadre.

In [50]:
# Selezioniamo ora la prima riga della colonna Age
titanic['Age'][1]

38.0

Pandas utilizza due paradigmi per selezionare i dati: <br>
- Index-based: ovvero basandosi sulla posizione numerica dei dati; <br>
- Label-based: ovvero basandosi sul valore di un indice dei dati.

<a id='section4'></a>
### Index-Based Selection

Il codice che si utilizza per effettuare una *index-based selection* è **iloc**.<br>
Ad esempio, selezioniamo la prima riga del dataset sul titanic:

In [51]:
titanic.iloc[0]

Pclass                                                      1
Name        Cumings, Mrs. John Bradley (Florence Briggs Th...
Sex                                                    female
Age                                                        38
Fare                                                  71.2833
Embarked                                                    C
Survived                                                    1
Name: 1, dtype: object

Sia il metodo **iloc** che **loc** (che vedremo dopo) sono *row-first, column-second* ovvero considerano come primo input il valore della riga e come secondo quello della colonna. Questo funzionamento è opposto al tradizionale comportamento di Python, che è *column-first, row-second*. <br>
Infatti poche righe sopra, prima di introdurre *iloc* e *loc* abbiamo usato il codice "titanic['Age'][1]", ovvero dataset[colonna][riga].

Per ottenere la colonna desiderata con iloc dobbiamo utilizzare la seguente sintassi:

In [54]:
# Stampo TUTTE le righe della colonna dei nomi
titanic.iloc[:,1]

1     Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                Heikkinen, Miss. Laina
3          Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                              Allen, Mr. William Henry
5                                      Moran, Mr. James
6                               McCarthy, Mr. Timothy J
7                        Palsson, Master. Gosta Leonard
8     Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
9                   Nasser, Mrs. Nicholas (Adele Achem)
10                      Sandstrom, Miss. Marguerite Rut
11                             Bonnell, Miss. Elizabeth
12                       Saundercock, Mr. William Henry
13                          Andersson, Mr. Anders Johan
14                 Vestrom, Miss. Hulda Amanda Adolfina
15                     Hewlett, Mrs. (Mary D Kingcome) 
16                                 Rice, Master. Eugene
17                         Williams, Mr. Charles Eugene
18    Vander Planke, Mrs. Julius (Emelia Maria V

In [55]:
# Stampo le prime 3 righe della colonna dei nomi
titanic.iloc[:3,1]

1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
Name: Name, dtype: object

In [58]:
# Stampo le righe che mi interessano della colonna dei nomi
# In questo caso utilizzo una lista per indicare le righe che mi interessano
titanic.iloc[[1,2,3,5,7],1]

2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
6                              McCarthy, Mr. Timothy J
8    Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
Name: Name, dtype: object

<a id='section5'></a>
### Label-Based Selection

Il codice che si utilizza per effettuare una *label-based selection* è **loc**.<br>
Per ottenere il primo record del campo "Name" del dataset sul titanic dobbiamo utilizzare la seguente sintassi:

In [39]:
titanic.loc[1, 'Name']

'Cumings, Mrs. John Bradley (Florence Briggs Thayer)'

In [40]:
titanic.loc[2, ['Name', 'Age', 'Pclass']]

Name      Heikkinen, Miss. Laina
Age                           26
Pclass                         3
Name: 2, dtype: object

Quando si sceglie o si passa da *loc* a *iloc*, c'è una **differenza** che è importante tenere a mente, cioè che **i due metodi utilizzano schemi di indicizzazione leggermente diversi**.<br>

**iloc** utilizza lo schema di indicizzazione Python stdlib: dove **il primo elemento del range è incluso e l'ultimo escluso.** Quindi iloc[0:10] selezionerà le voci 0,.....,9. <br>
**loc**, nel frattempo, **indicizza in modo inclusivo.** Così loc[1:10] selezionerà le voci 1,.....,10.

Supponiamo di avere un DataFrame con un semplice elenco numerico, ad esempio 0,......1000. In questo caso df.iloc[0:1000] restituirà 1000 voci, mentre df.loc[0:1000] ne restituirà 1001! Per ottenere 1000 elementi usando loc, dovremo utilizzare df.loc[0:999].


<a id='section6'></a>
### Conditional Selection

Durante le nostre analisi potremo aver bisogno di selezionare parti di un dataset sulla base dei valori che possono assumere i campi. Ovvero voler porre delle condizioni alle nostre selezioni.

Supponiamo di voler selezionare dal dataset del titanic solo le donne; iniziamo chiedendoci quali sono le righe che hanno come campo della colonna "Sex" il valore di "female":

In [47]:
titanic[titanic.Sex == "female"]


pandas.core.frame.DataFrame

Abbiamo ottenuto una colonna di True/False che possiamo utilizzare con l'operatore *loc* per selezionare nel dataset i campi riferiti solo alle donne:

In [46]:
titanic.loc[titanic.Sex == "female"]

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C,1
2,3,"Heikkinen, Miss. Laina",female,26.0,7.925,S,1
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,S,1
8,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,11.1333,S,1
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,30.0708,C,1
10,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,16.7,S,1
11,1,"Bonnell, Miss. Elizabeth",female,58.0,26.55,S,1
14,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,7.8542,S,0
15,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,16.0,S,1
18,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,18.0,S,0


Supponiamo ora di voler selezionare le donne che hanno meno di 30 anni:

In [71]:
# utilizziamo l'operatore logico &
titanic.loc[(titanic.Sex == "female") & (titanic.Age < 30)]

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
2,3,"Heikkinen, Miss. Laina",female,26.0,7.925,S,1
8,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,11.1333,S,1
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,30.0708,C,1
10,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,16.7,S,1
14,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,7.8542,S,0


Supponiamo di voler selezionare le femmine oppure tutti quelli che hanno meno di 30 anni, in questo caso sarà necessario utilizzare l'operatore **or**: |

In [72]:
titanic.loc[(titanic.Sex == "female") | (titanic.Age < 30)]

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C,1
2,3,"Heikkinen, Miss. Laina",female,26.0,7.925,S,1
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,S,1
7,3,"Palsson, Master. Gosta Leonard",male,2.0,21.075,S,0
8,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,11.1333,S,1
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,30.0708,C,1
10,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,16.7,S,1
11,1,"Bonnell, Miss. Elizabeth",female,58.0,26.55,S,1
12,3,"Saundercock, Mr. William Henry",male,20.0,8.05,S,0
14,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,7.8542,S,0


Pandas ha dei *conditional selector* pre-costruiti che possono essere utili durante le analisi:<br>
- **isin**: permette di selezionare i dati il cui valore è in una lista di valori; <br>
- **isnull** (ed il suo complementare **notnull**: permette di selezionare i valori che sono o meno nulli (NaN). 

Supponiamo di voler selezionare solo le persone che appartengono alla seconda e terza classe (campo Pclass).

In [74]:
titanic.loc[titanic.Pclass.isin([2,3])]

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
2,3,"Heikkinen, Miss. Laina",female,26.0,7.925,S,1
4,3,"Allen, Mr. William Henry",male,35.0,8.05,S,0
5,3,"Moran, Mr. James",male,,8.4583,Q,0
7,3,"Palsson, Master. Gosta Leonard",male,2.0,21.075,S,0
8,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,11.1333,S,1
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,30.0708,C,1
10,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,16.7,S,1
12,3,"Saundercock, Mr. William Henry",male,20.0,8.05,S,0
13,3,"Andersson, Mr. Anders Johan",male,39.0,31.275,S,0
14,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,7.8542,S,0


Supponiamo di voler selezionare tutti i passeggeri che hanno età nulla:

In [76]:
titanic.loc[titanic.Age.isnull()]

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
5,3,"Moran, Mr. James",male,,8.4583,Q,0
17,2,"Williams, Mr. Charles Eugene",male,,13.0,S,1
19,3,"Masselmani, Mrs. Fatima",female,,7.225,C,1


A questo punto possiamo anche associare un valore ad un campo una volta effettuata una selezione. <br>
Assegniamo a tutte le persone che hanno un valore di età nullo, l'età di 35 anni.

In [84]:
titanic.loc[titanic.Age.isnull(), 'Age'] = 35
titanic

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C,1
2,3,"Heikkinen, Miss. Laina",female,26.0,7.925,S,1
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,S,1
4,3,"Allen, Mr. William Henry",male,35.0,8.05,S,0
5,3,"Moran, Mr. James",male,35.0,8.4583,Q,0
6,1,"McCarthy, Mr. Timothy J",male,54.0,51.8625,S,0
7,3,"Palsson, Master. Gosta Leonard",male,2.0,21.075,S,0
8,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,11.1333,S,1
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,30.0708,C,1
10,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,16.7,S,1


Di seguito alcuni link utili: <br>
- <a href='https://pandas.pydata.org/pandas-docs/stable/indexing.html'>Pandas - Indexing and Selecting Data</a><br>
- <a href='https://pandas.pydata.org/pandas-docs/stable/comparison_with_sql.html'>Pandas - Comparison with Sql</a><br>

[Clicca qui per tornare all'inizio della pagina](#start)<a id='start'></a>

Con questo paragrafo si conclude il notebook "Collecting", il prossimo notebook sarà "Wrangling".

Per eventuali dubbi ci potete scrivere su Teams!<br>
A presto!