# Collecting

In questo notebook vengono spiegati i principali metodi per raccogliere ed effettuare una prima manipolazione sui dati. <br>
La libreria più usata per effettuare queste operazioni principali è Pandas. <br>
<br>
Il notebook è suddiviso nelle seguenti sezioni:<br>
- [DataFrame e Series](#section1)<a href='#section1'></a>; <br>
- [Importare i dati dall'esterno](#section2)<a href='#section2'></a>; <br>


<a id='section1'></a>
## DataFrame e Series

Introduciamo la libreria **Pandas**, utilizzata per creare e gestire gli oggetti: **Series** e **Dataframe**.<br>

Gli oggetti *Series* e *Dataframe* possono essere importati da file (csv, xls, html, ..) oppure creati manualmente. <br>

Importiamo inizialmente la libreria Pandas

In [68]:
import pandas as pd

print("Setup Complete.")

Setup Complete.


Un ** *DataFrame* ** è una tabella che contiene un array di singole voci, ognuna delle quali ha un certo valore. Ogni voce corrisponde ad una riga (o record) e ad una colonna.

In [2]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


Un DataFrame può contenere anche caratteri stringa e non solo valori numerici

In [3]:
pd.DataFrame({'Audi': ['Migliore', 'Peggiore'], 'Mercedes': ['Peggiore', 'Migliore']})

Unnamed: 0,Audi,Mercedes
0,Migliore,Peggiore
1,Peggiore,Migliore


Le righe di un DataFrame prendono il nome di **Index** ed è possibile assegnargli un valore tramite il seguente codice:

In [4]:
pd.DataFrame({'Audi': ['Migliore', 'Peggiore'], 'Mercedes':['Peggiore', 'Migliore']}, index = ['Utilitaria', 'Sportiva'])

Unnamed: 0,Audi,Mercedes
Utilitaria,Migliore,Peggiore
Sportiva,Peggiore,Migliore


Una ** *Series* **, è una sequenza di valori di dati. Se un DataFrame è una tabella, una serie è una lista.

In [5]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

È possibile assegnare dei valori alle righe di una Series allo stesso modo di prima, utilizzando un parametro indice. <br>
Inoltre, una Series non ha un nome di colonna, ma ha solo un nome complessivo

In [6]:
pd.Series([300, 450, 400], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product X')

2015 Sales    300
2016 Sales    450
2017 Sales    400
Name: Product X, dtype: int64

<a id='section2'></a>
## Importare i dati dall'esterno

In questa sezione del notebook ci occupiamo di come importare i dati da risorse esterne (csv, excel, html, database, ecc.) grazie alla libreria Pandas.

### Importare dati da un csv

Il metodo da utilizzare per importare i dati da un csv con la libreria Pandas è __[read_csv](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)__. <br>
Ci sono molti parametri per il metodo *read_csv*, i più importanti sono:
- sep
- delimeter
- header
- index_col
- skiprows
- na_values <br>
...

In [7]:
dataset = pd.read_csv("dataset.csv", index_col = 0)
dataset

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C,1
2,3,"Heikkinen, Miss. Laina",female,26.0,7.925,S,1
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,S,1
4,3,"Allen, Mr. William Henry",male,35.0,8.05,S,0
5,3,"Moran, Mr. James",male,,8.4583,Q,0
6,1,"McCarthy, Mr. Timothy J",male,54.0,51.8625,S,0
7,3,"Palsson, Master. Gosta Leonard",male,2.0,21.075,S,0
8,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,11.1333,S,1
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,30.0708,C,1
10,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,16.7,S,1


In [12]:
# Il metodo .head() permette di vedere le prime righe (di default le prime 5) di un DataFrame o di una Series
dataset.head()

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C,1
2,3,"Heikkinen, Miss. Laina",female,26.0,7.925,S,1
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,S,1
4,3,"Allen, Mr. William Henry",male,35.0,8.05,S,0
5,3,"Moran, Mr. James",male,,8.4583,Q,0


In [13]:
# il metodo .tail() permette di vedere le ultime righe (di default le prime 5) di un DataFrame o di una Series
dataset.tail()

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
16,3,"Rice, Master. Eugene",male,2.0,29.125,Q,0
17,2,"Williams, Mr. Charles Eugene",male,,13.0,S,1
18,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,18.0,S,0
19,3,"Masselmani, Mrs. Fatima",female,,7.225,C,1
20,2,"Fynney, Mr. Joseph J",male,35.0,26.0,S,0


### Importare dati da un file excel

Il metodo da utilizzare per importare i dati da un file excel con la libreria Pandas è __[read_excel](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)__. <br>
In questo caso sarà necessario indicare in quale sheet del file excel si trova il dataframe che vogliamo importare utilizzando il parametro *sheet_name*.

In [16]:
dataset = pd.read_excel("dataset_excel_workbook.xlsx", sheet_name='dataset')
dataset

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C,1
2,3,"Heikkinen, Miss. Laina",female,26.0,7.925,S,1
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,S,1
4,3,"Allen, Mr. William Henry",male,35.0,8.05,S,0
5,3,"Moran, Mr. James",male,,8.4583,Q,0
6,1,"McCarthy, Mr. Timothy J",male,54.0,51.8625,S,0
7,3,"Palsson, Master. Gosta Leonard",male,2.0,21.075,S,0
8,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,11.1333,S,1
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,30.0708,C,1
10,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,16.7,S,1


### Importare dati da un sito web

Il metodo da utilizzare per importare una tabella da un sito web con la libreria Pandas è __[read_html](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_html.html#pandas.read_html)__. <br>


I parametri più importanti da considerare nel momento in cui si fa l'import sono i seguenti: <br>
- **skiprows** = indica il numero di righe da saltare nell'importazione; <br>
- **header** = indica la riga da utilizzare per creare le intestazioni delle colonne.

In [59]:
classifica_serie_a = pd.read_html(io="http://www.legaseriea.it/it/serie-a/classifica", skiprows=1, header=0)
classifica_serie_a

[                  SQUADRE  PUNTI   G   V  N  P  G.1  V.1  N.1  P.1  G.2  V.2  \
 0             1  Juventus     43  15  14  1  0    8    7    1    0    7    7   
 1               2  Napoli     35  15  11  2  2    8    6    2    0    7    5   
 2                3  Inter     29  15   9  2  4    7    5    1    1    8    4   
 3                4  Milan     26  15   7  5  3    8    5    2    1    7    2   
 4                5  Lazio     25  15   7  4  4    8    4    2    2    7    3   
 5               6  Torino     22  15   5  7  3    7    3    1    3    8    2   
 6             7  Atalanta     21  15   6  3  6    7    3    1    3    8    3   
 7                 8  Roma     21  15   5  6  4    7    3    3    1    8    2   
 8             9  Sassuolo     21  15   5  6  4    8    3    4    1    7    2   
 9               10  Parma     21  15   6  3  6    8    3    3    2    7    3   
 10          11  Sampdoria     20  15   5  5  5    7    3    2    2    8    2   
 11         12  Fiorentina  

La funzione *read_html* ritorna come oggetto una *lista di DataFrame*. <br>
Possiamo a questo punto associare la lista di Dataframe identificata dall'elemento 0 dell'oggetto ottenuto da *read_html*.

In [60]:
serie_a = classifica_serie_a[0]
serie_a.head()

Unnamed: 0,SQUADRE,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,1 Juventus,43,15,14,1,0,8,7,1,0,7,7,0,0,32,8
1,2 Napoli,35,15,11,2,2,8,6,2,0,7,5,0,2,32,14
2,3 Inter,29,15,9,2,4,7,5,1,1,8,4,1,3,27,13
3,4 Milan,26,15,7,5,3,8,5,2,1,7,2,3,2,24,18
4,5 Lazio,25,15,7,4,4,8,4,2,2,7,3,2,2,22,18


È possibile ottenere i nomi delle colonne che formano un Dataframe o una Series attraverso l'attributo **.columns**

In [63]:
serie_a.columns

Index(['SQUADRE', 'PUNTI', 'G', 'V', 'N', 'P', 'G.1', 'V.1', 'N.1', 'P.1',
       'G.2', 'V.2', 'N.2', 'P.2', 'F', 'S'],
      dtype='object')

## to be continued...