<!-- ---------------------------------------------------- -->
   <div class="col-sm-3 col-md-3 col-lg-3">
 	<!-- logo -->  
     <div class="img-responsive">
       <img src="img/pandas-logo.png" title="Pandas Tutorial" alt="Pandas Tutorial">    
     </div>
 	<!-- logo -->	
   </div>
 <!-- ---------------------------------------------------- --> 
   <div class="col-sm-6 col-md-6 col-lg-6">
 	<!-- Pandas Tutorial -->  
 	  <center>
 	    <br>
         <h1>Lezione 1</h1>
         <br>
         <br>
         <strong>Creare, importare ed esportare dati con Pandas, csv ed excel </strong>
 	  </center>	
     <!-- Pandas Tutorial -->	
   </div>
 <!-- ---------------------------------------------------- -->

In [2]:
# importiamo le librerie necessarie per il tutorial
from pandas import DataFrame, read_csv
import matplotlib.pyplot as plt
import pandas as pd 
import sys 
import matplotlib
from pandas import ExcelWriter
from pandas import ExcelFile
from collections import OrderedDict
from datetime import date

# Enable inline plotting
%matplotlib inline

In [3]:
# verifichiamo le versioni installate
print('Python version ' + sys.version)
print('Pandas version ' + pd.__version__)
print('Matplotlib version ' + matplotlib.__version__)

Python version 3.7.1 (v3.7.1:260ec2c36a, Oct 20 2018, 14:05:16) [MSC v.1915 32 bit (Intel)]
Pandas version 0.23.4
Matplotlib version 3.0.1


## Creare dati

Per creare un set di dati si può partire da varie strutture come liste e dizionari.

In [4]:
nomi =  ['Bob','Jessica','Mary','John','Mel']
nascite = [968, 155, 77, 578, 973]

Per creare una lista di coppie di voci dalle due liste possiamo usare la funzione zip

In [5]:
babyDataSet = list(zip(nomi, nascite))
babyDataSet

[('Bob', 968), ('Jessica', 155), ('Mary', 77), ('John', 578), ('Mel', 973)]

Per poter sfruttare tutta la potenza di Pandas dobbiamo creare un Dataframe che funziona similmente ad un database. Per farlo utilizziamo l'apposita funzione DataFrame:

In [11]:
df = pd.DataFrame(data = babyDataSet, columns=['Nomi', 'Nascite'])
df

Unnamed: 0,Nomi,Nascite
0,Bob,968
1,Jessica,155
2,Mary,77
3,John,578
4,Mel,973


Come abbiamo detto esistono varie modalità per creare un dataframe. Le possibilità sono:
+ Un dizionario
+ Una lista

A seconda se vogliamo importare per righe o per colonne esistono degli appositi metodi e le relative sorgenti di importazione vanno opportunamente formattate come possiamo vedere dall'immagine seguente:

<div class="img-responsive">
       <img src="img/pandas-dataframe-shadow.png" title="df creation" alt="df creation">    
</div>

Come si vede i metodi utilizzati sono:
+ from_dict
+ from_records
+ from_items
+ DataFrame

Vediamo nel dettaglio qualche esempio. In ognuno vogliamo elaborare l'andamento della temperatura media mensile in tre località

|ID|Località|Gen|Feb|Mar|
|---:|---:|---:|---:|---:|
|0|Trento|9|10|15|
|1|Bolzano|8|11|13|
|2|Laives|7|9|11|

### Da dizionario per righe - DataFrame

Il modo "standard" di creare un dataframe è partire da un dizionario in cui ogni elemento è composto da una label per ogni colonna e una key per ogni elemento di riga.
In questo caso la creazione del dataframe avviene tramite il metodo standard `DataFrame`

In [11]:
temperature = [{'Località':'Trento', 'Gen':9, 'Feb':10, 'Mar':15},
               {'Località':'Bolzano', 'Gen':8, 'Feb':11, 'Mar':13},
               {'Località':'Laives', 'Gen':7, 'Feb':9, 'Mar':11}]
df = pd.DataFrame(temperature)
print(df)

   Feb  Gen Località  Mar
0   10    9   Trento   15
1   11    8  Bolzano   13
2    9    7   Laives   11


### Da dizionario, per colonne - from_dict

Se invece di voler scrivere riga per volta il dizionario, specificando ogni volta ogni colonna con le label, vogliamo creare un array per ogni colonna possiamo utilizzare il metodo `from_dict` per importare i dati nel dataframe

In [8]:
temperature = {'Località':['Trento', 'Bolzano','Laives'],
               'Gen':[9, 8, 7],
               'Feb':[10, 11, 9],
               'Mar':[15, 13, 11]}
df = pd.DataFrame.from_dict(temperature)
print(df)

   Feb  Gen Località  Mar
0   10    9   Trento   15
1   11    8  Bolzano   13
2    9    7   Laives   11


Siccome python non mantiene l'ordine delle label nei dizionari, le colonne sono disordinate rispetto a quello che abbiamo definito costruendo il set di dati. Per sistemare questo problema ci basta riordinare manualmente le colonne:

In [9]:
df = df[['Località', 'Gen', 'Feb', 'Mar']]
print(df)

  Località  Gen  Feb  Mar
0   Trento    9   10   15
1  Bolzano    8   11   13
2   Laives    7    9   11


### Da lista, per righe - from_records

Similmente al dizionario, con le liste lavoriamo nidificando liste di liste. Lavorando per righe ogni lista nella lista rappresenta una riga:

In [12]:
temperature = [['Trento', 9, 10, 15],
               ['Bolzano', 8, 11, 13],
               ['Laives', 7, 9, 11]]
labels = ['Località', 'Gen', 'Feb', 'Mar']
df = pd.DataFrame.from_records(temperature, columns=labels)
print(df)

  Località  Gen  Feb  Mar
0   Trento    9   10   15
1  Bolzano    8   11   13
2   Laives    7    9   11


### Da lista, per colonne - from_items

Infine per importare un dataframe da una lista per colonne dobbiamo nidificare una lista, che rappresenta una riga, in una lista il cui primo elemento è l'etichetta della colonna.

In [4]:
temperature = [['Località', ['Trento', 'Bolzano','Laives']],
               ['Gen', [9, 8, 7]],
               ['Feb', [10, 11, 9]],
               ['Mar', [15, 13, 11]]]
df = pd.DataFrame.from_items(temperature)
print(df)

  Località  Gen  Feb  Mar
0   Trento    9   10   15
1  Bolzano    8   11   13
2   Laives    7    9   11


## Esportare i dati in csv

Per esportare i dati in csv utilizziamo la funzione apposita di Pandas to_csv. Per non far esportare gli indici e l'header basta utilizzare le apposite opzioni <b><i>index</b></i> e <b><i>header</b></i>:

In [None]:
df.to_csv('output.csv', index=False, header=False)

## Importare i dati

Spesso i dati su cui vogliamo lavorare sono salvati in files con diversi possibili formati, come ad esempio csv, excel, txt, sql etc.
Per ognuno Pandas prevede la possibilità di importazione in un dataframe. Se i dati sorgente sono correttamente formattati l'operazione risulta abbastanza semplice ed immediata:

+ read_csv
+ read_csv
+ read_sql

## Esportare i dati in excel

Esportare un dataframe da Pandas a Excelè abbastanza semplice grazie al metodo to_excel:

In [5]:
writer = ExcelWriter('outToExcel.xlsx')
df.to_excel(writer,'Sheet1',index=False)
writer.save()