# Pandas DataFrame

In [22]:
import pandas as pd

Costruiamo un **DataFrame**

In [69]:
df = pd.DataFrame({'name' : ['name1','name2','name3','name4'],
                   'shape': ['2x4','5x6','7x8','9x10']})

In [70]:
df

Unnamed: 0,name,shape
0,name1,2x4
1,name2,5x6
2,name3,7x8
3,name4,9x10


Aggiungiamo due colonne ***x*** e ***y*** estraendo i valori dal campo ***shape***

In [71]:
df['x'] = df['shape'].apply(lambda x: int(x.split('x')[0]))

In [72]:
df['y'] = df['shape'].apply(lambda x: int(x.split('x')[1]))

**NB** L'espressione precedente è equivalente a:

In [73]:
df.y = df['shape'].apply(lambda x: int(x.split('x')[1]))

In questo caso ***df.y*** viene rappresentato come una tupla, ***df['shape']*** come un dizionnario. Il metodo *apply* può essere applicato solo a un dizionario

In [74]:
df.y = df.shape.apply(lambda x: int(x.split('x')[1]))

AttributeError: 'tuple' object has no attribute 'apply'

Notate che il messaggio d'errore riporta attributo e non metodo, questo perchè, come abbiamo visto, le funzioni sono oggetti, quindi per python metodi ed attributi sono sinonimi, anche se con significati semantici diversi 

In [75]:
df

Unnamed: 0,name,shape,x,y
0,name1,2x4,2,4
1,name2,5x6,5,6
2,name3,7x8,7,8
3,name4,9x10,9,10


Definiamo una funzione ***peri*** che calcola il perimetro a partire dai valori ***x*** e ***y***

In [76]:
def peri(x,y):
    return 2*x+2*y

In [77]:
df['Perimetro'] = peri(df['x'],df['y'])

In [78]:
df

Unnamed: 0,name,shape,x,y,Perimetro
0,name1,2x4,2,4,12
1,name2,5x6,5,6,22
2,name3,7x8,7,8,30
3,name4,9x10,9,10,38


Tra le funzioni basilari per la statistica utiliziamo quello che calcola la media e calcoliamo il valore medio del perimetro

In [79]:
df['Perimetro'].mean()

25.5

Ora selezioniamo i dati che hanno un perimetro superiore alla media

## Metodo 1

In [80]:
d2 = df['Perimetro'].loc[lambda x: x > df['Perimetro'].mean()]

In [81]:
d2

2    30
3    38
Name: Perimetro, dtype: int64

Con *loc* ci ritorna il valore dell'indice e del perimetro degli elementi che soddisfano la condizione

## Metodo 2

In [82]:
d2 = df['Perimetro'] > df['Perimetro'].mean()

In [83]:
d2

0    False
1    False
2     True
3     True
Name: Perimetro, dtype: bool

In questo caso ci ritorna una mappa booleana del nostro DataFrame 

## Metodo 3

In [84]:
df2 = df[(df['x'] > df['x'].mean())]

In [85]:
df2

Unnamed: 0,name,shape,x,y,Perimetro
2,name3,7x8,7,8,30
3,name4,9x10,9,10,38


In questo caso ci ritorna un nuovo DataFrame con solo i valori che soffisfano la nostra condizione

## Metodo 4

In [86]:
df3 = df.query('Perimetro > Perimetro.mean()')

In [87]:
df3

Unnamed: 0,name,shape,x,y,Perimetro
2,name3,7x8,7,8,30
3,name4,9x10,9,10,38


## Combiniamo le condizioni

In questo caso usiamo il metodo 4, per semplicità

In [88]:
df3 = df.query('Perimetro > Perimetro.mean() & y > 9')

In [89]:
df3 

Unnamed: 0,name,shape,x,y,Perimetro
3,name4,9x10,9,10,38


## Salvataggio dati su file

Ora salviamo il nostro file in formato **CSV**

In [90]:
df.to_csv('../data/myDF.csv', index = False)

In formato **XLSX**. In questo caso è necessario installare il package *openpyxl*

In [94]:
df.to_excel('../data/myDF.xlsx', index = False, engine='openpyxl')

In formato **JSON**

In [98]:
df.to_json('../data/myDF.json', index = False, orient='split')

In un DataBase **SQLlite**. In questo caso è necessario installare il package *sqlalchemy*

In [104]:
from sqlalchemy import create_engine
from sqlalchemy.types import Integer
engine = create_engine('sqlite:///../data/myDF.sqlite', echo=False)
df.to_sql('myDataFrame', con=engine, index=False,dtype={"x": Integer(),"y": Integer(),"Perimetro": Integer()})