# Pandas - memorizzare e manipolare dati in dataframe 

In [None]:
import pandas as pd
import numpy as np
pd.set_option('display.min_rows', 20)

In [None]:
# Importiamo una libreria di sistema
import os

### Leggiamo un file  CSV e importiamolo in un dataframe

In [None]:
f = open('Cities.csv')
cities = pd.read_csv(f)

In [None]:
cities

In [None]:
# Numero di righe
len(cities)

In [None]:
# Le prime righe
cities.head()

In [None]:
# Le ultime 20 righe
cities.tail(20)

### Ordinare, selezionare righe e colonne

In [None]:
# Ordiniamo per stato e poi per temperatura decrescente 
cities.sort_values(['country','temperature'],ascending=[True,False])

In [None]:
# Selezionare una singola colonna e restituire una serie
cities.city

In [None]:
cities['city']

In [None]:
cities['temperature']

In [None]:
cities.temperature

In [None]:
# Selezionare colonne multiple
# Viene restituito un dataframe
cities[['city','temperature']]

In [None]:
cities[['city']]

In [None]:
# Selezionare righe sulla base di una condizione
# Non c'è necessità di fare conversioni di tipo
# pandas inferisce tipi per le colonne
cities[cities.longitude < 0]

In [None]:
# Selezionare le righe sulla base del loro indice
cities[15:20]
# Show cities[:8] and cities[200:]

In [None]:
cities[:8]

In [None]:
cities[200:]

In [None]:
# Combiniamo il tutto
# Selezioniamo righe, selezioniamo colonne, ordiniamo
# Città e longitudine di tutte le città con  latitudine > 50 e
# temperatura > 9, ordinate per longitudine
temp1 = cities[(cities.latitude > 50) & (cities.temperature > 9)]
temp2 = temp1[['city','longitude']]
temp3 = temp2.sort_values('longitude')
temp3

### <font color="green">Adesso tocca a voi</font>

In [None]:
# Aprite il file Countries.csv in un dataframe
f = open('Countries.csv')
countries = pd.read_csv(f)

In [None]:
# Trovate tutti gli stati che non nell'Unione Europea e che  
# non si affacciano sul mare; mostrate inoltre la popolazione e
# ordinate per popolazione (ordinamento crescente)
countries[(countries.EU == 'no') & (countries.coastline == 'no')][['country','population']].sort_values('population')

### Aggregazione

In [None]:
# Temperatura minima e massima
print('Temperatura minima:', min(cities.temperature))
print('Temperatura massima:', max(cities.temperature))

In [None]:
# Temperatura media
print('Usando average di numpy:', np.average(cities.temperature))
print('Usando la funzione predefinita mean:', cities.temperature.mean())

In [None]:
# Temperatura media delle città in ogni stato
cities.groupby('country').mean().temperature

In [None]:
cities.groupby('country').min().temperature

In [None]:
cities.groupby('country').temperature.mean()

### <font color="green">Adesso tocca a voi</font>

In [None]:
# Trovate la popolazione media degli stati che si affacciano sul mare, 
# ma anche degli stati che non si affacciano sul mare
# Potete usare il groupby!
countries.groupby('coastline').mean().population

In [None]:
# Modificate per raggruppare per coastline e EU
countries.groupby(['coastline','EU']).mean()[['population']]

### Giunzioni

In [None]:
cities.merge(countries, on='country')

In [None]:
# La giunzione è simmetrica
# Esistono però parametri per configurarla opportunamente
countries.merge(cities, on='country')

### Miscellanea

In [None]:
# Operazioni su stringhe - stati con 'ia' nel loro nome
countries[countries.country.str.contains('ia')]

In [None]:
# Aggiungiamo la colonna fahrenheit 
cities['fahrenheit'] = (cities.temperature * 9/5) + 32
cities

In [None]:
# Qualche volta dataframe temporanei sono necessari
# Città con latitudine > 50 non nell'Unione Europea EU 
temp1 = cities[cities.latitude > 50]
temp2 = countries[(countries.EU == 'no')]
temp3 = temp1.merge(temp2, on='country')
temp3

In [None]:
# Il notebook mostra solo il risultato dell'ultima linea di codice
# Per stampare ciò che abbiamo calcolato prima dobbiamo usare print()
cities[cities.longitude > 35]
cities[cities.longitude < -5]

### <font color="green">Adesso tocca a voi</font>

In [None]:
# Calcolate la temperatura media delle città nell’Unione Europea e al di fuori dell’Unione Europea
# Prima della Brexit
# Dopo la Brexit
# Suggerimento
# Potete risolvere il problema con 5 linee di codice creando un dataframe con una giunzione, facendo poi la media delle temperature per i quattro diversi insiemi di condizioni.
# L’OR  di condizioni si esprime in Pandas con '|'
countriesEUBB = countries[countries.EU =="yes"]
countriesEUAB = countries[(countries.EU == "yes") & (countries.country !="United Kingdom")]
countriesNEUBB = countries[countries.EU =="no"]
countriesNEUAB = countries[(countries.EU =="no") |  (countries.country =="United Kingdom")]
print("AVG EU BB:", cities.merge(countriesEUBB, on='country').temperature.mean())
print("AVG EU AB:", cities.merge(countriesEUAB, on='country').temperature.mean())
print("AVG NON-EU BB:", cities.merge(countriesNEUBB, on='country').temperature.mean())
print("AVG NON-EU AB:", cities.merge(countriesNEUAB, on='country').temperature.mean())

In [None]:
# Trovate le città che hanno la 'k' nel proprio nome e che si trovano in uno stato
# che si affaccia sul mare. Stampate il nome della seconda città più fredda, con il nome del relativo stato,
# e il nome della seconda città più calda, sempre con il nome del relativo stato.

In [None]:
citiesext = cities.merge(countries, on='country')
cities2 = citiesext[((citiesext.city.str.contains('k'))|(citiesext.city.str.contains('K'))) & (citiesext.coastline == 'yes')].sort_values('temperature')
print('Seconda città più fredda:', cities2.head(2).tail(1)[['city','country']])
print('Seconda città più calda:', cities2.tail(2).head(1)[['city','country']])