In [None]:
## PCTO in Coding & Data Science/Modulo 1: Introduzione al coding

# Importiamo le libraries/packages/modules che ci serviranno
import pandas as pd
from numpy import array

In [None]:
## Parte 
## L'unità base: il dato
## I tipi di dati esistenti in Python: le stringhe, i numeri, le liste, i dizionari

# Creazione di stringhe e numeri
nome    = 'Federica'        # una stringa
eta     = 31                # un numero

In [None]:
# Come vediamo cosa abbiamo creato? la funzione print()
print(nome)                  
print(eta)

In [None]:
# Come vediamo che tipo di dato è? la funzione type()
type(nome)

In [None]:
type(eta)

In [None]:
# Come vediamo cosa c'è salvato in memoria? la funzione dir()
dir()

In [None]:
# Come si cancella una variabile creata? lo statement "del"
del nome
dir()

In [None]:
# Creazione di una lista
mylist = ['Federica', 31]  
print(mylist)
type(mylist)

In [None]:
print(mylist[0])            # esempio di indicizzazione

In [None]:
# Un tipo speciale di lista: le arrays
myarray = array([15,30])
type(myarray)

In [None]:
# Sulle array possiamo svolgere operazioni matematiche
myarray/2

In [None]:
# Ops!
mynewlist = [15,30]
mynewlist/2   

In [None]:
# Un terzo tipo di dato, i dizionari, caratterizzati dalla coppia "key" e "value"
mydict = {
    'Federica': 31,
    'Elena': 30}
print(mydict)
type(mydict)

In [None]:
# Modificare un dizionario
mydict['Giulia'] = 28
print(mydict)

In [None]:
# Dizionario e liste si possono combinare!
mynewdict = {
    'nome': ['Federica','Elena','Giulia'],
    'eta': [31,30,28]}      
print(mynewdict)

In [None]:
# Abbiamo visto alcune funzioni pre-definite. Proviamo a crearne una noi!

# Step 1: definisci la funzione
def myage(x):
    print("La mia età è", x)

# Step 2: applica la funzione
myage(31)

In [None]:
# La puoi applicare quante volte vuoi!
myage(28)

In [None]:
# Simili ma diversi rispetto alle funzioni: i metodi

# Un esempio di metodo pre-definito, applicato all'oggetto "mydict"
mydict.keys()

In [None]:
# Modificare una lista: un alro esempio di metodo
mylist.append(1.60)         
print(mylist)

In [None]:
# Anche i metodi si possono creare: lo facciamo servendoci delle "classi"

# Esempio: area di un rettangolo
 
# Step 1: definisci la classe
class Rettangolo():               
    def __init__(self, latolungo, latocorto):     # definisci gli attributi dell'oggetto "self" generico
        self.lunghezza = latolungo                
        self.larghezza  = latocorto

    def area(self):
        return self.lunghezza*self.larghezza      # definisci il metodo vero e proprio

# Step 2: crea l'oggetto
myrectangle = Rettangolo(10, 5)

# Step 3: applica il metodo
print(myrectangle.area())

In [None]:
# Si poteva fare più velocemente con una funzione? Si, senza definire l'oggetto "rettangolo"

def area(latolungo,latocorto):
    return latolungo * latocorto

print(area(10,5))

In [None]:
## Parte B
# Un insieme di dati: il database

# Possiamo crearlo noi un database, per esempio partendo da un dizionario
pd.DataFrame.from_dict(mynewdict)

In [None]:
# Caricamento del database

movies = pd.read_csv('https://raw.githubusercontent.com/federicadaniele/PCTOcodingdatascience/main/movies.csv')

# Contiene un subset di attori/attrici che hanno negli anni vinto almeno un premio Oscar e tutti i film che hanno fatto

In [None]:
# Come si ottiene il nome delle variabili? -> il metodo "columns"
movies.columns

In [None]:
# Quante colonne (o variabili)? 
print('Quante colonne?')
len(movies.columns) 


In [None]:
# Quante righe (o osservazioni)?
print('Quante righe?')
len(movies)

In [None]:
# Un altro metodo per avere una rapida panoramica delle caratteristiche del database
movies.info()

In [None]:
# Diamo un'occhiata ai dati con dataframeName.head() (un altro metodo ancora!)
movies.head(100)

In [None]:
# Quanti attori? 
len(pd.unique(movies['name']))

In [None]:
# Quanti film?
len(pd.unique(movies['movietitle']))

In [None]:
# La coppia movietitle e name fornisce un identificativo univoco di ciascuna osservazione?
movies['group'] = movies.groupby(['name','movietitle'], sort=False).ngroup()
len(pd.unique(movies['group']))

In [None]:
# Ci sono valori mancanti ("NA" = "not available")? In quale variabile?
movies.count()

In [None]:
# Vuoi avere informazioni sul numero di valori mancanti per una specifica variabile?
movies['movieyear'].isna().sum()

In [None]:
# Elimina una variabile: per esempio, category, dato che abbiamo un'altra variabile che ci dice il genere dell'attore/attrice
movies = movies.drop(columns='genres ')
movies.head(100)
# Ops! attenzione a scrivere correttamente il nome delle variabili!

In [None]:
movies = movies.drop(columns='genres')
movies.head(100)

In [None]:
# Elimina un'osservazione (o un gruppo di osservazioni)

# creiamo prima una copia del database
movies_copy = movies                            
movies_copy = movies_copy.drop(movies_copy[movies_copy.actbirthplace =="New York"].index)
movies_copy.head()

In [None]:
# Aggiungere informazioni al dataset tramite "merge"

# Ne carichiamo un altro
nominations = pd.read_csv('https://raw.githubusercontent.com/federicadaniele/PCTOcodingdatascience/main/nominations.csv')

# Questo database contiene tutte le nomination ai premi Oscar dal 1927 in poi!

In [None]:
# Solita sbirciata al dataset...
nominations.head()

In [None]:
len(nominations)

In [None]:
# I due dataset si parlano? Qual'è l'Oscar che ha vinto Adrien Brody?
nominations[nominations.name =="Adrien Brody"]

In [None]:
# Vogliamo fare il merge tra i due, in modo tale da unire l'informazione "winner"

# Dapprima rinominiamo la variabile primarytitle in modo tale che i due identificativi abbiano lo stesso nome
nominations = nominations.rename(columns={"primarytitle": "movietitle"})
nominations.columns

In [None]:
# Esegui il merge di due database: la funzione "merge" (di tipo one-to-one)

# Lista degli argomenti
# 1. il nome del primo database (o database di sinistra)
# 2. il nome del secondo database (o database di destra)
# 3. on: la lista di identificativi (o chiavi) che vanno matchate nei due database
# 4. validate: se vogliamo essere sicuri che gli identificativi su cui facciamo il merge identificano
#    univocamente le osservazioni nei database originari
# 5. how: consente di decidere se si vuole ritenere l'intersezione dei due insiemi di dati, oppure l'unione
# 6. indicator: True, se vogliamo aggiungere al database finale un indicatore che ci dice se l'osservazione 
#    si trova soltanto nel dataset di sinistra, soltanto in quello di destra o in entrambi 


nuovodb = pd.merge(movies,nominations,on=["name", "movietitle"],validate="one_to_one",how="outer",indicator=True)
nuovodb.head()

In [None]:
len(nuovodb)

In [None]:
# Quante sono le osservazioni presenti in entrambi i database? Quante in quello di sinistra? Quante in quello di destra?
nuovodb.groupby(['_merge']).size()

In [None]:
# Rifacciamo il merge, stavolta vogliamo conservare soltanto l'intersezione

nuovodb = pd.merge(movies,nominations,on=["name", "movietitle"],validate="one_to_one",how="inner",indicator=True)
nuovodb.head()

In [None]:
len(nuovodb)

In [None]:
# La variabile _merge ora assume solo valore "both" dato che abbiamo richiesto l'intersezione

nuovodb.groupby(['_merge']).size()