# **Strutture dati in pandas**

In [None]:
import pandas as pd

In [None]:
#Esempio di DataFrame
data = pd.DataFrame({'Nome':['Mario','Luigi'], 'Cognome':['Rossi','Luigi'], 'Età':['22','37']})

print("Esempio di DataFrame: ")
print(data)

# Esempio di Series
data2 = pd.Series(['Mario','Luigi'], index=['Persona1','Persona2'], name='Nomi')

print("\nEsempio di Series: ")
print(data2)

# **Lettura di un file CSV**

In [None]:
df = pd.read_csv('winemag-data-130k-v2.csv', index_col=0)

# Contenuto del dataset

Il dataset riguarda le recensioni di vini, dove ogni riga indica una determinata recensione su un particolare vino. Le colonne del dataset sono le seguenti:

*   **country**: nazione da dove deriva il vino
*   **description**: descrizione del vino
*   **designation**: vigneto che ha prodotto il vino
*   **points**: numero di punti attribuiti a quel vino
*   **price**: costo di una bottiglia di quel vino
*   **province**: provincia dal quale viene il vino
*   **region_1**: area vinicola nella provincia o stato
*   **region_2**: specifica regione all'interno dell'area vinicola
*   **taster_name**: nome del degustatore
*   **taster_twitter_handle**: nome utente twitter del degustatore
*   **title**: nome del vino
*   **variety**: varietà del vino (tipo, es. bianco, rosso, rosè)
*   **winery**: cantina

# **Operazioni che possiamo compiere sul dataset**

In [None]:
# Attributo columns: lista del nome delle colonne del dataset
df.columns

# Attributo shape: restituisce una tupla contenente come primo elemento il numero di righe, secondo elemento il numero di colonne
n_rows, n_columns = df.shape
print(n_rows)
print(n_columns)

In [None]:
# Funzione head(): restituisce le prime 5 righe del dataframe, dalla riga 0 alla riga 4
df.head()

# Se mettiamo come parametro 2, ci restituisce tutte le righe del dataframe dalla 0 alla 1
df.head(2)

In [None]:
# Accedere alla colonna price del dataframe
df.price
df['price']

# dtype è l'attributo che ci indica la tipologia di dato contenuta nella colonna price
df.price.dtype

# dtypes restituisce la tipologia di dato per ogni colonna del dataframe
df.dtypes

In [None]:
"""
Per accedere ai valori contenuti nel dataframe possiamo usare gli indici:
  - possiamo restringerci su una singola colonna (sottoforma di lista) richiamandoci sulla singola
    colonna e poi accedere tramite indice
  - possiamo usare le funzioni iloc (se usiamo solo indici numerici) oppure loc (se usiamo delle labels)
    per ottenere delle sottomatrici
"""
df.price[1] # si accede ai vari valori della colonna price

df.iloc[0:3,0:3] # selezionare sottomatrici utilizzando indici numerici
df.loc[0:3,['country','description','designation']] # selezionare sottomatrici utilizzando labels

"""
Possiamo usare anche delle condizioni per ottenere le righe del dataframe che soddisfano quella condizione
"""
df.loc[(df.country == 'Italy') & (df.points >= 90)] # & -> and, | -> or

# isnull() è la funzione che ci permette di individuare le righe del dataframe che hanno
# valore NaN nella colonna considerata (in questo caso price)
df.loc[df.price.isnull()]

In [None]:
# unique() restituisce la lista di valori non ripetuti contenuti nella colonna su cui è stato richiamato
df.taster_name.unique()

# value_counts() restituisce una lista di valori, dove a ciascun valore viene associato il numero di volte
# che questo compare nella colonna
df.taster_name.value_counts()

In [None]:
# Copia del dataset, in modo da non modificare quello originale
df_taster = df.copy()

# Calcoliamo il numero di righe che contengono con taster_twitter_handle il valore @kerinokeefe
# Una volta selezionate le righe tramite condizione, possiamo usare len per contarle
rows_taster = df_taster.taster_twitter_handle.loc[df_taster.taster_twitter_handle == '@kerinokeefe']
print("Numero di occorrenze di @kerinokeefe: ", len(rows_taster))
# Un altro metodo è quello di richiamare sulla colonna taster_twitter_handle la funzione value_counts()
# che restituisce un dizionario dove a ogni nome utente associa la frequenza. Ci accediamo tramite chiave
# così da ottenere il numero di volte che compare @kerinokeefe
print("Numero di occorrenze di @kerinokeefe: ", df_taster.taster_twitter_handle.value_counts()['@kerinokeefe'])

# La funzione replace() viene utilizzata per rimpiazzare un valore della colonna con un altro
# Visto che vogliamo che la modifica si rifletta anche sul dataframe, dobbiamo assegnare il risultato alla
# colonna del dataframe.
df_taster['taster_twitter_handle'] = df_taster.taster_twitter_handle.replace("@kerinokeefe","@kerino")
print("Numero di occorrenze di @kerino: ", df_taster.taster_twitter_handle.value_counts()['@kerino'])