# Data Processing in Python
Python è ormai considerato il linguaggio di programmazione standard della Data Science. Uno dei motivi che lo hanno portato ad essere tale è anche la presenza della libreria Pandas: quest'ultima permette in pochissime righe di codice di performare pressochè qualsiasi operazione su dei dati.

Quando viene iniziato un progetto di Data Science, la prima cosa che si fa è, generalmente, ispezionare i dati: importarli, riorganizzarli in modo da renderli pronti per i modelli, fare dei grafici e conteggiare anomalie o valori mancanti al loro interno.

In questo esercizio metteremo le mani su un vero dataset (qui le trovate informazioni riguardo al dataset e la sua struttura, leggete con cura: https://www.kaggle.com/CooperUnion/anime-recommendations-database?select=rating.csv): vi performeremo varie operazioni, dove però vi imporrò talvolta dei vincoli sul numero di righe di codice massimo che potete scrivere, l'obiettivo dell'esercizio è infatti quello di mostrare come Pandas abbia un comando per pressoché qualsiasi operazione.

Due file .csv sono già nella stessa cartella di questo notebook: "anime.csv" e "rating.csv", scaricate tutto quanto e mettete tutto nella stessa cartella in locale.

IMPORTANTE: l'utilizzo delle librerie in Python è talvolta molto intricato e nessuno è in grado di programmare ciecamente usando una libreria. Il consiglio che vi do, valido per questo notebook ma più in generale ogni qualvolta programmerete qualcosa, è quello di cercare su internet qualcuno che abbia già fatto la stessa identica cosa che dovete fare voi. Non abbiate paura di andarvi a scrivere letteralmente su Google cose tipo "pandas how to do etc. etc.", nel 95% dei casi troverete esattamente ciò che stavate cercando, altrimenti qualcosa di simile che potrete riadattare da soli cercando nella documentazione come funzionano i comandi che vi interessano.

In [1]:
### qui potete importare tutte le librerie che vi servono
import pandas as pd
import numpy as np
from collections import Counter
import matplotlib.pyplot as plt

In [2]:
# Importare i dataset (2 righe)
anime = pd.read_csv("anime.csv") 
rating = pd.read_csv("rating.csv") 

In [3]:
# Visualizzare una parte di ognuno dei due dataset (2 righe)
anime.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [4]:
rating.head()

Unnamed: 0,user_id,anime_id,rating
0,1,20,-1
1,1,24,-1
2,1,79,-1
3,1,226,-1
4,1,241,-1


In [5]:
# Scegliere ed impostare un indice adeguato per il dataframe "anime" (1 riga)
anime.set_index('anime_id') #non modifico il dataset con anime=anime.set_index() in quanto ho necessità di usarlo dopo per il merge

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266
...,...,...,...,...,...,...
9316,Toushindai My Lover: Minami tai Mecha-Minami,Hentai,OVA,1,4.15,211
5543,Under World,Hentai,OVA,1,4.28,183
5621,Violence Gekiga David no Hoshi,Hentai,OVA,4,4.88,219
6133,Violence Gekiga Shin David no Hoshi: Inma Dens...,Hentai,OVA,1,4.98,175


In [6]:
anime.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12294 entries, 0 to 12293
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   anime_id  12294 non-null  int64  
 1   name      12294 non-null  object 
 2   genre     12232 non-null  object 
 3   type      12269 non-null  object 
 4   episodes  12294 non-null  object 
 5   rating    12064 non-null  float64
 6   members   12294 non-null  int64  
dtypes: float64(1), int64(2), object(4)
memory usage: 672.5+ KB


In [7]:
# Ad ora il dataframe "anime" è ordinato in base al rating (decreasing). Ordinare il dataframe alfabeticamente in base al "name"
# (1 riga)
anime.sort_values(by=['name'], inplace=True)
anime.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
7749,20707,&quot;0&quot;,Music,Music,1,5.06,1170
8059,25627,&quot;Aesop&quot; no Ohanashi yori: Ushi to Ka...,Kids,Movie,1,5.0,113
3156,7669,&quot;Bungaku Shoujo&quot; Kyou no Oyatsu: Hat...,"Comedy, Fantasy, School",OVA,1,7.06,14351
1436,8481,&quot;Bungaku Shoujo&quot; Memoire,"Drama, Romance, School",OVA,3,7.54,18013
1199,6408,&quot;Bungaku Shoujo&quot; Movie,"Drama, Mystery, Romance, School",Movie,1,7.63,40984


In [8]:
# Ci sono degli anime il cui nome non è stato correttamente encodato, rimuovere dal dataframe tutti gli anime il cui nome 
# inizia con '.' oppure '&' (1 riga)

# elimino gli elementi dalla riga 0 alla riga 21
anime = anime.iloc[22:,]
anime.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
8061,12763,0-sen Hayato,"Historical, Military",TV,38,6.25,147
8062,33978,0-sen Hayato Pilot,"Historical, Military",OVA,1,5.14,37
8007,29978,001,Comedy,ONA,1,4.0,916
4268,11755,009 Re:Cyborg,"Action, Adventure, Mecha, Sci-Fi",Movie,1,6.76,8307
7147,32737,009 Re:Cyborg x Zip,"Comedy, Super Power",ONA,10,5.68,198


In [9]:
# Contare quanti Missing Values (NaN) ci sono in ogni colonna dei due dataframe (2 righe)
num_nan_anime = anime.isna().sum()
num_nan_rating = rating.isna().sum()
print(num_nan_anime, '\n\n', num_nan_rating)

anime_id      0
name          0
genre        62
type         25
episodes      0
rating      230
members       0
dtype: int64 

 user_id     0
anime_id    0
rating      0
dtype: int64


In [10]:
# Rimuovere tutti i Nan dal dataframe "anime" (1 riga)

# devo eliminare l'intera riga? per eliminare l'intera riga posso usare il comando specificato sotto
anime.dropna()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
8061,12763,0-sen Hayato,"Historical, Military",TV,38,6.25,147
8062,33978,0-sen Hayato Pilot,"Historical, Military",OVA,1,5.14,37
8007,29978,001,Comedy,ONA,1,4.00,916
4268,11755,009 Re:Cyborg,"Action, Adventure, Mecha, Sci-Fi",Movie,1,6.76,8307
7147,32737,009 Re:Cyborg x Zip,"Comedy, Super Power",ONA,10,5.68,198
...,...,...,...,...,...,...,...
484,793,xxxHOLiC Movie: Manatsu no Yoru no Yume,"Comedy, Drama, Mystery, Psychological, Superna...",Movie,1,8.04,41547
215,6864,xxxHOLiC Rou,"Mystery, Supernatural",OVA,2,8.32,36353
341,4918,xxxHOLiC Shunmuki,"Comedy, Drama, Mystery, Psychological, Superna...",OVA,2,8.17,40401
8185,29708,Üks Uks,Dementia,Movie,1,6.17,66


In [11]:
rating

Unnamed: 0,user_id,anime_id,rating
0,1,20,-1
1,1,24,-1
2,1,79,-1
3,1,226,-1
4,1,241,-1
...,...,...,...
7813732,73515,16512,7
7813733,73515,17187,9
7813734,73515,22145,10
7813735,73516,790,9


In [12]:
# Rimuovere tutti i rating -1 dal dataframe "rating" (1 riga)
rating=rating.loc[rating['rating']>-1]

In [13]:
anime.describe()

Unnamed: 0,anime_id,rating,members
count,12272.0,12042.0,12272.0
mean,14069.41558,6.473395,18066.29
std,11456.573944,1.027218,54860.21
min,1.0,1.67,5.0
25%,3492.25,5.88,224.0
50%,10273.5,6.56,1545.5
75%,24807.5,7.18,9366.25
max,34527.0,10.0,1013917.0


In [14]:
test=rating.groupby(['anime_id']).std()
test

Unnamed: 0_level_0,user_id,rating
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,21245.842311,1.200112
5,21306.098786,1.165703
6,21057.238219,1.219656
7,21307.280605,1.389508
8,21269.516564,1.431292
...,...,...
34324,21167.769799,1.375103
34325,22273.572260,1.397276
34349,17614.989100,1.000000
34367,14485.352910,0.957427


In [15]:
# Adesso il nostro intento è utilizzare il dataframe "rating" per arricchire le informazioni contenute in "anime":
# osservare bene la struttura dei due dataframe, sebbene il rating medio per ogni anime sia già incluso nel dataframe, 
# siamo ora interessati alla deviazione standard del rating.

# Creare un dataframe che abbia come indice l'id di un anime e una colonna con all'interno la deviazione standard
# dei suoi ratings (1 riga)
std_rat = pd.DataFrame(rating.groupby(['anime_id']).std()['rating'])
std_rat.tail()

Unnamed: 0_level_0,rating
anime_id,Unnamed: 1_level_1
34324,1.375103
34325,1.397276
34349,1.0
34367,0.957427
34475,2.081666


In [16]:
# Unire al dataframe "anime" la colonna contenente le deviazioni standard dei rating: attenzione, questa deve essere ovviamente
# coerente con gli indici "anime_id". Quindi sostituire tutti i Nan che possono essersi generati (potremmo avere
# un anime senza alcun voto, oppure con uno solo, quindi deviazione standard Nan) con degli 0. Procedere infine a rimuovere qualsiasi colonna
# "doppione" possa essersi generate dalla prima operazione (massimo 2 righe).
Newanime = anime.merge(std_rat, on='anime_id', validate="one_to_one")
Newanime['rating_y'] = Newanime['rating_y'].fillna(0)

In [17]:
Newanime.rename(columns={'rating_y': 'rating_std'}, inplace=True)
Newanime

Unnamed: 0,anime_id,name,genre,type,episodes,rating_x,members,rating_std
0,29978,001,Comedy,ONA,1,4.00,916,3.465705
1,11755,009 Re:Cyborg,"Action, Adventure, Mecha, Sci-Fi",Movie,1,6.76,8307,1.675079
2,1583,009-1,"Action, Mecha, Sci-Fi, Seinen",TV,12,6.39,11097,1.497141
3,3234,009-1: R&amp;B,"Action, Sci-Fi, Seinen",Special,1,6.44,2988,1.393985
4,28761,00:08,Dementia,Movie,1,5.21,2386,2.150530
...,...,...,...,...,...,...,...,...
9900,3091,xxxHOLiC Kei,"Comedy, Drama, Mystery, Psychological, Superna...",TV,13,8.34,74941,1.178987
9901,793,xxxHOLiC Movie: Manatsu no Yoru no Yume,"Comedy, Drama, Mystery, Psychological, Superna...",Movie,1,8.04,41547,1.232423
9902,6864,xxxHOLiC Rou,"Mystery, Supernatural",OVA,2,8.32,36353,1.245483
9903,4918,xxxHOLiC Shunmuki,"Comedy, Drama, Mystery, Psychological, Superna...",OVA,2,8.17,40401,1.163962


In [17]:
# Prima di procedere oltre ispezioniamo quali tipo di variabile Pandas ha assegnato (autonomamente) ad ogni colonna,
# stampare il tipo di ogni colonna di "anime" (1 riga)
Newanime.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9905 entries, 0 to 9904
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   anime_id  9905 non-null   int64  
 1   name      9905 non-null   object 
 2   genre     9873 non-null   object 
 3   type      9904 non-null   object 
 4   episodes  9905 non-null   object 
 5   rating_x  9903 non-null   float64
 6   members   9905 non-null   int64  
 7   rating_y  9905 non-null   float64
dtypes: float64(2), int64(2), object(4)
memory usage: 696.4+ KB


In [18]:
# Il tipo object è usato per le stringhe, una colonna in particolare ha un tipo assegnato che forse non è quello più corretto.
# Ispezionare tutti i possibili valori che può assumere quella colonna e trovare il motivo per cui è stata assegnata con quel 
# tipo da pandas (1 riga)

# episodi è un oggetto, forse meglio un numero.
# SICURAMENTE c'è un altro metodo ma 

Newanime=Newanime.sort_values(by=['episodes'])

# ordinando il dataset in ordine crescende di epsiodi, noto che alla fine ho tre valori che sono Unknown


In [19]:
# Una volta trovato l'elemento di disturbo, rimuovere le righe del dataframe che presentano quel valore in quella colonna
# e cambiare il tipo della colonna con quello più appropriato (2 righe)
anime = Newanime.iloc[0:9902,:]
anime = anime.astype({"episodes": np.int64})

In [20]:
anime.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9902 entries, 0 to 5674
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   anime_id  9902 non-null   int64  
 1   name      9902 non-null   object 
 2   genre     9870 non-null   object 
 3   type      9902 non-null   object 
 4   episodes  9902 non-null   int64  
 5   rating_x  9901 non-null   float64
 6   members   9902 non-null   int64  
 7   rating_y  9902 non-null   float64
dtypes: float64(2), int64(3), object(3)
memory usage: 696.2+ KB


In [21]:
# Adesso siamo interessati a fare una piccola analisi suddividendo la variabile "type".
# Fare il conteggio di quanti anime ci sono per ogni tipo (1 riga)
cnt = Counter(anime.type)
# Calcolare il rating medio per ognuno di questi tipi (1 riga)
avg_rat_type = anime.groupby(['type']).mean()['rating_x']
# Calcolare il numero di episodi medio per ognuno di questi tipi (1 riga)
avg_ep_type =  anime.groupby(['type']).mean()['episodes']
# Calcolare il numero di utenti totale per ognuno di questi tipi (1 riga)
tot_mem_type = anime.groupby(['type']).mean()['members']
print("Number of anime per type: {}".format(cnt))
print("Average Rating per type: {}".format(avg_rat_type))
print("Average number of Episodes per type: {}".format(avg_ep_type))
print("Total number of Members per type: {}".format(tot_mem_type))

Number of anime per type: Counter({'TV': 3065, 'OVA': 2723, 'Movie': 1751, 'Special': 1441, 'ONA': 478, 'Music': 444})
Average Rating per type: type
Movie      6.481474
Music      5.647838
ONA        5.707155
OVA        6.407113
Special    6.646405
TV         7.054065
Name: rating_x, dtype: float64
Average number of Episodes per type: type
Movie       1.043404
Music       1.092342
ONA         5.673640
OVA         2.510834
Special     2.678001
TV         35.448613
Name: episodes, dtype: float64
Total number of Members per type: type
Movie      13554.988007
Music       1432.747748
ONA         5551.813808
OVA         7087.279471
Special     8832.668980
TV         51266.513540
Name: members, dtype: float64


In [22]:
# Adesso siamo interessati a studiare i generi ("genre") degli anime. La prima cosa da fare è un "parsing" della colonna genre.
# In particolare, proveremo adesso a cambiare la struttura del dataframe, calcolando innanzitutto quanti differenti generi ci
# sono in totale, e aggiungendo quindi una colonna per ogni genere al dataframe dal contenuto binario: 1 se l'anime in quella 
# riga contiene quel genere tra i suoi e 0 altrimenti. Questa struttura ci faciliterà in alcune analisi e sostituira la colonna 
# 'genre' che è altrimenti di difficile utilizzo.

# Ottenere il conteggio delle apparizioni di tutti i differenti generi possibili (si può fare una riga ma è hardcore,
# comunque non più di 4-5 righe)
genres_count = len(anime.groupby(['genre']).sum())
print(genres_count)
gc=Counter(anime.genre)
# (per chi vuole provarlo a fare in una sola riga, io ho utilizzato un Counter e i metodi delle liste join, split e replace)

3035


In [None]:
# Adesso aggiungere al dataframe una colonna per ogni genere contenenti labels binarie (1-0 oppure True-False).
# Anche qui, si può fare tutto in una riga ma è davvero intricato, usando il comando join di pandas e il metodo contains delle stringhe.
# Comunque non ci vogliono più di 4-5 righe.


# c'è sicuramente un altro metodo, il mio è lentissimo e molto contorto, 

# esercizio non finito, da qui in poi non considerare

df = pd.DataFrame.from_dict(gc, orient='index').reset_index().T
test = pd.concat([anime,pd.DataFrame(columns = df.iloc[0,:])]) # primo dataset, ci sono anime e colonne di tutti i diversi generi
generi=pd.DataFrame(test['genre']).T
test2=test.iloc[:,8:]==generi.iloc[0,:] # contiene True/False in corrispondenza dei generi desiderati, purtroppo ho tante colonne in piu, che cancello
test2=test2.drop(test2.columns[0:9903], axis=1)
test.iloc[:,8:]=test2 #sostituisco le colonne da 8 in poi con quelle di test2
anime=test

In [None]:
# L'ultima richiesta che vi farò è quella di creare dei plot descrittivi (con matplotlib) dei dati, in particolare:
# 1) scegliete tre generi e plottate in una unica riga, allineati, i boxplot che descrivono la distribuzione dei loro ratings
# 2) create un pie chart per i generi
# 3) plottate in un unico grafico, uno dopo l'altro, la media dei ratings per ogni genere, la media meno la deviazione standard
# e la media più la deviazione standard, in modo da avere per ogni genere una sorta di intervallo di confidenza per i ratings

In [None]:
# ANALISI LIBERA
# Adesso le possibilità sono pressoché infinite, potete studiare settorialmente i generi, i type, le distribuzioni dei rating 
# nelle varie sottofamiglie, etc.
# Questo è un ottimo dataset per esercitarsi a gestire feature binarie e metodi di classificazione o regressione molto semplici,
# per chi è interessato all'ambito Data Science è sicuramente un ottimo esercizio. Per chiunque avesse curiosità a riguardo 
# o semplicemente cercasse consigli è libero di contattarmi: Gianmarco Genalti +393479163061