# Esame di data mining

In questo progetto vogliamo raggruppare gli utenti del sito esercizinglese.com in base alla risposte che hanno dato nei vari esercizi.

Una volta che gli utenti sono stati raggruppati possiamo provare a suggerire esercizi alla loro portata

## Il dataset originale

Il dataset è una tabella che contiene circa 2.700.000 di elementi.

è così composto:



In [117]:
from IPython.display import Image
Image(url= "https://www.francescobelloni.it/universita/DataMining/images/1.PNG", width=800, height=400)

E' presente l'url che è stato richiesto, l'indirizzo ip e l'id dell'utente nel sito. Inotre sono salvate altre informazioni che potrebbero servire in successive analisi come ad esempio la dimensione dello schermo e se è presente un adblock.

Le informazioni su cui concentriamo la nostra attenzione per questo progetto sono però le risposte che l'utente ha dato.

Il dataset, prendendo solamente le risposte degli esercizi degli utenti che si sono iscritti, si riduce da 2.700.000 a 30.372

Vengono inotre eliminate le risposte date dagli utenti, poichè questa informazione è troppo granulare per l'anasisi che si vuole compiere.

In [4]:
from IPython.display import Image
Image(url= "https://www.francescobelloni.it/universita/DataMining/images/2.PNG", width=800, height=400)

## Importare il dataset

La prima operazione è quella di importare il dataset. Il db è stato salvato in csv.


In [37]:
import numpy as np
import pandas as pd
import seaborn as sn
import pathlib
import os
import matplotlib.pyplot as plt
from scipy.stats.stats import pearsonr
from numpy import cov
import plotly.graph_objects as go


# Utility
def count_values(array_input):
    labels = []
    values = []    
    try:
        for i in range(0, len(array_input)):
            value: int = int(array_input[i])
            # l'elemento è presente, aumento il suo contatore
            if value in labels:
                index = labels.index(value)
                values[index] = values[index] + 1
            # l'elemento non è
            # lo aggiungo alla lista delle label e segno che ce nè uno
            else:
                values.append(1)
                labels.append(value)
        check_sum = sum(values)
    except Exception as ex:
        print(ex)
    return labels, values

In [30]:
directory = pathlib.Path().absolute()
path = os.path.join(directory, "dataset", 'dataset.csv')
print(path)
data = pd.read_csv(path,error_bad_lines=False)

C:\Users\franc\source\repos\DataMiningUni\dataset\dataset.csv


## Esplorare i dati

In [31]:
data.head()

Unnamed: 0,count,date,ip,url,exercise_type,count_page,userID,adblock,tokenid,screen_size,exercise_score
0,270,2021-01-03 10:08:28,212f2610bcc25326cb6ea19f9ffbbe86,https://www.esercizinglese.com/lezioni-inglesi...,grammar_exercise,208,89275,0,60f74253-bb15-478e-8870-27fc1adabcb6,1349,86
1,1269,2021-01-03 10:54:17,d173ba1133b586a2f4a9fbeb05fb9f72,https://www.esercizinglese.com/lezioni-inglesi...,grammar_exercise,496,89433,0,efad7f4c-f549-4099-9e25-861fc19ac9c2,1349,86
2,1281,2021-01-03 10:54:45,5752856995bbcb2c3f1278b3aa3b0f3c,https://www.esercizinglese.com/lezioni-inglesi...,grammar_exercise,29,89702,0,8024d0e9-eff1-4fa9-8a79-0d31607ee3bc,1349,60
3,1302,2021-01-03 10:56:05,d173ba1133b586a2f4a9fbeb05fb9f72,https://www.esercizinglese.com/lezioni-inglesi...,grammar_exercise,498,89433,0,efad7f4c-f549-4099-9e25-861fc19ac9c2,1349,43
4,1366,2021-01-03 10:57:40,2b7bd27b202fa697ab022cefd3b0278d,https://www.esercizinglese.com/lezioni-inglesi...,grammar_exercise,17,89957,0,5c248a5d-4d0d-458a-9dc4-86680f279bf0,393,80


In [32]:
data.describe()

Unnamed: 0,count,count_page,userID,adblock,screen_size,exercise_score
count,30372.0,30372.0,30372.0,30372.0,30372.0,30372.0
mean,1271074.0,144.289642,95094.388318,0.234394,1378.222409,60.058277
std,786072.8,468.891293,11596.6849,0.540797,343.812289,31.451963
min,270.0,-2.0,73.0,-2.0,-2.0,-1.0
25%,632769.8,20.0,92048.0,0.0,1324.0,43.0
50%,1204924.0,47.0,95757.5,0.0,1349.0,71.0
75%,1907899.0,126.0,101956.0,0.0,1519.0,86.0
max,2706989.0,9817.0,107709.0,2.0,3803.0,100.0


_inforazioni utili_

In [33]:
data.shape

(30372, 11)

In [34]:
data.columns

Index(['count', 'date', 'ip', 'url', 'exercise_type', 'count_page', 'userID',
       'adblock', 'tokenid', 'screen_size', 'exercise_score'],
      dtype='object')

In [35]:
data.nunique()

count             30372
date              30255
ip                 4066
url                2444
exercise_type         4
count_page         1373
userID             3114
adblock               5
tokenid            3448
screen_size         443
exercise_score      102
dtype: int64

_Check integrity_

In [42]:
data['exercise_score'].unique()

array([ 86,  60,  43,  80,  71,  90,  68,  57,  38,  76,  58,  83,  50,
       100,  44,  88,  62,  89,  70,  75,  29,  30,  12,  45,  79,  61,
        33,  78,  39,  67,  32,  82,  65,  81,  35,  85,  73,  25,  66,
        54,   1,  14,  64,  28,  63,  55,  37,  46,  51,  74,  94,  87,
        84,  72,  53,  97,  20,  93,  13,  24,  69,  40,  18,  47,  56,
        10,  77,  48,  36,  26,   5,  49,  11,  34,  31,  52,  92,  27,
        22,   8,  41,  96,  42,  59,  16,  17,  15,  91,   6,   7,   9,
        21,  98,  23,  19,  95,   0,   3,   2,   4,  99,  -1], dtype=int64)

# Parte 1 - Sistema di raccomandazione

## 1.1. Content Based Recommendations

L'assunzione fondamentale dietro il concetto di collaborative filtering è che ogni singolo utente che ha mostrato un certo insieme di preferenze continuerà a mostrarle in futuro. Un esempio popolare di collaborative filtering può essere un sistema di suggerimento dei generi e pezzi musicali a partire da un insieme di conoscenza di base dei gusti e delle preferenze di un dato utente. Da notare che, sebbene tali informazioni siano referenti a un singolo utente, esse derivano dalla conoscenza elaborata su tutto l'arco dell'insieme degli utenti del sistema.

Poiché il collaborative filtering si basa su passate interazioni tra utenti e item è soggetto al problema del cold start. Quando un nuovo item o utente è aggiunto, esso non è associato a nessuna interazione, pertanto un algoritmo collaborativo puro non sarà in grado di gestirlo. 

https://it.wikipedia.org/wiki/Collaborative_filtering

## 1.2 creazione delle features
<br>
Per poter raccomandare delle features vanno aggiunte alle righr....



## 1.3 Visualizzare le features

### Pie chart

- https://plotly.com/python/pie-charts/

La prima informazione che vogliamo visualizzare è quali tipi di esercizi gli untenti scelgono di effettuare.<br>
Ci sono 4 differenti tipi di esercizi:<br>

<ul>
<li>audio_exercise</li>
<li>easy_exercise</li>
<li>grammar_exercise</li>
<li>translate_exercise</li>
</ul>

Il primo passo è quindi capire la distribuzione degli esercizi.

In [132]:
n = data.groupby(by='exercise_type').agg('count')
# da migliorare, prenderlo in automatico
# labels = selected.index.values
# print("Type {0}. Size={1}".format(type(indexNamesArr), selected.shape))

pie_labels = ['audio_exercise','easy_exercise','grammar_exercise','translate_exercise']
pie_values = n['count']


In [133]:
print("Plot exercise_type")
fig = go.Figure(data=[go.Pie(labels=pie_labels, values=pie_values)])
fig.show()

Plot exercise_type


In [39]:
data.isnull().sum()

count             0
date              0
ip                0
url               0
exercise_type     0
count_page        0
userID            0
adblock           0
tokenid           0
screen_size       0
exercise_score    0
dtype: int64