In [3]:
# dataframe management
import pandas as pd             

# numerical computation
import numpy as np

# visualization library
import seaborn as sns
sns.set(style="white", color_codes=True)
sns.set_context(rc={"font.family":'sans',"font.size":24,"axes.titlesize":24,"axes.labelsize":24})   


# import matplotlib and allow it to plot inline
import matplotlib.pyplot as plt
%matplotlib inline

# seaborn can generate several warnings, we ignore them
import warnings 
warnings.filterwarnings("ignore")

from sklearn.cluster import KMeans

#in order to prin all the columns
pd.set_option('display.max_columns', 100)

In [2]:
#reading the datasets
bonifici = pd.read_csv("quiubi_bonifici.csv")
ricariche = pd.read_csv("quiubi_ricariche.csv")
login = pd.read_csv("quiubi_login.csv")

# Preprocessing Login

The "Indice", "status" and "country" columns are useless for any type of analysis so we drop it.

In [43]:
login = login.drop(['indice', "Country", "Status", "Servizio"], axis=1)

In [44]:
login.head()

Unnamed: 0,IP,Timestamp,UserID,Device,Esito,CC_ASN
0,,2014-12-16 11:09:28,b4d16921a72d35f220817fee0f3c9ee3,Java1.6.0_37,False,"n./d.,n./d."
1,,2014-12-16 11:09:44,6eb44dcd17aef832e51024fbe3e6b1fa,Java1.6.0_37,False,"n./d.,n./d."
2,,2014-12-16 11:09:51,fbcbaebf8f35fe663d4f2a340cbf5c16,Java1.6.0_37,False,"n./d.,n./d."
3,,2014-12-16 11:09:55,8a3153cdc0af0de8e57dbf912eb79f98,Java1.6.0_37,False,"n./d.,n./d."
4,,2014-12-16 11:10:00,68e6b816a3ab4b3f5f49bae7ae3437c1,Java1.6.0_37,False,"n./d.,n./d."


## Ip statistics

In [45]:
print("Ci sono " + str(len(login["IP"])) + " IP in login")
print("Ci sono " + str(len(login["IP"].unique())) + " IP diversi")
print("Ci sono " + str(login["IP"].isnull().sum()) + " IP messi a null")

Ci sono 3216261 IP in login
Ci sono 755545 IP diversi
Ci sono 79 IP messi a null


In [46]:
login["IP"].value_counts().describe()

count    755544.000000
mean          4.256777
std         101.840107
min           1.000000
25%           1.000000
50%           1.000000
75%           3.000000
max       34402.000000
Name: IP, dtype: float64

## UserId statistics

In [47]:
print("Ci sono " + str(len(login["UserID"])) + " UserId in login")
print("Ci sono " + str(len(login["UserID"].unique())) + " UserId diversi")
print("Ci sono " + str(login["UserID"].isnull().sum()) + " UserId messi a null")

Ci sono 3216261 UserId in login
Ci sono 131382 UserId diversi
Ci sono 0 UserId messi a null


In [48]:
login["UserID"].value_counts().describe()

count    131382.000000
mean         24.480226
std          44.962468
min           1.000000
25%           3.000000
50%          11.000000
75%          27.000000
max        1200.000000
Name: UserID, dtype: float64

### Considerazioni:
Ci sono 131382 Utenti diversi e 755545 IP diversi. Ciò vuol dire che si sono loggati da più IP. 
Todo: controllare se ci sono più utenti che si son loggati dallo stesso IP e se ci sono utenti che si son loggati da più IP diversi.

## Device statistics

In [49]:
print("Ci sono " + str(len(login["Device"])) + " Device in login")
print("Ci sono " + str(len(login["Device"].unique())) + " Device diversi")
print("Ci sono " + str(login["Device"].isnull().sum()) + " Device messi a null")

Ci sono 3216261 Device in login
Ci sono 18030 Device diversi
Ci sono 1 Device messi a null


In [50]:
login["Device"].value_counts().describe()

count     18029.000000
mean        178.393699
std        3125.085391
min           1.000000
25%           2.000000
50%           6.000000
75%          24.000000
max      276369.000000
Name: Device, dtype: float64

## CC_ASN statistics

In [51]:
print("Ci sono " + str(len(login["CC_ASN"])) + " CC_ASN in login")
print("Ci sono " + str(len(login["CC_ASN"].unique())) + " CC_ASN diversi")
print("Ci sono " + str(login["CC_ASN"].isnull().sum()) + " CC_ASN messi a null")

Ci sono 3216261 CC_ASN in login
Ci sono 2309 CC_ASN diversi
Ci sono 0 CC_ASN messi a null


In [52]:
login["CC_ASN"].value_counts().head(100)

IT,AS3269      1211686
IT,AS12874      344388
n./d.,n./d.     321985
IT,AS30722      317670
IT,AS1267       310710
                ...   
IT,AS34618         474
US,AS7922          469
IT,AS28675         458
IT,AS42515         455
CH,AS9044          454
Name: CC_ASN, Length: 100, dtype: int64

## Esito statistics

In [53]:
print("Ci sono " + str(len(login["Esito"])) + " Esito in login")
print("Ci sono " + str(len(login["Esito"].unique())) + " Esito diversi")
print("Ci sono " + str(login["Esito"].isnull().sum()) + " Esito messi a null")

Ci sono 3216261 Esito in login
Ci sono 2 Esito diversi
Ci sono 0 Esito messi a null


In [54]:
login["Esito"].value_counts()

True     2897589
False     318672
Name: Esito, dtype: int64

## Timestamp statistics

In [17]:
data = np.random.random((10, 5))

In [18]:
data

array([[0.67103402, 0.67381105, 0.66267476, 0.38531632, 0.93821975],
       [0.56321787, 0.90457814, 0.3803937 , 0.91676886, 0.03926822],
       [0.43507342, 0.37150208, 0.77947163, 0.82697617, 0.00855248],
       [0.09293739, 0.55012673, 0.24012308, 0.36455541, 0.23578773],
       [0.46376193, 0.93429038, 0.68194066, 0.97207841, 0.88076116],
       [0.04069786, 0.46634919, 0.94454144, 0.21997152, 0.4371224 ],
       [0.16546331, 0.18433523, 0.06151806, 0.69482627, 0.36050997],
       [0.19896917, 0.17509394, 0.21009555, 0.32396033, 0.5964395 ],
       [0.04506746, 0.38709318, 0.56543055, 0.31152852, 0.42924669],
       [0.88221931, 0.73802957, 0.8319647 , 0.1163287 , 0.33586891]])