# Clustering Projet de consulting

Une grande entreprise de technologie a besoin de votre aide, elle a été piratée! Heureusement, leurs ingénieurs légistes ont récupéré des informations précieuses sur les piratages, y compris des informations telles que le temps de session, les lieux, la vitesse de frappe des mots / minute, etc. L’ingénieur légiste vous donne les données de chaque session utilisées par les pirates pour se connecter à leurs serveurs. Ce sont les caractéristiques des données:

* 'Session_Connection_Time': How long the session lasted in minutes
* 'Bytes Transferred': Number of MB transferred during session
* 'Kali_Trace_Used': Indicates if the hacker was using Kali Linux
* 'Servers_Corrupted': Number of server corrupted during the attack
* 'Pages_Corrupted': Number of pages illegally accessed
* 'Location': Location attack came from (Probably useless because the hackers used VPNs)
* 'WPM_Typing_Speed': Their estimated typing speed based on session logs.


La société de technologie a 3 pirates potentiels qui ont perpétré l’attaque. Ils sont certains des deux premiers hackers mais ne sont pas très sûrs que le troisième pirate soit impliqué ou non. Ils ont demandé votre aide! Pouvez-vous nous aider à déterminer si le troisième suspect avait un lien avec les attaques ou s’agissait-il uniquement de deux pirates informatiques? Il est probablement impossible de savoir avec certitude, mais peut-être que ce que vous venez d'apprendre sur le clustering peut aider!

**
Un dernier fait important, l’ingénieur légiste sait que les pirates informatiques tranchent leurs attaques. Ce qui signifie qu'ils devraient chacun avoir à peu près le même nombre d'attaques. Par exemple, s'il y a 100 attaques totales, alors dans une situation de 2 hackers, chacun devrait avoir environ 50 hacks, dans une situation de trois pirates, chacun aura environ 33 hacks. L’ingénieur pense que c’est l’élément clé pour résoudre ce problème, mais il ne sait pas comment distinguer ces données non étiquetées en groupes de pirates.**

In [2]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('cluster').getOrCreate()

from pyspark.ml.clustering import KMeans

# charger les données .
dataset = spark.read.csv("/FileStore/tables/hack_data.csv",header=True,inferSchema=True)

In [3]:
dataset.head()

In [4]:
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler

In [5]:
dataset.columns

In [6]:
dataset = dataset.drop(dataset['Location'])

In [7]:
vec_assembler = VectorAssembler(inputCols = dataset.columns, outputCol='features')

In [8]:
final_data = vec_assembler.transform(dataset)

In [9]:
final_data.show()

In [10]:
from pyspark.ml.feature import StandardScaler

In [11]:
scaler = StandardScaler(inputCol="features", outputCol="scaledFeatures", withStd=True, withMean=False)

In [12]:
scalerModel = scaler.fit(final_data)

In [13]:
# Normaliser chaque caractéristique .
final_data = scalerModel.transform(final_data)

In [14]:
# apprendre un modèle K-means 
kmeans = KMeans(featuresCol='scaledFeatures',k=3)
model = kmeans.fit(final_data)

In [15]:
# Évaluez le regroupement en calculant la somme des erreurs carrées définie.
wssse = model.computeCost(final_data)
print("Within Set Sum of Squared Errors = " + str(wssse))

In [16]:
# Shows the result.
centers = model.clusterCenters()
print("Cluster Centers: ")
for center in centers:
    print(center)

In [17]:
model.transform(final_data).select('Features').show()

In [18]:
model.transform(final_data).groupBy('prediction').count().show()

En se basant sur cette phrase 'l’ingénieur légiste sait que les pirates informatiques tranchent leurs attaques. Ce qui signifie qu'ils devraient chacun avoir à peu près le même nombre d'attaques' on peut conclure que seulement deux pirates ont commis l'attaque et ces ceux dont le count est tres proche l'un de l'autre (88 et 79).