# Chargement d'un fichier

Toutefois prendre note que l'opération textFile ne fait aucun accès ou chargement.
En réalité, ca crée un RDD et on peut y appliquer une multitude transformations sans traitement réel.
C'est l'utilisation d'une action qui déclenche le traitement.
Voici des exemples d'actions: count, top, 

Pointer un fichier dans un RDD et compter le nombre de lignes.


In [89]:
acces= sc.textFile("/mnt/ul/ul-mpo-ts-wls01/depot_journal/mpo-testpr/mpo-server-testpr01/mpo-portail/acces.log")
acces.count()

99


Regarder une ligne à titre d'exemple.


In [90]:
acces.top(1)

[u'2016-06-09 08:31:06\t304\tanonyme\tGET\thttps://monportail.testpr.ulaval.ca:443/public/modules/requirejs/require.js\t3ms\t132.203.52.126\t52c67318-ab53-4389-a0ff-9d824fdfb7b3\tMozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36']


Séparer les éléments via le séparateur de tabulation.


In [91]:
ip = acces.map(lambda x: x.split("\t")[6])
ip.count()

99

In [94]:
ip.top(10)

[u'132.203.52.126',
 u'132.203.52.126',
 u'132.203.243.5',
 u'132.203.243.4',
 u'132.203.240.99',
 u'132.203.240.99',
 u'132.203.240.99',
 u'10.40.103.13',
 u'10.12.33.84',
 u'10.12.33.84']

Grouper les adresses IP par classe A.

In [93]:
classA = ip.groupBy(lambda x: x.split(".")[0])

In [64]:
classA.count()

2

Que sont ces classes A ?

In [65]:
classA.top(10)

[(u'132', <pyspark.resultiterable.ResultIterable at 0x7fd2de6fedd0>),
 (u'10', <pyspark.resultiterable.ResultIterable at 0x7fd2de56f950>)]

Hum, ok, les entrées du groupement sont dans un itérateur imbriqué.
Regardons voir le contenu de ces itérateurs.

In [96]:
result = classA.collect()

for (key, values) in result:
    print ("*" * 115) + "\n"
    print ("* Classe A: " + key)
    print (values.data)
    

*******************************************************************************************************************

* Classe A: 10
[u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'10.12.33.84', u'1


Oh! Les duplicats ne sont pas enlevés des valeurs groupées.
Pouvons nous les rendre unique?


Oui: avant de procéder au groupement, on rend les IP uniques.

In [103]:
classA = ip.distinct().groupBy(lambda x: x.split(".")[0])
classA.count()

2

In [104]:
result = classA.collect()

for (key, values) in result:
    print ("*" * 115) + "\n"
    print ("* Classe A: " + key)
    print (values.data)

*******************************************************************************************************************

* Classe A: 132
[u'132.203.243.5', u'132.203.240.99', u'132.203.243.4', u'132.203.52.126']
*******************************************************************************************************************

* Classe A: 10
[u'10.40.103.13', u'10.12.33.84', u'10.12.33.117']


Mieux non?


#  Pairs RDD
Un RDD ne se compose pas seulement d'une colonne.. 
On peut utiliser les pairsRdds.

In [130]:
pairRDD = ip.map(lambda x: (x,1))
pairRDD.top(10)
#grouped = pairRDD.groupByKey().top(10)
#for (key, value) in grouped:
#    print "***" + key + "***"
#    for val in value:
#        print val


    

[(u'132.203.52.126', 1),
 (u'132.203.52.126', 1),
 (u'132.203.243.5', 1),
 (u'132.203.243.4', 1),
 (u'132.203.240.99', 1),
 (u'132.203.240.99', 1),
 (u'132.203.240.99', 1),
 (u'10.40.103.13', 1),
 (u'10.12.33.84', 1),
 (u'10.12.33.84', 1)]

Tenter de décompter le nombre de requête par adresse IP, on se sert du pair RDD qui a 1 pour chaque entrée.

In [131]:
pairRDD.reduceByKey(lambda x,y: x+y).top(10)

[(u'132.203.52.126', 2),
 (u'132.203.243.5', 1),
 (u'132.203.243.4', 1),
 (u'132.203.240.99', 3),
 (u'10.40.103.13', 1),
 (u'10.12.33.84', 91),
 (u'10.12.33.117', 1)]

OK!

# Trouver le nombre d'accès par IP

