# Initialisation de Spark

In [1]:
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("Notebook").setMaster("local")
sc = SparkContext(conf=conf)

23/10/29 12:12:09 WARN Utils: Your hostname, sal9000 resolves to a loopback address: 127.0.1.1; using 192.168.1.201 instead (on interface eno2)
23/10/29 12:12:09 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/10/29 12:12:09 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
23/10/29 12:12:10 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


# Une fonction pour simplifier l'accès aux données

In [31]:
def extract_field(s: str, field_number: int, sep: str = ';') -> str:
    fields = s.split(sep)
    return fields[field_number] if (field_number < len(fields)) else ""

In [3]:
print(extract_field("2;CASSIOPEE;2009;33;3", 0))
print(extract_field("2;CASSIOPEE;2009;33;3", 1))
print(extract_field("2;CASSIOPEE;2009;33;3", 2))
print(extract_field("2;CASSIOPEE;2009;33;3", 3))
print(extract_field("2;CASSIOPEE;2009;33;3", 4))
print(extract_field("2;CASSIOPEE;2009;33;3", 5))

2
CASSIOPEE
2009
33
3



# Charger les données
1. Créer le RDD `lignes` à partir du répertoire `prenoms_sample.txt`

In [4]:
lignes = sc.textFile("prenoms_sample.txt")
print(lignes.take(10))

['1;_PRENOMS_RARES;1909;44;7', '1;_PRENOMS_RARES;1925;64;19', '1;_PRENOMS_RARES;1926;44;21', '1;_PRENOMS_RARES;1962;66;15', '1;_PRENOMS_RARES;1997;40;15', '1;_PRENOMS_RARES;2000;46;13', '1;_PRENOMS_RARES;2016;973;1463', '1;ABDALLAH;2007;76;3', '1;ABDELAZIZ;1978;75;3', '1;ABDELHAFID;1964;42;4']


# Transformer les lignes en prénoms
1. En appliquant la méthode `map`, créer le RDD `prenoms` à partir de `lignes`

In [18]:
prenoms = lignes.map(lambda l: (
    extract_field(l, 0)[0],
    extract_field(l, 1),
    int(extract_field(l, 2)),
    int(extract_field(l, 3)),
    int(extract_field(l, 4))
))
for n in prenoms.take(10):
    print(n)

('1', '_PRENOMS_RARES', 1909, 44, 7)
('1', '_PRENOMS_RARES', 1925, 64, 19)
('1', '_PRENOMS_RARES', 1926, 44, 21)
('1', '_PRENOMS_RARES', 1962, 66, 15)
('1', '_PRENOMS_RARES', 1997, 40, 15)
('1', '_PRENOMS_RARES', 2000, 46, 13)
('1', '_PRENOMS_RARES', 2016, 973, 1463)
('1', 'ABDALLAH', 2007, 76, 3)
('1', 'ABDELAZIZ', 1978, 75, 3)
('1', 'ABDELHAFID', 1964, 42, 4)


# Interroger les données
La documentation des méthodes d'un RDD est disponible ([RDD](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.html)).

1. Rappeler ce que sont les *transformations* et les *actions*
1. Donner, pour chaque prénom, son nombre d'occurences (`map` et `reduceByKey`)

In [19]:
#TODO

('ABDELAZIZ', 3)
('ABDELMALIK', 3)
('ADAM', 10)
('ADRIEN', 184)
('ALAN', 7)
('ALASSANE', 3)
('ALEX', 69)
('ALEXIS', 84)
('ALFRED', 37)
('ALY', 3)


1. Donner le nombre total de naissances avec un prénom féminin (`filter`, `map`, `reduce` ou `sum`)

In [20]:
#TODO

40379


1. Donner l'effectif maximal et minimal par prénom (`map`, `aggregateByKey`)

In [24]:
#TODO

('ABDELAZIZ', (3, 3))
('ABDELMALIK', (3, 3))
('ADAM', (3, 7))
('ADRIEN', (4, 71))
('ALAN', (3, 4))
('ALASSANE', (3, 3))
('ALEX', (3, 49))
('ALEXIS', (5, 42))
('ALFRED', (3, 17))
('ALY', (3, 3))


1. Sur le modèle des prénoms, charger les données des départements
1. Donner, pour chaque nom de département, le prénom le plus fréquent depuis l'année 2000

In [42]:
#TODO

('01', 84, '01053', 5, 'AIN', 'Ain', 'Ain')
('02', 32, '02408', 5, 'AISNE', 'Aisne', 'Aisne')
('03', 84, '03190', 5, 'ALLIER', 'Allier', 'Allier')
('04', 93, '04070', 4, 'ALPES DE HAUTE PROVENCE', 'Alpes-de-Haute-Provence', 'Alpes-de-Haute-Provence')
('05', 93, '05061', 4, 'HAUTES ALPES', 'Hautes-Alpes', 'Hautes-Alpes')
('06', 93, '06088', 4, 'ALPES MARITIMES', 'Alpes-Maritimes', 'Alpes-Maritimes')
('07', 84, '07186', 5, 'ARDECHE', 'Ardèche', 'Ardèche')
('08', 44, '08105', 4, 'ARDENNES', 'Ardennes', 'Ardennes')
('09', 76, '09122', 5, 'ARIEGE', 'Ariège', 'Ariège')
('10', 44, '10387', 5, 'AUBE', 'Aube', 'Aube')
('11', 76, '11069', 5, 'AUDE', 'Aude', 'Aude')
('12', 76, '12202', 5, 'AVEYRON', 'Aveyron', 'Aveyron')
('13', 93, '13055', 4, 'BOUCHES DU RHONE', 'Bouches-du-Rhône', 'Bouches-du-Rhône')
('14', 28, '14118', 2, 'CALVADOS', 'Calvados', 'Calvados')
('15', 84, '15014', 2, 'CANTAL', 'Cantal', 'Cantal')
('16', 75, '16015', 3, 'CHARENTE', 'Charente', 'Charente')
('17', 75, '17300', 3, 'CH

In [50]:
#TODO

[(68, ('ANAS', 4)), (22, ('DAVID', 10)), (91, ('MALIK', 4)), (61, ('ENOLA', 4)), (36, ('LÉA', 29)), (30, ('LÉNA', 22)), (94, ('FRANCK', 7)), (6, ('ISABELLA', 3)), (52, ('MATHEO', 8)), (29, ('NOLAN', 37))]
[(1, ('LINA', 8)), (71, ('ETHAN', 29)), (43, ('JULIA', 7)), (75, ('VALENTIN', 121)), (73, ('BAPTISTE', 18)), (37, ('LOUISE', 56)), (84, ('JULIE', 47)), (19, ('DAMIEN', 8)), (6, ('ZOÉ', 26)), (44, ('LILOU', 97))]
[(38, 'ISERE'), (46, 'LOT'), (94, 'VAL DE MARNE'), (18, 'CHER'), (52, 'HAUTE MARNE'), (14, 'CALVADOS'), (40, 'LANDES'), (3, 'ALLIER'), (37, 'INDRE ET LOIRE'), (85, 'VENDEE')]
('AIN', ('LINA', 8))
('AISNE', ('MATHIS', 55))
('ALLIER', ('SAMY', 3))
('ALPES DE HAUTE PROVENCE', ('SARAH', 6))
('ALPES MARITIMES', ('ZOÉ', 26))
('ARDECHE', ('ELOÏSE', 5))
('ARDENNES', ('JULIE', 33))
('ARIEGE', ('KENZO', 3))
('AUBE', ('MAELYS', 11))
('AUDE', ('SAMUEL', 3))
('AVEYRON', ('JADE', 19))
('BAS RHIN', ('CLARA', 136))
('BOUCHES DU RHONE', ('MATTÉO', 145))
('CALVADOS', ('ENZO', 83))
('CHARENTE', 