# TP Python

PySpark est une interface pour Apache Spark en Python, permettant de traiter de grandes quantités de données en parallèle sur des clusters, en combinant la puissance de calcul de Spark avec la simplicité de Python.

## Déploiement

Le déploiement se fait comme pour les TP précédents, à l'aide de Docker Compose. N'oubliez pas de lancer Docker Desktop en premier lieu !
```bash 
docker compose up --build
```

Sont déployés :
- un master Spark 
- un worker Spark
- une installation de [Minio](https://min.io/) servant au stockage des données accédée par Spark
- une installation de Jupyter comprenant les bibliothèques nécessaires pour le TP

L'UI de Spark est disponible à l'adresse suivante : http://localhost:8080.
Nous utilisons la solution de stockage objet Minio, accessible à l'adresse suivante : http://localhost:19001.

### Problèmes possibles

Quelques messages d'erreurs que vous pouvez rencontrer, et comment les gérer :
- Message d'erreur "Cannot run multiple SparkContexts at once" : vous ne pouvez initialiser la connexion avec Spark qu'une fois par notebook, la solution est simplement de faire reset du notebook (bouton restart en haut du notebook).
- Plus d'exécuteur disponible dans Spark : un job est problablement déjà en cours. Coupez le sur l'[interface de Spark](http://127.0.0.1:8080) (ou coupez l'ensemble de l'installation avec `docker compose down`), puis faites un reset du notebook (bouton restart en haut du notebook).
- L'option restart est grisée : fermez l'onglet du notebook et ouvrez-le à nouveau

In [1]:
from pyspark import SparkContext, SparkConf
conf = SparkConf() \
    .setAppName('SparkApp') \
    .setMaster('spark://spark:7077') \
    .set("spark.jars.packages", "org.apache.hadoop:hadoop-aws:3.3.4") # utilisé pour le stockage 
sc = SparkContext(conf=conf)

:: loading settings :: url = jar:file:/opt/conda/lib/python3.12/site-packages/pyspark/jars/ivy-2.5.1.jar!/org/apache/ivy/core/settings/ivysettings.xml


Ivy Default Cache set to: /home/jovyan/.ivy2/cache
The jars for the packages stored in: /home/jovyan/.ivy2/jars
org.apache.hadoop#hadoop-aws added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent-98dba97e-2a83-42e1-9a12-e12c35a0eb74;1.0
	confs: [default]
	found org.apache.hadoop#hadoop-aws;3.3.4 in central
	found com.amazonaws#aws-java-sdk-bundle;1.12.262 in central
	found org.wildfly.openssl#wildfly-openssl;1.0.7.Final in central
downloading https://repo1.maven.org/maven2/org/apache/hadoop/hadoop-aws/3.3.4/hadoop-aws-3.3.4.jar ...
	[SUCCESSFUL ] org.apache.hadoop#hadoop-aws;3.3.4!hadoop-aws.jar (1076ms)
downloading https://repo1.maven.org/maven2/com/amazonaws/aws-java-sdk-bundle/1.12.262/aws-java-sdk-bundle-1.12.262.jar ...
	[SUCCESSFUL ] com.amazonaws#aws-java-sdk-bundle;1.12.262!aws-java-sdk-bundle.jar (509925ms)
downloading https://repo1.maven.org/maven2/org/wildfly/openssl/wildfly-openssl/1.0.7.Final/wildfly-openssl-1.0.7.Final.jar ...
	[SUCCESSFUL

## Spark - RDD style

Voici quelques exemples.

In [2]:
# Create an RDD containing numbers from 1 to 1000
numbers_rdd = sc.parallelize(range(1, 1000))

# Count the elements in the RDD
count = numbers_rdd.count()
print(f"Count of numbers from 1 to 1000 is: {count}")

                                                                                

Count of numbers from 1 to 1000 is: 999


### Calcul de moyenne

Quelques liens utiles pour comprendre :
- la fonction de création d'un RDD `parallelize` : https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.parallelize.html 
- la transformation `map` : https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.map.html
- la transformation `reduceByKey` : https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.reduceByKey.html
- la fonction `mapValues` : https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.mapValues.html

In [3]:
# Create initial data in Python
data = [("Brooke", 20), ("Denny", 31), ("Jules", 30), ("TD", 35), ("Brooke", 25)]

# Create initial RDD from standard data
dataRDD = sc.parallelize(data)

# Filter out None values and log data
mapped_ages = dataRDD.map(lambda p: (str(p[0]), (int(p[1]), 1)))

# Reduce by key to sum ages and count per name
summed_ages = mapped_ages.reduceByKey(lambda p1, p2: (p1[0] + p2[0], p1[1] + p2[1]))

# Compute the average age per name
average_ages = summed_ages.mapValues(lambda v: v[0] / v[1])

# Collect the results
ages = average_ages.collect()
print("Array(", ", ".join([str(age) for age in ages]), ")")



Array( ('Brooke', 22.5), ('Denny', 31.0), ('Jules', 30.0), ('TD', 35.0) )


                                                                                

## Pagerank

PageRank est un algorithme développé par Google pour mesurer l'importance relative de chaque page web en fonction de son nombre et de la qualité des liens entrants. Il attribue un score de popularité à chaque page, influençant son classement dans les résultats de recherche.

Quelques liens en plus pour comprendre :
- la transformation `join` sur les RDD : https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.join.html
- la transformation `flatmap` sur les RDD : https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.flatMap.html

N'hésitez pas à essayer de décomposer les calculs pour comprendre ! Attention à bien faire une action de type `collect` pour voir les résultats intermédiaires.

In [7]:
from pyspark import SparkContext
from pyspark.sql import SparkSession

sc = SparkContext.getOrCreate()
spark = SparkSession.builder.getOrCreate()

# Parameters
ITERATIONS, a, N = 10, 0.15, 5

# Inline example data: (Website, List[Linked Websites])
data = [
    ("google.com", ["facebook.com", "linkedin.com", "youtube.com"]),
    ("twitter.com", ["google.com", "youtube.com", "linkedin.com"]),
    ("facebook.com", ["google.com", "twitter.com"]),
    ("youtube.com", ["google.com", "twitter.com"]),
    ("linkedin.com", ["google.com", "twitter.com"])
]

links = sc.parallelize(data).partitionBy(8).persist()

# Initialize ranks: RDD of (Website, initial rank)
ranks = links.mapValues(lambda _: 1.0 / N)

# PageRank Iterations
for _ in range(ITERATIONS):
    print("join", links.join(ranks).collect())
    contribs = links.join(ranks).flatMap(
        lambda site_links_rank: [(dest, site_links_rank[1][1] / len(site_links_rank[1][0])) 
                                 for dest in site_links_rank[1][0]]
    )
    print("contribs", contribs.collect())
    ranks = contribs.reduceByKey(lambda x, y: x + y).mapValues(lambda total: a / N + (1 - a) * total)

# Output final ranks
print(ranks.collect())

                                                                                

join [('google.com', (['facebook.com', 'linkedin.com', 'youtube.com'], 0.2)), ('linkedin.com', (['google.com', 'twitter.com'], 0.2)), ('facebook.com', (['google.com', 'twitter.com'], 0.2)), ('twitter.com', (['google.com', 'youtube.com', 'linkedin.com'], 0.2)), ('youtube.com', (['google.com', 'twitter.com'], 0.2))]


                                                                                

contribs [('facebook.com', 0.06666666666666667), ('linkedin.com', 0.06666666666666667), ('youtube.com', 0.06666666666666667), ('google.com', 0.1), ('twitter.com', 0.1), ('google.com', 0.1), ('twitter.com', 0.1), ('google.com', 0.06666666666666667), ('youtube.com', 0.06666666666666667), ('linkedin.com', 0.06666666666666667), ('google.com', 0.1), ('twitter.com', 0.1)]


                                                                                

join [('google.com', (['facebook.com', 'linkedin.com', 'youtube.com'], 0.3416666666666667)), ('linkedin.com', (['google.com', 'twitter.com'], 0.1433333333333333)), ('facebook.com', (['google.com', 'twitter.com'], 0.08666666666666667)), ('twitter.com', (['google.com', 'youtube.com', 'linkedin.com'], 0.28500000000000003)), ('youtube.com', (['google.com', 'twitter.com'], 0.1433333333333333))]


Exception in thread "serve RDD 304" java.net.SocketTimeoutException: Accept timed out
	at java.base/sun.nio.ch.NioSocketImpl.timedAccept(NioSocketImpl.java:713)
	at java.base/sun.nio.ch.NioSocketImpl.accept(NioSocketImpl.java:757)
	at java.base/java.net.ServerSocket.implAccept(ServerSocket.java:675)
	at java.base/java.net.ServerSocket.platformImplAccept(ServerSocket.java:641)
	at java.base/java.net.ServerSocket.implAccept(ServerSocket.java:617)
	at java.base/java.net.ServerSocket.implAccept(ServerSocket.java:574)
	at java.base/java.net.ServerSocket.accept(ServerSocket.java:532)
	at org.apache.spark.security.SocketAuthServer$$anon$1.run(SocketAuthServer.scala:65)
                                                                                

contribs [('facebook.com', 0.11388888888888889), ('linkedin.com', 0.11388888888888889), ('youtube.com', 0.11388888888888889), ('google.com', 0.07166666666666666), ('twitter.com', 0.07166666666666666), ('google.com', 0.043333333333333335), ('twitter.com', 0.043333333333333335), ('google.com', 0.09500000000000001), ('youtube.com', 0.09500000000000001), ('linkedin.com', 0.09500000000000001), ('google.com', 0.07166666666666666), ('twitter.com', 0.07166666666666666)]


                                                                                

join [('google.com', (['facebook.com', 'linkedin.com', 'youtube.com'], 0.26941666666666664)), ('linkedin.com', (['google.com', 'twitter.com'], 0.20755555555555555)), ('facebook.com', (['google.com', 'twitter.com'], 0.12680555555555556)), ('twitter.com', (['google.com', 'youtube.com', 'linkedin.com'], 0.18866666666666665)), ('youtube.com', (['google.com', 'twitter.com'], 0.20755555555555555))]


                                                                                

contribs [('facebook.com', 0.08980555555555554), ('linkedin.com', 0.08980555555555554), ('youtube.com', 0.08980555555555554), ('google.com', 0.10377777777777777), ('twitter.com', 0.10377777777777777), ('google.com', 0.06340277777777778), ('twitter.com', 0.06340277777777778), ('google.com', 0.06288888888888888), ('youtube.com', 0.06288888888888888), ('linkedin.com', 0.06288888888888888), ('google.com', 0.10377777777777777), ('twitter.com', 0.10377777777777777)]


                                                                                

join [('google.com', (['facebook.com', 'linkedin.com', 'youtube.com'], 0.3137701388888888)), ('linkedin.com', (['google.com', 'twitter.com'], 0.15979027777777774)), ('facebook.com', (['google.com', 'twitter.com'], 0.1063347222222222)), ('twitter.com', (['google.com', 'youtube.com', 'linkedin.com'], 0.2603145833333333)), ('youtube.com', (['google.com', 'twitter.com'], 0.15979027777777774))]


                                                                                

contribs [('facebook.com', 0.10459004629629627), ('linkedin.com', 0.10459004629629627), ('youtube.com', 0.10459004629629627), ('google.com', 0.07989513888888887), ('twitter.com', 0.07989513888888887), ('google.com', 0.0531673611111111), ('twitter.com', 0.0531673611111111), ('google.com', 0.08677152777777776), ('youtube.com', 0.08677152777777776), ('linkedin.com', 0.08677152777777776), ('google.com', 0.07989513888888887), ('twitter.com', 0.07989513888888887)]


                                                                                

join [('google.com', (['facebook.com', 'linkedin.com', 'youtube.com'], 0.2847697916666666)), ('linkedin.com', (['google.com', 'twitter.com'], 0.19265733796296292)), ('facebook.com', (['google.com', 'twitter.com'], 0.11890153935185183)), ('twitter.com', (['google.com', 'youtube.com', 'linkedin.com'], 0.21101399305555552)), ('youtube.com', (['google.com', 'twitter.com'], 0.19265733796296292))]


                                                                                

contribs [('facebook.com', 0.09492326388888887), ('linkedin.com', 0.09492326388888887), ('youtube.com', 0.09492326388888887), ('google.com', 0.09632866898148146), ('twitter.com', 0.09632866898148146), ('google.com', 0.05945076967592591), ('twitter.com', 0.05945076967592591), ('google.com', 0.07033799768518517), ('youtube.com', 0.07033799768518517), ('linkedin.com', 0.07033799768518517), ('google.com', 0.09632866898148146), ('twitter.com', 0.09632866898148146)]


                                                                                

join [('google.com', (['facebook.com', 'linkedin.com', 'youtube.com'], 0.30407918952546287)), ('linkedin.com', (['google.com', 'twitter.com'], 0.17047207233796294)), ('facebook.com', (['google.com', 'twitter.com'], 0.11068477430555554)), ('twitter.com', (['google.com', 'youtube.com', 'linkedin.com'], 0.24429189149305547)), ('youtube.com', (['google.com', 'twitter.com'], 0.17047207233796294))]


                                                                                

contribs [('facebook.com', 0.10135972984182096), ('linkedin.com', 0.10135972984182096), ('youtube.com', 0.10135972984182096), ('google.com', 0.08523603616898147), ('twitter.com', 0.08523603616898147), ('google.com', 0.05534238715277777), ('twitter.com', 0.05534238715277777), ('google.com', 0.08143063049768516), ('youtube.com', 0.08143063049768516), ('linkedin.com', 0.08143063049768516), ('google.com', 0.08523603616898147), ('twitter.com', 0.08523603616898147)]


                                                                                

join [('google.com', (['facebook.com', 'linkedin.com', 'youtube.com'], 0.29115832649016193)), ('linkedin.com', (['google.com', 'twitter.com'], 0.18537180628858022)), ('facebook.com', (['google.com', 'twitter.com'], 0.1161557703655478)), ('twitter.com', (['google.com', 'youtube.com', 'linkedin.com'], 0.22194229056712958)), ('youtube.com', (['google.com', 'twitter.com'], 0.18537180628858022))]


                                                                                

contribs [('facebook.com', 0.09705277549672064), ('linkedin.com', 0.09705277549672064), ('youtube.com', 0.09705277549672064), ('google.com', 0.09268590314429011), ('twitter.com', 0.09268590314429011), ('google.com', 0.0580778851827739), ('twitter.com', 0.0580778851827739), ('google.com', 0.07398076352237652), ('youtube.com', 0.07398076352237652), ('linkedin.com', 0.07398076352237652), ('google.com', 0.09268590314429011), ('twitter.com', 0.09268590314429011)]


                                                                                

join [('google.com', (['facebook.com', 'linkedin.com', 'youtube.com'], 0.2998158867446711)), ('linkedin.com', (['google.com', 'twitter.com'], 0.1753785081662326)), ('facebook.com', (['google.com', 'twitter.com'], 0.11249485917221254)), ('twitter.com', (['google.com', 'youtube.com', 'linkedin.com'], 0.23693223775065098)), ('youtube.com', (['google.com', 'twitter.com'], 0.1753785081662326))]


                                                                                

contribs [('facebook.com', 0.09993862891489036), ('linkedin.com', 0.09993862891489036), ('youtube.com', 0.09993862891489036), ('google.com', 0.0876892540831163), ('twitter.com', 0.0876892540831163), ('google.com', 0.05624742958610627), ('twitter.com', 0.05624742958610627), ('google.com', 0.07897741258355033), ('youtube.com', 0.07897741258355033), ('linkedin.com', 0.07897741258355033), ('google.com', 0.0876892540831163), ('twitter.com', 0.0876892540831163)]


                                                                                

join [('google.com', (['facebook.com', 'linkedin.com', 'youtube.com'], 0.29401284778550585)), ('linkedin.com', (['google.com', 'twitter.com'], 0.1820786352736746)), ('facebook.com', (['google.com', 'twitter.com'], 0.1149478345776568)), ('twitter.com', (['google.com', 'youtube.com', 'linkedin.com'], 0.22688204708948803)), ('youtube.com', (['google.com', 'twitter.com'], 0.1820786352736746))]


                                                                                

contribs [('facebook.com', 0.09800428259516862), ('linkedin.com', 0.09800428259516862), ('youtube.com', 0.09800428259516862), ('google.com', 0.0910393176368373), ('twitter.com', 0.0910393176368373), ('google.com', 0.0574739172888284), ('twitter.com', 0.0574739172888284), ('google.com', 0.07562734902982934), ('youtube.com', 0.07562734902982934), ('linkedin.com', 0.07562734902982934), ('google.com', 0.0910393176368373), ('twitter.com', 0.0910393176368373)]


                                                                                

join [('google.com', (['facebook.com', 'linkedin.com', 'youtube.com'], 0.2979029163534824)), ('linkedin.com', (['google.com', 'twitter.com'], 0.17758688688124824)), ('facebook.com', (['google.com', 'twitter.com'], 0.11330364020589333)), ('twitter.com', (['google.com', 'youtube.com', 'linkedin.com'], 0.23361966967812756)), ('youtube.com', (['google.com', 'twitter.com'], 0.17758688688124824))]


                                                                                

contribs [('facebook.com', 0.09930097211782747), ('linkedin.com', 0.09930097211782747), ('youtube.com', 0.09930097211782747), ('google.com', 0.08879344344062412), ('twitter.com', 0.08879344344062412), ('google.com', 0.056651820102946664), ('twitter.com', 0.056651820102946664), ('google.com', 0.07787322322604252), ('youtube.com', 0.07787322322604252), ('linkedin.com', 0.07787322322604252), ('google.com', 0.08879344344062412), ('twitter.com', 0.08879344344062412)]




[('google.com', 0.2952951406787018), ('linkedin.com', 0.18059806604228948), ('facebook.com', 0.11440582630015335), ('twitter.com', 0.22910290093656566), ('youtube.com', 0.18059806604228948)]


                                                                                

## Spark + Minio

Nous allons utiliser le stockage objet Minio pour héberger les données de notre installation Spark.

MinIO est une solution de stockage objet haute performance, compatible avec l'API S3 d'AWS, permettant de gérer des données non structurées à grande échelle. Il est conçu pour des environnements cloud, hybrides ou sur site, offrant une infrastructure de stockage distribuée et évolutive.

La copie de fichier peut se faire par la bibliothèque Minio Python, ou alors par le biais de l'UI Web, accessible sur http://localhost:19001. Les identifiants sont "root" et "password" (on peut les retrouver dans le fichier [docker-compose.yml](docker-compose.yml)). 

Le principe général de MinIO (comme pour les autres systèmes de stockage objet tels qu'AWS S3) est d'organiser les données en buckets, qui sont des conteneurs virtuels pour le stockage de fichiers ou d’objets. Chaque bucket est unique dans le système et peut contenir un nombre illimité d'objets, identifiés par des clés uniques. 

### Exercice: Moby Dick

Prérequis : le contenu du livre est présent dans le fichier `pg2701.txt` ([lien internet](https://nyu-cds.github.io/python-bigdata/files/pg2701.txt)) du TP4.

In [8]:
!wget https://nyu-cds.github.io/python-bigdata/files/pg2701.txt

--2025-02-25 10:44:44--  https://nyu-cds.github.io/python-bigdata/files/pg2701.txt
Resolving nyu-cds.github.io (nyu-cds.github.io)... 185.199.111.153, 185.199.110.153, 185.199.108.153, ...
Connecting to nyu-cds.github.io (nyu-cds.github.io)|185.199.111.153|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1257296 (1.2M) [text/plain]
Saving to: ‘pg2701.txt’


2025-02-25 10:44:47 (3.71 MB/s) - ‘pg2701.txt’ saved [1257296/1257296]



In [9]:
# paramètres utilisés pour stockage
import docker

minio_ip_address = "minio"

# Décommenter dans le cas de WSL 
#network_name = "tp4_default"
#container_name = "minio"
#
#client = docker.from_env()
#container = client.containers.get(container_name)
#
#minio_ip_address: str = container.attrs['NetworkSettings']['Networks'][network_name]['IPAddress']
#minio_ip_address

sc._jsc.hadoopConfiguration().set("fs.s3a.endpoint", f"http://{minio_ip_address}:9000")
sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", "root")
sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", "password")
sc._jsc.hadoopConfiguration().set("fs.s3a.path.style.access", "true")
sc._jsc.hadoopConfiguration().set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
sc._jsc.hadoopConfiguration().set("fs.s3a.connection.ssl.enabled", "false")

In [10]:
# https://min.io/docs/minio/linux/developers/python/API.html

from minio import Minio
client_minio = Minio(
    f"{minio_ip_address}:9000",
    access_key="root",
    secret_key="password",
    secure=False
)

# Création du bucket tp5
if client_minio.bucket_exists("tp4") == False:
    client_minio.make_bucket("tp4")
client_minio.fput_object("tp4", "pg2701.txt", "pg2701.txt") # copie du fichier local dans le bucket

<minio.helpers.ObjectWriteResult at 0x7f6c96a22ae0>

Minio reprend le principe du stockage cloud S3 : il permet de stocker des fichiers dans des "buckets". Les buckets dans MinIO sont des conteneurs de stockage pour organiser et gérer des objets (fichiers) de manière structurée, similaires aux dossiers dans un système de fichiers, mais optimisés pour le stockage objet.
Vérifiez que le fichier est bien présent dans le bucket `tp4` de Minio : [http://localhost:19001/browser/tp4/](http://localhost:19001/browser/tp4/). Vous pouvez utiliser l'utilisateur `root` et le mot de passe `password` pour vous connecter.

In [11]:
minio_file = "s3a://tp4/pg2701.txt"
# adresse du fichier dans le bucket minio
text = sc.textFile(minio_file) 
print(text.take(10))

25/02/25 10:47:06 WARN MetricsConfig: Cannot locate configuration: tried hadoop-metrics2-s3a-file-system.properties,hadoop-metrics2.properties
[Stage 288:>                                                        (0 + 1) / 1]

['The Project Gutenberg EBook of Moby Dick; or The Whale, by Herman Melville', '', 'This eBook is for the use of anyone anywhere at no cost and with', 'almost no restrictions whatsoever.  You may copy it, give it away or', 're-use it under the terms of the Project Gutenberg License included', 'with this eBook or online at www.gutenberg.org', '', '', 'Title: Moby Dick; or The Whale', '']


                                                                                

### Exercice 1

1. Compter le nombre de mots total du livre.
2. Compter le nombre d'occurrences par mot, trier par nombre décroissant (prendre les 10 premiers).
3. Compter le nombre de mots moyen par phrase.

In [29]:
# 1
from operator import add
print(text.map(lambda line: len(line.split(" "))).reduce(add))
print(text.flatMap(lambda line: line.split(" ")).count())

172256
172256


                                                                                

In [30]:
# 2
print(text.flatMap(lambda line: line.split(" ")).map(lambda v: (v, 1)).reduceByKey(add).takeOrdered(10, lambda v: -v[1]))



[('', 7905), ('the', 7436), ('and', 5638), ('I', 4495), ('to', 4463), ('of', 3679), ('a', 2887), ('in', 2385), ('that', 2322), ('he', 1948)]


                                                                                

In [31]:
# 3
textBis = sc.parallelize(text.reduce(lambda x, y: " ".join([x, y])).split("."))
print(textBis.take(10))
print(textBis.map(lambda p: len(p.split(" "))).mean())

                                                                                

['The Project Gutenberg eBook of Dracula      This ebook is for the use of anyone anywhere in the United States and most other parts of the world at no cost and with almost no restrictions whatsoever', ' You may copy it, give it away or re-use it under the terms of the Project Gutenberg License included with this ebook or online at www', 'gutenberg', 'org', ' If you are not located in the United States, you will have to check the laws of the country where you are located before using this eBook', '  Title: Dracula  Author: Bram Stoker  Release date: October 1, 1995 [eBook #345]                 Most recently updated: November 12, 2023  Language: English  Credits: Chuck Greif and the Online Distributed Proofreading Team   *** START OF THE PROJECT GUTENBERG EBOOK DRACULA ***                                     DRACULA                                    _by_                                Bram Stoker                          [Illustration: colophon]                                  NEW YOR

                                                                                

Télécharger un autre livre (en trouver un sur https://www.gutenberg.org/browse/scores/top par exemple, télécharger au format "Plain Text UTF-8"), et lancer les jobs dessus.

In [26]:
!wget https://www.gutenberg.org/cache/epub/345/pg345.txt

--2025-02-25 11:17:45--  https://www.gutenberg.org/cache/epub/345/pg345.txt
Resolving www.gutenberg.org (www.gutenberg.org)... 152.19.134.47, 2610:28:3090:3000:0:bad:cafe:47
Connecting to www.gutenberg.org (www.gutenberg.org)|152.19.134.47|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 890394 (870K) [text/plain]
Saving to: ‘pg345.txt’


2025-02-25 11:17:47 (1.15 MB/s) - ‘pg345.txt’ saved [890394/890394]



In [27]:
# fput client minio
client_minio.fput_object("tp4", "pg345.txt", "pg345.txt") # copie du fichier local dans le bucket

<minio.helpers.ObjectWriteResult at 0x7f6c9427c5c0>

In [28]:
#traitements
minio_file = "s3a://tp4/pg345.txt"
# adresse du fichier dans le bucket minio
text = sc.textFile(minio_file) 
print(text.take(10))

[Stage 309:>                                                        (0 + 1) / 1]

['The Project Gutenberg eBook of Dracula', '    ', 'This ebook is for the use of anyone anywhere in the United States and', 'most other parts of the world at no cost and with almost no restrictions', 'whatsoever. You may copy it, give it away or re-use it under the terms', 'of the Project Gutenberg License included with this ebook or online', 'at www.gutenberg.org. If you are not located in the United States,', 'you will have to check the laws of the country where you are located', 'before using this eBook.', '']


                                                                                

### Exercice 2 : JSON

Charger le fichier `countries.json` ((adresse)[http://api.worldbank.org/v2/countries?per_page=304&format=json]), et chargez le dans Minio comme fait précédemment. 

Calculez ensuite le nombre de pays par niveau de revenu à l'aide d'un job Pyspark.

Vous pouvez vous aider des lignes suivantes en premier lieu (afin de se concentrer directement sur le tableau des pays, contenu dans le deuxième élément du tableau racine) :
```python
rdd = sc.textFile(f"s3a://tp4/countries.json") # chargement du fichier countries.json
mapped_rdd = rdd.map(lambda f: json.loads(f)) # chargement du fichier json dans un dictionnaire
country_rdd = mapped_rdd.flatMap(lambda x: x[1]) # on récupère le tableau des pays
```




In [32]:
!wget -O countries.json  "http://api.worldbank.org/v2/countries?per_page=304&format=json"

--2025-02-25 11:20:41--  http://api.worldbank.org/v2/countries?per_page=304&format=json
Resolving api.worldbank.org (api.worldbank.org)... 172.64.145.25, 104.18.42.231, 2606:4700:4400::6812:2ae7, ...
Connecting to api.worldbank.org (api.worldbank.org)|172.64.145.25|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [application/json]
Saving to: ‘countries.json’

countries.json          [ <=>                ] 110.21K  --.-KB/s    in 0.003s  

2025-02-25 11:20:41 (38.0 MB/s) - ‘countries.json’ saved [112851]



In [33]:
# fput client minio
client_minio.fput_object("tp4", "countries.json", "countries.json") # copie du fichier local dans le bucket

<minio.helpers.ObjectWriteResult at 0x7f6c94422060>

In [34]:
rdd = sc.textFile(f"s3a://tp4/countries.json") # chargement du fichier countries.json
mapped_rdd = rdd.map(lambda f: json.loads(f)) # chargement du fichier json dans un dictionnaire
country_rdd = mapped_rdd.flatMap(lambda x: x[1]) # on récupère le tableau des pays

25/02/25 15:45:07 WARN HeartbeatReceiver: Removing executor 0 with no recent heartbeats: 15530334 ms exceeds timeout 120000 ms
25/02/25 15:45:09 ERROR TaskSchedulerImpl: Lost executor 0 on 172.24.0.2: worker lost: Not receiving heartbeat for 60 seconds
25/02/25 15:45:11 ERROR Inbox: Ignoring error
java.lang.AssertionError: assertion failed: BlockManager re-registration shouldn't succeed when the executor is lost
	at scala.Predef$.assert(Predef.scala:223)
	at org.apache.spark.storage.BlockManagerMasterEndpoint.org$apache$spark$storage$BlockManagerMasterEndpoint$$register(BlockManagerMasterEndpoint.scala:727)
	at org.apache.spark.storage.BlockManagerMasterEndpoint$$anonfun$receiveAndReply$1.applyOrElse(BlockManagerMasterEndpoint.scala:133)
	at org.apache.spark.rpc.netty.Inbox.$anonfun$process$1(Inbox.scala:103)
	at org.apache.spark.rpc.netty.Inbox.safelyCall(Inbox.scala:213)
	at org.apache.spark.rpc.netty.Inbox.process(Inbox.scala:100)
	at org.apache.spark.rpc.netty.MessageLoop.org$apach

In [None]:
# Nombre de pays par niveau de revenu

## Exercice 3

Réalisez trois requêtes non triviales sur les fichiers json des [pokemon](https://github.com/fanzeyi/pokemon.json).
