# Projet GDELT - Script ETL - janvier 2021
#### Auteur : Chloé RICHARD, Céline DREVET, Enzo MARTI, Maxime GEAY

### *Partie 1 : Chargement des données dans S3*

#### Librairies utilisées

In [2]:
import sys.process._
import java.net.URL
import java.io.File
import java.io.File
import java.nio.file.{Files, StandardCopyOption}
import java.net.HttpURLConnection 
import org.apache.spark.sql.functions._
import org.apache.spark.sql.SQLContext
import org.apache.spark.input.PortableDataStream
import java.util.zip.ZipInputStream
import java.io.BufferedReader
import java.io.InputStreamReader
import com.amazonaws.services.s3.AmazonS3Client
import com.amazonaws.auth.BasicAWSCredentials
//import com.datastax.spark.connector.cql.CassandraConnector
//import org.apache.spark.sql.cassandra._


#### Etape 1 : extraction des données et stockage dans un bucket S3
Pour cela, on télécharge dans un premier temps un fichier CSV *masterfilelist.txt* qui  contient la liste des fichiers du jeu de données GDELT ainsi que l'URL pour télécharger chaque fichier. Chaque fichier de données est accessible par HTTP. La fonction *fileDownloader* permet de télécharger un fichier. 
Ce fichier est ensuite convertit en Data Frame, filtré sur la journée qui nous intéresse, puis grâce aux URL, on récupère les données GDELT et on les convertit en Data Frame également :

- les events 
- le graphe des relations 


In [4]:
// Configuration de l'accès au bucket S3
    
// == Code avec identifiants AWS ==

import com.amazonaws.services.s3.AmazonS3Client
import com.amazonaws.auth.BasicSessionCredentials
//import com.amazonaws.auth.DefaultAWSCredentialsProviderChain

val AWS_ID = "ASIAQKINZEMYEANJJXPB"
val AWS_KEY = "NDSRMBGu7DZ7ENCflsfjhctM0bCbJMeZ+eEXRfLZ"
val AWS_TOKEN = "FwoGZXIvYXdzELb//////////wEaDH2N9VgCp3KhCFaYHSLOAT3O1KhpG64FU1VvKK6ozt7CyS9B+eJ//qxh04sSjeeRyws2mUNg3pp2lg1UbnIV9g1m5hEE3iu26fEd3La0yux5YHoEjP08op8Ome7i4qar/GY/iHmW5m40kjJoeJZABdMhqmtgH0pnHjVmq/oIwRyUMyEij8JVlDquE9exjp4mRrIiZ//FnlD090ZJo5U346kerFUG5cssIg3UJwNQTy73PDcbVmIAoQFhw7IcRZtNlSinhGo0iYBX7L8Zl5qsE/gSegiIlhYoTU+RNGHCKKSJnYAGMi20p9qlJAacZRetftX0DMGK9otNAbdv/zlnj77lltRC5rJ90pAScurOZbgXjqM="
// la classe AmazonS3Client n'est pas serializable
// on rajoute l'annotation @transient pour dire a Spark de ne pas essayer de serialiser cette classe et l'envoyer aux executeurs
@transient val awsClient = new AmazonS3Client(new BasicSessionCredentials(AWS_ID, AWS_KEY, AWS_TOKEN))

sc.hadoopConfiguration.set("fs.s3a.access.key", AWS_ID) // mettre votre ID du fichier credentials.csv
sc.hadoopConfiguration.set("fs.s3a.secret.key", AWS_KEY) // mettre votre secret du fichier credentials.csv
sc.hadoopConfiguration.set("fs.s3a.session.token", AWS_KEY) // mettre votre token dans Account Details
sc.hadoopConfiguration.setInt("fs.s3a.connection.maximum", 5000) // augmenter la durée de connexion à une session aws

// == Code sans identifiants AWS ==

//import com.amazonaws.services.s3.AmazonS3ClientBuilder
//import com.amazonaws.services.s3.AmazonS3

//@transient val awsClient = AmazonS3ClientBuilder.standard().withRegion("us-east-1").build();
//awsClient.putObject("thomas-gdelt", "masterfilelist.txt", new File( "/home/ubuntu/data/masterfilelist.txt"))
//awsClient.putObject("thomas-gdelt", "masterfilelist-translation.txt", new File( "/home/ubuntu/data/masterfilelist-translation.txt"))



In [5]:
// Fonction fileDownloader
def fileDownloader(urlOfFileToDownload: String, fileName: String) = {
    val url = new URL(urlOfFileToDownload)
    val connection = url.openConnection().asInstanceOf[HttpURLConnection]
    connection.setConnectTimeout(5000)
    connection.setReadTimeout(5000)
    connection.connect()

    if (connection.getResponseCode >= 400)
        println("error")
    else
        url #> new File(fileName) !!
}

In [6]:
// Téléchargement du fichier masterfilelist.txt et sauvegarde dans le dossier /tmp/ du bucket gdelt-chloe-bucket
fileDownloader("http://data.gdeltproject.org/gdeltv2/masterfilelist.txt", "/tmp/masterfilelist.txt")
fileDownloader("http://data.gdeltproject.org/gdeltv2/masterfilelist-translation.txt", "/tmp/masterfilelist_translation.txt") //same for Translation file
awsClient.putObject("gdelt-chloe-bucket", "masterfilelist.txt", new File("/tmp/masterfilelist.txt") )
awsClient.putObject("gdelt-chloe-bucket", "masterfilelist_translation.txt", new File( "/tmp/masterfilelist_translation.txt") )

In [7]:
object AwsClient{
    val s3 = new AmazonS3Client(new BasicSessionCredentials(AWS_ID, AWS_KEY, AWS_TOKEN))
}

In [8]:
// Conversion du fichier masterfilelist.txt en Data Frame
val sqlContext = new SQLContext(sc)
val files_english_DF = sqlContext.read.
                    option("delimiter"," ").
                    option("infer_schema","true").
                    csv("s3://gdelt-chloe-bucket/masterfilelist.txt").
                    withColumnRenamed("_c0","size").
                    withColumnRenamed("_c1","hash").
                    withColumnRenamed("_c2","url").
                    cache
// Filtre sur une année de données 
val englishDF = files_english_DF.filter(col("url").contains("/2020")).cache


 
Un fichier empêche l'import de toutes les données sur S3 car il est introuvable. On le supprime donc de la liste des fichiers csv afin de permettre l'extraction et l'import des fichiers sur S3.

In [10]:
val englishDF_ = englishDF.filter(!col("url").contains("20201214121500"))

In [11]:
// check de la suppression de la ligne 
englishDF_.filter(col("url").contains("20201214121500")).show


In [12]:
// Chargement des fichiers de données dans le bucket S3
englishDF_.select("url").repartition(100).foreach( r=> {
            val URL = r.getAs[String](0)
            val fileName = r.getAs[String](0).split("/").last
            val dir = "/tmp/"
            val localFileName = dir + fileName
            fileDownloader(URL,  localFileName)
            val localFile = new File(localFileName)
            AwsClient.s3.putObject("gdelt-chloe-bucket/gdelt-csv-files", fileName, localFile )
            localFile.delete()
})

In [13]:
// Conversion du fichier masterfilelist_translation.txt en Data Frame
val sqlContext = new SQLContext(sc)
val files_others_DF = sqlContext.read.
                    option("delimiter"," ").
                    option("infer_schema","true").
                    csv("s3://gdelt-chloe-bucket/masterfilelist_translation.txt").
                    withColumnRenamed("_c0","size").
                    withColumnRenamed("_c1","hash").
                    withColumnRenamed("_c2","url").
                    cache
// Filtre sur une année de données 
val othersDF = files_others_DF.filter(col("url").contains("/2020")).cache
// Chargement des fichiers de données dans le bucket S3
othersDF.select("url").repartition(100).foreach( r=> {
            val URL = r.getAs[String](0)
            val fileName = r.getAs[String](0).split("/").last
            val dir = "/tmp/"
            val localFileName = dir + fileName
            fileDownloader(URL,  localFileName)
            val localFile = new File(localFileName)
            AwsClient.s3.putObject("gdelt-chloe-bucket/gdelt-csv-files", fileName, localFile )
            localFile.delete()
            
})