In [2]:
import pyspark

Comme nous l'avions fait avant avec l'API RDD, d'abord nous initializons un Spark Context:

In [3]:
sc = pyspark.SparkContext()

Maintenant nous pouvons passer le Spark Context, initialisé dans <code>sc</code> , à la fonction <code>SQLContext</code>. Il est une convention d'appeler la variable <code>spark</code>, mais vous verrez ainsi des exemples où le nom de cette variable est <code>sql</code> ou bien <code>SQLContext</code>.

In [4]:
from pyspark.sql import SQLContext

spark = SQLContext(sc)

L'API Spark SQL, contrairement à l'API RDD, contient une méthode pour lire des fichiers CSV directement. Nous allons l'utiliser pour charger notre jeu de données de l'exemple du musée présenté à la fin de l'atelier sur l'API RDD. Une autre façon de se servir de l'API SparkSQL pour charger des CSVs c'est avec la syntaxe <code>spark.read.format("csv").load('MetObjects.csv')</code>. En lisant ceci vous vous demandez peut-être si l'API SparkSQL offre des méthodes pour lire d'autres formats directement... et la réponse est OUI! Nous ne verrons que le CSV en exemple aujourd'hui, mais vous pouvez trouver une liste complète de sources supportées par Spark ici: https://spark.apache.org/docs/latest/sql-data-sources.html

In [13]:
museum_data = spark.

La commande ci-dessus a chargé notre CSV dans une structure de données appelée DataFrame. Si vous connaissez R ou la bibliothèque Python Pandas, vous vous sentirez chez vous avec l'API SparkSQL! 

La méthode <code>head</code> nous montre la première ligne d'un DataFrame. Vous remarquerez le mot 'Row' sur l'output: un DataFrame n'est qu'un RDD où les elements sont des objets de la classe <code>Row</code>!  

In [7]:
museum_data.

Row(Object Number='1979.486.1', Is Highlight='False', Is Timeline Work='False', Is Public Domain='False', Object ID='1', Gallery Number=None, Department='The American Wing', AccessionYear='1979', Object Name='Coin', Title='One-dollar Liberty Head Coin', Culture=None, Period=None, Dynasty=None, Reign=None, Portfolio=None, Constiuent ID='16429', Artist Role='Maker', Artist Prefix=None, Artist Display Name='James Barton Longacre', Artist Display Bio='American, Delaware County, Pennsylvania 1794–1869 Philadelphia, Pennsylvania', Artist Suffix=None, Artist Alpha Sort='Longacre, James Barton', Artist Nationality='American', Artist Begin Date='1794      ', Artist End Date='1869      ', Artist Gender=None, Artist ULAN URL='http://vocab.getty.edu/page/ulan/500011409', Artist Wikidata URL=None, Object Date='1853', Object Begin Date='1853', Object End Date='1853', Medium='Gold', Dimensions='Dimensions unavailable', Credit Line='Gift of Heinz L. Stoppelmann, 1979', Geography Type=None, City=None, 

Une autre manière de voir ce qu'il y a dans un DataFrame est la méthode <code>show</code>. Ceci vous montrera votre DataFrame d'une manière semblable à celle de l'output d'une commande SQL sur la console d'une Base de Données Relationels.

In [8]:
museum_data.

+-------------+------------+----------------+----------------+---------+--------------+-----------------+-------------+-----------+--------------------+-------+------+-------+-----+---------+-------------+-----------+-------------+--------------------+--------------------+-------------+--------------------+------------------+-----------------+---------------+-------------+--------------------+-------------------+-----------+-----------------+---------------+------+--------------------+--------------------+--------------+----+-----+------+-------+------+---------+------+-----+----------+-----+--------------+-----------------------+--------------------+-------------------+-------------+--------------------+----+------------+-----------------+
|Object Number|Is Highlight|Is Timeline Work|Is Public Domain|Object ID|Gallery Number|       Department|AccessionYear|Object Name|               Title|Culture|Period|Dynasty|Reign|Portfolio|Constiuent ID|Artist Role|Artist Prefix| Artist Display Na

Une troisième option c'est d'utiliser la méthode <code>toPandas</code>. Tel que le nom le suggère, cette méthode apportera votre DataFrame au Driver et le convertira en un DataFrame Pandas. Vous remarquerez la méthode <code>limit</code>, appliquée juste avant <code>toPandas</code>: puisque nous voulons apporter nos données au Driver, nous devons nous assurer de ne pas apporter une quantité trop élévée de lignes!

In [9]:
museum_data.

Unnamed: 0,Object Number,Is Highlight,Is Timeline Work,Is Public Domain,Object ID,Gallery Number,Department,AccessionYear,Object Name,Title,...,River,Classification,Rights and Reproduction,Link Resource,Object Wikidata URL,Metadata Date,Repository,Tags,Tags AAT URL,Tags Wikidata URL
0,1979.486.1,False,False,False,1,,The American Wing,1979,Coin,One-dollar Liberty Head Coin,...,,Metal,,http://www.metmuseum.org/art/collection/search/1,,,"Metropolitan Museum of Art, New York, NY",,,
1,1980.264.5,False,False,False,2,,The American Wing,1980,Coin,Ten-dollar Liberty Head Coin,...,,Metal,,http://www.metmuseum.org/art/collection/search/2,,,"Metropolitan Museum of Art, New York, NY",,,
2,67.265.9,False,False,False,3,,The American Wing,1967,Coin,Two-and-a-Half Dollar Coin,...,,Metal,,http://www.metmuseum.org/art/collection/search/3,,,"Metropolitan Museum of Art, New York, NY",,,
3,67.265.10,False,False,False,4,,The American Wing,1967,Coin,Two-and-a-Half Dollar Coin,...,,Metal,,http://www.metmuseum.org/art/collection/search/4,,,"Metropolitan Museum of Art, New York, NY",,,
4,67.265.11,False,False,False,5,,The American Wing,1967,Coin,Two-and-a-Half Dollar Coin,...,,Metal,,http://www.metmuseum.org/art/collection/search/5,,,"Metropolitan Museum of Art, New York, NY",,,


Maintenant nous nous tournons vers la manipulation de données avec l'API SparkSQL. Nous commençons avec l'API DataFrames. La syntaxe resemble le SQL, mais au lieu d'écrire des commandes, nous appellons des méthodes exactement comme nous l'avons fait avec l'API RDD. Par exemple, nous pouvons faire un 'SELECT' pour retourner une seule colonne d'un DataFrame où une condition basée sur une autre colonne est satisfaite. En suite, nous comptons le nombre de lignes.

In [22]:
museum_data.

3437

Pareil comme nous l'avons vu avec l'API RDD, vous pouvez utiliser la méthode <code>take</code> pour limiter la quantité de lignes retournées au Driver et en suite examiner les resultats:

In [44]:
museum_data.

[Row(Title='Jubal and Miriam', Repository='Metropolitan Museum of Art, New York, NY', AccessionYear='2019'),
 Row(Title='Towel or drying rack', Repository='Metropolitan Museum of Art, New York, NY', AccessionYear='2020'),
 Row(Title='Vase', Repository='Metropolitan Museum of Art, New York, NY', AccessionYear='2019'),
 Row(Title='Venetian Summer', Repository='Metropolitan Museum of Art, New York, NY', AccessionYear='2019'),
 Row(Title='Covered box', Repository='Metropolitan Museum of Art, New York, NY', AccessionYear='2019')]

Aussi de manière semblable au SQL, vous pouvez utiliser la méthode <code>distinct</code> pour ne retourner que des lignes uniques:

In [20]:
museum_data.

63135

In [21]:
museum_data.

[Row(Artist Display Name='Marks Adjustable Folding Chair Company'),
 Row(Artist Display Name='Matsu-Zukaya Company|Frank Lloyd Wright'),
 Row(Artist Display Name='William F. Ladd'),
 Row(Artist Display Name='Edward Lycett|Faience Manufacturing Company'),
 Row(Artist Display Name='Boston & Sandwich Glass Company|Henry N. Hooper and Company')]

La méthode <code>groupBy</code> fonctionne comme la commande SQL "GROUP BY": nous l'utilisons pour faire des aggrégations de nos données:

In [23]:
museum_data.

[Row(Artist Display Name='Marks Adjustable Folding Chair Company', count=1),
 Row(Artist Display Name='Matsu-Zukaya Company|Frank Lloyd Wright', count=1),
 Row(Artist Display Name='William F. Ladd', count=6),
 Row(Artist Display Name='Edward Lycett|Faience Manufacturing Company', count=1),
 Row(Artist Display Name='Boston & Sandwich Glass Company|Henry N. Hooper and Company', count=1)]

In [24]:
museum_data.

[Row(Artist Display Name='Andrew Ellicott Warner', AccessionYear='1987', count=10),
 Row(Artist Display Name='John and Joseph W. Meeks', AccessionYear='1969', count=1),
 Row(Artist Display Name='Julius Dessoir', AccessionYear='1969', count=1),
 Row(Artist Display Name='Peleg Armstrong and Erastus Wentworth', AccessionYear='1918', count=1),
 Row(Artist Display Name='George Fielding', AccessionYear='1923', count=1),
 Row(Artist Display Name='W. H. T.', AccessionYear='1933', count=1),
 Row(Artist Display Name='William J. Elsworth', AccessionYear='1939', count=1),
 Row(Artist Display Name='Jeronimus Alstyne', AccessionYear='1933', count=2),
 Row(Artist Display Name='John White Alexander', AccessionYear='1891', count=1),
 Row(Artist Display Name='William M. S. Doyle', AccessionYear='1937', count=1)]

La méthode <code>OrderBy</code> fonctionne comme la commande SQL "ORDER BY": vous remarquerez que sa position dans la chaîne de méthodes est la même que celle d'une commande ORDER BY dans une sequence de commandes SQL!

In [63]:
museum_data.

[Row(Artist Display Name=None, AccessionYear=None, count=28163),
 Row(Artist Display Name=None, AccessionYear=' 1973"', count=1),
 Row(Artist Display Name=None, AccessionYear=' 1979"', count=1),
 Row(Artist Display Name=None, AccessionYear=' 1984"', count=1),
 Row(Artist Display Name=None, AccessionYear=' 1985"', count=1)]

In [74]:
museum_data.

[Row(Artist Display Name=' ""The great Suspension Bridge"""', AccessionYear='1994', count=1),
 Row(Artist Display Name=' 7-9', AccessionYear='1924', count=1),
 Row(Artist Display Name=' candelabra', AccessionYear='1941', count=3),
 Row(Artist Display Name=' chapter viii', AccessionYear='1963', count=1),
 Row(Artist Display Name=' à source des Sciences"', AccessionYear='1917', count=2)]

Vous vous demandez peut-être pourquoi nous avons choisi un catalogue d'oeuvres d'arts d'un musée pour l'atelier. La ligne ci-dessus nous montre la raison: c'est un jeu de données très en désordre! Regardez comme aucun des outputs ci-dessus ne resemble pas à un vrai nom d'artiste. La ligne suivante nous donne de ce qui se passe: il y a trop de guillemets dans quelques unes de nos colonnes! Regardez la colonne 'Titre' pour mieux comprendre ce que nous voulons dire.

In [9]:
museum_data.

[Row(Object Number='41.71.1.12(2)', Is Highlight='False', Is Timeline Work='False', Is Public Domain='True', Object ID='362011', Gallery Number=None, Department='Drawings and Prints', AccessionYear='1941', Object Name='Print', Title='"Large vase found at the Pantanello, Hadrian\'s Villa, Tivoli, in 1770 (The ""Warwick Vase', Culture='"" from Vasi', Period=' candelabri', Dynasty=' cippi', Reign=' sarcofagi', Portfolio=' tripodi', Constiuent ID=' lucerne', Artist Role=' ed ornamenti antichi disegnati ed incisi dal Cav. Gio. Batt. Piranesi', Artist Prefix=' Vol. I (Vases', Artist Display Name=' candelabra', Artist Display Bio=' grave stones', Artist Suffix=' sarcophagi', Artist Alpha Sort=' tripods', Artist Nationality=' lamps', Artist Begin Date=' and ornaments designed and etched by Cavalieri Giovanni Battista Piranesi)"', Artist End Date=None, Artist Gender=None, Artist ULAN URL=None, Artist Wikidata URL=None, Object Date='Vasi, candelabri, cippi, sarcofagi, tripodi, lucerne, ed orname

Nous nous servirons de Spark pour régler ces problèmes sous peu. Pour l'instant, regardons quelques autres trucs que nous pouvons faire avec l'API DataFrames, ainsi que quelques autres défauts dans notre jeu de données... Ici nous utilisons la méthode <code>like</code>  pour récupérer des lignes où na nationalité de l'artiste est un URL. Vous remarquerez la resemblence avec la syntaxe de SQL dans l'argument de la méthode <code>like</code>: le symbole 'wildcard' pour dire à Spark de chercher 'http suivi par n'importe quoi' est le '%'.

In [15]:
museum_data.

[Row(Artist Nationality='https://www.wikidata.org/wiki/Q41176|https://www.wikidata.org/wiki/Q8441|https://www.wikidata.org/wiki/Q81054|https://www.wikidata.org/wiki/Q11446'),
 Row(Artist Nationality='https://www.wikidata.org/wiki/Q3957|https://www.wikidata.org/wiki/Q8502|https://www.wikidata.org/wiki/Q191163'),
 Row(Artist Nationality='https://www.wikidata.org/wiki/Q571|https://www.wikidata.org/wiki/Q676555|https://www.wikidata.org/wiki/Q642420'),
 Row(Artist Nationality='https://www.wikidata.org/wiki/Q289|https://www.wikidata.org/wiki/Q405|https://www.wikidata.org/wiki/Q333'),
 Row(Artist Nationality='https://www.wikidata.org/wiki/Q5113'),
 Row(Artist Nationality='https://www.wikidata.org/wiki/Q5113|https://www.wikidata.org/wiki/Q11946202|https://www.wikidata.org/wiki/Q80066'),
 Row(Artist Nationality='https://www.wikidata.org/wiki/Q7559|https://www.wikidata.org/wiki/Q1264081'),
 Row(Artist Nationality='https://www.wikidata.org/wiki/Q5937779|https://www.wikidata.org/wiki/Q43393537|htt

La méthode <code>where</code> retourne des lignes où la condition dans l'argument est satisfaite. L'équivalent de la commande SQL 'NOT LIKE', vous devez nier le resultat de <code>like</code> avec le symbole "~" (tilda). Vous remarquerez que les outputs sont en désordre ici aussi!

In [15]:
museum_data.

[Row(Artist Nationality='Edmonds, Francis William'),
 Row(Artist Nationality='Deities|Buddhism'),
 Row(Artist Nationality='Spanish|Italian|French'),
 Row(Artist Nationality='American, born Ukraine'),
 Row(Artist Nationality='American|Japanese'),
 Row(Artist Nationality='Brady, Mathew B.'),
 Row(Artist Nationality='British|British, born Italy'),
 Row(Artist Nationality='French|Belgian|Austrian|German|British, active France'),
 Row(Artist Nationality='German|German|Swiss|Roman|German|German'),
 Row(Artist Nationality='Puvis de Chavannes, Pierre')]

La ligne suivante nous donne encore une idée de ce qui se passe: regardez la première colonne, "Object Number". On y voit la string 'white cedar"'. Le guillemet solitaire à la fin nous indique que ceci est probablement la fin d'une ligne entre guillemets qui a été cassée en deux car elle contient un (\n)!

In [8]:
museum_data.

[Row(Object Number='white cedar"', Is Highlight='37 x 30 1/4 x 19 1/2 in. (94 x 76.8 x 49.5 cm)', Is Timeline Work='Gift of Mrs. Russell Sage, 1909', Is Public Domain='Possibly made in|Possibly made in', Object ID='Guilford|Saybrook', Gallery Number=None, Department=None, AccessionYear='United States|United States', Object Name=None, Title=None, Culture=None, Period=None, Dynasty=None, Reign=None, Portfolio='Furniture', Constiuent ID=None, Artist Role='http://www.metmuseum.org/art/collection/search/2029', Artist Prefix=None, Artist Display Name=None, Artist Display Bio='Metropolitan Museum of Art, New York, NY', Artist Suffix='Birds|Flowers', Artist Alpha Sort='http://vocab.getty.edu/page/aat/300266506|http://vocab.getty.edu/page/aat/300132399', Artist Nationality='https://www.wikidata.org/wiki/Q5113|https://www.wikidata.org/wiki/Q506', Artist Begin Date=None, Artist End Date=None, Artist Gender=None, Artist ULAN URL=None, Artist Wikidata URL=None, Object Date=None, Object Begin Date=N

Nous verrons comment régler ces problèmes sous peu. Avant de le faire, nous verrons pourquoi l'API s'appelle SparkSQL. La méthode <code>registerTempTable</code> vous pouvez transformer votre DataFrame en un vrai Tableau et se servir de SQL pour l'explorer!

In [5]:
museum_data.

In [6]:
spark.

[Row(Title='Jubal and Miriam', Repository='Metropolitan Museum of Art, New York, NY'),
 Row(Title='Towel or drying rack', Repository='Metropolitan Museum of Art, New York, NY'),
 Row(Title='Vase', Repository='Metropolitan Museum of Art, New York, NY'),
 Row(Title='Venetian Summer', Repository='Metropolitan Museum of Art, New York, NY'),
 Row(Title='Covered box', Repository='Metropolitan Museum of Art, New York, NY')]

In [21]:
spark.

+------------+
|count(Title)|
+------------+
|        2722|
+------------+



In [12]:
spark.

+-------------+------------+----------------+----------------+---------+--------------+-------------------+-------------+-----------+--------------------+------------+-----------+-------+----------+---------+-------------+--------------------+--------------+-------------------+------------------+-------------+-----------------+------------------+--------------------+---------------+-------------+---------------+-------------------+--------------------+-----------------+---------------+------+--------------------+--------------------+--------------+--------------------+-------+----------+----------+------+--------------------+--------------------+-------+----------+-----+--------------+-----------------------+-------------+-------------------+-------------+----------+----+------------+-----------------+
|Object Number|Is Highlight|Is Timeline Work|Is Public Domain|Object ID|Gallery Number|         Department|AccessionYear|Object Name|               Title|     Culture|     Period|Dynasty

In [15]:
spark.

+--------------------+--------------------+----------------+----------------+---------+--------------+--------------------+-------------+-----------+-----+--------------------+--------------------+-------+--------------------+---------+-------------+-----------+-------------+--------------------+------------------+-------------+-----------------+------------------+-----------------+--------------------+-------------+---------------+-------------------+-----------+-----------------+---------------+------+----------+-----------+--------------+----+-----+------+-------+------+---------+------+-----+----------+-----+--------------+-----------------------+-------------+-------------------+-------------+----------+----+------------+-----------------+
|       Object Number|        Is Highlight|Is Timeline Work|Is Public Domain|Object ID|Gallery Number|          Department|AccessionYear|Object Name|Title|             Culture|              Period|Dynasty|               Reign|Portfolio|Constiuen

Vous pouvez ajoutes des multiples Tableaux à votre SQLContext actif et les utiliser tel que vous l'auriez fait dans une vraie Base de Données et faire de JOINs, des UNION... pour voir les Tableaux disponibles dans un SQLContext actif, nous utilisons la méthode <code>tableNames</code>:

In [7]:
spark.

['museum']

Nous avons vu comment créer des Tableaux à l'aide de <code>registerTempTable</code>. Pour enlever des Tableaux d'une session, utilisez <code>dropTempTable</code>:

In [14]:
spark.

Que votre DataFrame soit transformé en Tableau ou non, vous pouvez lister ses colonnes à l'aide du champ <code>columns</code> de l'objet:

In [16]:
museum_data.

['Object Number',
 'Is Highlight',
 'Is Timeline Work',
 'Is Public Domain',
 'Object ID',
 'Gallery Number',
 'Department',
 'AccessionYear',
 'Object Name',
 'Title',
 'Culture',
 'Period',
 'Dynasty',
 'Reign',
 'Portfolio',
 'Constiuent ID',
 'Artist Role',
 'Artist Prefix',
 'Artist Display Name',
 'Artist Display Bio',
 'Artist Suffix',
 'Artist Alpha Sort',
 'Artist Nationality',
 'Artist Begin Date',
 'Artist End Date',
 'Artist Gender',
 'Artist ULAN URL',
 'Artist Wikidata URL',
 'Object Date',
 'Object Begin Date',
 'Object End Date',
 'Medium',
 'Dimensions',
 'Credit Line',
 'Geography Type',
 'City',
 'State',
 'County',
 'Country',
 'Region',
 'Subregion',
 'Locale',
 'Locus',
 'Excavation',
 'River',
 'Classification',
 'Rights and Reproduction',
 'Link Resource',
 'Object Wikidata URL',
 'Metadata Date',
 'Repository',
 'Tags',
 'Tags AAT URL',
 'Tags Wikidata URL']

Et vous pouvez effacer des colonnes d'un DataFrame avec la méthode <code>drop</code>. Ajouter des colonnes n'est pas aussi facile et nous allons voir comment le faire plus tard!

In [9]:
museum_data.

Unnamed: 0,Is Timeline Work,Is Public Domain,Object ID,Gallery Number,Department,AccessionYear,Object Name,Title,Culture,Period,...,River,Classification,Rights and Reproduction,Link Resource,Object Wikidata URL,Metadata Date,Repository,Tags,Tags AAT URL,Tags Wikidata URL
0,False,False,1,,The American Wing,1979,Coin,One-dollar Liberty Head Coin,,,...,,Metal,,http://www.metmuseum.org/art/collection/search/1,,,"Metropolitan Museum of Art, New York, NY",,,
1,False,False,2,,The American Wing,1980,Coin,Ten-dollar Liberty Head Coin,,,...,,Metal,,http://www.metmuseum.org/art/collection/search/2,,,"Metropolitan Museum of Art, New York, NY",,,


SI vous connaissez bien le SQL, vous devez vous sentir comme chez vous avec l'API SparkSQL. Cependant, vous vous demandez peut-être... comment faire pour assigner des types aux colonnes? En d'autres mots, comment puis-je travailler sur une Basée de Données qui n'a pas de schéma?

Il se trouve que des Tableaux ainsi que des DataFrames ONT des schémas dans Spark aussi! Vous pouvez le voir à l'aide de l'attribut <code>schema</code>: 

In [10]:
museum_data.

StructType(List(StructField(Object Number,StringType,true),StructField(Is Highlight,StringType,true),StructField(Is Timeline Work,StringType,true),StructField(Is Public Domain,StringType,true),StructField(Object ID,StringType,true),StructField(Gallery Number,StringType,true),StructField(Department,StringType,true),StructField(AccessionYear,StringType,true),StructField(Object Name,StringType,true),StructField(Title,StringType,true),StructField(Culture,StringType,true),StructField(Period,StringType,true),StructField(Dynasty,StringType,true),StructField(Reign,StringType,true),StructField(Portfolio,StringType,true),StructField(Constiuent ID,StringType,true),StructField(Artist Role,StringType,true),StructField(Artist Prefix,StringType,true),StructField(Artist Display Name,StringType,true),StructField(Artist Display Bio,StringType,true),StructField(Artist Suffix,StringType,true),StructField(Artist Alpha Sort,StringType,true),StructField(Artist Nationality,StringType,true),StructField(Artist 

Dans notre cas, nous n'avons pas spécifié le schéma de notre DataFrame lorsque nous l'avons chargé à partir du fichier CSV, alors Spark a decidé de lire toutes les colonnes comme si elles ne contenaient que du texte.

Nous pouvons toutefois imposer un schéma à nos DataFrames avant de charger des données, pareillement comme nous le ferions en créant un Tableau vide avec du DDL sur une Base de Données.

Vous verrez ci-dessous un exemple de comment nous aurions pu définir un schéma pour nos données du musée. Les entités suivantes sont dignes de prendre en note: <code>StructType</code>, <code>StructField</code> et les différents types de données. SI nous faisons une analogie avec le SQL, <code>StructType</code> sert a définir le contenu des colonnes sur une ligne et  <code>StructField</code> répresente une ligne au complèt.

L'ordre des StructFields dans un StructType doit être la même que celle du jeux de données que vous souhaitez importer.

In [9]:
from pyspark.sql.types import *

museum_schema = StructType([StructField('Object Number',StringType()), 
                     StructField('Is Highlight',     BooleanType()), 
                     StructField('Is Timeline Work', BooleanType()), 
                     StructField('Is Public Domain', BooleanType()),
                     StructField('Object ID',        IntegerType()),
                     StructField('Gallery Number',   IntegerType()),
                     StructField('Department',       StringType()),
                     StructField('AccessionYear',    IntegerType()),
                     StructField('ObjectName',       StringType()),
                     StructField('Ttile ',           StringType()),
                     StructField('Culture',          StringType()),
                     StructField('Period',           StringType()),
                     StructField('Dynasty',          StringType()),
                     StructField('Reign',            StringType()),
                     StructField('Portfolio',        StringType()),
                     StructField('Constituent ID',   IntegerType()),
                     StructField('Artist Role',      StringType()),
                     StructField('Artist Prefix',    StringType()),
                     StructField('Artist Display Name',StringType()),
                     StructField('Artist Display Bio',StringType()),
                     StructField('Artist Suffix',    StringType()),
                     StructField('Artist Alpha Sort',StringType()),
                     StructField('Artist Nationality',StringType()),
                     StructField('Artist Begin Date',IntegerType()),
                     StructField('Artist End Date',  IntegerType()),
                     StructField('Artist Gender',    StringType()),
                     StructField('Artist ULAN URL',  StringType()),
                     StructField('Artist Wikidata URL',StringType()),
                     StructField('Object Date',      DateType()),
                     StructField('Object Begin Date',IntegerType()),
                     StructField('Object End Date',  IntegerType()),
                     StructField('Object Display Name',StringType()),
                     StructField('Medium',           StringType()),
                     StructField('Dimensions',       StringType()),
                     StructField('Credit Line',      StringType()),
                     StructField('Geography Type',   StringType()),
                     StructField('City',             StringType()),
                     StructField('State',            StringType()),
                     StructField('County',           StringType()),
                     StructField('Country',          StringType()),
                     StructField('Region',           StringType()),
                     StructField('Subregion',        StringType()),
                     StructField('Locale',           StringType()),
                     StructField('Locus',            StringType()),
                     StructField('Excavation',       StringType()),
                     StructField('River',            StringType()),
                     StructField('Classification',   StringType()),
                     StructField('Rights and Reproduction',StringType()),
                     StructField('Link Resource',    StringType()),
                     StructField('Object Wikidata URL',StringType()),
                     StructField('Metadata Date',    DateType()),
                     StructField('Repository',       StringType()),
                     StructField('Tags',             StringType()),
                     StructField('Tags AAT URL',     StringType()),
                     StructField('Tags Wikidata URL',StringType())
                    ])

Maintenant nous allons importer notre CSV et lui imposer le schéma ci-dessus. Pour le faire, nous ajouterons le paramètre 'schema' à notre appel à la méthode <code>csv</code>:

In [10]:
museum_data = 

museum_data.head()

Row(Object Number=None, Is Highlight=None, Is Timeline Work=None, Is Public Domain=None, Object ID=None, Gallery Number=None, Department=None, AccessionYear=None, ObjectName=None, Ttile =None, Culture=None, Period=None, Dynasty=None, Reign=None, Portfolio=None, Constituent ID=None, Artist Role=None, Artist Prefix=None, Artist Display Name=None, Artist Display Bio=None, Artist Suffix=None, Artist Alpha Sort=None, Artist Nationality=None, Artist Begin Date=None, Artist End Date=None, Artist Gender=None, Artist ULAN URL=None, Artist Wikidata URL=None, Object Date=None, Object Begin Date=None, Object End Date=None, Object Display Name=None, Medium=None, Dimensions=None, Credit Line=None, Geography Type=None, City=None, State=None, County=None, Country=None, Region=None, Subregion=None, Locale=None, Locus=None, Excavation=None, River=None, Classification=None, Rights and Reproduction=None, Link Resource=None, Object Wikidata URL=None, Metadata Date=None, Repository=None, Tags=None, Tags AAT

Tous nos données ont été chargées comme des objets de type <code>None</code>, ce que vous pouvez voir comme étant un équivalent en Python du <code>NULL</code> du SQL. Nous pouvons vérifier que, en effet, **tous** nos données ont été chargées en 'NULL' à l'aide de la ligne suivante. La méthode <code>dropna</code>, utilisée sans aucun argument, filtre toutes les lignes avec des NULLs de notre DataFrame:

In [41]:
museum_data.

0

Qu'est-ce que vient de se passer? Nous savons que notre jeu de donées est en désordre et que probablement il y a plusieurs lignes qui ne respecteront pas notre schéma. L'approche de SparkSQL lors du chargement de données est par défaut de 'planter' lorsqu'il y a des inputs mal-formatés!

Nous pouvons changer l'approche en ajoutant une option à notre CSV reader pour ignorer des inputs mal-formatés et garder seulement ceux qui sont bien formatés:

In [12]:
museum_data = 

museum_data.count()

5362

On dirait qu'il y a vraiment beaucoup de lignes qui ne respectent pas notre schéma...

De manière générale, imposer des schémas avec SparkSQL est une bonne idée quand nous savons que notre source de données est **propre** pour la plupart. C'est à dire, le nombre de colonnes et leurs types respecteront le schéma que nous voulons leur imposer. Avoir un schéma bien-défini en SparkSQL vous permettra d'utiliser des fonctions built-in directement, sans avoir à se soucier de convertir le type de vos colonnes, ou en créer des nouvelles juste pour se servir d'une fonction en particulier. Un bon exemple de scénario où avoir un schéma c'est gagnant, c'est quand nous faisons face à des données temporels avec des Dates ou des Timestapms.

Puisque nous savons que notre jeu de données est vraiment en désordre, il est mieux de ne pas imposer un schéma et de laisser Spark le décider à la place. Nous ajouterons donc l'option 'inferschema' pour dire à Spark que nous aimerions qu'il essaie de inferer le schéma à partir de nos données.  **Spoiler alert:** Spark n'est pas très doué pour inferer des schémas.

In [13]:
museum_data = 
museum_data.count()

382209

Mieux, mais nous sommes encore loin d'avoir toutes les 500k lignes de notre CSV original.

Nous avions identifié deux problèmes avec nos données:

1. Trop de guillemets dans quelques lignes.
2. Des line-breaks à l'interieur d'un ligne entre guillemets.

Essayons de régler ces problèmes maintenant, et voyons si cela veut dire que nous aurons plus de lignes. D'abord nous utilisons l'option 'multiline' pour dire à Spark qu'il y a des line-breaks **à l'interieur** des colonnes de notre CSV, et elles n'indiquent pas la fin d'une ligne!

In [5]:
museum_data = 
museum_data.count()

464607

Beaucoup mieux! Vérifions si ceci a réglé notre problème avec les URLs dans la colonne qui devrait contenir la nationalité des artistes:

In [52]:
museum_data.

[]

Il paraît que aumoins il n'y a plus de URL dans cette colonne. Vérifions si les URLs sont dans la bonne colonne maintenant:

In [16]:
museum_data.where(museum_data['Tags AAT URL']=='http://vocab.getty.edu/page/aat/300266506|http://vocab.getty.edu/page/aat/300386951|http://vocab.getty.edu/page/aat/300132410').take(1)

[Row(Object Number='29.100.762', Is Highlight='False', Is Timeline Work='False', Is Public Domain='False', Object ID='58673', Gallery Number=None, Department='Asian Art', AccessionYear='1929', Object Name='Inrō', Title=None, Culture='Japan', Period='Edo period (1615–1868)', Dynasty=None, Reign=None, Portfolio=None, Constiuent ID='16147', Artist Role='Artist', Artist Prefix=None, Artist Display Name='Louisine W. Havemeyer', Artist Display Bio=None, Artist Suffix=None, Artist Alpha Sort='Havemeyer, Louisine W.', Artist Nationality=None, Artist Begin Date='1855      ', Artist End Date='1929      ', Artist Gender='Female', Artist ULAN URL='http://vocab.getty.edu/page/ulan/500435594', Artist Wikidata URL='https://www.wikidata.org/wiki/Q539280', Object Date='19th century', Object Begin Date='1800', Object End Date='1899', Medium='Lacquer, gold, hirame, gold and coloured hiramakie, takamakie, nashiji; Interior: nashiji and fundame', Dimensions='3 5/16 x 1 15/16 x 1 in. (8.4 x 5 x 2.6 cm)', Cr

Bingo! Maintenant essayons de régler le problème des guillemets en trop. Nous le faisons en ajoutant l'option 'escape', ce qui indique que toute occurence d'un guillemet (") dans une colonne doit être lu comme un simple symbole et non pas un vrai guillemet capable de changer la structure du CSV:

In [17]:
museum_data = 
museum_data.count()

474526

Ça nous a donné 10k lignes de plus, pas pire! Vérifions l'état d'une des lignes "brisées" que nous avions:

In [18]:
museum_data.

[]

In [41]:
museum_data.

[Row(﻿Object Number='41.71.1.12(2)', Is Highlight=False, Is Timeline Work=False, Is Public Domain=True, Object ID=362011, Gallery Number=None, Department='Drawings and Prints', AccessionYear='1941', Object Name='Print', Title='Large vase found at the Pantanello, Hadrian\'s Villa, Tivoli, in 1770 (The "Warwick Vase," from Vasi, candelabri, cippi, sarcofagi, tripodi, lucerne, ed ornamenti antichi disegnati ed incisi dal Cav. Gio. Batt. Piranesi, Vol. I (Vases, candelabra, grave stones, sarcophagi, tripods, lamps, and ornaments designed and etched by Cavalieri Giovanni Battista Piranesi)', Culture=None, Period=None, Dynasty=None, Reign=None, Portfolio='Vasi, candelabri, cippi, sarcofagi, tripodi, lucerne, ed ornamenti antichi disegnati ed incisi dal Cav. Gio. Batt. Piranesi, Vol. I', Constiuent ID=16225.0, Artist Role='Artist', Artist Prefix=None, Artist Display Name='Giovanni Battista Piranesi', Artist Display Bio='Italian, Mogliano Veneto 1720–1778 Rome', Artist Suffix=None, Artist Alph

Le point crucial ici est que beacoup des problèmes de qualité que nous observons souvant sur des données peuvent être réparés lors que nous les chargeons dans Spark. Cela s'applique également à la plupart des autres formats que le CSV supportés par Spark! ALors, si vous voyez des problèmes comme ceux que nous avons réglé, un bon premier pas c'est d'utiliser les options de la méthode <code>read</code> pour les réparer. Pour plus d'infos sur ces options, regardez ici: https://spark.apache.org/docs/latest/sql-data-sources.html

Il reste encore d'autres problèmes dans notre jeu de données. Vous êtes les bienvnus pour essayer de les trouver. Il devrait être possible de les réparer en utilisant les options du CSV reader.

Si par contre vous n'arrivez pas à régler un problème à l'aide de la méthode <code>read</code>, ou si vous souhaitez transformer une colonne qui a été chargé incorrectement, ou bien si vous voulez ajouter une nouvelle colonne à votre DataFrame, il y a un outil très puissant à votre disposition... l'API RDD!

Vous pouvez extraire un RDD d'un DataFrame en lisant l'attribut <code>rdd</code> comme ceci:

In [27]:
museum_rdd = museum_data.rdd

Un DataFrame est, comme nous l'avons déjà vu, un RDD où les éléments sont des objets de la classe Row:

In [7]:
museum_rdd.take(1)

[Row(﻿Object Number='1979.486.1', Is Highlight=False, Is Timeline Work=False, Is Public Domain=False, Object ID=1, Gallery Number=None, Department='The American Wing', AccessionYear='1979', Object Name='Coin', Title='One-dollar Liberty Head Coin', Culture=None, Period=None, Dynasty=None, Reign=None, Portfolio=None, Constiuent ID=16429.0, Artist Role='Maker', Artist Prefix=None, Artist Display Name='James Barton Longacre', Artist Display Bio='American, Delaware County, Pennsylvania 1794–1869 Philadelphia, Pennsylvania', Artist Suffix=None, Artist Alpha Sort='Longacre, James Barton', Artist Nationality='American', Artist Begin Date='1794      ', Artist End Date='1869      ', Artist Gender=None, Artist ULAN URL='http://vocab.getty.edu/page/ulan/500011409', Artist Wikidata URL=None, Object Date='1853', Object Begin Date=1853, Object End Date=1853, Medium='Gold', Dimensions='Dimensions unavailable', Credit Line='Gift of Heinz L. Stoppelmann, 1979', Geography Type=None, City=None, State=None

Des objets de cette classe ne sont pas très utiles hors du contexte de l'API SparkSQL, nous convertissons alors tous les éléments en objets Python du type <code>lists</code>:

In [8]:
museum_rdd.

[['1979.486.1',
  False,
  False,
  False,
  1,
  None,
  'The American Wing',
  '1979',
  'Coin',
  'One-dollar Liberty Head Coin',
  None,
  None,
  None,
  None,
  None,
  16429.0,
  'Maker',
  None,
  'James Barton Longacre',
  'American, Delaware County, Pennsylvania 1794–1869 Philadelphia, Pennsylvania',
  None,
  'Longacre, James Barton',
  'American',
  '1794      ',
  '1869      ',
  None,
  'http://vocab.getty.edu/page/ulan/500011409',
  None,
  '1853',
  1853,
  1853,
  'Gold',
  'Dimensions unavailable',
  'Gift of Heinz L. Stoppelmann, 1979',
  None,
  None,
  None,
  None,
  None,
  None,
  None,
  None,
  None,
  None,
  None,
  'Metal',
  None,
  'http://www.metmuseum.org/art/collection/search/1',
  None,
  None,
  'Metropolitan Museum of Art, New York, NY',
  None,
  None,
  '\r']]

Rappellez-vous maintenant que nous vous avons dit que ajouter des colonnes à un DataFrame n'est pas facile? Il y plusieurs façons de le faire, mais aucune n'est particulièrement évidente. Celle que nous recommendons, à cause de la flexibilité qu'elle permet au programmeur est d'utiliser l'API RDD. Comme exemple, nous ajouterons un '1' à chaque élément de notre RDD si la nationalité de l'artiste est "Canadian", un '0' si l'artiste n'est pas Canadien et un 'NA' si la nationalité est un NULL:

In [28]:
museum_rdd = museum_rdd.

Maintenant créons une liste Python contenant les noms originels des colonnes de notre DataFrame, et ajoutons un seul nouveau nom: "Is Canadian"

In [33]:
column_names = 

Maintenant nous allons convertir l'RDD en DataFrame à nouveau, et nous passerons notre liste de noms de colonnes comme un argument pour dire à Spark de quoi doit avoir l'air notre nouveau DataFrame. Le deuxième argument dit à Spark quel pourcentage de nos données Spark doit utiliser pour essayer d'inferer le schéma. Si dontre jeu de données est trop gros, même 1% (0.01) pourra causer des délais importants.

In [35]:
museum_data = 

In [36]:
museum_data.take(1)

[Row(﻿Object Number='1979.486.1', Is Highlight=False, Is Timeline Work=False, Is Public Domain=False, Object ID=1, Gallery Number=None, Department='The American Wing', AccessionYear='1979', Object Name='Coin', Title='One-dollar Liberty Head Coin', Culture=None, Period=None, Dynasty=None, Reign=None, Portfolio=None, Constiuent ID=16429.0, Artist Role='Maker', Artist Prefix=None, Artist Display Name='James Barton Longacre', Artist Display Bio='American, Delaware County, Pennsylvania 1794–1869 Philadelphia, Pennsylvania', Artist Suffix=None, Artist Alpha Sort='Longacre, James Barton', Artist Nationality='American', Artist Begin Date='1794      ', Artist End Date='1869      ', Artist Gender=None, Artist ULAN URL='http://vocab.getty.edu/page/ulan/500011409', Artist Wikidata URL=None, Object Date='1853', Object Begin Date=1853, Object End Date=1853, Medium='Gold', Dimensions='Dimensions unavailable', Credit Line='Gift of Heinz L. Stoppelmann, 1979', Geography Type=None, City=None, State=None

Et ça conclut notre introduction à l'API SparkSQL. Cette API est extrement puissante et il y a beaucoup d'autres fonctionalités que nous n'avons pas couvert dans l'atelier.