# 0) Créer une session Spark

In [1]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

# 1) Lire de la donnée

## 1.1) Lecture brute

Chargez le fichier ville_1.csv dans une variable nommée df.

Vous pouvez afficher votre donnée en utilisant la méthode take() ou la methode collect() de l'objet pyspark DataFrame (attention appeler collect() sur un dataframe est déconseillé si vous avez du vrai big data).

L'objet possède aussi un attribut appelé dtypes, appelez cet attribut pour obtenir la liste des colonnes et leur type.

In [2]:
path = "./data/Villes/ville_1.csv"
df = spark.read.load(path, format="csv")
df.dtypes

[('_c0', 'string'),
 ('_c1', 'string'),
 ('_c2', 'string'),
 ('_c3', 'string'),
 ('_c4', 'string'),
 ('_c5', 'string'),
 ('_c6', 'string'),
 ('_c7', 'string'),
 ('_c8', 'string'),
 ('_c9', 'string'),
 ('_c10', 'string'),
 ('_c11', 'string'),
 ('_c12', 'string')]

## 1.2) Lecture avec les entêtes

Recharger le même fichier mais cette fois-ci utilisez l'option header pour rajouter les noms de colonnes à votre df.

Appelez l'attribut dtypes et comparez la sortie avec celle de la lecture brute.

In [3]:
 df = spark.read.format('csv').options(header=True).load(path)
df.dtypes

[('id', 'string'),
 ('vitesse_a_pied', 'string'),
 ('vitesse_a_velo', 'string'),
 ('home', 'string'),
 ('travail', 'string'),
 ('sportif', 'string'),
 ('casseur', 'string'),
 ('statut', 'string'),
 ('salaire', 'string'),
 ('sexe', 'string'),
 ('age', 'string'),
 ('sportivite', 'string'),
 ('velo_perf_minimale', 'string')]

## 1.3) Lecture avec les types détectés automatiquement

Recharger le fichier avec  l'option inferShema.

L'option 'inferSchema' permet de transformer les colonnes en types plus précis : entier  / booléens / chaines de caractères... bien sûr spark trouve les types uniquement si le fichier d'origine permet de les trouver de manière simple

In [4]:
df = spark.read.format('csv').options(header=True, inferSchema=True).load(path)
df.dtypes

[('id', 'int'),
 ('vitesse_a_pied', 'double'),
 ('vitesse_a_velo', 'double'),
 ('home', 'string'),
 ('travail', 'string'),
 ('sportif', 'boolean'),
 ('casseur', 'boolean'),
 ('statut', 'string'),
 ('salaire', 'double'),
 ('sexe', 'string'),
 ('age', 'int'),
 ('sportivite', 'double'),
 ('velo_perf_minimale', 'double')]

In [5]:
df.take(5)

[Row(id=2, vitesse_a_pied=2.344207322136085, vitesse_a_velo=6.251219525696226, home='(lon:2.62 lat:2.59)', travail='(lon:2.34 lat:0.97)', sportif=False, casseur=False, statut='cadre', salaire=135167.36710061165, sexe='H', age=44, sportivite=7.814024407120282, velo_perf_minimale=0.4),
 Row(id=3, vitesse_a_pied=0.02, vitesse_a_velo=0.05, home='(lon:3.79 lat:3.81)', travail='(lon:0.20 lat:0.21)', sportif=False, casseur=False, statut='technicien_de_surface', salaire=20026.72646423192, sexe='F', age=20, sportivite=0.1, velo_perf_minimale=0.4),
 Row(id=4, vitesse_a_pied=0.02, vitesse_a_velo=0.05, home='(lon:3.39 lat:0.93)', travail='(lon:0.58 lat:0.20)', sportif=False, casseur=False, statut='technicien_de_surface', salaire=15214.584161640825, sexe='F', age=35, sportivite=0.1, velo_perf_minimale=0.4),
 Row(id=5, vitesse_a_pied=0.030000000000000006, vitesse_a_velo=0.08, home='(lon:2.88 lat:3.78)', travail='(lon:3.38 lat:2.93)', sportif=False, casseur=False, statut='technicien_de_surface', sala

## 1.4) L'attribut schema

Il vous permet d'afficher le schéma de votre df, avec pour chaque colonne son nom, son type, et si elle accepte les valeurs nulles ou non. 

In [6]:
df.schema

StructType([StructField('id', IntegerType(), True), StructField('vitesse_a_pied', DoubleType(), True), StructField('vitesse_a_velo', DoubleType(), True), StructField('home', StringType(), True), StructField('travail', StringType(), True), StructField('sportif', BooleanType(), True), StructField('casseur', BooleanType(), True), StructField('statut', StringType(), True), StructField('salaire', DoubleType(), True), StructField('sexe', StringType(), True), StructField('age', IntegerType(), True), StructField('sportivite', DoubleType(), True), StructField('velo_perf_minimale', DoubleType(), True)])

In [7]:
df.summary().collect()

[Row(summary='count', id='50', vitesse_a_pied='50', vitesse_a_velo='50', home='50', travail='50', statut='50', salaire='50', sexe='50', age='50', sportivite='50', velo_perf_minimale='50'),
 Row(summary='mean', id='26.5', vitesse_a_pied='0.4392468502791733', vitesse_a_velo='1.145550067289242', home=None, travail=None, statut=None, salaire='40143.21200936129', sexe=None, age='48.4', sportivite='1.721904835482771', velo_perf_minimale='0.39999999999999986'),
 Row(summary='stddev', id='14.577379737113251', vitesse_a_pied='0.46957482160828645', vitesse_a_velo='1.2384549280855548', home=None, travail=None, statut=None, salaire='32900.934492297645', sexe=None, age='19.79898987322333', sportivite='1.7739858396475683', velo_perf_minimale='0.0'),
 Row(summary='min', id='2', vitesse_a_pied='0.02', vitesse_a_velo='0.05', home='(lon:0.01 lat:2.24)', travail='(lon:0.20 lat:0.21)', statut='cadre', salaire='9511.945356442959', sexe='F', age='16', sportivite='0.1', velo_perf_minimale='0.4'),
 Row(summar

Vous avez aussi la méthode printSchema() qui permet d'afficher le shéma du df de manière plus lisible.

In [8]:
df.printSchema()

root
 |-- id: integer (nullable = true)
 |-- vitesse_a_pied: double (nullable = true)
 |-- vitesse_a_velo: double (nullable = true)
 |-- home: string (nullable = true)
 |-- travail: string (nullable = true)
 |-- sportif: boolean (nullable = true)
 |-- casseur: boolean (nullable = true)
 |-- statut: string (nullable = true)
 |-- salaire: double (nullable = true)
 |-- sexe: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- sportivite: double (nullable = true)
 |-- velo_perf_minimale: double (nullable = true)



# 2) Ecriture de la dataframe sur le disque

Sauvegardez le df sous différents formats.

## 2.1) choix du format : csv

In [9]:
df.write.format("csv").save("./data/Villes/csv")

AnalysisException: [PATH_ALREADY_EXISTS] Path file:/home/jovyan/work/data/Villes/csv already exists. Set mode as "overwrite" to overwrite the existing path.

In [10]:
df.write.format("parquet").save("./data/Villes/parquet")

AnalysisException: [PATH_ALREADY_EXISTS] Path file:/home/jovyan/work/data/Villes/parquet already exists. Set mode as "overwrite" to overwrite the existing path.

## 2.2) choix du format : parquet

## 2.3) choix du format : json

In [11]:
df.write.save("./data/Villes/ville", format="json")

AnalysisException: [PATH_ALREADY_EXISTS] Path file:/home/jovyan/work/data/Villes/ville already exists. Set mode as "overwrite" to overwrite the existing path.

## 2.4) Lecture de différents formats

Vous pouvez choisir de lire le df sous un format ou un autre en utilisant l'argument format dans la fonction spark.read.load

In [12]:
# le ! vous permet d'executer des commandes dans votre terminal depuis le notebook
!ls ./data/Villes/ville/

part-00000-30d5f4db-b615-475e-91de-c71e42c3637f-c000.json  _SUCCESS


In [13]:
df_json = spark.read.load("./data/Villes/ville/", format="json")

In [14]:
df_parquet = spark.read.load("./data/Villes/parquet", format="parquet")

# 3) Calculer des résultats : les actions 

## 3.1) Nombre de lignes : count

Chargez les fichiers csv contenus dans le dossiers ./data/Cyclistes/ dans un df nommé cyclistes, puis comptez les lignes du dataframe obtenu.

In [15]:
cyclistes = spark.read.load("./data/Cyclistes/", format="csv", header=True, inferSchema="True")

In [16]:
cyclistes.head(5)

[Row(id=12, timestamp=datetime.datetime(2018, 1, 1, 0, 1), sur_velo=False, velo='False', vitesse=0.030000000000000006, position='(lon:2.07 lat:1.24)', destination_finale='False'),
 Row(id=12, timestamp=datetime.datetime(2018, 1, 1, 0, 2), sur_velo=False, velo='False', vitesse=0.030000000000000006, position='(lon:2.07 lat:1.24)', destination_finale='False'),
 Row(id=12, timestamp=datetime.datetime(2018, 1, 1, 0, 3), sur_velo=False, velo='False', vitesse=0.030000000000000006, position='(lon:2.07 lat:1.24)', destination_finale='False'),
 Row(id=12, timestamp=datetime.datetime(2018, 1, 1, 0, 4), sur_velo=False, velo='False', vitesse=0.030000000000000006, position='(lon:2.07 lat:1.24)', destination_finale='False'),
 Row(id=12, timestamp=datetime.datetime(2018, 1, 1, 0, 5), sur_velo=False, velo='False', vitesse=0.030000000000000006, position='(lon:2.07 lat:1.24)', destination_finale='False')]

In [17]:
cyclistes.count()

2232000

Afficher le schéma de ce nouveau df

In [18]:
cyclistes.printSchema()

root
 |-- id: integer (nullable = true)
 |-- timestamp: timestamp (nullable = true)
 |-- sur_velo: boolean (nullable = true)
 |-- velo: string (nullable = true)
 |-- vitesse: double (nullable = true)
 |-- position: string (nullable = true)
 |-- destination_finale: string (nullable = true)



Affichez 10 lignes du df.

In [19]:
cyclistes.take(5)

[Row(id=12, timestamp=datetime.datetime(2018, 1, 1, 0, 1), sur_velo=False, velo='False', vitesse=0.030000000000000006, position='(lon:2.07 lat:1.24)', destination_finale='False'),
 Row(id=12, timestamp=datetime.datetime(2018, 1, 1, 0, 2), sur_velo=False, velo='False', vitesse=0.030000000000000006, position='(lon:2.07 lat:1.24)', destination_finale='False'),
 Row(id=12, timestamp=datetime.datetime(2018, 1, 1, 0, 3), sur_velo=False, velo='False', vitesse=0.030000000000000006, position='(lon:2.07 lat:1.24)', destination_finale='False'),
 Row(id=12, timestamp=datetime.datetime(2018, 1, 1, 0, 4), sur_velo=False, velo='False', vitesse=0.030000000000000006, position='(lon:2.07 lat:1.24)', destination_finale='False'),
 Row(id=12, timestamp=datetime.datetime(2018, 1, 1, 0, 5), sur_velo=False, velo='False', vitesse=0.030000000000000006, position='(lon:2.07 lat:1.24)', destination_finale='False')]

## 3.2) Moyenne : agg + colonne + mean

A l'aide de la méthode agg(), calculez la moyenne sur la colonne vitesse.

Vous pouvez récuperer le résultat avec la méthode collect().

In [20]:

cyclistes.agg({'vitesse' : 'mean'}).collect()

[Row(avg(vitesse)=0.44231374640014853)]

## 3.3) Quantile approximatifs pour gagner du temps de calcul

En statistiques et en théorie des probabilités, les quantiles sont les valeurs qui divisent un jeu de données en intervalles contenant le même nombre de données. Il y a donc un quantile de moins que le nombre de groupes créés. Ainsi les quartiles sont les trois quantiles qui divisent un ensemble de données en quatre groupes de taille égale.

La méthode approxQuantile permet de laisser une tolérance a l'erreur ce qui réduit le temps de calul sur d'énormes jeux de données.

In [21]:
import time

In [22]:
def calcul_quantile(df, erreur_acceptee):
    debut            = time.time()
    colonne          = "vitesse"
    quantiles_voulus = [0.25, 0.50, 0.75]
    resultat         =  df.approxQuantile(colonne, quantiles_voulus , erreur_acceptee )
    fin              = time.time()
    delais           = fin -debut
    print ("delais =%.2f sec, quantiles = %s"%(delais, resultat))

In [23]:
calcul_quantile(cyclistes, 0.05)

delais =1.09 sec, quantiles = [0.030000000000000006, 0.2973786407359121, 0.6467173919199576]


In [24]:
calcul_quantile(cyclistes, 0.01)

delais =0.91 sec, quantiles = [0.030000000000000006, 0.2973786407359121, 0.6295531740219638]


In [25]:
calcul_quantile(cyclistes, 0)

delais =3.63 sec, quantiles = [0.030000000000000006, 0.3283952876721612, 0.6295531740219638]


## Reload de la dataframe villes

Chargez le fichier villes dans un df nommé villes.

In [26]:
villes =spark.read.load("./data/Villes/", format="csv", header=True, inferSchema="True")
villes.printSchema()

root
 |-- id: integer (nullable = true)
 |-- vitesse_a_pied: double (nullable = true)
 |-- vitesse_a_velo: double (nullable = true)
 |-- home: string (nullable = true)
 |-- travail: string (nullable = true)
 |-- sportif: boolean (nullable = true)
 |-- casseur: boolean (nullable = true)
 |-- statut: string (nullable = true)
 |-- salaire: double (nullable = true)
 |-- sexe: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- sportivite: double (nullable = true)
 |-- velo_perf_minimale: double (nullable = true)



In [27]:
villes.take(10)

[Row(id=2, vitesse_a_pied=2.344207322136085, vitesse_a_velo=6.251219525696226, home='(lon:2.62 lat:2.59)', travail='(lon:2.34 lat:0.97)', sportif=False, casseur=False, statut='cadre', salaire=135167.36710061165, sexe='H', age=44, sportivite=7.814024407120282, velo_perf_minimale=0.4),
 Row(id=3, vitesse_a_pied=0.02, vitesse_a_velo=0.05, home='(lon:3.79 lat:3.81)', travail='(lon:0.20 lat:0.21)', sportif=False, casseur=False, statut='technicien_de_surface', salaire=20026.72646423192, sexe='F', age=20, sportivite=0.1, velo_perf_minimale=0.4),
 Row(id=4, vitesse_a_pied=0.02, vitesse_a_velo=0.05, home='(lon:3.39 lat:0.93)', travail='(lon:0.58 lat:0.20)', sportif=False, casseur=False, statut='technicien_de_surface', salaire=15214.584161640825, sexe='F', age=35, sportivite=0.1, velo_perf_minimale=0.4),
 Row(id=5, vitesse_a_pied=0.030000000000000006, vitesse_a_velo=0.08, home='(lon:2.88 lat:3.78)', travail='(lon:3.38 lat:2.93)', sportif=False, casseur=False, statut='technicien_de_surface', sala

## 3.4) corrélation

En probabilités et en statistique, la corrélation entre plusieurs variables aléatoires ou statistiques est une notion de liaison qui contredit leur indépendance.

Calculez la corrélation entre les colonnes age et vitesse_a_velo.

In [28]:
correlation = villes.stat.corr("age", "vitesse_a_velo")
print(f"La corrélation entre 'age' et 'vitesse_a_velo' est : {correlation}")

La corrélation entre 'age' et 'vitesse_a_velo' est : -0.06411845578664936


## 3.5) covariance

La covariance entre deux variables aléatoires est un nombre permettant de quantifier leurs écarts conjoints par rapport à leurs espérances respectives. Elle s’utilise également pour deux séries de données numériques (écarts par rapport aux moyennes).
La covariance est une extension de la notion de variance. La corrélation est une forme normalisée de la covariance.

Calculez la covariance entre les colonnes age et vitesse_a_velo.

In [29]:
covariance = villes.stat.cov("age", "vitesse_a_velo")
print(f"La covariance entre 'age' et 'vitesse_a_velo' est : {covariance}")
print(villes.cov("age", "vitesse_a_velo"))

La covariance entre 'age' et 'vitesse_a_velo' est : -1.5721945755314064
-1.5721945755314064


## 3.6) sample

La méthode sample() permet de tirer aléatoirement une fraction du dataframe.
Stockez dans un nouveau dataframe nommée villes_1pct, une fraction egale à 1% du df. Comptez le nombre de lignes obtenu.

In [88]:
villes_1pct = villes.sample(fraction=0.01)
nombre_lignes = villes_1pct.count()
print(f"Nombre de lignes dans villes_1pct : {nombre_lignes}")

Nombre de lignes dans villes_1pct : 1


A l'aide de la méthode exceptAll(), compter le nombre de ligne dans ville en omettant la fraction contenu dans ville_1pct

In [89]:
villes_sans_1pct = villes.exceptAll(villes_1pct)
nombre_lignes_restantes = villes_sans_1pct.count()
print(f"Nombre de lignes dans villes après avoir omis villes_1pct : {nombre_lignes_restantes}")


Nombre de lignes dans villes après avoir omis villes_1pct : 49


## 3.7) filter 

La méthode filter() permet le df selon certaines valeurs dans les colonnes.

Utilisez cette méthode pour récuperer seulement les lignes avec le sexe féminin.

In [92]:
villes_femmes = villes.filter(villes["sexe"] == "F")
nombre_femmes = villes_femmes.count()
print(f"Nombre de lignes avec sexe féminin : {nombre_femmes}")

Nombre de lignes avec sexe féminin : 21


On peux aussi filtrer le df avec la méthode where(). Filtrez le df de la même façon que precedemment en utilisant cette méthode.

In [93]:
villes_femmes = villes.where(villes["sexe"] == "F")
nombre_femmes = villes_femmes.count()
print(f"Nombre de lignes avec sexe féminin : {nombre_femmes}")

Nombre de lignes avec sexe féminin : 21


# 4) Transformer la données : les transformations!

## Transformations : demandent à être suivi par un collect ou une action (count par exemple)

## 4.1) Obtenir des statistiques sur les colonnes numériques

La méthode describe() permet de calculer les statistiques récapitulatives d'une ou plusieurs colonnes numériques dans un df. Si le nom des colonnes n'est pas spécifié, la méthode calculera des statistiques récapitulatives pour toutes les colonnes numériques présentes dans le df.

Afficher les statistiques de la colonne age.

In [94]:
stat_age = villes.select("age").describe()
stat_age.show()

+-------+-----------------+
|summary|              age|
+-------+-----------------+
|  count|               50|
|   mean|             48.4|
| stddev|19.79898987322333|
|    min|               16|
|    max|               83|
+-------+-----------------+



## 4.2) groupby

La méthode groupBy() suivie de la methode agg() permet de grouper le df selon les catgories d'une ou plusieurs colonnes pour faire des calculs sur ces catégories.

Calculez la moyenne de la colonnes sportivité selon le sexe des personnes.

In [101]:
moyenne_sportivite_par_sexe = villes.groupBy("sexe").agg({'sportivite' : 'mean'}).alias("moyenne_sportivite")
moyenne_sportivite_par_sexe.show()

+----+------------------+
|sexe|   avg(sportivite)|
+----+------------------+
|   F|1.8410619134680517|
|   H|1.6356186755623958|
+----+------------------+



Calculez la moyenne de la colonne age et la valeur max de la colonne sportivité par sexe.

In [125]:
moyenne_sexe = villes.groupBy("sexe").agg(
    {'age' : 'mean'},
).show();

max_sportivite = villes.groupBy("sexe").agg(
    {'sportivite' : 'max'}
).show();

+----+------------------+
|sexe|          avg(age)|
+----+------------------+
|   F|46.095238095238095|
|   H| 50.06896551724138|
+----+------------------+

+----+-----------------+
|sexe|  max(sportivite)|
+----+-----------------+
|   F|5.304311048875953|
|   H|7.814024407120282|
+----+-----------------+



Calculez la moyenne des colonnes vitesse_a_pied et vitesse_a_velo par sexe.

In [127]:
moyenne_sexe = villes.groupBy("sexe").agg(
    {'vitesse_a_pied' : 'mean'},
).show();

max_sportivite = villes.groupBy("sexe").agg(
    {'vitesse_a_velo' : 'max'}
).show();

+----+-------------------+
|sexe|avg(vitesse_a_pied)|
+----+-------------------+
|   F|0.36821238269361034|
|   H| 0.4906856026687184|
+----+-------------------+

+----+-------------------+
|sexe|max(vitesse_a_velo)|
+----+-------------------+
|   F| 2.6521555244379766|
|   H|  6.251219525696226|
+----+-------------------+



## 4.3) summary

La méthode summary() permet des faire des calculs statistiques de base sur toutes les colonnes du df.

Appliquez un count et un max sur toutes les colonnes du df et afficher les résultats.

In [131]:
statistiques = villes.summary("count", "max")
statistiques.show()

+-------+---+-----------------+-----------------+-------------------+-------------------+-------+-----------------+----+---+-----------------+------------------+
|summary| id|   vitesse_a_pied|   vitesse_a_velo|               home|            travail| statut|          salaire|sexe|age|       sportivite|velo_perf_minimale|
+-------+---+-----------------+-----------------+-------------------+-------------------+-------+-----------------+----+---+-----------------+------------------+
|  count| 50|               50|               50|                 50|                 50|     50|               50|  50| 50|               50|                50|
|    max| 51|2.344207322136085|6.251219525696226|(lon:3.90 lat:0.62)|(lon:3.91 lat:3.22)|éboueur|148702.7189509448|   H| 83|7.814024407120282|               0.4|
+-------+---+-----------------+-----------------+-------------------+-------------------+-------+-----------------+----+---+-----------------+------------------+



## 4.4) Union de dataframe

#### Ajouter les colonnes les unes à côté des autres : join

In [132]:
villes.join(villes, on="id").printSchema()

root
 |-- id: integer (nullable = true)
 |-- vitesse_a_pied: double (nullable = true)
 |-- vitesse_a_velo: double (nullable = true)
 |-- home: string (nullable = true)
 |-- travail: string (nullable = true)
 |-- sportif: boolean (nullable = true)
 |-- casseur: boolean (nullable = true)
 |-- statut: string (nullable = true)
 |-- salaire: double (nullable = true)
 |-- sexe: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- sportivite: double (nullable = true)
 |-- velo_perf_minimale: double (nullable = true)
 |-- vitesse_a_pied: double (nullable = true)
 |-- vitesse_a_velo: double (nullable = true)
 |-- home: string (nullable = true)
 |-- travail: string (nullable = true)
 |-- sportif: boolean (nullable = true)
 |-- casseur: boolean (nullable = true)
 |-- statut: string (nullable = true)
 |-- salaire: double (nullable = true)
 |-- sexe: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- sportivite: double (nullable = true)
 |-- velo_perf_minimale: double (n

#### Ajouter les lignes les unes sous les autres : union

In [133]:
villes.unionByName(villes).count()

100

## 4.6) Concaténation de colonne : F.concat

In [135]:
from pyspark.sql.types import *
from pyspark.sql import functions as F

Nous allons ici reprendre le df cyclistes.

Utiliser les méthodes withColumn() et F.concat() pour ajouter une colonne au df qui contiendra la concatenation des valeurs des colonnes id et sur_velo. 

In [139]:
path = "./data/Cyclistes/*.csv" 
cyclistes = spark.read.format("csv").option("header", "true").load(path, inferSchema=True)
cyclistes.count()

2232000

# 5) Fonctions udf 
Il est possible d'enregistrer des fonctions python que l'on écrit nous même pour les appliquer sur une colonne d'une dataframe, c'est ce qu'on appelle les udf, pour User Defined Functions.

Voici une fonction qui prend en argument une colonne et calcule le carré des valeurs de cette colonne.
Appliquez cette fonction sur la colonne salaire de votre df. Affichez le résultat.

In [140]:
from pyspark.sql.types import *
from pyspark.sql.functions import udf

@udf(returnType = FloatType())
def cube(colonne):
    return colonne*colonne

In [143]:
cube(df.salaire)

Column<'cube(salaire)'>

In [145]:


# Appliquer la fonction UDF sur la colonne 'salaire'
villes_avec_carre = villes.withColumn("salaire_carre", cube(villes["salaire"]))

# Afficher le DataFrame résultant
villes_avec_carre.select("salaire", "salaire_carre").show()


+------------------+-------------+
|           salaire|salaire_carre|
+------------------+-------------+
|135167.36710061165|1.82702162E10|
| 20026.72646423192|  4.0106976E8|
|15214.584161640825| 2.31483568E8|
| 18235.92844960795| 3.32549088E8|
|30852.120709809133|  9.5185338E8|
| 54494.87538632937| 2.96969139E9|
|33597.687351868175| 1.12880461E9|
|11799.927798039249| 1.39238304E8|
| 33131.88170893892|  1.0977216E9|
|  53716.3729157698|  2.8854487E9|
| 25445.75075327384|  6.4748621E8|
| 35065.42961851433| 1.22958438E9|
|  74308.6319691613|  5.5217725E9|
| 50740.88071802778| 2.57463706E9|
|21040.289070523115|  4.4269376E8|
|16946.365288912493| 2.87179296E8|
|22099.145463261266| 4.88372224E8|
| 83399.49945220708|  6.9554765E9|
| 78429.53192610192|  6.1511916E9|
|  75877.5189863671|   5.757398E9|
+------------------+-------------+
only showing top 20 rows

