# DataFrames Spark : Exercice

Passons à un exercice pratique que vous allez traiter individuellement. Il est constitué de questions sur des données boursières, dans ce cas les actions de Walmart pour les années 2012-2017.
R répondez aux questions et effectuez les tâches ci-dessous.

#### Utilisez le fichier walmart_stock.csv pour répondre et compléter les tâches ci-dessous !

#### Démarrer une simple session Spark

In [104]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Dataframe').getOrCreate()

#### Charger le fichier CSV du stock Walmart, demander à Spark de déterminer les types de données.

In [105]:
df_walmart = spark.read.csv('walmart_stock.csv', header=True, inferSchema=True)
df_walmart.dtypes

[('Date', 'date'),
 ('Open', 'double'),
 ('High', 'double'),
 ('Low', 'double'),
 ('Close', 'double'),
 ('Volume', 'int'),
 ('Adj Close', 'double')]

#### Quels sont les noms des colonnes ?

In [106]:
df_walmart.columns

['Date', 'Open', 'High', 'Low', 'Close', 'Volume', 'Adj Close']

#### À quoi ressemble le schéma ?

In [107]:
df_walmart.printSchema()

root
 |-- Date: date (nullable = true)
 |-- Open: double (nullable = true)
 |-- High: double (nullable = true)
 |-- Low: double (nullable = true)
 |-- Close: double (nullable = true)
 |-- Volume: integer (nullable = true)
 |-- Adj Close: double (nullable = true)



#### Imprimer les 5 premières colonnes.

In [108]:
for i in range(5):
    print(df_walmart.head(5)[i-1], "\n")

Row(Date=datetime.date(2012, 1, 9), Open=59.029999, High=59.549999, Low=58.919998, Close=59.18, Volume=6679300, Adj Close=51.616215000000004) 

Row(Date=datetime.date(2012, 1, 3), Open=59.970001, High=61.060001, Low=59.869999, Close=60.330002, Volume=12668800, Adj Close=52.619234999999996) 

Row(Date=datetime.date(2012, 1, 4), Open=60.209998999999996, High=60.349998, Low=59.470001, Close=59.709998999999996, Volume=9593300, Adj Close=52.078475) 

Row(Date=datetime.date(2012, 1, 5), Open=59.349998, High=59.619999, Low=58.369999, Close=59.419998, Volume=12768200, Adj Close=51.825539) 

Row(Date=datetime.date(2012, 1, 6), Open=59.419998, High=59.450001, Low=58.869999, Close=59.0, Volume=8069400, Adj Close=51.45922) 



#### Utilisez describe() pour en savoir plus sur le DataFrame.

In [109]:
df_walmart.describe().show()

+-------+------------------+-----------------+-----------------+-----------------+-----------------+-----------------+
|summary|              Open|             High|              Low|            Close|           Volume|        Adj Close|
+-------+------------------+-----------------+-----------------+-----------------+-----------------+-----------------+
|  count|              1258|             1258|             1258|             1258|             1258|             1258|
|   mean| 72.35785375357709|72.83938807631165| 71.9186009594594|72.38844998012726|8222093.481717011|67.23883848728146|
| stddev|  6.76809024470826|6.768186808159218|6.744075756255496|6.756859163732991|  4519780.8431556|6.722609449996857|
|    min|56.389998999999996|        57.060001|        56.299999|        56.419998|          2094900|        50.363689|
|    max|         90.800003|        90.970001|            89.25|        90.470001|         80898100|84.91421600000001|
+-------+------------------+-----------------+--

## Question bonus !
#### Il y a trop de décimales pour la moyenne et l'écart-type dans le dataframe describe(). Formatez les nombres pour qu'ils ne comportent que deux décimales. Prêtez attention aux types de données que .describe() renvoie, nous n'avons pas abordé la façon de faire ce formatage exact, mais nous avons abordé quelque chose de très similaire. [Consultez ce lien pour un indice](http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.Column.cast)

Si vous êtes bloqué, ne vous inquiétez  ! Nous reviendrons sur la solutionns.

In [142]:
from pyspark.sql.types import DoubleType, IntegerType
from pyspark.sql.functions import format_number
from pyspark.sql.functions import round

df_walmart = df_walmart.select(
    'Date',
    round('Open', 2).cast(DoubleType()).alias('Open'),
    round('High', 2).cast(DoubleType()).alias('High'),
    round('Low', 2).cast(DoubleType()).alias('Low'),
    round('Close', 2).cast(DoubleType()).alias('Close'),
    round('Volume', 2).cast(IntegerType()).alias('Volume'),
    round('Adj Close', 2).cast(DoubleType()).alias('Adj Close')
)

df_walmart.printSchema()

root
 |-- Date: date (nullable = true)
 |-- Open: double (nullable = true)
 |-- High: double (nullable = true)
 |-- Low: double (nullable = true)
 |-- Close: double (nullable = true)
 |-- Volume: integer (nullable = true)
 |-- Adj Close: double (nullable = true)



In [111]:
df_walmart.show()

+----------+-----+-----+-----+-----+--------+---------+
|      Date| Open| High|  Low|Close|  Volume|Adj Close|
+----------+-----+-----+-----+-----+--------+---------+
|2012-01-03|59.97|61.06|59.87|60.33|12668800|    52.62|
|2012-01-04|60.21|60.35|59.47|59.71| 9593300|    52.08|
|2012-01-05|59.35|59.62|58.37|59.42|12768200|    51.83|
|2012-01-06|59.42|59.45|58.87| 59.0| 8069400|    51.46|
|2012-01-09|59.03|59.55|58.92|59.18| 6679300|    51.62|
|2012-01-10|59.43|59.71|58.98|59.04| 6907300|    51.49|
|2012-01-11|59.06|59.53|59.04| 59.4| 6365600|    51.81|
|2012-01-12|59.79| 60.0| 59.4| 59.5| 7236400|     51.9|
|2012-01-13|59.18|59.61|59.01|59.54| 7729300|    51.93|
|2012-01-17|59.87|60.11|59.52|59.85| 8500000|     52.2|
|2012-01-18|59.79|60.03|59.65|60.01| 5911400|    52.34|
|2012-01-19|59.93|60.73|59.75|60.61| 9234600|    52.86|
|2012-01-20|60.75|61.25|60.67|61.01|10378800|    53.21|
|2012-01-23|60.81|60.98|60.51|60.91| 7134100|    53.13|
|2012-01-24|60.75| 62.0|60.75|61.39| 7362800|   

In [112]:
df_walmart.describe().show()

+-------+-----------------+-----------------+-----------------+-----------------+-----------------+-----------------+
|summary|             Open|             High|              Low|            Close|           Volume|        Adj Close|
+-------+-----------------+-----------------+-----------------+-----------------+-----------------+-----------------+
|  count|             1258|             1258|             1258|             1258|             1258|             1258|
|   mean|72.35785373608894|72.83938791732918|71.91860095389515|72.38844992050863|8222093.481717011|67.23871224165353|
| stddev| 6.76809037021648|6.768186744823553|6.744075695823193|6.756859155425468|  4519780.8431556|6.722615952565601|
|    min|            56.39|            57.06|             56.3|            56.42|          2094900|            50.36|
|    max|             90.8|            90.97|            89.25|            90.47|         80898100|            84.91|
+-------+-----------------+-----------------+-----------

#### Créez un nouveau cadre de données avec une colonne appelée HV Ratio qui est le ratio du prix le plus élevé par rapport au volume d'actions échangées pour une journée.

In [113]:
from pyspark.sql.functions import col

df_walmart = df_walmart.withColumn("HV Ratio", df_walmart["High"] / df_walmart["Volume"])
df_walmart.show()

+----------+-----+-----+-----+-----+--------+---------+--------------------+
|      Date| Open| High|  Low|Close|  Volume|Adj Close|            HV Ratio|
+----------+-----+-----+-----+-----+--------+---------+--------------------+
|2012-01-03|59.97|61.06|59.87|60.33|12668800|    52.62|4.819714574387472E-6|
|2012-01-04|60.21|60.35|59.47|59.71| 9593300|    52.08|6.290848821573389...|
|2012-01-05|59.35|59.62|58.37|59.42|12768200|    51.83|4.669413073103491E-6|
|2012-01-06|59.42|59.45|58.87| 59.0| 8069400|    51.46|7.367338339901356E-6|
|2012-01-09|59.03|59.55|58.92|59.18| 6679300|    51.62|8.915604928660188E-6|
|2012-01-10|59.43|59.71|58.98|59.04| 6907300|    51.49|8.644477581688938E-6|
|2012-01-11|59.06|59.53|59.04| 59.4| 6365600|    51.81| 9.35182857861003E-6|
|2012-01-12|59.79| 60.0| 59.4| 59.5| 7236400|     51.9| 8.29141562102703E-6|
|2012-01-13|59.18|59.61|59.01|59.54| 7729300|    51.93|7.712211972623653E-6|
|2012-01-17|59.87|60.11|59.52|59.85| 8500000|     52.2|7.071764705882352...|

#### Quel jour a eu lieu le pic de prix le plus élevé ?

In [148]:
from pyspark.sql.functions import desc
df_walmart.orderBy(desc('High')).first()[0]

datetime.date(2015, 1, 13)

#### Quelle est la moyenne de la colonne Close ?

In [121]:
from pyspark.sql.functions import avg
df_walmart.select(avg('Close')).show()

+-----------------+
|       avg(Close)|
+-----------------+
|72.38844992050863|
+-----------------+



#### Quelles sont les valeurs maximale et minimale de la colonne Volume ?

In [124]:
from pyspark.sql.functions import min, max
df_walmart.agg(min('volume'), max('volume')).show()

+-----------+-----------+
|min(volume)|max(volume)|
+-----------+-----------+
|    2094900|   80898100|
+-----------+-----------+



+-----------+-----------+
|max(Volume)|min(Volume)|
+-----------+-----------+
|   80898100|    2094900|
+-----------+-----------+



#### Combien de jours le Close a-t-il été inférieur à 60 dollars ?

In [149]:
df_walmart.filter(df_walmart['Close'] < 60).count()

81

#### Quel est le pourcentage de temps pendant lequel le cours le plus élevé a été supérieur à 80 dollars ?
#### En d'autres termes, (Nombre de jours où le cours le plus élevé est supérieur à 80 dollars)/(Nombre total de joursdu jeue de données)

In [136]:
count_rows = df_walmart.filter(df_walmart['High'] > 80).count()
total_rows = df_walmart.count()
pour = (count_rows/total_rows)*100
print(pour)

9.141494435612083


#### Quelle est la corrélation de Pearson entre le haut et le volume ?
#### [Indice](http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameStatFunctions.corr)

In [139]:
from pyspark.sql.functions import corr

df_walmart.select(corr((df_walmart['High']), (df_walmart['Volume']))).show()

+--------------------+
|  corr(High, Volume)|
+--------------------+
|-0.33843260582148915|
+--------------------+



#### Quel est le montant maximum par an ?

In [143]:
from pyspark.sql.functions import year

df_walmart = df_walmart.withColumn('Year', year(df_walmart['Date']))
df_walmart.groupBy('Year').max('High').show()

+----+---------+
|Year|max(High)|
+----+---------+
|2015|    90.97|
|2013|    81.37|
|2014|    88.09|
|2012|     77.6|
|2016|    75.19|
+----+---------+



#### Quel est le cours de clôture moyen pour chaque mois civil ?
#### En d'autres termes, pour toutes les années, quel est le prix de clôture moyen pour les mois de janvier, février, mars, etc. Votre résultat contiendra une valeur pour chacun de ces mois. 

In [147]:
from pyspark.sql.functions import month

df_walmart = df_walmart.withColumn('month', month(df_walmart['Date']))
df_walmart.groupBy('month').avg('Close').orderBy('month').show()


+-----+-----------------+
|month|       avg(Close)|
+-----+-----------------+
|    1|71.44801980198022|
|    2|71.30680412371134|
|    3|71.77794392523363|
|    4|72.97361904761907|
|    5|72.30971698113206|
|    6|72.49537735849057|
|    7|74.43971962616824|
|    8|73.02981818181819|
|    9|72.18411764705883|
|   10|71.57854545454546|
|   11|72.11108910891085|
|   12|72.84792452830189|
+-----+-----------------+



# Excellent travail !