# Sujet:

### L’objectif est de calculer les Volume Weighted Average Price horaires du Bitcoin, pour chacun des exchanges à disposition

### INPUT:
Vous aurez à disposition, sous forme de fichiers .csv, la liste des trades de bitcoin ayant eu lieu sur différents exchanges de Cryptomonnaies. Vous devrez importer les données issues des différents fichiers.
### MANIPULATION DE DONNEES:
Vous devrez ensuite modifier la structure des données pour répondre à vos besoins, probablement effectuer des jointures depuis les différents fichiers.
### CALCUL:
Enfin, une fois les données préparées, vous pourrez passer à l’étape de calcul des VWAP pour chaque tranche d’une heure, pour chaque exchange, puis au global (tous les exchanges réunis). Une fois le calcul effectué, vous pourrez nexporter vos résultats sous la forme d’un nouveau fichier .csv.
Page Wikipédia du Volume Weighted Average Price  https://en.wikipedia.org/wiki/Volume weighted_average_price  VWAP = (∑(volume * prix)) / ∑volume
### Avec :
- 𝑃𝑉𝑊𝐴𝑃Le Prix Moyen Pondéré par le Volume.
- 𝑃𝑗Le prix du trade j
- 𝑄𝑗Le volume du trade
- j représente chaque trade ayant eu lieu au sein d’un intervalle d’une heure.
### Autres mesures à calculer :
- Volume Weighted Median Price
  - Page Wikipédia de la médiane pondérée : https://en.wikipedia.org/wiki/Weighted_median
  - Créez une fonction qui vous permet de choisir le mode de calcul des cas particuliers ( lower upper ,,…) via un paramètre
- Ecart type
- OHLC
### Calculez les mêmes métriques à des fréquences différentes
- Intervalles de 5 minutes
- Intervalles de 30 minutes

### Vous devrez probablement gérer des valeurs manquantes. Expliquez vos choix !

### Rendu:
Le rendu du projet Python prendra la forme d’un jupyter Notebook.

Ce Jupyter Notebook devra être composé de trois parties correspondant aux grandes étapes énoncées plus haut. Vous pouvez délimiter ces parties en les dénotant sous forme de titre de premier niveau. Les trois parties sont les
### suivantes :
- INPUT
- MANIPULATION DES DONNEES
- CALCUL

Chacune des parties contiendra le code correspondant à l’étape, et l’une des dernières cellules devra afficher le
résultat sous la forme d’un DataFrame Pandas (ou bien un DataFrame par mesure calculée).

Comme précisé plus tôt, il sera important de stocker le résultat final sous la forme d’un (ou plusieurs) DataFrame Pandas

Ce DataFrame devra donc, logiquement :

- Être indexé par des dates
- Avoir une ligne par heure de l’intervalle de temps des données fournies
- Contenir une colonne par exchange contenant le VWAP horaire sur cet exchange
- Contenir une colonne « globale » contenant le VWAP portant sur tous les trades , peu importe l’exchange

Quelques derniers points :

- Le Jupyter Notebook devra être totalement exécutable , sans générer
- Placez des commentaires au sein de vos cellules de code, ou bien décrivez votre code dans des cellules de texte.
- Le but est d’avoir une « documentation » de votre travail, afin que n’importe qui puisse comprendre rapidement votre code.


# INPUT 
Dans cette première section, nous allons :

- Importer les bibliothèques nécessaires
- Charger les fichiers CSV depuis un dossier local

In [3]:
import numpy as np # import de la librairairie numpy
import pandas as pd  # import de Pandas

In [6]:
#importer les fichiers csv 
df1 = pd.read_csv('C:/Users/mamat/VWAP_Bitcoin/VWAP-Bitcoin-Analysis_SDA/bfly.csv')
df2 = pd.read_csv('C:/Users/mamat/VWAP_Bitcoin/VWAP-Bitcoin-Analysis_SDA/bfnx.csv')
df3 = pd.read_csv('C:/Users/mamat/VWAP_Bitcoin/VWAP-Bitcoin-Analysis_SDA/bnus.csv')
df4 = pd.read_csv('C:/Users/mamat/VWAP_Bitcoin/VWAP-Bitcoin-Analysis_SDA/btrx.csv')
df5 = pd.read_csv('C:/Users/mamat/VWAP_Bitcoin/VWAP-Bitcoin-Analysis_SDA/cbse.csv')
df6 = pd.read_csv('C:/Users/mamat/VWAP_Bitcoin/VWAP-Bitcoin-Analysis_SDA/gmni.csv')
df7 = pd.read_csv('C:/Users/mamat/VWAP_Bitcoin/VWAP-Bitcoin-Analysis_SDA/itbi.csv')
df8 = pd.read_csv('C:/Users/mamat/VWAP_Bitcoin/VWAP-Bitcoin-Analysis_SDA/krkn.csv')
df9 = pd.read_csv('C:/Users/mamat/VWAP_Bitcoin/VWAP-Bitcoin-Analysis_SDA/lmax.csv')
df10 = pd.read_csv('C:/Users/mamat/VWAP_Bitcoin/VWAP-Bitcoin-Analysis_SDA/okcn.csv')
df11 = pd.read_csv('C:/Users/mamat/VWAP_Bitcoin/VWAP-Bitcoin-Analysis_SDA/stmp.csv')

# MANIPULATION DE DONNEES

In [7]:
# Vérification de la structure des donnée
print(df1.head())
print(df2.head())
print(df3.head())
print(df4.head())
print(df5.head())
print(df6.head())
print(df7.head())
print(df8.head())
print(df9.head())
print(df10.head())
print(df11.head())

                 timestamp     price  amount
0  2021-02-24 23:59:33.720  49712.15  0.0054
1  2021-02-24 23:44:16.980  49603.44  0.0770
2  2021-02-24 22:32:39.320  48864.19  0.1200
3  2021-02-24 22:15:19.030  48252.47  0.1200
4  2021-02-24 22:15:17.157  48247.38  0.1200
                 timestamp    price  amount
0  2021-02-24 23:59:58.181  49716.0   0.010
1  2021-02-24 23:59:58.176  49713.0   0.005
2  2021-02-24 23:59:51.526  49715.0   0.005
3  2021-02-24 23:59:46.698  49726.0   0.005
4  2021-02-24 23:59:46.353  49715.0   0.005
                 timestamp     price    amount
0  2021-02-24 23:59:58.164  49714.50  0.004413
1  2021-02-24 23:59:57.547  49727.83  0.001496
2  2021-02-24 23:59:57.244  49727.83  0.002597
3  2021-02-24 23:59:54.691  49718.68  0.000860
4  2021-02-24 23:59:51.494  49713.76  0.003694
                 timestamp      price    amount
0  2021-02-24 23:59:48.910  49742.749  0.001054
1  2021-02-24 23:59:35.050  49734.460  0.009038
2  2021-02-24 23:59:34.110  49751.270  0

In [8]:
#information sur les caractères des données 

df1.info()
df2.info()
df3.info()
df4.info()
df5.info()
df6.info()
df7.info()
df8.info()
df9.info()
df10.info()
df11.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   timestamp  234 non-null    object 
 1   price      234 non-null    float64
 2   amount     234 non-null    float64
dtypes: float64(2), object(1)
memory usage: 5.6+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 318667 entries, 0 to 318666
Data columns (total 3 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   timestamp  318667 non-null  object 
 1   price      318667 non-null  float64
 2   amount     318667 non-null  float64
dtypes: float64(2), object(1)
memory usage: 7.3+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53672 entries, 0 to 53671
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   timestamp  53672 non-null  object 
 1   price      53672 non-null  float64
 2   amou

-  nous allons créer une colone pour les trads dans chaque fichier afin de les differencier 

In [9]:
df1["trad"] = "bfly"
df1.head()

Unnamed: 0,timestamp,price,amount,trad
0,2021-02-24 23:59:33.720,49712.15,0.0054,bfly
1,2021-02-24 23:44:16.980,49603.44,0.077,bfly
2,2021-02-24 22:32:39.320,48864.19,0.12,bfly
3,2021-02-24 22:15:19.030,48252.47,0.12,bfly
4,2021-02-24 22:15:17.157,48247.38,0.12,bfly


In [10]:
df2["trad"] = "bfnx"
df2.head()

Unnamed: 0,timestamp,price,amount,trad
0,2021-02-24 23:59:58.181,49716.0,0.01,bfnx
1,2021-02-24 23:59:58.176,49713.0,0.005,bfnx
2,2021-02-24 23:59:51.526,49715.0,0.005,bfnx
3,2021-02-24 23:59:46.698,49726.0,0.005,bfnx
4,2021-02-24 23:59:46.353,49715.0,0.005,bfnx


In [11]:
df3["trad"] = "bnus"
df3.head()

Unnamed: 0,timestamp,price,amount,trad
0,2021-02-24 23:59:58.164,49714.5,0.004413,bnus
1,2021-02-24 23:59:57.547,49727.83,0.001496,bnus
2,2021-02-24 23:59:57.244,49727.83,0.002597,bnus
3,2021-02-24 23:59:54.691,49718.68,0.00086,bnus
4,2021-02-24 23:59:51.494,49713.76,0.003694,bnus


In [12]:
df4["trad"] = "btrx"
df4.head()

Unnamed: 0,timestamp,price,amount,trad
0,2021-02-24 23:59:48.910,49742.749,0.001054,btrx
1,2021-02-24 23:59:35.050,49734.46,0.009038,btrx
2,2021-02-24 23:59:34.110,49751.27,0.000386,btrx
3,2021-02-24 23:59:31.440,49715.371,0.000554,btrx
4,2021-02-24 23:58:56.180,49751.379,0.000723,btrx


In [13]:
df5["trad"] = "cbse"
df5.head()

Unnamed: 0,timestamp,price,amount,trad
0,2021-02-24 23:59:59.873,49737.82,0.00144,cbse
1,2021-02-24 23:59:59.721,49737.82,0.00037,cbse
2,2021-02-24 23:59:59.121,49737.82,0.00294,cbse
3,2021-02-24 23:59:58.989,49737.82,0.00018,cbse
4,2021-02-24 23:59:58.853,49737.82,0.00194,cbse


In [14]:
df6["trad"] = "gmni"
df6.head()

Unnamed: 0,timestamp,price,amount,trad
0,2021-02-24 23:59:53.406,49773.07,0.003435,gmni
1,2021-02-24 23:59:53.406,49766.06,0.05169,gmni
2,2021-02-24 23:59:47.280,49746.16,0.122833,gmni
3,2021-02-24 23:59:47.280,49746.17,0.023913,gmni
4,2021-02-24 23:59:40.821,49730.12,0.000571,gmni


In [15]:
df7["trad"] = "itbi"
df7.head()

Unnamed: 0,timestamp,price,amount,trad
0,2021-02-24 23:59:48.157,49753.5,0.0001,itbi
1,2021-02-24 23:59:45.463,49753.75,0.0004,itbi
2,2021-02-24 23:59:38.887,49734.5,0.0001,itbi
3,2021-02-24 23:59:33.430,49731.25,0.002097,itbi
4,2021-02-24 23:59:32.240,49730.75,0.000182,itbi


In [16]:
df8["trad"] = "krkn"
df8.head()

Unnamed: 0,timestamp,price,amount,trad
0,2021-02-24 23:59:58.649,49727.7,0.000225,krkn
1,2021-02-24 23:59:49.807,49739.9,0.000224,krkn
2,2021-02-24 23:59:43.159,49736.3,0.014493,krkn
3,2021-02-24 23:59:37.773,49719.7,0.04,krkn
4,2021-02-24 23:59:34.871,49730.3,0.001922,krkn


In [17]:
df9["trad"] = "lmax"
df9.head()

Unnamed: 0,timestamp,price,amount,trad
0,2021-02-24 23:59:59.691,49767.0,0.01,lmax
1,2021-02-24 23:59:42.786,49752.0,0.06,lmax
2,2021-02-24 23:59:42.785,49752.0,0.3,lmax
3,2021-02-24 23:59:42.785,49752.0,0.14,lmax
4,2021-02-24 23:59:42.046,49744.5,0.34,lmax


In [18]:
df10["trad"] = "okcn"
df10.head()

Unnamed: 0,timestamp,price,amount,trad
0,2021-02-24 23:59:57.847,49724.93,0.02,okcn
1,2021-02-24 23:59:49.743,49730.33,0.02,okcn
2,2021-02-24 23:59:35.623,49706.87,0.02,okcn
3,2021-02-24 23:59:04.494,49701.51,0.0025,okcn
4,2021-02-24 23:58:58.780,49735.6,0.0002,okcn


In [19]:
df11["trad"] = "stmp"
df11.head()

Unnamed: 0,timestamp,price,amount,trad
0,2021-02-24 23:59:54,49754.0,0.753,stmp
1,2021-02-24 23:59:52,49754.0,0.116,stmp
2,2021-02-24 23:59:52,49754.0,0.104,stmp
3,2021-02-24 23:59:49,49754.0,0.016,stmp
4,2021-02-24 23:59:45,49754.0,0.011,stmp


- nous allons commencer par faire une concatenation par la verticale, car nous avons les meme nom de colonne mais les lignes sont diferente 

In [20]:
df=pd.concat([df1, df2, df3, df4, df5, df6, df7, df8, df9, df10, df11])
df.head()

Unnamed: 0,timestamp,price,amount,trad
0,2021-02-24 23:59:33.720,49712.15,0.0054,bfly
1,2021-02-24 23:44:16.980,49603.44,0.077,bfly
2,2021-02-24 22:32:39.320,48864.19,0.12,bfly
3,2021-02-24 22:15:19.030,48252.47,0.12,bfly
4,2021-02-24 22:15:17.157,48247.38,0.12,bfly


#### Je vais  indexer la DataFrame par la colonne timestamp, pour cela, je vais :

- Convertir la colonne timestamp au format datetime

- Définir timestamp comme index

- Trier l'index pour avoir vos données dans l'ordre chronologique

In [None]:
# 1. Convertir la colonne 'timestamp' en type datetime (si ce n’est pas déjà fait)
df['timestamp'] = pd.to_datetime(df['timestamp'])

In [31]:
df.head()

Unnamed: 0_level_0,price,amount,trad
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-02-24 23:59:33.720,49712.15,0.0054,bfly
2021-02-24 23:44:16.980,49603.44,0.077,bfly
2021-02-24 22:32:39.320,48864.19,0.12,bfly
2021-02-24 22:15:19.030,48252.47,0.12,bfly
2021-02-24 22:15:17.157,48247.38,0.12,bfly


In [30]:
print(df.columns)

Index(['price', 'amount', 'trad'], dtype='object')


In [23]:
# 2. Définir la colonne 'timestamp' comme index
df.set_index('timestamp', inplace=True)

In [37]:
#vérifion s'il y a de valeur nulles
df_check_na=df.isnull().values.any()
print(df_check_na)

False


In [38]:
# Declaration d'une date via Pandas
pd.to_datetime("2021-02-24")

Timestamp('2021-02-24 00:00:00')

In [39]:
print(df.dtypes)

price     float64
amount    float64
trad       object
dtype: object


In [40]:
# 3. (Optionnel) Trier l’index dans l’ordre chronologique
df.sort_index(inplace=True)

In [41]:
# 4. Vérifier le résultat
df.head()

Unnamed: 0_level_0,price,amount,trad
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-02-24 00:00:00.010,48899.99,0.02,cbse
2021-02-24 00:00:00.027,48899.99,0.41,cbse
2021-02-24 00:00:00.097,48899.99,1.0,cbse
2021-02-24 00:00:00.150,48906.607,0.003754,btrx
2021-02-24 00:00:00.218,48900.0,0.000305,cbse


In [None]:
git add .
