# **PROJET MACHINE LEARNING**




---
##**Membres de l'équipe**
*    DAI Elodie

*    ZHAO Julien

*    ZHAO Wenbo

*    CHENG Wenxin

*    BENKHANOUS Salaheddine

---
##**Modalités**
####**Deadline**
*   Maximum avant le 19 janvier 2025 à 20h.

---
####**Notation**
*   Un point pour la qualité de l'argumentation.
*   Un point pour la rigueur méthodologique.
*   Un point pour la performance si la RMSE finale obtenu est inférieure à 1.5 pour un dataset de test composée des 20% date les plus récentes.

---
####**Description du Dataset**

*  Le dataset représente les données de marché pour l'indice VKOSPI, qui est l'équivalent coréen de l'indice de volatilité implicite VIX aux États-Unis. Chaque ligne du dataset correspond à un jour de trading, excluant les week-ends et les jours fériés. Les colonnes du dataset fournissent diverses informations sur les transactions et les positions des options et des futures sur l'indice KOSPI200, qui est l'actif sous-jacent du VKOSPI.

---
###**Description des Colonnes**
*   Date : *La date du jour de trading.*
*   VKOSPI : *La valeur de l'indice de volatilité implicite VKOSPI pour ce jour.*
*   KOSPI200 : *La valeur de l'indice KOSPI200 pour ce jour.*
*   Open_interest : *Le nombre total de contrats d'options ouverts (non réglés) pour ce jour.*
*   For_KOSPI_Netbuying_Amount : *Le montant net acheté par les étrangers pour l'indice KOSPI200, calculé comme (Prix) * (Quantité).*
*   For_Future_Netbuying_Quantity : *La quantité nette achetée par les étrangers pour les futures de KOSPI200.*
*   For_Call_Netbuying_Quantity : *La quantité nette achetée par les étrangers pour les options d'achat (call) de KOSPI200.*
*   For_Put_Netbuying_Quantity : *La quantité nette achetée par les étrangers pour les options de vente (put) de KOSPI200.*
*   Indiv_Future_Netbuying_Quantity : *La quantité nette achetée par les individus pour les futures de KOSPI200.*
*   Indiv_Call_Netbuying_Quantity : *La quantité nette achetée par les individus pour les options d'achat (call) de KOSPI200.*
*   Indiv_Put_Netbuying_Quantity : *La quantité nette achetée par les individus pour les options de vente (put) de KOSPI200.*
*   PCRatio : *Le ratio Put-Call, qui est le rapport entre le volume des options de vente (put) et le volume des options d'achat (call).*
*   Day_till_expiration : *Le nombre de jours restants jusqu'à la date d'expiration des options.*

---
###**Notions financières**
*   Le KOSPI200 est un indice boursier composé des 200 plus grandes entreprises cotées en Corée du Sud. Il est souvent considéré comme un indicateur de la performance du marché boursier coréen. Un indice similaire au S&P500 pour les États-Unis, l’Euro STOXX 50 l’Europe ou le Nikkei 225 pour le Japon.
*   La volatilité implicite est une mesure de la volatilité future attendue d'un actif sous-jacent, dérivée des prix des options. Le VKOSPI est l'indice de volatilité implicite pour le marché coréen, comparable au VIX pour le marché américain, VSTOXX pour le marché européen ou VNKY pour le Japon.
*   L'open interest représente le nombre total de contrats d'options ouverts (non réglés) à une date donnée. C'est une mesure de l'activité de trading et de l'intérêt des investisseurs pour les options.
*   Le net buying amount ou quantity représente la différence entre les achats et les ventes effectués par un groupe spécifique (étrangers ou individus) pour un actif donné (KOSPI200, futures, options d'achat, options de vente). Un net buying positif indique que les achats dépassent les ventes.
*   Le ratio Put-Call est le rapport entre le volume des options de vente (put) et le volume des options d'achat (call). Il est utilisé comme indicateur de sentiment de marché. Un ratio élevé peut indiquer une prudence ou une anticipation de baisse des prix.
*   Une option d'achat (call) donne à son détenteur le droit, mais non l'obligation, d'acheter un actif sous-jacent à un prix prédéterminé (prix d'exercice) avant une date d'expiration donnée.
*   Une option de vente (put) donne à son détenteur le droit, mais non l'obligation, de vendre un actif sous-jacent à un prix prédéterminé (prix d'exercice) avant une date d'expiration donnée.
*   Un contrat à terme (future) est un accord pour acheter ou vendre un actif sous-jacent à un prix prédéterminé à une date future spécifiée.

---
###**Objectif**
*  Prédire, en expliquant rigoureusement et clairement la démarche, la valeur du VKOSPI. La métrique de référence sera la RSME, mais à des fins d'analyse d'autres métrique peuvent être discutée. Aucun algorithmes autres que ceux vus en cours et décrit dans le poly ne seront acceptés.

Dans cette étude, nous cherchons à prédire les données de marché relatives à l’indice VKOSPI, ce qui nous place dans un cadre d’apprentissage supervisé.
L’objectif principal est de prévoir une valeur continue (l’indice), ce qui relève naturellement d’une problématique de régression.
Cependant, il peut également être intéressant, à titre purement exploratoire et non exigé dans l’analyse, d’utiliser une approche de classification pour examiner les variations,
c’est-à-dire les hausses et baisses de cet indice.

---
# Présentation de quel cadre nous somme
> Apprentissage supevisé
> Valeur Continue donc sous catégorie régression

#**1. Importation des différents modules et données**


Dépôt du fichier dans le dossier : sample_date

In [106]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns; sns.set(style="whitegrid")

data = pd.read_csv("./sample_data/options_KR.csv")
data.head()

Unnamed: 0,Date,VKOSPI,KOSPI200,Open_interest,For_KOSPI_Netbuying_Amount,For_Future_Netbuying_Quantity,For_Call_Netbuying_Quantity,For_Put_Netbuying_Quantity,Indiv_Future_Netbuying_Quantity,Indiv_Call_Netbuying_Quantity,Indiv_Put_Netbuying_Quantity,PCRatio,Day_till_expiration,Day_of_a_week
0,2009-06-02,33.45,180.9,4377777,494000000000.0,-4953,-24646,6581,1228,-466,31336,0.94,7,Tue
1,2009-06-03,32.66,180.47,4562690,-89970740000.0,47,-57128,46851,399,127709,-22259,0.93,6,Wed
2,2009-06-04,32.56,180.31,4827524,-109000000000.0,-7666,-2000,48883,5744,262558,10367,0.87,5,Thu
3,2009-06-05,32.95,175.75,5022921,98420240000.0,969,64792,27196,-1688,79789,113935,0.89,4,Fri
4,2009-06-08,30.41,177.77,5293996,43291790000.0,5797,10995,23123,-5534,97154,146244,0.81,3,Mon


#**2. Contrôle des données du DataFrame**

###**2.1 Type de données**

On va dans un premier temps voir à quels types de données correspondent chacune des colonnes


In [107]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2580 entries, 0 to 2579
Data columns (total 14 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Date                             2580 non-null   object 
 1   VKOSPI                           2580 non-null   float64
 2   KOSPI200                         2580 non-null   float64
 3   Open_interest                    2580 non-null   int64  
 4   For_KOSPI_Netbuying_Amount       2580 non-null   float64
 5   For_Future_Netbuying_Quantity    2580 non-null   int64  
 6   For_Call_Netbuying_Quantity      2580 non-null   int64  
 7   For_Put_Netbuying_Quantity       2580 non-null   int64  
 8   Indiv_Future_Netbuying_Quantity  2580 non-null   int64  
 9   Indiv_Call_Netbuying_Quantity    2580 non-null   int64  
 10  Indiv_Put_Netbuying_Quantity     2580 non-null   int64  
 11  PCRatio                          2580 non-null   float64
 12  Day_till_expiration 

**/!\ Remarque /!\**

Ici, on remarque que les colonnes ci-dessous sont de types "object":
-  Date
-  Day_of_a_week

Afin de pouvoir les utiliser par la suite nous allons modifier leur type.

Premièrement on va convertir la colonne "Date" en type datetime

In [108]:
data['Date'] = pd.to_datetime(data['Date'])

Pour la colonne 'Day_of_a_week', nous allons d'abord examiner les différentes valeurs qu'elle contient.

In [109]:
unique_days = data['Day_of_a_week'].unique()
print(unique_days)

['Tue' 'Wed' 'Thu' 'Fri' 'Mon']


Nous constatons qu'elle comporte 5 valeurs distinctes. Nous allons ensuite associer à chaque valeur un numéro représentant chaque jour de la semaine.

In [110]:
day_mapping = {'Mon': 1, 'Tue': 2, 'Wed': 3, 'Thu': 4, 'Fri': 5}
data['Day_of_a_week'] = data['Day_of_a_week'].map(day_mapping)
print(data['Day_of_a_week'].unique())
data.head()


[2 3 4 5 1]


Unnamed: 0,Date,VKOSPI,KOSPI200,Open_interest,For_KOSPI_Netbuying_Amount,For_Future_Netbuying_Quantity,For_Call_Netbuying_Quantity,For_Put_Netbuying_Quantity,Indiv_Future_Netbuying_Quantity,Indiv_Call_Netbuying_Quantity,Indiv_Put_Netbuying_Quantity,PCRatio,Day_till_expiration,Day_of_a_week
0,2009-06-02,33.45,180.9,4377777,494000000000.0,-4953,-24646,6581,1228,-466,31336,0.94,7,2
1,2009-06-03,32.66,180.47,4562690,-89970740000.0,47,-57128,46851,399,127709,-22259,0.93,6,3
2,2009-06-04,32.56,180.31,4827524,-109000000000.0,-7666,-2000,48883,5744,262558,10367,0.87,5,4
3,2009-06-05,32.95,175.75,5022921,98420240000.0,969,64792,27196,-1688,79789,113935,0.89,4,5
4,2009-06-08,30.41,177.77,5293996,43291790000.0,5797,10995,23123,-5534,97154,146244,0.81,3,1


Nous vérifions à nouveau si les types de données ont bien été mis à jour.

In [111]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2580 entries, 0 to 2579
Data columns (total 14 columns):
 #   Column                           Non-Null Count  Dtype         
---  ------                           --------------  -----         
 0   Date                             2580 non-null   datetime64[ns]
 1   VKOSPI                           2580 non-null   float64       
 2   KOSPI200                         2580 non-null   float64       
 3   Open_interest                    2580 non-null   int64         
 4   For_KOSPI_Netbuying_Amount       2580 non-null   float64       
 5   For_Future_Netbuying_Quantity    2580 non-null   int64         
 6   For_Call_Netbuying_Quantity      2580 non-null   int64         
 7   For_Put_Netbuying_Quantity       2580 non-null   int64         
 8   Indiv_Future_Netbuying_Quantity  2580 non-null   int64         
 9   Indiv_Call_Netbuying_Quantity    2580 non-null   int64         
 10  Indiv_Put_Netbuying_Quantity     2580 non-null   int64      

**[OK]** Les types de données ont été correctement modifié, nous pouvons passer à la prochaine vérification.