# Partie A: ANALYSE ET PRÉTRAITEMENT
## 1. Exploration et reporting

In [3]:
import yfinance as yf
import pandas as pd

# Auto adjust est activé (True) car cela permet 
# de mieux construire le modèle de prédiction et d'atténuer les baisses artificielles lorsque BNP verse des dividendes.
ticker = 'BNP.PA'
data = yf.download(ticker, start='2020-01-01', end='2025-01-01',auto_adjust=True)
df = pd.DataFrame(data)
df.columns = [col[0] for col in df.columns]

# Afficher les premières lignes des données
data.head()

[*********************100%***********************]  1 of 1 completed


Price,Close,High,Low,Open,Volume
Ticker,BNP.PA,BNP.PA,BNP.PA,BNP.PA,BNP.PA
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2020-01-02,37.128826,37.419868,36.851641,36.8655,2783637
2020-01-03,36.685329,36.84471,36.442794,36.775415,2535225
2020-01-06,36.505157,36.519017,35.784478,36.061663,2494787
2020-01-07,36.491299,36.823919,36.352706,36.678398,2022813
2020-01-08,36.574455,36.740767,36.040875,36.221047,2893097


In [4]:
df.head()

Unnamed: 0_level_0,Close,High,Low,Open,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-01-02,37.128826,37.419868,36.851641,36.8655,2783637
2020-01-03,36.685329,36.84471,36.442794,36.775415,2535225
2020-01-06,36.505157,36.519017,35.784478,36.061663,2494787
2020-01-07,36.491299,36.823919,36.352706,36.678398,2022813
2020-01-08,36.574455,36.740767,36.040875,36.221047,2893097


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1283 entries, 2020-01-02 to 2024-12-31
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Close   1283 non-null   float64
 1   High    1283 non-null   float64
 2   Low     1283 non-null   float64
 3   Open    1283 non-null   float64
 4   Volume  1283 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 60.1 KB


In [6]:
df.describe()

Unnamed: 0,Close,High,Low,Open,Volume
count,1283.0,1283.0,1283.0,1283.0,1283.0
mean,45.540238,46.084615,44.991612,45.54402,3635156.0
std,11.889549,11.883122,11.872672,11.867491,2140004.0
min,17.095335,17.559619,16.980997,17.254716,407780.0
25%,38.552671,39.319038,38.084092,38.741562,2320286.0
50%,45.719303,46.299958,45.281378,45.806888,3111764.0
75%,54.766481,55.33799,54.339838,54.785219,4157010.0
max,68.339996,68.660004,67.910004,68.5,19034340.0


In [7]:
# Il n'y a pas de valeurs manquantes
df.isnull().sum() 

Close     0
High      0
Low       0
Open      0
Volume    0
dtype: int64

```markdown
On remarque que les colonnes `Close`, `High`, `Low` et `Open` sont très fortement corrélées (0.99), donc elles représentent essentiellement la même information. Pour le contexte de prédiction, nous allons utiliser uniquement la colonne `Close`.

Concernant le volume, une prédiction du volume à l'instant T+1 sera écartée. Bien qu'il soit corrélé à -0.5 avec le `Close`, une prédiction du nombre de personnes ayant tradé sur l'action est inutile dans ce contexte. Des techniques de décalage du volume, où le volume à l'instant T est placé sur T-1 et ainsi de suite, peuvent améliorer légèrement les résultats, mais pour le moment, nous n'utiliserons pas le volume.
```

In [8]:
import plotly.express as px

# Create a histogram for the 'Close' price
fig = px.histogram(df, x='Close', nbins=50, title='Histogram of Close Prices', 
                   labels={'Close': 'Close Price'}, 
                   color_discrete_sequence=['skyblue'])

# Show the figure
fig.show()