# Chapitre 1 : Maîtriser la préparation des données financières

## Objectif général

### À la fin de ce chapitre, vous serez capable de :
- Importer des données financières depuis différentes sources (Yahoo Finance, CSV)
- Nettoyer les données : valeurs manquantes, doublons, anomalies
- Gérer les formats de date et manipuler les fréquences (journalier, hebdomadaire, mensuel)
- Filtrer et échantillonner des sous-ensembles de données cohérents
- Vérifier la qualité globale d’un dataset financier
- Appliquer ces compétences sur des cas concrets avec du code Python

Dans ce premier chapitre du cours Python pour la finance, vous apprendrez à transformer des données brutes issues de marchés financiers (ex. données boursières) en un format propre, cohérent et prêt pour l’analyse. L’objectif est de bâtir une base de données fiable pour calculer des indicateurs, visualiser des tendances et développer des modèles prédictifs.

---

## 1. Importer les données
**Objectif** : Apprendre à importer efficacement des données boursières (Yahoo Finance, CSV, etc.) et à les stocker dans des DataFrames pour préparer l’analyse financière à venir.


In [1]:
!pip install yfinance



In [2]:
import pandas as pd
import yfinance as yf# librairie pour importer des données financières


In [3]:
# Exemple 1 : Importerséparément les données boursières d'Apple (AAPL) 
apple = yf.download('AAPL', start='2020-01-01', end='2024-12-31')

YF.download() has changed argument auto_adjust default to True


[*********************100%***********************]  1 of 1 completed


In [4]:
# Afficher les 5 premières lignes du DataFrame
print(apple.head(5))


Price           Close       High        Low       Open     Volume
Ticker           AAPL       AAPL       AAPL       AAPL       AAPL
Date                                                             
2020-01-02  72.716064  72.776591  71.466805  71.721011  135480400
2020-01-03  72.009117  72.771745  71.783962  71.941328  146322800
2020-01-06  72.582916  72.621654  70.876083  71.127873  118387200
2020-01-07  72.241547  72.849224  72.021231  72.592594  108872000
2020-01-08  73.403641  73.706271  71.943751  71.943751  132079200


In [5]:
# Ça fonctionne même si yfinance renvoie un DataFrame multi-niveaux
apple.columns = apple.columns.droplevel('Ticker')

In [6]:
apple.info()


<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1257 entries, 2020-01-02 to 2024-12-30
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Close   1257 non-null   float64
 1   High    1257 non-null   float64
 2   Low     1257 non-null   float64
 3   Open    1257 non-null   float64
 4   Volume  1257 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 58.9 KB


In [7]:
print(apple.columns) #afficher les colonnes du DataFrame 

print(apple.index) #afficher l'index du DataFrame

print(apple.shape) #afficher le nombre de lignes et de colonnes du DataFrame

print(apple.size) #afficher le nombre total d'éléments du DataFrame







Index(['Close', 'High', 'Low', 'Open', 'Volume'], dtype='object', name='Price')
DatetimeIndex(['2020-01-02', '2020-01-03', '2020-01-06', '2020-01-07',
               '2020-01-08', '2020-01-09', '2020-01-10', '2020-01-13',
               '2020-01-14', '2020-01-15',
               ...
               '2024-12-16', '2024-12-17', '2024-12-18', '2024-12-19',
               '2024-12-20', '2024-12-23', '2024-12-24', '2024-12-26',
               '2024-12-27', '2024-12-30'],
              dtype='datetime64[ns]', name='Date', length=1257, freq=None)
(1257, 5)
6285


In [8]:

# Exemple 2 : Importer les données boursières d'Apple (AAPL) et de Tesla (TSLA) sur 5 ans
# Nous récupérons ici les données historiques de 2020 à 2024 inclus.
apple_tesla = yf.download(['AAPL', 'TSLA'], start='2020-01-01', end='2024-12-31', group_by='ticker')
print(apple_tesla.head())#afficher les 5 premières lignes du DataFrame


print(apple_tesla.info())





[*********************100%***********************]  2 of 2 completed

Ticker           AAPL                                                   TSLA  \
Price            Open       High        Low      Close     Volume       Open   
Date                                                                           
2020-01-02  71.721011  72.776591  71.466805  72.716064  135480400  28.299999   
2020-01-03  71.941328  72.771745  71.783962  72.009117  146322800  29.366667   
2020-01-06  71.127873  72.621654  70.876083  72.582916  118387200  29.364668   
2020-01-07  72.592594  72.849224  72.021231  72.241547  108872000  30.760000   
2020-01-08  71.943751  73.706271  71.943751  73.403641  132079200  31.580000   

Ticker                                                  
Price            High        Low      Close     Volume  
Date                                                    
2020-01-02  28.713333  28.114000  28.684000  142981500  
2020-01-03  30.266666  29.128000  29.534000  266677500  
2020-01-06  30.104000  29.333332  30.102667  151995000  
2020-01-07  31.44




In [9]:
# Accéder uniquement aux données de l'action Tesla
data_tesla = apple_tesla['TSLA']
print(data_tesla.head(10))#afficher les 10 premières lignes du DataFrame


Price            Open       High        Low      Close     Volume
Date                                                             
2020-01-02  28.299999  28.713333  28.114000  28.684000  142981500
2020-01-03  29.366667  30.266666  29.128000  29.534000  266677500
2020-01-06  29.364668  30.104000  29.333332  30.102667  151995000
2020-01-07  30.760000  31.441999  30.224001  31.270666  268231500
2020-01-08  31.580000  33.232666  31.215334  32.809334  467164500
2020-01-09  33.139999  33.253334  31.524668  32.089333  426606000
2020-01-10  32.119331  32.329334  31.580000  31.876667  194392500
2020-01-13  32.900002  35.042000  32.799999  34.990665  397764000
2020-01-14  36.284000  36.493999  34.993332  35.861332  434943000
2020-01-15  35.317333  35.855999  34.452667  34.566666  260532000


In [10]:
# Charger un fichier CSV local
apple_csv_data = pd.read_csv('apple.csv')
print(apple_csv_data.head())





        Price              Close               High                Low  \
0      Ticker               AAPL               AAPL               AAPL   
1        Date                NaN                NaN                NaN   
2  2020-01-02  72.71607208251953  72.77659819422657  71.46681225027338   
3  2020-01-03  72.00914001464844  72.77176771569704  71.78398460177141   
4  2020-01-06  72.58290100097656  72.62163859417052  70.87606782262263   

                Open     Volume  
0               AAPL       AAPL  
1                NaN        NaN  
2  71.72101896406637  135480400  
3  71.94135104985396  146322800  
4  71.12785848416316  118387200  



## 2. Nettoyer les données
**Objectif** : Identifier et traiter les valeurs manquantes, les doublons et les anomalies pour garantir la fiabilité des analyses financières.

In [11]:
# Vérifier les valeurs manquantes
print("Valeurs manquantes par colonne :")
print(apple.isnull().sum())

Valeurs manquantes par colonne :
Price
Close     0
High      0
Low       0
Open      0
Volume    0
dtype: int64


In [12]:
# Proportion de valeurs manquantes par colonne
print("\nProportion de valeurs manquantes :")
print(apple.isnull().mean())


Proportion de valeurs manquantes :
Price
Close     0.0
High      0.0
Low       0.0
Open      0.0
Volume    0.0
dtype: float64


In [13]:
# Identifier les doublons
apple.duplicated().sum()


0

In [14]:
print("\nExemples de doublons :")
apple[apple.duplicated()]


Exemples de doublons :


Price,Close,High,Low,Open,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1


In [15]:

# Supprimer les lignes contenant des valeurs manquantes
apple_clean = apple.dropna()



In [16]:
# Supprimer les doublons
apple_clean = apple_clean.drop_duplicates()

## 3. Gérer les dates et fréquences
**Objectif** : Convertir les formats de date et passer d’une fréquence journalière à hebdomadaire ou mensuelle. Assurer la cohérence temporelle pour l’analyse de séries financières.

In [17]:
apple_clean.index 

DatetimeIndex(['2020-01-02', '2020-01-03', '2020-01-06', '2020-01-07',
               '2020-01-08', '2020-01-09', '2020-01-10', '2020-01-13',
               '2020-01-14', '2020-01-15',
               ...
               '2024-12-16', '2024-12-17', '2024-12-18', '2024-12-19',
               '2024-12-20', '2024-12-23', '2024-12-24', '2024-12-26',
               '2024-12-27', '2024-12-30'],
              dtype='datetime64[ns]', name='Date', length=1257, freq=None)

In [18]:
# Assurer le bon format de date
apple_clean.index = pd.to_datetime(apple_clean.index)
type(apple_clean.index)

pandas.core.indexes.datetimes.DatetimeIndex

In [19]:
apple_clean.head()

Price,Close,High,Low,Open,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-01-02,72.716064,72.776591,71.466805,71.721011,135480400
2020-01-03,72.009117,72.771745,71.783962,71.941328,146322800
2020-01-06,72.582916,72.621654,70.876083,71.127873,118387200
2020-01-07,72.241547,72.849224,72.021231,72.592594,108872000
2020-01-08,73.403641,73.706271,71.943751,71.943751,132079200


In [20]:
# Convertir en données hebdomadaires
weekly_data = apple_clean.resample('W').mean()
weekly_data.head()

Price,Close,High,Low,Open,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-01-05,72.362591,72.774168,71.625383,71.83117,140901600.0
2020-01-12,73.664632,74.006483,72.720426,73.049203,134018320.0
2020-01-19,76.260478,76.726773,75.53465,76.023218,130411120.0
2020-01-26,76.977709,77.588413,76.655102,77.106628,115921300.0
2020-02-02,76.716116,77.705353,75.802414,76.920453,173346960.0



## 4. Contrôler la cohérence et filtrer des données
**Objectif** : Sélectionner les lignes et colonnes pertinentes, filtrer les valeurs extrêmes ou non désirées.


In [21]:
# Garder que les colonnes pertinentes

# - 'Open' : le prix d'ouverture de l'action pour la journée
# - 'Close' : le prix de clôture de l'action pour la journée
# - 'Volume' : le volume de transactions échangées ce jour-là
cols = ['Open', 'Close', 'Volume']
data_filtered = apple_clean[cols]   
data_filtered.head()

Price,Open,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-01-02,71.721011,72.716064,135480400
2020-01-03,71.941328,72.009117,146322800
2020-01-06,71.127873,72.582916,118387200
2020-01-07,72.592594,72.241547,108872000
2020-01-08,71.943751,73.403641,132079200


In [22]:

# Garder les données de la période 2024-03-01 à 2024-09-30
data_filtered = data_filtered.loc['2024-03-01':'2024-09-30']
data_filtered.head()

Price,Open,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-03-01,178.706175,178.815659,73488000
2024-03-04,175.322153,174.2771,81510100
2024-03-05,169.957487,169.320496,95132400
2024-03-06,170.25608,168.325195,68587700
2024-03-07,168.355038,168.20575,71765100


In [23]:

# Filtrer selon des seuils
data_filtered = data_filtered[data_filtered['Close'] > 100]
data_filtered.head()






Price,Open,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-03-01,178.706175,178.815659,73488000
2024-03-04,175.322153,174.2771,81510100
2024-03-05,169.957487,169.320496,95132400
2024-03-06,170.25608,168.325195,68587700
2024-03-07,168.355038,168.20575,71765100


## 5. Échantillonner les données
**Objectif** : Uniformiser l’unité et le format des colonnes pour comparer différents actifs. Créer des échantillons pour tester les modèles.


In [24]:
# Uniformiser les unités
data_filtered['Volume'] = data_filtered['Volume'] / 1000  # En milliers

In [25]:

# Échantillon aléatoire de 20%
sampled = data_filtered.sample(frac=0.2, random_state=1)