# PARTIE I - COLLECTE ET TRAITEMENT DES DONNÉES 

1. Téléchargement des données

*1.1. Téléchargement des données à l'aide de l'API*

In [None]:
import requests
import pandas as pd
import os

# URL et clé API
url = "https://www.alphavantage.co/query"
api_key = "O0S7MV4XE2PDKBDF"

# Liste des symboles
symbols = {
    "apple": {"function": "TIME_SERIES_MONTHLY", "symbol": "AAPL"},
    "microsoft": {"function": "TIME_SERIES_MONTHLY", "symbol": "MSFT"},
    "google": {"function": "TIME_SERIES_MONTHLY", "symbol": "GOOGL"},
    "amazon": {"function": "TIME_SERIES_MONTHLY", "symbol": "AMZN"},
    "meta": {"function": "TIME_SERIES_MONTHLY", "symbol": "META"}
}

# Fonction pour télécharger les données
def download_data(asset_name, params):
    params["apikey"] = api_key
    params["datatype"] = "csv"
    response = requests.get(url, params=params)

    if response.status_code == 200:
        filename = f"{asset_name}_data.csv"
        with open(filename, "wb") as file:
            file.write(response.content)
        print(f"Les données de {asset_name} ont été sauvegardées dans {filename}.")
    else:
        print(f"Erreur pour {asset_name}: {response.status_code}, {response.text}")

# Télécharger les données historiques
for asset, params in symbols.items():
    download_data(asset, params)

*2.2. Téléchargement des données sur Yahoo Finance*

In [None]:
pip install yfinance

Note: you may need to restart the kernel to use updated packages.


In [4]:
import yfinance as yf
import pandas as pd

# Liste des tickers
assets = {
    "Gold": "GC=F",        # Gold Futures
    "Bitcoin": "BTC-USD",  # Bitcoin en USD
    "Ethereum": "ETH-USD", # Ethereum en USD
    "S&P 500": "^GSPC"     # S&P 500 Index
}

# Définir la plage de dates
start_date = "2010-01-01"
end_date = "2024-12-01"

# Télécharger les données pour chaque actif
for asset_name, ticker in assets.items():
    print(f"Téléchargement des données pour {asset_name} ({ticker})...")
    
    # Télécharger les données avec yfinance
    data = yf.download(ticker, start=start_date, end=end_date, interval="1mo")
    
    # Sauvegarder dans un fichier CSV
    filename = f"{asset_name.lower()}_historical_data.csv"
    data.to_csv(filename)
    print(f"Données sauvegardées dans {filename}.")

    # Afficher les premières lignes
    print(data.head())


Téléchargement des données pour Gold (GC=F)...


[*********************100%***********************]  1 of 1 completed
[*********************100%***********************]  1 of 1 completed
[*********************100%***********************]  1 of 1 completed


Données sauvegardées dans gold_historical_data.csv.
Price             Close         High          Low         Open  Volume
Ticker             GC=F         GC=F         GC=F         GC=F    GC=F
Date                                                                  
2010-01-01  1083.000000  1161.199951  1073.199951  1117.699951  320664
2010-02-01  1118.300049  1127.400024  1045.199951  1081.000000   18209
2010-03-01  1113.300049  1145.000000  1085.500000  1119.300049  222583
2010-04-01  1180.099976  1181.300049  1111.300049  1125.099976   10917
2010-05-01  1212.199951  1246.500000  1159.199951  1178.599976  361661
Téléchargement des données pour Bitcoin (BTC-USD)...
Données sauvegardées dans bitcoin_historical_data.csv.
Price            Close        High         Low        Open      Volume
Ticker         BTC-USD     BTC-USD     BTC-USD     BTC-USD     BTC-USD
Date                                                                  
2014-10-01  338.321014  411.697998  289.295990  387.427002 

[*********************100%***********************]  1 of 1 completed

Données sauvegardées dans s&p 500_historical_data.csv.
Price             Close         High          Low         Open        Volume
Ticker            ^GSPC        ^GSPC        ^GSPC        ^GSPC         ^GSPC
Date                                                                        
2010-01-01  1073.869995  1150.449951  1071.589966  1116.560059   90947580000
2010-02-01  1104.489990  1112.420044  1044.500000  1073.890015   84561340000
2010-03-01  1169.430054  1180.689941  1105.359985  1105.359985  103683550000
2010-04-01  1186.689941  1219.800049  1170.689941  1171.229980  116741910000
2010-05-01  1089.410034  1205.130005  1040.780029  1188.579956  127662780000





3. Création et nettoyage de la base de données 

*3.1. Création de la base de données à l'aide des fichiers téléchargés* 

In [None]:
# Liste des fichiers CSV avec leurs noms explicites (uniquement pour les entreprises)
companies = [
    "amazon_data.csv",
    "apple_data.csv",
    "google_data.csv",
    "meta_data.csv",
    "microsoft_data.csv"
]

# Créer un DataFrame principal avec toutes les dates possibles de 2000 à 2024
date_range = pd.date_range(start="2000-01", end="2024-12", freq="M")
final_df = pd.DataFrame({'year_month': date_range.to_period('M')})

# Boucle sur chaque fichier CSV
for file in companies:
    # Charger les données
    df = pd.read_csv(file)

    # Récupérer le nom de la société (extrait du nom de fichier)
    company_name = file.replace("_data.csv", "").replace(".csv", "").replace(" ", "")

    # Convertir la colonne timestamp en datetime
    df['timestamp'] = pd.to_datetime(df['timestamp'])

    # Ajouter une colonne année-mois
    df['year_month'] = df['timestamp'].dt.to_period('M')

    # Calculer le prix moyen et garder les colonnes nécessaires
    df = df[['year_month', 'high', 'low', 'volume']]
    df[f'{company_name}_stock_price'] = (df['high'] + df['low']) / 2
    df[f'{company_name}_stock_volume'] = df['volume']

    # Garder uniquement les colonnes de la société traitée
    df = df[['year_month', f'{company_name}_stock_price', f'{company_name}_stock_volume']]

    # Supprimer les colonnes existantes dans final_df avant fusion
    for col in [f'{company_name}_stock_price', f'{company_name}_stock_volume']:
        if col in final_df.columns:
            final_df.drop(columns=col, inplace=True)

    # Fusionner directement avec le DataFrame principal
    final_df = pd.merge(final_df, df, on='year_month', how='left')

  date_range = pd.date_range(start="2000-01", end="2024-12", freq="M")


In [None]:
final_df.head()

Unnamed: 0,year_month,amazon_stock_price,amazon_stock_volume,apple_stock_price,apple_stock_volume,google_stock_price,google_stock_volume,meta_stock_price,meta_stock_volume,microsoft_stock_price,microsoft_stock_volume
0,2000-01,74.97,262209000,104.0,112099800,,,,,106.745,637437600
1,2000-02,74.5,207457700,108.47,65355200,,,,,99.06,667243800
2,2000-03,67.625,156584600,132.19,77663900,,,,,101.97,1014093800
3,2000-04,54.72,162012500,122.185,77342900,,,,,80.75,1129073300
4,2000-05,51.41,130688600,104.0,87569200,,,,,67.19,672215400


*3.2. Réorganisation de la base de données initiale*

In [7]:
element_files = [
    "bitcoin_historical_data.csv",
    "ethereum_historical_data.csv",
    "gold_historical_data_2000_2024.csv",
    "s&p 500_historical_data.csv"
]
# Boucle sur chaque fichier d'éléments
for file in element_files:
    # Charger les données en ignorant les deux premières lignes inutiles
    df = pd.read_csv(file, skiprows=2)

    # Récupérer le nom de l'élément
    element_name = file.replace("_historical_data.csv", "").replace(".csv", "").replace(" ", "").lower()

    # Renommer les colonnes en utilisant leur position
    df = df.iloc[:, [0, 2, 3, 5]]  # Sélectionne les colonnes Date, High, Low, Volume
    df.columns = ["timestamp", "high", "low", "volume"]  # Renommer pour uniformité

    # Convertir la colonne timestamp en datetime
    df['timestamp'] = pd.to_datetime(df['timestamp'])

    # Ajouter une colonne année-mois
    df['year_month'] = df['timestamp'].dt.to_period('M')

    # Calculer le prix moyen
    df[f'{element_name}_price'] = (df['high'] + df['low']) / 2
    df[f'{element_name}_volume'] = df['volume']

    # Garder uniquement les colonnes nécessaires
    df = df[['year_month', f'{element_name}_price', f'{element_name}_volume']]

    # Supprimer les colonnes existantes avant fusion
    for col in [f'{element_name}_price', f'{element_name}_volume']:
        if col in final_df.columns:
            final_df.drop(columns=col, inplace=True)

    # Fusionner avec le DataFrame principal
    final_df = pd.merge(final_df, df, on='year_month', how='left')


In [None]:
final_df.head()

Unnamed: 0,year_month,amazon_stock_price,amazon_stock_volume,apple_stock_price,apple_stock_volume,google_stock_price,google_stock_volume,meta_stock_price,meta_stock_volume,microsoft_stock_price,microsoft_stock_volume,bitcoin_price,bitcoin_volume,ethereum_price,ethereum_volume,gold_historical_data_2000_2024_price,gold_historical_data_2000_2024_volume,s&p500_price,s&p500_volume
0,2000-01,74.97,262209000,104.0,112099800,,,,,106.745,637437600,,,,,,,,
1,2000-02,74.5,207457700,108.47,65355200,,,,,99.06,667243800,,,,,,,,
2,2000-03,67.625,156584600,132.19,77663900,,,,,101.97,1014093800,,,,,,,,
3,2000-04,54.72,162012500,122.185,77342900,,,,,80.75,1129073300,,,,,,,,
4,2000-05,51.41,130688600,104.0,87569200,,,,,67.19,672215400,,,,,,,,


In [8]:
print(len(final_df))

299


*3.3. Traitement des valeurs manquantes*

In [9]:
# Compter le nombre total de valeurs manquantes dans final_df
missing_values_count = final_df.isnull().sum().sum()
print(f"Nombre total de valeurs manquantes dans final_df : {missing_values_count}")


Nombre total de valeurs manquantes dans final_df : 1554


VM où il y a au moins une valeur dans une année

In [10]:
# Vérifier les colonnes avec des valeurs numériques uniquement
numeric_columns = final_df.select_dtypes(include=['float64', 'int64']).columns

# Remplacer les valeurs manquantes par la moyenne annuelle si possible
for col in numeric_columns:
    # Calculer la moyenne annuelle pour chaque colonne (en ignorant les NaN)
    annual_mean = final_df.groupby(final_df['year_month'].dt.year)[col].transform('mean')
    
    # Remplacer les NaN par la moyenne annuelle calculée
    final_df[col] = final_df[col].fillna(annual_mean)


In [11]:
missing_values_count = final_df.isnull().sum().sum()
print(f"Nombre total de valeurs manquantes dans final_df : {missing_values_count}")

Nombre total de valeurs manquantes dans final_df : 1390


VM qui restent

In [12]:
for col in numeric_columns:
    # Calculer la moyenne globale (en ignorant les NaN)
    global_mean = final_df[col].mean()
    
    # Remplacer les NaN restants par la moyenne globale
    final_df[col] = final_df[col].fillna(global_mean)

In [13]:
final_df.head()

Unnamed: 0,year_month,amazon_stock_price,amazon_stock_volume,apple_stock_price,apple_stock_volume,google_stock_price,google_stock_volume,meta_stock_price,meta_stock_volume,microsoft_stock_price,microsoft_stock_volume,bitcoin_price,bitcoin_volume,ethereum_price,ethereum_volume,gold_historical_data_2000_2024_price,gold_historical_data_2000_2024_volume,s&p500_price,s&p500_volume
0,2000-01,74.97,262209000,104.0,112099800,760.629032,197931400.0,177.585127,623649600.0,106.745,637437600,17705.370867,517572600000.0,1382.316098,354925400000.0,270.916667,12806.666667,2696.498882,82583120000.0
1,2000-02,74.5,207457700,108.47,65355200,760.629032,197931400.0,177.585127,623649600.0,99.06,667243800,17705.370867,517572600000.0,1382.316098,354925400000.0,270.916667,12806.666667,2696.498882,82583120000.0
2,2000-03,67.625,156584600,132.19,77663900,760.629032,197931400.0,177.585127,623649600.0,101.97,1014093800,17705.370867,517572600000.0,1382.316098,354925400000.0,270.916667,12806.666667,2696.498882,82583120000.0
3,2000-04,54.72,162012500,122.185,77342900,760.629032,197931400.0,177.585127,623649600.0,80.75,1129073300,17705.370867,517572600000.0,1382.316098,354925400000.0,270.916667,12806.666667,2696.498882,82583120000.0
4,2000-05,51.41,130688600,104.0,87569200,760.629032,197931400.0,177.585127,623649600.0,67.19,672215400,17705.370867,517572600000.0,1382.316098,354925400000.0,270.916667,12806.666667,2696.498882,82583120000.0


In [14]:
missing_values_count = final_df.isnull().sum().sum()
print(f"Nombre total de valeurs manquantes dans final_df : {missing_values_count}")

Nombre total de valeurs manquantes dans final_df : 0


# PARTIE II - PARTIE DESCRIPTIVE

Cette partie a pour objectif de décrire et interpréter les fluctuations de l'or et des principales cryptomonnaies et actions sur les marchés financiers. 
Cette première analyse met en évidence ce que l'on cherchera à expliquer dans la partie suivante. 

1. Travail préliminaire d'aide à la visualisation

*1.1. Affichage des données*

Afin de faciliter la visualisation, on conserve trois décimales pour le prix des actions pour lesquelles ce n'est pas déjà le cas. On conserve six décimales pour le prix des cryptomonnaies. En effet, les cryptomonnaies sont divisibles en très petites unités ; réduire le nombre de décimales serait donc synonyme de perte d'information.

In [None]:
# Arrondir le prix des actions à 3 décimales lorsque nécessaire 
final_df = final_df.round({'amazon_stock_price': 3, 'google_stock_price': 3, 'meta_stock_price': 3})


Unnamed: 0,year_month,amazon_stock_price,amazon_stock_volume,apple_stock_price,apple_stock_volume,google_stock_price,google_stock_volume,meta_stock_price,meta_stock_volume,microsoft_stock_price,microsoft_stock_volume,bitcoin_price,bitcoin_volume,ethereum_price,ethereum_volume,gold_historical_data_2000_2024_price,gold_historical_data_2000_2024_volume,s&p500_price,s&p500_volume
0,2000-01,74.97,262209000,104.0,112099800,760.629,197931417,177.585,623649587,106.745,637437600,17705.370867,517572575203,1382.316098,354925375295,270.916667,12806.666667,2696.498882,82583117374
1,2000-02,74.5,207457700,108.47,65355200,760.629,197931417,177.585,623649587,99.06,667243800,17705.370867,517572575203,1382.316098,354925375295,270.916667,12806.666667,2696.498882,82583117374
2,2000-03,67.625,156584600,132.19,77663900,760.629,197931417,177.585,623649587,101.97,1014093800,17705.370867,517572575203,1382.316098,354925375295,270.916667,12806.666667,2696.498882,82583117374
3,2000-04,54.72,162012500,122.185,77342900,760.629,197931417,177.585,623649587,80.75,1129073300,17705.370867,517572575203,1382.316098,354925375295,270.916667,12806.666667,2696.498882,82583117374
4,2000-05,51.41,130688600,104.0,87569200,760.629,197931417,177.585,623649587,67.19,672215400,17705.370867,517572575203,1382.316098,354925375295,270.916667,12806.666667,2696.498882,82583117374


On effectue également des modifications sur le volume en évitant l'écriture scientifique pour plus de lisibilité. 

In [23]:
# Fonction pour convertir les colonnes spécifiées en entiers
def convert_to_int(df, columns):
    df[columns] = df[columns].astype(int)
    return df

In [24]:
# On utilise alors la fonction avec la liste des colonnes à convertir suivante:
columns_converted = ['google_stock_volume', 'ethereum_volume', 'bitcoin_volume', 's&p500_volume', 'meta_stock_volume']

# Application de la fonction à final_df
final_df = convert_to_int(final_df, columns_converted)

# Afficher les premières lignes du df modifié 
final_df.head()

Unnamed: 0,year_month,amazon_stock_price,amazon_stock_volume,apple_stock_price,apple_stock_volume,google_stock_price,google_stock_volume,meta_stock_price,meta_stock_volume,microsoft_stock_price,microsoft_stock_volume,bitcoin_price,bitcoin_volume,ethereum_price,ethereum_volume,gold_historical_data_2000_2024_price,gold_historical_data_2000_2024_volume,s&p500_price,s&p500_volume
0,2000-01,74.97,262209000,104.0,112099800,760.629,197931417,177.585,623649587,106.745,637437600,17705.370867,517572575203,1382.316098,354925375295,270.916667,12806.666667,2696.498882,82583117374
1,2000-02,74.5,207457700,108.47,65355200,760.629,197931417,177.585,623649587,99.06,667243800,17705.370867,517572575203,1382.316098,354925375295,270.916667,12806.666667,2696.498882,82583117374
2,2000-03,67.625,156584600,132.19,77663900,760.629,197931417,177.585,623649587,101.97,1014093800,17705.370867,517572575203,1382.316098,354925375295,270.916667,12806.666667,2696.498882,82583117374
3,2000-04,54.72,162012500,122.185,77342900,760.629,197931417,177.585,623649587,80.75,1129073300,17705.370867,517572575203,1382.316098,354925375295,270.916667,12806.666667,2696.498882,82583117374
4,2000-05,51.41,130688600,104.0,87569200,760.629,197931417,177.585,623649587,67.19,672215400,17705.370867,517572575203,1382.316098,354925375295,270.916667,12806.666667,2696.498882,82583117374


*1.2. Premières statistiques descriptives*

On affiche dans un premier temps les statistiques descriptives pour l'ensemble des variables sur toute la période considérée. 

In [None]:
final_df.describe()

Unnamed: 0,amazon_stock_price,amazon_stock_volume,apple_stock_price,apple_stock_volume,google_stock_price,google_stock_volume,meta_stock_price,meta_stock_volume,microsoft_stock_price,microsoft_stock_volume,bitcoin_price,bitcoin_volume,ethereum_price,ethereum_volume,gold_historical_data_2000_2024_price,gold_historical_data_2000_2024_volume,s&p500_price,s&p500_volume
count,299.0,299.0,299.0,299.0,299.0,299.0,299.0,299.0,299.0,299.0,299.0,299.0,299.0,299.0,299.0,299.0,299.0,299.0
mean,596.030867,233848300.0,174.491543,699830100.0,760.629032,197931400.0,177.585127,623649600.0,95.281551,946771700.0,17705.370867,517572600000.0,1382.316098,354925400000.0,1084.700415,86139.524411,2696.498882,82583120000.0
std,926.010738,325005200.0,146.158314,572351100.0,556.747759,190435200.0,90.532894,253935700.0,106.370793,419205500.0,13593.217299,355980100000.0,652.53649,156109300000.0,531.90098,104441.652597,957.631583,11358530000.0
min,7.43,43468800.0,13.835,65355200.0,92.19,23041290.0,20.24,226135700.0,16.875,342370400.0,238.188499,553102300.0,120.249294,44459810000.0,261.949997,893.0,1065.929962,58131140000.0
25%,46.5725,82757040.0,77.3625,298767700.0,453.977625,42811450.0,157.200025,504950500.0,27.6125,606142600.0,10764.1073,517572600000.0,1382.316098,354925400000.0,603.75,9428.5,2087.784973,77905980000.0
50%,166.42,133362400.0,140.775,562091200.0,688.65,145887200.0,177.585127,623649600.0,46.98,859331100.0,17705.370867,517572600000.0,1382.316098,354925400000.0,1192.549988,25557.0,2696.498882,82583120000.0
75%,658.7225,191648600.0,204.1125,900030900.0,858.92,230374400.0,177.585127,623649600.0,105.185,1272418000.0,17705.370867,517572600000.0,1382.316098,354925400000.0,1468.950012,147150.3,2712.147522,82583120000.0
max,3540.0291,2035252000.0,680.535,3886793000.0,2925.68,952709700.0,582.235,2032635000.0,440.28,3044579000.0,83229.574219,2267153000000.0,4412.605591,1510330000000.0,2052.599976,443701.0,5870.339844,162185400000.0
