In [1]:

import pandas as pd  
import re  
from datetime import datetime 

In [7]:
# Chargement des données scrapées depuis le fichier CSV
df = pd.read_csv('C:\\Users\\sirin\\Desktop\\Cryptocurrency_tracker\\Cryptocurrency_Tracker\\notebooks\\crypto_data_sep_nov.csv')


print("Original data:")
print(df.head())



Original data:
           Date       Open       High        Low      Close  Adj Close  \
0  Nov 30, 2025  90,838.21  91,965.05  90,394.31  90,394.31  90,394.31   
1  Nov 29, 2025  90,918.74  91,187.62  90,260.19  90,851.76  90,851.76   
2  Nov 28, 2025  91,285.38  92,969.09  90,257.12  90,919.27  90,919.27   
3  Nov 27, 2025  90,517.77  91,897.58  90,089.52  91,285.38  91,285.38   
4  Nov 26, 2025  87,345.59  90,581.16  86,316.90  90,518.37  90,518.37   

           Volume   Ticker  
0  38,497,902,869  BTC-USD  
1  37,921,773,455  BTC-USD  
2  60,895,830,289  BTC-USD  
3  57,040,622,845  BTC-USD  
4  66,496,301,869  BTC-USD  


In [8]:
# Affichage des dimensions du DataFrame 
print(f"Shape: {df.shape}")



Shape: (273, 8)


In [6]:
# Affichage des types de données de chaque colonne
print(f"Data types:\n{df.dtypes}")

Data types:
Date         object
Open         object
High         object
Low          object
Close        object
Adj Close    object
Volume       object
Ticker       object
dtype: object


In [None]:
# Fonction pour nettoyer les valeurs numériques en utilisant les expressions régulières
def clean_numeric(value):
    # Vérifie si la valeur est une chaîne de caractères
    if isinstance(value, str):
        # Gère les cas spéciaux : tirets, vides, ou "N/A"
        if value.strip() in ['-', '', 'N/A', 'null']:
            return 0  # Remplace par 0 pour éviter les erreurs

      
        cleaned = re.sub(r',', '', value.strip())
        try:
            # Maintenant on peut convertir en nombre flottant
            return float(cleaned)
        except ValueError:
            # Si la conversion échoue, retourne 0 au lieu d'erreur
            print(f"Impossible de convertir: '{value}' -> remplace par 0")
            return 0
    # Si ce n'est pas une chaîne, retourne la valeur inchangée
    return value



In [None]:
# Liste des colonnes contenant des valeurs numériques à nettoyer
numeric_columns = ['Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume']

# Application de la fonction de nettoyage à chaque colonne numérique
for col in numeric_columns:
    df[col] = df[col].apply(clean_numeric)
df['Volume'] = df['Volume'].astype('int64')

# Conversion de la colonne Date en format datetime
df['Date'] = pd.to_datetime(df['Date'], format='%b %d, %Y')

# Affichage des données après nettoyage
print("\nCleaned data:")
print(df.head())

# Affichage des types de données après nettoyage
print(f"Data types after cleaning:\n{df.dtypes}")


Cleaned data:
        Date      Open      High       Low     Close  Adj Close       Volume  \
0 2025-11-30  90838.21  91965.05  90394.31  90394.31   90394.31  38497902869   
1 2025-11-29  90918.74  91187.62  90260.19  90851.76   90851.76  37921773455   
2 2025-11-28  91285.38  92969.09  90257.12  90919.27   90919.27  60895830289   
3 2025-11-27  90517.77  91897.58  90089.52  91285.38   91285.38  57040622845   
4 2025-11-26  87345.59  90581.16  86316.90  90518.37   90518.37  66496301869   

    Ticker  
0  BTC-USD  
1  BTC-USD  
2  BTC-USD  
3  BTC-USD  
4  BTC-USD  
Data types after cleaning:
Date         datetime64[ns]
Open                float64
High                float64
Low                 float64
Close               float64
Adj Close           float64
Volume                int64
Ticker               object
dtype: object


In [18]:
# Tri des données par date 
df = df.sort_values(['Date']).reset_index(drop=True)

print("\nData sorted by Date ")
print(df.head(10))


Data sorted by Date 
        Date           Open           High            Low          Close  \
0 2025-09-01  108228.750000  109890.590000  107271.180000  109250.590000   
1 2025-09-01       0.031909       0.036273       0.000898       0.000939   
2 2025-09-01       0.015567       0.017298       0.013493       0.015759   
3 2025-09-02  109243.070000  111748.020000  108454.030000  111200.590000   
4 2025-09-02       0.000939       0.001073       0.000808       0.000978   
5 2025-09-02       0.015759       0.016452       0.015556       0.016196   
6 2025-09-03  111190.700000  112600.230000  110582.960000  111723.210000   
7 2025-09-03       0.000978       0.004762       0.000664       0.001012   
8 2025-09-03       0.016196       0.016196       0.015246       0.015488   
9 2025-09-04  111718.150000  112208.330000  109347.230000  110723.600000   

       Adj Close       Volume          Ticker  
0  109250.590000  66870372995         BTC-USD  
1       0.000939       915563   HOOD37295-USD

In [None]:
# Sauvegarde des données nettoyées dans un nouveau fichier CSV
df.to_csv('../crypto_data_cleaned.csv', index=False)
print("\nCleaned data saved to 'crypto_data_cleaned.csv'")

# Affichage des statistiques descriptives (moyenne, écart-type, min, max, etc.)
print(df.describe())

# Vérification des valeurs potentiellement problématiques
print("\nVérification des valeurs nulles ou égales à 0:")
print(f"Nombre de valeurs nulles par colonne:\n{df.isnull().sum()}")
print(f"\nNombre de zéros par colonne:\n{(df == 0).sum()}")




Cleaned data saved to 'crypto_data_cleaned.csv'
                      Date           Open           High            Low  \
count                  273     273.000000     273.000000     273.000000   
mean   2025-10-16 00:00:00   36035.282504   36539.776085   35406.642431   
min    2025-09-01 00:00:00       0.000020       0.000304       0.000000   
25%    2025-09-23 00:00:00       0.002915       0.004028       0.001882   
50%    2025-10-16 00:00:00       0.011390       0.013216       0.008831   
75%    2025-11-08 00:00:00  103371.700000  105297.230000  100836.620000   
max    2025-11-30 00:00:00  124752.140000  126198.070000  123196.050000   
std                    NaN   51367.061496   52078.201498   50501.057867   

               Close      Adj Close        Volume  
count     273.000000     273.000000  2.730000e+02  
mean    35970.680141   35970.680141  2.123373e+10  
min         0.000000       0.000000  0.000000e+00  
25%         0.002881       0.002881  2.101000e+04  
50%         0.0