<h1 style="color: red;">Pipeline Contart Verifiée : Récupération et Traitement des Données</h1>


Ce pipeline a pour objectif de récupérer les contrats verifiés (Un contrat validé sur Etherscan  contient généralement des informations essentielles
permettant d en évaluer la sécurité, la transparence, et la fonctionnalité. La vérification du contrat assure que le code est visible, 
ce qui permet aux utilisateurs de vérifier son comportement et de s assurer qu il ne contient pas de vulnérabilités)
**Étapes du pipeline :**
1. Récupération des données depuis Etherscan
2. Exportation des données brutes vers MongoDB.
3. Importation des données depuis MongoDB.
4. Nettoyage des données.
5. Exportation des données nettoyées vers MongoDB.
6. Compréhension des données (Data Understanding).

In [1]:
# Importation des bibliothèques nécessaires
import requests
import pandas as pd
from datetime import datetime
import json
from pymongo import MongoClient
from bs4 import BeautifulSoup
from collections import Counter
import matplotlib.pyplot as plt
import time



In [None]:
pip install --upgrade pymongo


<h1 style="color: red;">Connexion à la Base de Données MongoDB Partagée</h1>
Configuration de la Connexion

In [3]:
from pymongo import MongoClient

# Chaîne de connexion à MongoDB
connection_string = "mongodb+srv://nasrhamza:drgzquMCEexvUYVV@cluster0.6pqb0.mongodb.net/"

# Connexion au client MongoDB
client = MongoClient(connection_string)

# Accéder à la base de données "due_diligence"
db = client.due_diligence


  _crypto.X509.from_cryptography(x509.load_der_x509_certificate(cert))


In [5]:
from pymongo import MongoClient

client = MongoClient(connection_string , tls=True, tlsAllowInvalidCertificates=True)
db = client["due_diligence"]

In [7]:
import pymongo

connection_string = "mongodb+srv://nasrhamza:drgzquMCEexvUYVV@cluster0.6pqb0.mongodb.net/"

try:
    client = pymongo.MongoClient(connection_string, serverSelectionTimeoutMS=5000, tls=True)
    db = client.test
    print("Connexion réussie à MongoDB Atlas !")
except Exception as e:
    print(f"Erreur de connexion : {e}")


Connexion réussie à MongoDB Atlas !


## Récupération des Données
Cette première étape présente la récupération des données : des contrats intelligents vérifiés sur Etherscan.
 Nous récupérons les données depuis :
- **Etherscan** : Etherscan est un explorateur de blocs et un service d'analyse pour la blockchain Ethereum. Il permet aux utilisateurs de visualiser les transactions, les contrats intelligents (smart contracts), les adresses Ethereum et les informations relatives à la blockchain d'Ethereum en temps réel.

Les données sont récupérées via la méthode web scrapping et stockées dans des variables pour un traitement ultérieur.


In [12]:
# En-têtes HTTP pour simuler un navigateur réel
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# Fonction pour vérifier si le scraping est bloqué
def is_scraping_blocked(response_text):
    """Vérifie si la page contient des éléments indiquant un blocage (ex: Cloudflare, CAPTCHA)."""
    keywords = ["are you a human", "captcha", "Cloudflare", "access denied"]
    return any(keyword.lower() in response_text.lower() for keyword in keywords)

# Fonction pour convertir une date
def parse_date(date_str):
    """Convertit une date sous forme de texte en format datetime."""
    try:
        return datetime.strptime(date_str, "%Y-%m-%d").strftime("%Y-%m-%d")  # Adapter le format si nécessaire
    except ValueError:
        return "Non Vérifié"

# Fonction pour extraire les contrats d'une page
def extract_contracts(page_url):
    """Scrape une page et extrait les contrats."""
    print(f"Scraping : {page_url}")

    response = requests.get(page_url, headers=headers)

    if response.status_code == 200:
        if is_scraping_blocked(response.text):
            print("Scraping détecté comme bloqué. Attente de 10 secondes avant réessai...")
            time.sleep(10)
            return extract_contracts(page_url)  # Réessayer après un délai

        soup = BeautifulSoup(response.text, 'html.parser')

        # Trouver les lignes de contrat
        rows = soup.find_all('tr')

        # Extraire les données de chaque ligne
        contracts = []
        for row in rows[1:]:  # Ignorer l'en-tête
            cols = row.find_all('td')
            if len(cols) > 1:
                contract_address = cols[0].text.strip()  # Adresse du contrat
                contract_name = cols[1].text.strip()  # Nom du contrat
                compiler_version = cols[3].text.strip()  # Version du compilateur
                balance = cols[4].text.strip() if len(cols) > 4 else "N/A"  # Équilibre
                
                # Convertir la date de vérification
                verified = parse_date(cols[5].text.strip()) if len(cols) > 5 else "Non Vérifié"
                
                # Ajouter le contrat à la liste
                contracts.append({
                    "Adresse": contract_address,
                    "Nom du contrat": contract_name,
                    "Version": compiler_version,
                    "Équilibre": balance,
                    "Vérifié": verified,
                    "Date_Extraction": datetime.now().strftime("%Y-%m-%d %H:%M:%S")  # Format standard
                })
        
        # Gérer la pagination
        next_page = soup.find('a', {'aria-label': 'Next'})
        if next_page:
            next_url = "https://etherscan.io" + next_page['href']
            print(f"Page suivante : {next_url}")
            contracts.extend(extract_contracts(next_url))  # Récupérer les contrats des pages suivantes
            
        return contracts
    else:
        print(f" Erreur {response.status_code} lors de la récupération de la page {page_url}")
        return []

# Fonction pour sauvegarder les contrats dans un fichier JSON
def save_to_json(data, filename="smart_contracts.json"):
    """Enregistre les contrats dans un fichier JSON."""
    try:
        with open(filename, "w", encoding="utf-8") as f:
            json.dump(data, f, indent=4, ensure_ascii=False)
        print(f"Données sauvegardées dans {filename}")
    except Exception as e:
        print(f"Erreur lors de l'enregistrement du fichier : {e}")

# Test de la fonction
url = "https://etherscan.io/contractsVerified"
smart_contracts = extract_contracts(url)

# Enregistrer les contrats dans un fichier JSON
if smart_contracts:
    save_to_json(smart_contracts)


Scraping : https://etherscan.io/contractsVerified
Page suivante : https://etherscan.io/contractsVerified/2
Scraping : https://etherscan.io/contractsVerified/2
Page suivante : https://etherscan.io/contractsVerified/3
Scraping : https://etherscan.io/contractsVerified/3
Page suivante : https://etherscan.io/contractsVerified/4
Scraping : https://etherscan.io/contractsVerified/4
Page suivante : https://etherscan.io/contractsVerified/5
Scraping : https://etherscan.io/contractsVerified/5
Page suivante : https://etherscan.io/contractsVerified/6
Scraping : https://etherscan.io/contractsVerified/6
Page suivante : https://etherscan.io/contractsVerified/7
Scraping : https://etherscan.io/contractsVerified/7
Page suivante : https://etherscan.io/contractsVerified/8
Scraping : https://etherscan.io/contractsVerified/8
Page suivante : https://etherscan.io/contractsVerified/9
Scraping : https://etherscan.io/contractsVerified/9
Page suivante : https://etherscan.io/contractsVerified/10
Scraping : https://e

## Exportation des données brutes vers MongoDB
Une fois les contrats extraits , on passe à les enregistrer directement dans MongoDB.Cela permet de conserver une trace des données brutes avant tout traitement.


In [16]:
pip install --upgrade pymongo


Note: you may need to restart the kernel to use updated packages.


In [24]:
from pymongo import MongoClient

# Chaîne de connexion avec option désactivant la validation SSL
connection_string = "mongodb+srv://nasrhamza:drgzquMCEexvUYVV@cluster0.6pqb0.mongodb.net/?tlsAllowInvalidCertificates=true"

# Connexion au client MongoDB
client = MongoClient(connection_string)

# Accéder à la base de données "due_diligence"
db = client.due_diligence


NameError: name 'ssl' is not defined

In [22]:
import json
from pymongo import MongoClient

def export_to_mongodb_from_json(file_path, collection_name):
    """
    Exporte les données d'un fichier JSON vers une base de données MongoDB.
    
    :param file_path: Chemin du fichier JSON à importer.
    :param collection_name: Nom de la collection MongoDB.
    """
    try:
        # Charger les données du fichier JSON
        with open(file_path, 'r') as f:
            data = json.load(f)

        # Connexion à MongoDB
        connection_string = "mongodb+srv://nasrhamza:drgzquMCEexvUYVV@cluster0.6pqb0.mongodb.net/?tlsAllowInvalidCertificates=true"
        client = MongoClient(connection_string)

        # Accéder à la collection
        db = client.due_diligence
        collection = db[collection_name]

        # Insérer les données dans la collection MongoDB
        if isinstance(data, list):
            collection.insert_many(data)
        else:
            collection.insert_one(data)

        print(f"Données exportées vers MongoDB dans la collection {collection_name}")

    except Exception as e:
        print(f"Erreur lors de l'exportation vers MongoDB : {e}")

# Exemple d'appel de la fonction
export_to_mongodb_from_json('smart_contracts.json', 'smart_contracts_raw')


Erreur lors de l'exportation vers MongoDB : SSL handshake failed: cluster0-shard-00-02.6pqb0.mongodb.net:27017: [('SSL routines', '', 'tlsv1 alert internal error')] (configured timeouts: socketTimeoutMS: 20000.0ms, connectTimeoutMS: 20000.0ms),SSL handshake failed: cluster0-shard-00-01.6pqb0.mongodb.net:27017: [('SSL routines', '', 'tlsv1 alert internal error')] (configured timeouts: socketTimeoutMS: 20000.0ms, connectTimeoutMS: 20000.0ms),SSL handshake failed: cluster0-shard-00-00.6pqb0.mongodb.net:27017: [('SSL routines', '', 'tlsv1 alert internal error')] (configured timeouts: socketTimeoutMS: 20000.0ms, connectTimeoutMS: 20000.0ms), Timeout: 30s, Topology Description: <TopologyDescription id: 67cec4dd6a402a83bc720faf, topology_type: ReplicaSetNoPrimary, servers: [<ServerDescription ('cluster0-shard-00-00.6pqb0.mongodb.net', 27017) server_type: Unknown, rtt: None, error=AutoReconnect("SSL handshake failed: cluster0-shard-00-00.6pqb0.mongodb.net:27017: [('SSL routines', '', 'tlsv1 al

## Importation des données brutes depuis MongoDB partagée
Les données brutes sont réimportées depuis MongoDB pour être nettoyées.

In [None]:
# Fonction pour importer des données depuis MongoDB
def import_from_mongodb(collection_name):
    try:
        # Accéder à la collection MongoDB
        collection = db[collection_name]
        
        # Récupérer toutes les données de la collection
        data = list(collection.find())  # Utilisation de find() pour récupérer les données
        
        # Enlever l'ID MongoDB par défaut si nécessaire
        for record in data:
            record.pop('_id', None)  # Supprime l'attribut _id généré automatiquement par MongoDB
        
        if data:
            print(f"{len(data)} données importées depuis MongoDB dans la collection {collection_name}")
        else:
            print(f"Aucune donnée trouvée dans la collection {collection_name}.")
        
        return data
    except Exception as e:
        print(f"Erreur lors de l'importation depuis MongoDB : {e}")
        return []


In [None]:
# Importer les données depuis MongoDB
contracts_data_from_mongo = import_from_mongodb('contracts_raw_data')

# Afficher un exemple des données importées
print(contracts_data_from_mongo[:2])  # Afficher les deux premières entrées


## Nettoyage des Données
L'objectif de cette étape est de s'assurer que les données récupérées sont propres et prêtes à être utilisées dans des analyses ou des processus futurs. Le nettoyage inclut des actions comme :
- Gestion des valeurs manquantes : Remplacer ou supprimer les valeurs nulles.
- Suppression des doublons : Si plusieurs enregistrements identiques existent.
- Conversion des types de données : Assurer que les types de données sont corrects (par exemple, convertir les chaînes de caractères en nombres si nécessaire).
- Nettoyage des colonnes inutiles : Supprimer des colonnes ou des informations non pertinentes.

In [None]:
# Fonction de nettoyage des données
def clean_data(data):
    # Convertir les données en DataFrame pour faciliter le nettoyage
    df = pd.DataFrame(data)

    # Suppression des doublons
    df.drop_duplicates(inplace=True)

    # Suppression des colonnes inutiles (exemple : si tu as une colonne 'Date_Extraction' que tu ne souhaites pas)
    df.drop(columns=['Date_Extraction'], inplace=True, errors='ignore')

    # Remplacer les valeurs manquantes (par exemple, remplacer par 'N/A' ou par une valeur par défaut)
    df.fillna('N/A', inplace=True)

    # S'assurer que les types de données sont corrects (par exemple, la colonne "Équilibre" doit être un nombre)
    df['Équilibre'] = pd.to_numeric(df['Équilibre'], errors='coerce')  # Convertir en nombre, NaN si non convertible

    # Encodage de la colonne "Vérifié" : 'Oui' -> 1, 'Non' -> 0
    df['Vérifié'] = df['Vérifié'].map({'Oui': 1, 'Non': 0}).fillna('N/A')  # Remplacer NaN si nécessaire

    # D'autres transformations de nettoyage peuvent être ajoutées ici

    # Retourner les données nettoyées
    return df

# Exemple d'utilisation
contracts_data = import_from_mongodb('contracts_raw_data')
cleaned_data = clean_data(contracts_data)

# Afficher les données nettoyées
print(cleaned_data.head())


In [None]:
def validate_cleaned_data(df):
    # Vérifier si les données sont prêtes
    if df.isnull().sum().sum() > 0:
        print("Des valeurs manquantes subsistent.")
    else:
        print("Les données sont prêtes pour l'exportation.")

# Validation après nettoyage
validate_cleaned_data(cleaned_data)


## Exportation des données nettoyées vers MongoDB partagée

Les données nettoyées sont exportées dans des collections MongoDB distinctes.

In [None]:
# Fonction pour supprimer la colonne '_id' des données
def remove_mongo_id(data):
    """
    Supprime la colonne '_id' des données si elle existe.
    """
    # Si la colonne '_id' existe, on la supprime
    for record in data:
        record.pop('_id', None)  # Supprime l'attribut _id si présent
        
    return data

# Exemple d'utilisation : avant d'exporter les données
cleaned_data_no_id = remove_mongo_id(cleaned_data.to_dict(orient='records'))

# Vérifier que l'_id est bien supprimé
print(f"Nombre de données après suppression de '_id': {len(cleaned_data_no_id)}")


In [None]:
# Fonction pour exporter les données nettoyées vers MongoDB (après suppression de '_id')
def export_cleaned_data_to_mongodb(data, collection_name, db_name='contracts_cleaned'):
    try:
        # Accéder à la collection MongoDB
        collection = db[collection_name]
        
        # Insérer les données nettoyées
        if isinstance(data, list):
            collection.insert_many(data)
        else:
            collection.insert_one(data)
        
        print(f"Données nettoyées exportées vers MongoDB dans la collection {collection_name}")
    except Exception as e:
        print(f"Erreur lors de l'exportation des données nettoyées vers MongoDB : {e}")


# Exemple d'utilisation : Exporter les données nettoyées sans '_id' vers MongoDB
export_cleaned_data_to_mongodb(cleaned_data_no_id, 'contracts_cleaned_data')


<h1 style="color: red;">Data Understanding</h1>

Un contrat validé sur la plateforme Etherscan (ou une plateforme similaire de blockchain) est essentiellement un smart contract (contrat intelligent) qui a été vérifié publiquement sur la blockchain, permettant ainsi à n'importe qui de lire et d'interagir avec le code du contrat. Voici un résumé des principales informations que pourrait contenir un contrat validé :
- Adresse du Contrat (Contract Address)
 L'adresse unique du contrat intelligent sur la blockchain Ethereum. C'est une chaîne de caractères qui identifie de manière unique ce contrat.
- Nom du Contrat (Contract Name)
Le nom donné au contrat lors de sa création. Il est souvent défini par les développeurs et peut donner des indications sur la fonctionnalité du contrat (par exemple, ERC20Token, VotingContract, etc.).
- Version du Compilateur (Compiler Version)
La version du compilateur Solidity utilisée pour compiler le contrat. Solidity est le langage de programmation utilisé pour écrire les contrats intelligents sur Ethereum.
- Équilibre (Balance)
Le montant d'ether (ETH) détenu par le contrat. Cela représente l'argent qui a été envoyé ou stocké dans le contrat.
- Vérifié (Verified)
Indique si le code source du contrat a été vérifié et publié sur la plateforme (comme Etherscan).
## Exemple de Contenu d'un Contrat Vérifié sur Etherscan
- Adresse du contrat : 0x1234567890abcdef1234567890abcdef12345678
- Version du compilateur : v0.8.4
- Équilibre : 1000 ETH
- Vérifié : Oui:1 ,0:non



## Visualisation Data 
La visualisation des données est une étape clé pour mieux comprendre leur structure et extraire des insights.


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


In [None]:
# Importer les données nettoyées depuis MongoDB
cleaned_data = import_from_mongodb('contracts_cleaned_data')

# Convertir en DataFrame Pandas
df = pd.DataFrame(cleaned_data)

# Afficher les 5 premières lignes pour vérifier
print(df.head())


##  Distribution des valeurs numériques

In [None]:
plt.figure(figsize=(8, 5))
sns.histplot(df['Équilibre'], bins=20, kde=True)
plt.title("Distribution des soldes des contrats")
plt.xlabel("Équilibre")
plt.ylabel("Fréquence")
plt.show()


## Répartition des contrats vérifiés et non vérifiés

In [None]:
plt.figure(figsize=(6, 6))
df['Vérifié'].value_counts().plot.pie(autopct='%1.1f%%', startangle=90, cmap='coolwarm')
plt.title("Répartition des contrats vérifiés et non vérifiés")
plt.ylabel("")
plt.show()


## Boxplot pour détecter les valeurs aberrantes

In [None]:
plt.figure(figsize=(8, 5))
sns.boxplot(x=df['Équilibre'])
plt.title("Détection des valeurs aberrantes dans les soldes des contrats")
plt.show()


## Automatiser le Pipeline

In [None]:
import requests
import pandas as pd
from datetime import datetime
from pymongo import MongoClient
from bs4 import BeautifulSoup

def connect_to_mongodb():
    """Établit une connexion à MongoDB."""
    connection_string = "mongodb+srv://nasrhamza:drgzquMCEexvUYVV@cluster0.6pqb0.mongodb.net/"
    client = MongoClient(connection_string)
    return client.due_diligence

def fetch_etherscan_data(page_url):
    """Récupère les transactions depuis Etherscan."""
    headers = {"User-Agent": "Mozilla/5.0"}
    response = requests.get(page_url, headers=headers)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        contracts = []
        rows = soup.find_all('tr')
        for row in rows[1:]:
            cols = row.find_all('td')
            if len(cols) > 1:
                contracts.append({
                    "Adresse": cols[0].text.strip(),
                    "Nom": cols[1].text.strip(),
                    "Version": cols[3].text.strip(),
                    "Équilibre": cols[4].text.strip(),
                    "Vérifié": cols[5].text.strip(),
                    "Date_Extraction": datetime.now()
                })
        return contracts
    else:
        return []

def export_to_mongodb(db, data, collection_name):
    """Exporte des données vers MongoDB."""
    collection = db[collection_name]
    if isinstance(data, list):
        collection.insert_many(data)
    else:
        collection.insert_one(data)

def clean_data(db):
    """Nettoie les données récupérées depuis MongoDB."""
    raw_data = list(db.transactions_raw.find())
    df = pd.DataFrame(raw_data)
    df = df.drop(columns=['_id'], errors='ignore')
    df = df.dropna()
    df["Équilibre"] = pd.to_numeric(df["Équilibre"], errors='coerce')
    cleaned_data = df.to_dict(orient='records')
    return cleaned_data

def main():
    db = connect_to_mongodb()
    etherscan_url = "https://etherscan.io/contractsVerified"
    data = fetch_etherscan_data(etherscan_url)
    export_to_mongodb(db, data, 'transactions_raw')
    cleaned_data = clean_data(db)
    export_to_mongodb(db, cleaned_data, 'transactions_cleaned')
    print("Pipeline exécuté avec succès !")

if __name__ == "__main__":
    main()
