In [23]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error, r2_score
from xgboost import XGBRegressor
import pickle

# Étape 1.1 : Chargement des données
#from google.colab import files

data = pd.read_csv("C:\\Users\\PC\\Desktop\\application\\avocado.csv")

# Étape 1.2 : Suppression des colonnes inutiles
data = data.drop(columns=["Unnamed: 0", "Total Volume", "Total Bags"])

# Étape 1.3 : Renommage des colonnes
data = data.rename(columns={
    "4046": "Quality1",
    "4225": "Quality2",
    "4770": "Quality3"
})

# Étape 1.4 : Conversion des dates
data['Date'] = pd.to_datetime(data['Date'])

# Étape 1.5 : Vérification des données
print("Valeurs manquantes :\n", data.isnull().sum())
print("\nDoublons :", data.duplicated().sum())

# Suppression des doublons si nécessaire
data = data.drop_duplicates()

# Affichage des premières lignes pour vérification
print("\nAperçu des données :")
print(data.head())


Valeurs manquantes :
 Date            0
AveragePrice    0
Quality1        0
Quality2        0
Quality3        0
Small Bags      0
Large Bags      0
XLarge Bags     0
type            0
year            0
region          0
dtype: int64

Doublons : 0

Aperçu des données :
        Date  AveragePrice  Quality1   Quality2  Quality3  Small Bags  \
0 2015-12-27          1.33   1036.74   54454.85     48.16     8603.62   
1 2015-12-20          1.35    674.28   44638.81     58.33     9408.07   
2 2015-12-13          0.93    794.70  109149.67    130.50     8042.21   
3 2015-12-06          1.08   1132.00   71976.41     72.58     5677.40   
4 2015-11-29          1.28    941.48   43838.39     75.78     5986.26   

   Large Bags  XLarge Bags          type  year  region  
0       93.25          0.0  conventional  2015  Albany  
1       97.49          0.0  conventional  2015  Albany  
2      103.14          0.0  conventional  2015  Albany  
3      133.76          0.0  conventional  2015  Albany  
4      

In [24]:
# Étape 2.1 : Séparation des colonnes
numerical_features = ["Quality1", "Quality2", "Quality3", "Small Bags", "Large Bags", "XLarge Bags", "year"]
categorical_features = ["type", "region"]

# Séparation des variables indépendantes (X) et dépendante (y)
X = data.drop(columns=["AveragePrice", "Date"])  # Retirer la cible et la date
y = data["AveragePrice"]

# Étape 2.2 : Préparation du préprocesseur
# Standardisation des données numériques
num_transformer = StandardScaler()

# Encodage des variables catégoriques
cat_transformer = OneHotEncoder(handle_unknown='ignore')

# Combinaison des transformations
preprocessor = ColumnTransformer([
    ("num", num_transformer, numerical_features),
    ("cat", cat_transformer, categorical_features)
])

# Vérification de la structure des colonnes après transformation
print("\nColonnes numériques :", numerical_features)
print("Colonnes catégoriques :", categorical_features)



Colonnes numériques : ['Quality1', 'Quality2', 'Quality3', 'Small Bags', 'Large Bags', 'XLarge Bags', 'year']
Colonnes catégoriques : ['type', 'region']


In [25]:
# Étape 3.1 : Création du pipeline
pipeline = Pipeline([
    ("preprocessor", preprocessor),  # Prétraitement
    ("regressor", XGBRegressor())    # Modèle XGBoost
])

# Étape 3.2 : Division des données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Étape 3.3 : Entraînement du modèle
pipeline.fit(X_train, y_train)

print("\nModèle entraîné avec succès !")



Modèle entraîné avec succès !


In [42]:
from sklearn.ensemble import RandomForestRegressor

# Étape 3.1 : Création du pipeline avec RandomForest
pipeline = Pipeline([
    ("preprocessor", preprocessor),  # Prétraitement
    ("regressor", RandomForestRegressor())  # Modèle RandomForest
])

# Réentraîner le modèle
pipeline.fit(X_train, y_train)

# Étape 4.1 : Évaluation des performances
y_pred = pipeline.predict(X_test)

# Calcul des métriques
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print("\n### Évaluation du Modèle ###")
print(f"RMSE (Root Mean Squared Error) : {rmse:.2f}")
print(f"R² (Coefficient de Détermination) : {r2:.2f}")

# Étape 4.2 : Sauvegarde du modèle
with open("avocado_price_predictor_rf.pkl", "wb") as f:
    pickle.dump(pipeline, f)
print("\nModèle sauvegardé sous 'avocado_price_predictor_rf.pkl'.")


KeyboardInterrupt: 

In [41]:
from flask import Flask, request, render_template_string
from flask_ngrok import run_with_ngrok
import pandas as pd
import pickle

# Initialiser l'application Flask
app = Flask(__name__)
run_with_ngrok(app)  # Ajoute un tunnel ngrok pour une URL publique

# Charger le modèle entraîné (assurez-vous que votre modèle est téléchargé dans Colab)
with open("avocado_price_predictor.pkl", "rb") as f:
    model = pickle.load(f)

# Page HTML pour le formulaire
html_form = """
<!DOCTYPE html>
<html lang="fr">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Prédiction du Prix des Avocats</title>
    <style>
        body { font-family: Arial, sans-serif; margin: 20px; background-color: #f9f9f9; }
        h1 { text-align: center; color: #ff6600; }
        form { max-width: 500px; margin: auto; background: white; padding: 20px; border-radius: 8px; box-shadow: 0 4px 6px rgba(0, 0, 0, 0.1); }
        label { display: block; margin: 10px 0 5px; font-weight: bold; }
        input, select { width: 100%; padding: 8px; margin-bottom: 15px; border: 1px solid #ccc; border-radius: 4px; }
        button { background-color: #ff6600; color: white; border: none; padding: 10px; width: 100%; border-radius: 5px; font-size: 16px; cursor: pointer; }
        button:hover { background-color: #cc5200; }
        #result { text-align: center; margin-top: 20px; font-size: 20px; color: green; }
    </style>
</head>
<body>
    <h1>Prédiction du Prix des Avocats</h1>
    <form action="/predict" method="post">
        <label>Date :</label>
        <input type="date" name="date" required>

        <label>Qualité 1 :</label>
        <input type="number" step="0.01" name="quality1" required>

        <label>Qualité 2 :</label>
        <input type="number" step="0.01" name="quality2" required>

        <label>Qualité 3 :</label>
        <input type="number" step="0.01" name="quality3" required>

        <label>Small Bags :</label>
        <input type="number" step="0.01" name="small_bags" required>

        <label>Large Bags :</label>
        <input type="number" step="0.01" name="large_bags" required>

        <label>XLarge Bags :</label>
        <input type="number" step="0.01" name="xlarge_bags" required>

        <label>Année :</label>
        <input type="number" name="year" required>

        <label>Type :</label>
        <select name="type" required>
            <option value="conventional">Conventional</option>
            <option value="organic">Organic</option>
        </select>

        <label>Région :</label>
        <input type="text" name="region" required>

        <button type="submit">Prédire</button>
    </form>
    <div id="result">{{ prediction }}</div>
</body>
</html>
"""

# Route principale pour afficher le formulaire
@app.route('/')
def home():
    return render_template_string(html_form)

# Route pour la prédiction
@app.route('/predict', methods=['POST'])
def predict():
    # Récupérer les données du formulaire
    data = {
        "Date": [request.form['date']],
        "Quality1": [float(request.form['quality1'])],
        "Quality2": [float(request.form['quality2'])],
        "Quality3": [float(request.form['quality3'])],
        "Small Bags": [float(request.form['small_bags'])],
        "Large Bags": [float(request.form['large_bags'])],
        "XLarge Bags": [float(request.form['xlarge_bags'])],
        "year": [int(request.form['year'])],
        "type": [request.form['type']],
        "region": [request.form['region']]
    }
    # Créer un DataFrame pour la prédiction
    df = pd.DataFrame(data)

    # Prédiction avec le modèle
    prediction = model.predict(df)

    # Retourner le résultat dans le formulaire
    return render_template_string(html_form, prediction=f"Prix prédit : {round(prediction[0], 2)} USD")

# Lancer le serveur Flask
app.run()


FileNotFoundError: [Errno 2] No such file or directory: 'avocado_price_predictor.pkl'

In [38]:
!pip install flask-ngrok





[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: C:\Users\PC\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.10_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip
