MODELE PREDICTIVE DE L'INDICE DE LA CAPACITÉ DE GESTION DES ENTREPRISES DANS LES PAYS EN DÉVELOPPEMENT

Installation des librairies

In [5]:
## Importation des Bibliothéques requises
import streamlit as st
import pandas as pd
import numpy as np
import seaborn as sns
import pickle 
import sklearn
from sklearn.preprocessing import LabelEncoder
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression

Importation des données d'enquête sur les entreprises informelles des pays en développement

In [6]:
# Importation des données Chemin vers votre fichier .dta
url = "https://drive.usercontent.google.com/download?id=1qR3U2HQ6R_KMMp8J21b-B23RnXqQ2ELs&export=download"
df = pd.read_stata(url)
# Description des données
df.describe()
df.info()
# Encodage de la variable 'Pays'
label_encoder=LabelEncoder()
df['Country_Encoded'] = label_encoder.fit_transform(df['country'])

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14957 entries, 0 to 14956
Data columns (total 11 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   country  14957 non-null  object 
 1   dem2     14957 non-null  int8   
 2   dem6     14957 non-null  int16  
 3   dem7     14957 non-null  int8   
 4   wf1      14957 non-null  int16  
 5   ge1      14957 non-null  int8   
 6   op1      14957 non-null  int8   
 7   op9      14957 non-null  int16  
 8   mg1      14957 non-null  float64
 9   tech2    14957 non-null  int8   
 10  tech3    14957 non-null  int8   
dtypes: float64(1), int16(3), int8(6), object(1)
memory usage: 409.1+ KB


Entraînement du modèle

In [7]:
def train_management_index_prediction_model():

    X= df[['Country_Encoded','dem2','dem6','dem7','wf1','ge1','op1','op9','tech2','tech3']]
    y = df['mg1'] 
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    model = LinearRegression()
    model.fit(X_train, y_train)
    return model

Sauvegarde du modèle simulé

In [8]:
# Sauvegarder le modèle simulé
model = train_management_index_prediction_model()
pickle.dump(model, open('modèle de prédiction de la capacité de gestion des entreprises.pkl', 'wb'))
# --- 2. Fonction de prédiction ---
def predict_workers(Country_Encoded,dem2,dem6,dem7,wf1,ge1,op1,op9,tech2,tech3):
    input_data = np.array([[Country_Encoded,dem2,dem6,dem7,wf1,ge1,op1,op9,tech2,tech3]])
    prediction = model.predict(input_data)
    return max(0, int(round(prediction[0]))) # S'assurer que la prédiction n'est pas négative

Interface Streamlit

In [9]:
# --- 3. Interface Streamlit ---
st.title("Prédiction de l'indice de la capacité de gestion de l'entreprise")

st.subheader("Veuillez entrer les caractéristiques de l'entreprise :")
# Liste déroulante pour le pays
pays_options = df['country'].unique()
pays_choisi = st.selectbox("Pays d'appartenance de l'entreprise", pays_options)
country_encode = label_encoder.transform([pays_choisi])[0]
# Input pour le niveau d'étude secondaire
dem2 = st.slider("Niveau d'étude secondaire du propriétaire principal (0=Non, 100=Oui)", 0, 100, 100, step=100)
# Input pour l'âge de l'entreprise
dem6 = st.number_input("Âge de l'entreprise", min_value=0, step=1, value=5)
# Input pour l'âge moyen des propriétaires
dem7 = st.number_input("Âge du propriétaire ou âge moyen des propriétaires", min_value=0, step=1, value=40)
# Input pour le nombre moyen d'employés
wf1 = st.number_input("Nombre moyen d'employés", min_value=0, step=1, value=2)
# Input pour le sexe féminin des propriétaires
ge1 = st.slider("Le sexe du proprétaire ou des propriétaires principales est féminin (0=Non, 100=Oui)", 0, 100, 0, step=100)
# Input pour l'enregistrement de profit
op1 = st.slider("Les entreprises enregistrant un profit le mois passé (0=Non, 100=Oui)", 0, 100, 100, step=100)
# Input pour le nombre moyen d'heures d'ouverture
op9= st.number_input("Nombre moyen d'heures d'ouverture dans la semaine", min_value=0, step=1, value=40)
# Input pour l'utilisation du mobile money
tech2= st.slider("Les entreprises utilisant le mobile money (0=Non, 100=Oui)", 0, 100, 100, step=100)
# Input pour l'utilisation d'un ordinateur/tablette
tech3= st.slider("Les entreprises utilisant un ordinateur/tablette (0=Non, 100=Oui)", 0, 100, 0, step=100)
# Bouton de prédiction
if st.button("Prédire l'Indice de Gestion"):
    input_data = pd.DataFrame({
        'Pays_Encoded': [pays_encode],
        'dem2': [secondaire],
        'dem6': [age_entreprise],
        'dem7': [age_proprietaire],
        'wf1': [nb_employes],
        'ge1': [sexe_feminin],
        'op1': [profit],
        'op9': [heures_ouverture],
        'tech2': [mobile_money],
        'tech3': [ordinateur]
    })
    prediction = model.predict(input_data)
    st.subheader(f"L'indice de capacité de gestion prédit est : {prediction[0]:.2f}")

st.caption("Ceci est un modèle de prédiction basé sur les données fournies.")




2025-05-17 20:03:55.989 
  command:

    streamlit run c:\Users\User\Documents\Zoom\Candidature 2025\Formation Sorbonne Data Analytics\Introduction to Python\Projet python\.venv\Lib\site-packages\ipykernel_launcher.py [ARGUMENTS]
2025-05-17 20:03:56.132 Session state does not function when running a script without `streamlit run`


DeltaGenerator()