In [None]:

# Installer les bibliothèques nécessaires (exécuter une seule fois)
!pip install pandas matplotlib seaborn scikit-learn openpyxl


In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.preprocessing import LabelEncoder
import numpy as np


In [None]:

# Charger le fichier CSV
file_path = "C:/Users/zineb/Downloads/test_technique_datascientist/telecom_sales_data.csv"
data = pd.read_csv(file_path)

# Vérification des données importées
print("Aperçu des données :")
print(data.head())


In [None]:

# Nettoyage des données ---
print("Valeurs manquantes avant nettoyage :")
print(data.isnull().sum())

# Remplir les valeurs numériques manquantes avec la moyenne
columns_to_fill_mean = ['marketing_score', 'competition_index', 'customer_satisfaction', 
                        'purchasing_power_index', 'store_traffic']
data[columns_to_fill_mean] = data[columns_to_fill_mean].fillna(data[columns_to_fill_mean].mean())

# Remplir les valeurs catégoriques manquantes avec la modalité la plus fréquente
columns_to_fill_mode = ['weather_condition', 'tech_event', '5g_phase', 'public_transport']
for col in columns_to_fill_mode:
    data[col] = data[col].fillna(data[col].mode()[0])

# Supprimer les lignes avec des valeurs critiques manquantes dans les colonnes des revenus
data = data.dropna(subset=['jPhone_Pro_revenue', 'Kaggle_Pixel_5_revenue', 'Planet_SX_revenue'])

# Convertir la colonne des dates en type datetime
if 'date' in data.columns:
    data['date'] = pd.to_datetime(data['date'])

# Vérifier les valeurs manquantes après nettoyage
print("\nValeurs manquantes après nettoyage :")
print(data.isnull().sum())


In [None]:

# Statistiques descriptives pour les revenus des 3 modèles de smartphones
print("\nStatistiques descriptives des revenus :")
desc_stats = data[['jPhone_Pro_revenue', 'Kaggle_Pixel_5_revenue', 'Planet_SX_revenue']].describe()
print(desc_stats)


In [None]:

# Visualisation des revenus journaliers ---
revenues = data[['jPhone_Pro_revenue', 'Kaggle_Pixel_5_revenue', 'Planet_SX_revenue']]

plt.figure(figsize=(14, 7))
revenues.plot(title="Revenus Journaliers des Smartphones")
plt.ylabel("Revenus (€)")
plt.xlabel("Index")
plt.grid(True)
plt.show()


In [None]:

# Calcul des corrélations
correlation_matrix = data[['jPhone_Pro_revenue', 'Kaggle_Pixel_5_revenue', 'Planet_SX_revenue',
                           'marketing_score', 'competition_index', 'customer_satisfaction',
                           'purchasing_power_index', 'store_traffic']].corr()

# Visualisation des corrélations avec une heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", cbar=True)
plt.title("Corrélations entre les revenus et les variables exogènes")
plt.show()


In [None]:

# Analyse locale par ville
city_revenue = data.groupby('city')[['jPhone_Pro_revenue', 'Kaggle_Pixel_5_revenue', 'Planet_SX_revenue']].mean()
city_revenue = city_revenue.sort_values(by='jPhone_Pro_revenue', ascending=False)

plt.figure(figsize=(16, 8))
city_revenue.plot(kind='bar', figsize=(16, 8), grid=True)
plt.title("Revenus Moyens par Ville et Modèle de Smartphone", fontsize=16)
plt.ylabel("Revenus Moyens (€)")
plt.xlabel("Ville")
plt.xticks(rotation=45, fontsize=10)
plt.legend(title="Modèles", fontsize=10)
plt.show()
