In [None]:
import pandas as pd

df = pd.read_excel("Sample - Superstore.xls")

# **Analyse des données**

On vérifie préalablement s'il y a des valeurs manquantes dans le datframe, auquel cas, on pourrait remplacer les NaN par 0. On utilise les fonctions "isnull()" pour savoir s'il y a des NaN et "sum()", pour compter ces NaN, s'ils existent.

In [22]:
verif = df.isnull().sum()

print(verif)

Row ID           0
Order ID         0
Order Date       0
Ship Date        0
Ship Mode        0
Customer ID      0
Customer Name    0
Segment          0
Country          0
City             0
State            0
Postal Code      0
Region           0
Product ID       0
Category         0
Sub-Category     0
Product Name     0
Sales            0
Quantity         0
Discount         0
Profit           0
dtype: int64


Utilisation de la fonction "describe()" afin d'avoir une première visualisation des données

In [20]:
df.describe()

Unnamed: 0,Row ID,Order Date,Ship Date,Postal Code,Sales,Quantity,Discount,Profit
count,9994.0,9994,9994,9994.0,9994.0,9994.0,9994.0,9994.0
mean,4997.5,2016-04-30 00:07:12.259355648,2016-05-03 23:06:58.571142912,55190.379428,229.858001,3.789574,0.156203,28.656896
min,1.0,2014-01-03 00:00:00,2014-01-07 00:00:00,1040.0,0.444,1.0,0.0,-6599.978
25%,2499.25,2015-05-23 00:00:00,2015-05-27 00:00:00,23223.0,17.28,2.0,0.0,1.72875
50%,4997.5,2016-06-26 00:00:00,2016-06-29 00:00:00,56430.5,54.49,3.0,0.2,8.6665
75%,7495.75,2017-05-14 00:00:00,2017-05-18 00:00:00,90008.0,209.94,5.0,0.2,29.364
max,9994.0,2017-12-30 00:00:00,2018-01-05 00:00:00,99301.0,22638.48,14.0,0.8,8399.976
std,2885.163629,,,32063.69335,623.245101,2.22511,0.206452,234.260108


# **Utilisation des KPI (Key Performance Indicators)**

On va utiliser différents KPI pour évaluer la performance des activités de l'entreprise, à partir du datframe fourni. On va principalement étudier les colonnes "Sales", "Quantity", "Profit", dans un premier temps. Puis dans un second temps, on étudiera les liens entres les ventes de l'entreprises et les régions de ventes, les délais de livraisons...

On analyse ici seulement la colonne Sales.
On utilise des KPI de base, avec la fonction "mean()", qui calcule la moyenne des ventes, la fonction "sum()", qui calcule la somme totale des ventes, les fonctions "min()" / "max()", la médiane avec "median()" et l'étendue.

Affiche le nombre de client de manière unique

In [39]:
nb_clients = df["Customer ID"].nunique()

print(nb_clients)

793


In [28]:
# analyse de la colonne Sales

sa_mean = df["Sales"].mean() # moyenne de toutes les lignes de ventes
sa_sum = df["Sales"].sum()
sa_max = df["Sales"].max()
sa_min = df["Sales"].min()
etendue = sa_max - sa_min
sa_median = df["Sales"].median()

print(sa_mean)
print(sa_sum)
print(sa_max)
print(sa_min)
print(etendue)
print(sa_median)

229.85800083049833
2297200.8603000003
22638.48
0.44399999999999995
22638.036
54.489999999999995


Même analyse, cette fois pour la colonne Quantity

In [29]:
# analyse de la colonne Quantity

qtt_mean = df["Quantity"].mean()
qtt_sum = df["Quantity"].sum()
qtt_max = df["Quantity"].max()
qtt_min = df["Quantity"].min()
etendue = qtt_max - qtt_min
qtt_median = df["Quantity"].median()

print(qtt_mean)
print(qtt_sum)
print(qtt_max)
print(qtt_min)
print(etendue)
print(qtt_median)

3.789573744246548
37873
14
1
13
3.0


Analyse du profit total, du nombre total de commandes avec la fonction "nunique()".

In [32]:
total_pro = df["Profit"].sum()

print(total_pro)

total_cmd = df["Order ID"].nunique()

print(total_cmd)

286397.0216999999
5009


# **KPI avec la fonction "groupby"**

On affiche le ticket moyen d'un client avec les fonctions "sum()" et "mean()", après avoir sélectionné les colonnes Order ID et Sales

In [35]:
ticket_moy = df.groupby("Order ID")["Sales"].sum().mean() # moyenne par client

print(ticket_moy)

458.61466566180883


On affiche la somme des ventes par régions. Cela permet une première analyse sur les secteurs les plus rentables, notamment la côte West.

In [44]:
sa_reg = df.groupby("Region")["Sales"].sum()

print(sa_reg)

Region
Central    501239.8908
East       678781.2400
South      391721.9050
West       725457.8245
Name: Sales, dtype: float64


Affiche les ventes par état

In [46]:
sa_st = df.groupby("State")["Sales"].sum()

print(sa_st)

State
Alabama                  19510.6400
Arizona                  35282.0010
Arkansas                 11678.1300
California              457687.6315
Colorado                 32108.1180
Connecticut              13384.3570
Delaware                 27451.0690
District of Columbia      2865.0200
Florida                  89473.7080
Georgia                  49095.8400
Idaho                     4382.4860
Illinois                 80166.1010
Indiana                  53555.3600
Iowa                      4579.7600
Kansas                    2914.3100
Kentucky                 36591.7500
Louisiana                 9217.0300
Maine                     1270.5300
Maryland                 23705.5230
Massachusetts            28634.4340
Michigan                 76269.6140
Minnesota                29863.1500
Mississippi              10771.3400
Missouri                 22205.1500
Montana                   5589.3520
Nebraska                  7464.9300
Nevada                   16729.1020
New Hampshire         

Affiche le pourcentage de ventes des états, par rapport à la vente totale. On utilise la fonction "value_counts()" afin d'avoir un pourcentage.

In [50]:
sa_freq = df["State"].value_counts(normalize=True) * 100
sa_freq = sa_freq.round(2)

print(sa_freq)


State
California              20.02
New York                11.29
Texas                    9.86
Pennsylvania             5.87
Washington               5.06
Illinois                 4.92
Ohio                     4.69
Florida                  3.83
Michigan                 2.55
North Carolina           2.49
Arizona                  2.24
Virginia                 2.24
Georgia                  1.84
Tennessee                1.83
Colorado                 1.82
Indiana                  1.49
Kentucky                 1.39
Massachusetts            1.35
New Jersey               1.30
Oregon                   1.24
Wisconsin                1.10
Maryland                 1.05
Delaware                 0.96
Minnesota                0.89
Connecticut              0.82
Missouri                 0.66
Oklahoma                 0.66
Alabama                  0.61
Arkansas                 0.60
Rhode Island             0.56
Utah                     0.53
Mississippi              0.53
South Carolina           0.42
Loui

Affiche la fréquence d'apparition de chaque catégorie

In [51]:
cat_freq = df["Category"].value_counts()

print(cat_freq)

Category
Office Supplies    6026
Furniture          2121
Technology         1847
Name: count, dtype: int64


Affiche les villes avec les plus de ventes (les 10 premières)

In [59]:
top_vil = df.groupby("City")["Sales"].sum().sort_values(ascending=False).head(10)

print(top_vil)

City
New York City    256368.1610
Los Angeles      175851.3410
Seattle          119540.7420
San Francisco    112669.0920
Philadelphia     109077.0130
Houston           64504.7604
Chicago           48539.5410
San Diego         47521.0290
Jacksonville      44713.1830
Springfield       43054.3420
Name: Sales, dtype: float64


Affiche True / False si la ville fait partie de la partie West

In [62]:
vil_top = top_vil.index.tolist()
df_top_vil = df[df["City"].isin(vil_top)]
reg_vil = df_top_vil.groupby("City")["Region"].agg(lambda x: x.mode()[0])
west = reg_vil == "West"

print(west)

City
Chicago          False
Houston          False
Jacksonville     False
Los Angeles       True
New York City    False
Philadelphia     False
San Diego         True
San Francisco     True
Seattle           True
Springfield      False
Name: Region, dtype: bool


Affiche le nombre moyen d'article par commandes

In [64]:
nb_art_cmd = df.groupby("Order ID")["Quantity"].sum().mean()

print(nb_art_cmd)

7.560990217608305


Affiche le temps moyen de livraison en utilisant les fonctions "todatetime()", qui permet de s'arrurer que les dates sont au bon format, et "dt.days", qui permet de créer une colonne pour les temps de livraison.

In [66]:
df["Order Date"] = pd.to_datetime(df["Order Date"])
df["Ship Date"] = pd.to_datetime(df["Ship Date"])
df["Delivery Time"] = (df["Ship Date"] - df["Order Date"]).dt.days
a = df["Delivery Time"].mean()

print(a)

3.958174904942966


Affiche le délais moyen de livraison par région, on réalise le même code que précédement et on utilise groupby pour trier.

In [67]:
df["Order Date"] = pd.to_datetime(df["Order Date"])
df["Ship Date"] = pd.to_datetime(df["Ship Date"])
df["Delivery_Time"] = (df["Ship Date"] - df["Order Date"]).dt.days
b = df.groupby("Region")["Delivery_Time"].mean().round(2)

print(b)


Region
Central    4.06
East       3.91
South      3.96
West       3.93
Name: Delivery_Time, dtype: float64


Affiche le délais de livraison moyen pour chaque état

In [75]:
df["Order Date"] = pd.to_datetime(df["Order Date"])
df["Ship Date"] = pd.to_datetime(df["Ship Date"])
df["Delivery_Time"] = (df["Ship Date"] - df["Order Date"]).dt.days
dlvr_city = df.groupby("State")["Delivery_Time"].mean().round(2)

print(dlvr_city.sort_values())

State
North Dakota            2.86
West Virginia           3.00
Louisiana               3.05
Rhode Island            3.25
Ohio                    3.45
Nebraska                3.50
Connecticut             3.60
South Carolina          3.60
Idaho                   3.67
Colorado                3.68
New Hampshire           3.70
Virginia                3.84
Georgia                 3.84
Kentucky                3.86
Massachusetts           3.87
California              3.87
Pennsylvania            3.88
Vermont                 3.91
Texas                   3.93
Florida                 3.95
Kansas                  3.96
Washington              3.97
North Carolina          4.00
Wisconsin               4.00
Maryland                4.02
New York                4.06
Arizona                 4.07
Missouri                4.08
Michigan                4.10
Alabama                 4.11
Illinois                4.12
Arkansas                4.13
Mississippi             4.21
Delaware                4.27
Oregon  