
Exercises XP Gold

Last Updated: October 16th, 2024

👩‍🏫 👩🏿‍🏫 What You’ll learn

    Perform a comparative analysis of structured and unstructured retail data.
    Understand the processing and analysis of structured and unstructured healthcare data.
    Gain familiarity with structured data through basic exploration.
    Understand the challenges of working with unstructured data and identify structured elements in a public transportation dataset.
    Generate a synthetic product catalog for an e-commerce platform using Faker.


🛠️ What you will create

    A comparative analysis document discussing the insights from structured and unstructured retail data and the challenges in processing them.
    Identification of structured data elements within the E-Commerce dataset.
    Categorization of data elements in the dataset as structured or unstructured with justifications.
    A Python script using Faker to generate a synthetic product catalog for an e-commerce platform.


Exercise 1: Comparative Analysis of Retail Data

Dataset: Use the Retail Dataset for structured data and Women’s E-Commerce Clothing Reviews for unstructured data.

    Analyze the Retail Dataset focusing on sales trends, customer purchase patterns, and store performance.
    Analyze the Clothing Reviews dataset to extract insights like predominant sentiments, frequently mentioned topics, and overall customer satisfaction.
    Compare the insights you can derive from each dataset and discuss the challenges you faced in processing the unstructured data.


Exercise 2: Basic Data Exploration in E-Commerce

Dataset: Use the “E-Commerce Data” dataset.

    Load the dataset using Pandas and print the first few rows to understand its structure.
    Print basic information about the dataset, like the number of rows, columns, and column names.
    Identify which columns in the dataset represent structured data (like numerical values, dates, fixed categories).
    Suggest what type of unstructured data could complement this dataset for a more comprehensive analysis (e.g., customer reviews, product descriptions).
    Discuss how this unstructured data might be used in conjunction with the structured data.


Exercise 3: Analyzing a Public Transportation Dataset with a Focus on Data Types

Dataset: Use the “Metro Interstate Traffic Volume” dataset.

    Load the dataset and display the first few rows to get a sense of the data.
    Identify and print the structured elements in the dataset, such as date-time, traffic volume, etc.
    Based on your observation of the dataset, categorize the data elements as structured or unstructured. For example, consider elements like weather descriptions, date-time, and traffic volume. Explain why you categorized them as such.


Exercise 4: Basic Data Analysis in a Movie Ratings Dataset

Dataset: Use the “MovieLens Latest Datasets”.

    Load the ‘ratings.csv’ file from the dataset, which contains user ratings for movies, and display the first few rows.
    Identify and list down the structured elements in the dataset, such as user IDs, movie IDs, ratings, and timestamps.
    Explain why the data elements in the ‘ratings.csv’ file are considered structured data.


Exercise 5: Creating a Synthetic Product Catalog

We want to generate a synthetic product catalog for an e-commerce platform using Faker.

    Ensure that the Faker library is installed and imported into your Python environment.
    Create a dataset of 500 products. Each product should have a unique ID, name, description, and price.
    Use Pandas to create a DataFrame from the generated data.


In [None]:
import pandas as pd

features = pd.read_csv("Features data set.csv")
sales = pd.read_csv("sales data-set.csv")
stores = pd.read_csv("stores data-set.csv")

# merge de base pour avoir toutes les infos
df = sales.merge(stores, on="Store").merge(features, on=["Store", "Date"])

# convertir date pour regroupement
df["Date"] = pd.to_datetime(df["Date"])
df["month"] = df["Date"].dt.month

# total ventes par mois
monthly_sales = df.groupby("month")["Weekly_Sales"].sum()
print(monthly_sales)

# meilleur magasin
top_stores = df.groupby("Store")["Weekly_Sales"].sum().sort_values(ascending=False)
print(top_stores.head())

# Womens Clothing Reviews
df_reviews = pd.read_csv("Womens Clothing E-Commerce Reviews.csv")

# verifier colonnes utiles
print(df_reviews[["Rating", "Title", "Review Text"]].head())

# moyenne des notes
print("note moyenne :", df_reviews["Rating"].mean())

# review
print(df_reviews["Review Text"].dropna().head(3))

Donnees Retail
Fichiers :

    Features data set.csv

    sales data-set.csv

    stores data-set.csv

Possibilites :

    Donnees organisees en colonnes et lignes (structurees)

    Facile de trier, filtrer, regrouper

    Analyse claire des ventes par semaine, par magasin, etc.

    On peut voir quels magasins vendent le plus, ou quand les ventes augmentent

Avantages :

    Simple a charger avec Pandas

    Les colonnes ont des noms explicites

    Donnees deja pretes pour l'analyse

Difficulte :

    Les 3 fichiers doivent etre fusionnes sur plusieurs cles (ex: Store + Date)

    Ca peut etre complique au debut si les noms de colonnes ne sont pas exactement les memes

Donnees Reviews

Fichier :

    Womens Clothing E-Commerce Reviews.csv

Possibilites :

    Texte libre donc plus difficile a exploiter directement

    Quelques colonnes structurees (ex: Rating, Age, Department Name)

    On peut lire les avis et voir la note moyenne

Avantages :

    Infos qualitatives sur l'experience client

    Donnees reelles avec langage naturel

Difficulte :

    Traitement du texte pas encore vu (pas de NLP)

    Pas possible d'analyser les sentiments automatiquement

    Certains avis contiennent de l'ironie ou du sarcasme, donc interpretation delicate

    Nettoyage manuel si on veut extraire des infos

Comparaison :

    Retail = structure, rapide a traiter

    Reviews = non structure, riche mais plus difficile

    Plus simple de tirer des tendances claires sur les ventes que sur les emotions des clients

In [None]:

# Chargement du fichier
df = pd.read_csv("data.csv", encoding="ISO-8859-1")

# affichage des 5 premieres lignes
print(df.head())

# affichage des infos generales
print(df.info())

# miste des colonnes
print(df.columns.tolist())

# types de donnees par colonne
print(df.dtypes)

J'ai charge le fichier data.csv contenant les ventes e-commerce.

Voici un aperçu des premieres lignes :
- Colonnes presentes : InvoiceNo, StockCode, Description, Quantity, InvoiceDate, UnitPrice, CustomerID, Country
- Total : 8 colonnes

Les donnees structurees sont :
- Quantity : valeur numerique
- InvoiceDate : date (à convertir)
- UnitPrice : valeur numerique
- CustomerID : identifiant numerique
- Country : categorie fixe
- StockCode : identifiant produit

Les donnees moins structurees sont :
- Description : texte libre
- InvoiceNo : semi-structure

Donnee non structuree à ajouter :
On pourrait ajouter :
- des avis clients
- des notes
- des descriptions produit completes
- ou des images des produits

Utilite :
Ces donnees pourraient etre croisees avec les donnees de vente :
- Pour analyser l'impact des avis sur les ventes
- Pour comprendre quels mots-cles dans les descriptions boostent les conversions
- Pour ameliorer la recommandation produit

In [None]:
import pandas as pd

df = pd.read_csv("Metro_Interstate_Traffic_Volume.csv")
print(df.head())
print(df.dtypes)

J'ai charge le fichier Metro_Interstate_Traffic_Volume.csv contenant les donnees de circulation.

Voici un apercu des premieres lignes :

    Colonnes presentes : date_time, traffic_volume, temp, rain_1h, snow_1h, clouds_all, holiday, weather_main, weather_description

    Total : 9 colonnes

Les donnees structurees sont :

    date_time : date au format texte pouvant etre convertie en datetime

    traffic_volume : valeur numerique (volume de circulation)

    temp : temperature, valeur numerique

    rain_1h : precipitation en mm, valeur numerique

    snow_1h : neige en mm, valeur numerique

    clouds_all : pourcentage de nuages, valeur numerique

    holiday : nom du jour ferie ou "None", peu de valeurs uniques

    weather_main : description courte du temps (ex : Clouds, Rain), valeurs repetees

Les donnees non structurees sont :

    weather_description : texte libre avec beaucoup de variations (ex : overcast clouds, light rain), necessite nettoyage

Donnee non structuree a ajouter :
On pourrait ajouter :

    des images de la circulation

    des tweets ou alertes trafic

    des logs de GPS ou capteurs

Utilite :
Ces donnees pourraient etre croisees avec les donnees structurees pour :

    mieux predire les pics de circulation

    comprendre l'impact de la meteo sur le trafic

    construire un modele de prediction ou de recommendation (trajet optimal, alertes)

In [2]:
import pandas as pd

df = pd.read_csv("rating.csv")
print(df.head())

   userId  movieId  rating            timestamp
0       1        2     3.5  2005-04-02 23:53:47
1       1       29     3.5  2005-04-02 23:31:16
2       1       32     3.5  2005-04-02 23:33:39
3       1       47     3.5  2005-04-02 23:32:07
4       1       50     3.5  2005-04-02 23:29:40


J'ai charge le fichier rating.csv contenant les notations de films.

Voici un apercu des premieres lignes :

    Colonnes presentes : userId, movieId, rating, timestamp

    Total : 4 colonnes

Les donnees structurees sont :

    userId : identifiant numerique de l'utilisateur

    movieId : identifiant numerique du film

    rating : valeur numerique (float), note entre 0.5 et 5

    timestamp : date de notation (a convertir)

Ces donnees sont structurees car elles ont un format regulier, sont faciles a trier, filtrer ou regrouper, et directement exploitables pour l'analyse.

Il n'y a pas de donnees non structurees dans ce fichier.

Donnee non structuree a ajouter :
On pourrait ajouter :

    des critiques texte

    des commentaires utilisateurs

    des mots-cles associes aux films

    ou des resumes de films

Utilite :
Ces donnees pourraient etre croisees avec les notes pour :

    comprendre le ressenti des utilisateurs

    ameliorer un systeme de recommandation

    relier certaines emotions ou mots au niveau de note

    analyser l'impact des resumes ou visuels sur les notes

In [3]:
from faker import Faker
import pandas as pd
import random
from faker_commerce import Provider

fake = Faker()
fake.add_provider(Provider)

products = []
for i in range(500):
    product = {
        'product_id': i + 1,
        'name': fake.unique.ecommerce_name(),
        'category': fake.ecommerce_category(),
        'description': fake.catch_phrase(),
        'price': round(random.uniform(5.0, 500.0), 2)
    }
    products.append(product)

df = pd.DataFrame(products)

print(df.head())

   product_id                     name category  \
0           1                     Soap    Music   
1           2      Practical Steel Car   Beauty   
2           3            Concrete Ball     Baby   
3           4               Soft Shoes    Music   
4           5  Ergonomic Granite Pizza     Kids   

                                 description   price  
0                 Intuitive dynamic protocol  443.74  
1                Inverse asymmetric firmware   40.32  
2  Re-contextualized zero tolerance forecast  154.83  
3               Intuitive multimedia synergy  138.78  
4        Secured demand-driven system engine   98.15  
