# Exercises XP Gold
Last Updated: October 16th, 2024

### 👩‍🏫 👩🏿‍🏫 What You’ll learn
Perform a comparative analysis of structured and unstructured retail data.
Understand the processing and analysis of structured and unstructured healthcare data.
Gain familiarity with structured data through basic exploration.
Understand the challenges of working with unstructured data and identify structured elements in a public transportation dataset.
Generate a synthetic product catalog for an e-commerce platform using Faker.


### 🛠️ What you will create
A comparative analysis document discussing the insights from structured and unstructured retail data and the challenges in processing them.
Identification of structured data elements within the E-Commerce dataset.
Categorization of data elements in the dataset as structured or unstructured with justifications.
A Python script using Faker to generate a synthetic product catalog for an e-commerce platform.

## Exercise 1: Comparative Analysis of Retail Data
Dataset: Use the Retail Dataset for structured data and Women’s E-Commerce Clothing Reviews for unstructured data.

Analyze the Retail Dataset focusing on sales trends, customer purchase patterns, and store performance.
Analyze the Clothing Reviews dataset to extract insights like predominant sentiments, frequently mentioned topics, and overall customer satisfaction.
Compare the insights you can derive from each dataset and discuss the challenges you faced in processing the unstructured data.

In [None]:
pip install pandas matplotlib textblob wordcloud

### 1. Analyse du Retail Dataset (données structurées)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Charger les données Retail
retail_df = pd.read_csv('RetailDataset.csv')

# Tendances des ventes par mois
retail_df['Date'] = pd.to_datetime(retail_df['Date'])
retail_df['Mois'] = retail_df['Date'].dt.to_period('M')
ventes_mensuelles = retail_df.groupby('Mois')['Sales'].sum()
ventes_mensuelles.plot(title='Ventes mensuelles')
plt.show()

# Comportement d’achat des clients
clients = retail_df.groupby('CustomerID')['Sales'].agg(['count', 'sum', 'mean'])
print(clients.head())

# Performance des magasins
magasins = retail_df.groupby('StoreID')['Sales'].sum().sort_values(ascending=False)
print(magasins.head())


### 2. Analyse des avis (données non structurées)

In [None]:
import pandas as pd
from textblob import TextBlob
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# Charger les données d’avis
reviews_df = pd.read_csv('Womens Clothing E-Commerce Reviews.csv')

# Analyse de sentiment
reviews_df['sentiment'] = reviews_df['Review Text'].dropna().apply(lambda x: TextBlob(x).sentiment.polarity)
print("Score moyen de sentiment :", reviews_df['sentiment'].mean())

# Nuage de mots des thèmes fréquents
text = ' '.join(reviews_df['Review Text'].dropna())
wordcloud = WordCloud(width=800, height=400).generate(text)
plt.figure(figsize=(10,5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

# Satisfaction client (note moyenne)
print("Satisfaction moyenne :", reviews_df['Rating'].mean())


### 3. Remarques sur les difficultés

(Pas de code, mais pour rappel : nettoyage du texte, gestion des valeurs manquantes, etc.)

## Exercise 2: Basic Data Exploration in E-Commerce
Dataset: Use the “E-Commerce Data” dataset.

Load the dataset using Pandas and print the first few rows to understand its structure.
Print basic information about the dataset, like the number of rows, columns, and column names.
Identify which columns in the dataset represent structured data (like numerical values, dates, fixed categories).
Suggest what type of unstructured data could complement this dataset for a more comprehensive analysis (e.g., customer reviews, product descriptions).
Discuss how this unstructured data might be used in conjunction with the structured data.

### 1. Charger le dataset et afficher les premières lignes

In [None]:
import pandas as pd

df = pd.read_csv('E-Commerce Data.csv')  # adapte le nom si besoin
print(df.head())


### 2. Afficher des infos de base sur le dataset

In [None]:
print("Nombre de lignes :", df.shape[0])
print("Nombre de colonnes :", df.shape[1])
print("Nom des colonnes :", df.columns.tolist())
print(df.info())


### 3. Identifier les colonnes structurées

Exemple typique (adapte selon ton dataset réel) :

Structurées : ID, Date, Prix, Quantité, Catégorie, Pays, etc.

Ce sont toutes les colonnes avec des valeurs numériques, des dates, ou des catégories fixes.

### 4. Exemple de données non structurées complémentaires

Avis clients (textes libres)

Descriptions produits

E-mails ou échanges SAV

Photos des produits

### 5. Utilité de ces données non structurées

Avis clients : Analyse de sentiment pour comprendre la satisfaction réelle, détecter des problèmes récurrents ou des tendances.

Descriptions produits : Extraire des caractéristiques non présentes dans les colonnes structurées (matière, couleur, style).

Photos : Analyse visuelle ou validation de conformité produit.

Combinaison : Croiser les avis négatifs/positifs avec les ventes, les retours, ou les catégories de produits pour identifier ce qui marche ou non.

## Exercise 3: Analyzing a Public Transportation Dataset with a Focus on Data Types
Dataset: Use the “Metro Interstate Traffic Volume” dataset.

Load the dataset and display the first few rows to get a sense of the data.
Identify and print the structured elements in the dataset, such as date-time, traffic volume, etc.
Based on your observation of the dataset, categorize the data elements as structured or unstructured. For example, consider elements like weather descriptions, date-time, and traffic volume. Explain why you categorized them as such.

### 1. Charger le dataset et afficher les premières lignes

In [None]:
import pandas as pd

df = pd.read_csv('Metro_Interstate_Traffic_Volume.csv')
print(df.head())


### 2. Identifier et afficher les éléments structurés

In [None]:
print("Colonnes du dataset :", df.columns.tolist())
print(df.info())


Exemples d’éléments structurés typiques :

date_time (horodatage, type date)

traffic_volume (valeur numérique)

temp, rain_1h, snow_1h, clouds_all (valeurs numériques)

holiday, weather_main (catégories/fixes)

### 3. Catégorisation des données

Élément	Type	Explication
date_time	Structuré	Format date/heure standard exploitable
traffic_volume	Structuré	Valeur numérique continue
temp, rain_1h, etc.	Structuré	Valeurs numériques ou catégories
holiday	Structuré	Valeur catégorielle (Oui/Non ou nom de jour férié)
weather_main	Structuré	Valeur catégorielle (ex : Clear, Clouds, Rain)
weather_description	Non structuré	Texte libre avec description détaillée (ex : "light rain", "scattered clouds")

Résumé :

Structurées : colonnes numériques, dates, catégories fixes (ex : traffic_volume, date_time, temp, holiday…).

Non structurée : colonne de description météo détaillée (“weather_description”), car c’est du texte libre.

Justification : Les données structurées sont faciles à filtrer, agréger et analyser automatiquement. Le texte libre (“weather_description”) nécessite du NLP pour être exploité correctement.

## Exercise 4: Basic Data Analysis in a Movie Ratings Dataset
Dataset: Use the “MovieLens Latest Datasets”.

Load the ‘ratings.csv’ file from the dataset, which contains user ratings for movies, and display the first few rows.
Identify and list down the structured elements in the dataset, such as user IDs, movie IDs, ratings, and timestamps.
Explain why the data elements in the ‘ratings.csv’ file are considered structured data.

### 1. Charger le fichier et afficher les premières lignes

In [None]:
import pandas as pd

df = pd.read_csv('ratings.csv')
print(df.head())


### 2. Identifier les éléments structurés

In [None]:
print("Colonnes :", df.columns.tolist())


Éléments structurés présents :

userId : identifiant utilisateur (nombre entier)

movieId : identifiant film (nombre entier)

rating : note attribuée (valeur numérique, souvent entre 0.5 et 5)

timestamp : date/heure du rating (valeur numérique ou datetime)

### 3. Pourquoi ces éléments sont structurés

Explication :

Chaque colonne contient un type de donnée défini et constant :

Identifiants (userId, movieId) : numériques, uniques, faciles à indexer.

rating : valeur numérique sur une échelle fixe, simple à agréger.

timestamp : date/heure, format standard, exploitable pour analyses temporelles.

Ce ne sont pas des textes libres ou des champs ouverts, mais des valeurs prédéfinies, organisées et facilement analysables par des outils informatiques (filtres, moyennes, regroupements, etc.).

Résumé :
Tous les éléments de ratings.csv sont structurés car ils utilisent des formats de données standardisés, facilitant l’analyse automatique.

## Exercise 5: Creating a Synthetic Product Catalog
We want to generate a synthetic product catalog for an e-commerce platform using Faker.

Ensure that the Faker library is installed and imported into your Python environment.
Create a dataset of 500 products. Each product should have a unique ID, name, description, and price.
Use Pandas to create a DataFrame from the generated data.

In [None]:
pip install faker

Le DataFrame contient 500 produits avec ID, nom, description et prix.

In [None]:
from faker import Faker
import pandas as pd
import random

# Initialiser Faker
fake = Faker()

# Générer les données synthétiques
products = []
for i in range(1, 501):
    product = {
        "product_id": i,
        "name": fake.unique.word().title(),
        "description": fake.sentence(),
        "price": round(random.uniform(5, 500), 2)
    }
    products.append(product)

# Créer un DataFrame Pandas
df = pd.DataFrame(products)

print(df.head())
