
Exercises XP Ninja

Last Updated: October 16th, 2024

👩‍🏫 👩🏿‍🏫 What You'll learn

    Practice converting unstructured data into a structured format.
    Conducting a basic analysis of a dataset
    Gain knowledge of various tools and techniques for processing both structured and unstructured data, including sentiment analysis.


🛠️ What you will create

    Transform an unstructured dataset into a structured format, creating a new, organized dataset.
    Create reports that detail the analysis of both a structured and an unstructured dataset, highlighting key findings.


Exercise 1 : Comparative Analysis of Structured and Unstructured Data

    Given two datasets - one structured, a CSV file of product sales data and one unstructured, a collection of customer support tickets, perform a basic analysis on each.
    Identify the challenges faced while processing the unstructured dataset as compared to the structured dataset.
    Describe the tools and techniques that were effective for each type of data.

Hint: Sentiment Analysis using TextBlob


Exercise 2 : Converting Unstructured Data to Structured Data

Here is an unstructured dataset containing tweets.

    Apply text processing techniques to extract key information (such as hashtags and mentions, you already have a column “sentiment”) from the dataset.
    Organize this extracted information into a structured format (like a table with columns for each key information type).
    Perform a basic analysis on the newly structured data and compare insights with the original unstructured format.


In [None]:
import pandas as pd
from textblob import TextBlob

# Chargement
sales_df = pd.read_csv("statsfinal.csv")
tickets_df = pd.read_csv("customer_support_tickets.csv")

# Analyse structuree
print("Colonnes ventes :", sales_df.columns)
print("Moyenne Q-P1 :", sales_df['Q-P1'].mean())

# Analyse non structuree
def get_sentiment(text):
    return TextBlob(text).sentiment.polarity

tickets_df['sentiment'] = tickets_df['Ticket Description'].apply(lambda x: get_sentiment(str(x)))
print("Sentiment moyen :", tickets_df['sentiment'].mean())

# Analyse parpriorite
print(tickets_df.groupby("Ticket Priority")["sentiment"].mean())

J'ai charge les fichiers suivants :

    statsfinal.csv : fichier structure contenant les donnees de vente produit.

    customer_support_tickets.csv : fichier non structure contenant des tickets de support client.

Voici un apercu des premieres lignes :

Fichier structure (ventes) :

    Colonnes presentes : Date, Q-P1, Q-P2, Q-P3, Q-P4, S-P1, S-P2, S-P3, S-P4

    Total : 10 colonnes (dont 4 de quantite, 4 de chiffre d'affaires)

    Donnees bien structurees, formats numeriques et dates, facilement utilisables

Fichier non structure (tickets support) :

    Colonnes presentes : Ticket ID, Nom, Email, Produit, Sujet, Description, etc.

    Total : 17 colonnes

    Champ Ticket Description : texte libre non structure

    Plusieurs valeurs manquantes (Resolution, Satisfaction, etc.)

Donnees structurees :

    statsfinal.csv : toutes les donnees sont structurees (numeriques, dates)

    Utilisables directement avec Pandas pour des calculs et des graphiques

Donnees non structurees :

    customer_support_tickets.csv :

        Le champ Ticket Description est du texte libre

        Doit etre nettoye et transforme pour pouvoir l'analyser (tokenisation, sentiment, etc.)

        Beaucoup plus de colonnes et de variabilite

Difficultees avec le dataset non structure :

    Le texte n'est pas exploitable tel quel : il faut nettoyer, tokeniser, traiter les mots

    Les donnees manquantes rendent l'analyse partielle

    Certains champs sont vagues ou ambigus (subjectifs, ouverts)

Outils et techniques efficaces :

    Pour les donnees structurees :

        Pandas (regroupement, moyenne, somme…)

        Visualisation simple avec matplotlib ou seaborn

    Pour les donnees non structurees :

        TextBlob pour l'analyse de sentiment

        Regex pour extraire des motifs

        Preprocessing (minuscules, suppression ponctuation, etc.)

In [None]:
import pandas as pd
import re

# charger les tweets
df = pd.read_csv("Tweets.csv")
print(df.head(3))  # voir les colonnes

# fonction pour extraire hashtags
def extract_hashtags(text):
    return re.findall(r"#(\w+)", str(text))

# fonction pour extraire mentions
def extract_mentions(text):
    return re.findall(r"@(\w+)", str(text))

# ajouter colonnes structurees
df["hashtags"] = df["text"].apply(extract_hashtags)
df["mentions"] = df["text"].apply(extract_mentions)

# afficher les colonnes cle
print(df[["text", "sentiment", "hashtags", "mentions"]].head(5))

# compter nombre de tweets par sentiment
print(df["sentiment"].value_counts())

# analyser les hashtags les plus frequents
all_hashtags = sum(df["hashtags"], [])
hashtags_freq = pd.Series(all_hashtags).value_counts()
print(hashtags_freq.head(10))

Analyse structuree

    colonnes text et sentiment deja presentes

    ajout de :

        hashtags = liste des hashtags par tweet

        mentions = liste des @utilisateurs

donnees structurees :

    sentiment : 3 categories fixes

    hashtags : extraits et comptables

    mentions : identifiables

donnees non structurees :

    text : brut, avec langage naturel

    contient bruit, ironie, emojis, fautes

observation

    avant : analyse limitee aux sentiments

    apres : on peut voir quels hashtags reviennent le + souvent

    on peut croiser hashtags + sentiment (ex : "#support" est souvent negatif)