# Exercises XP Ninja
Last Updated: October 16th, 2024

## 👩‍🏫 👩🏿‍🏫 What You’ll learn
Practice converting unstructured data into a structured format.
Conducting a basic analysis of a dataset
Gain knowledge of various tools and techniques for processing both structured and unstructured data, including sentiment analysis.


## 🛠️ What you will create
Transform an unstructured dataset into a structured format, creating a new, organized dataset.
Create reports that detail the analysis of both a structured and an unstructured dataset, highlighting key findings.

## Exercise 1 : Comparative Analysis of Structured and Unstructured Data
Given two datasets - one structured, a CSV file of product sales data and one unstructured, a collection of customer support tickets, perform a basic analysis on each.
Identify the challenges faced while processing the unstructured dataset as compared to the structured dataset.
Describe the tools and techniques that were effective for each type of data.
Hint: Sentiment Analysis using TextBlob

### 1. Analyse du fichier CSV de ventes (données structurées) :

In [None]:
import pandas as pd

# Chargement des ventes
sales_df = pd.read_csv('sales.csv')

# Exemple d'analyse : total des ventes par produit
result = sales_df.groupby('product_name')['amount'].sum()
print(result)


### 2. Analyse des tickets clients (données non structurées) :

In [None]:
import pandas as pd
from textblob import TextBlob

# Chargement des tickets
tickets_df = pd.read_csv('support_tickets.csv')

# Analyse de sentiment sur les messages
tickets_df['sentiment'] = tickets_df['message'].apply(lambda x: TextBlob(str(x)).sentiment.polarity)
print(tickets_df[['message', 'sentiment']].head())


### 3. Défis rencontrés avec les données non structurées :

Textes à nettoyer (fautes, abréviations, phrases incomplètes…).

Informations dispersées, difficiles à organiser.

L’analyse dépend de la qualité de la rédaction des clients.

### 4. Résumé des outils efficaces :

Données structurées : Pandas (simple, rapide, précis).

Données non structurées : Pandas + TextBlob (pour traiter et analyser le texte, mais nécessite plus de préparation).

En résumé :

L’analyse des données structurées est simple avec Pandas.

L’analyse des tickets (texte libre) demande du nettoyage et des outils comme TextBlob.

Les données non structurées sont plus complexes et moins directes à analyser.

## Exercise 2 : Converting Unstructured Data to Structured Data
Here is an unstructured dataset containing tweets.

Apply text processing techniques to extract key information (such as hashtags and mentions, you already have a column “sentiment”) from the dataset.
Organize this extracted information into a structured format (like a table with columns for each key information type).
Perform a basic analysis on the newly structured data and compare insights with the original unstructured format.

### 1. Extraction des hashtags et mentions

In [None]:
import pandas as pd
import re

# Charger le fichier des tweets
df = pd.read_csv('tweets.csv')

# Extraction des hashtags et mentions
df['hashtags'] = df['tweet'].apply(lambda x: re.findall(r'#\w+', str(x)))
df['mentions'] = df['tweet'].apply(lambda x: re.findall(r'@\w+', str(x)))

print(df[['tweet', 'hashtags', 'mentions', 'sentiment']].head())


### 2. Organisation sous forme structurée

Le DataFrame comporte maintenant les colonnes :

tweet (texte brut, non structuré)

hashtags (liste de hashtags)

mentions (liste de mentions)

sentiment (donnée déjà présente)

### 3. Analyse de base sur les données structurées

In [None]:
# Hashtags les plus utilisés
all_hashtags = df['hashtags'].explode()
print("Top hashtags :\n", all_hashtags.value_counts().head())

# Mentions les plus fréquentes
all_mentions = df['mentions'].explode()
print("Top mentions :\n", all_mentions.value_counts().head())

# Répartition des sentiments
print("Distribution des sentiments :\n", df['sentiment'].value_counts())


### 4. Comparaison des insights

Données brutes : On ne peut qu’examiner le texte au cas par cas, sans vue d’ensemble rapide.

Données structurées : On peut compter, trier, filtrer les hashtags, mentions, sentiments → analyse beaucoup plus efficace et quantitative.

Résumé :
L’extraction d’informations transforme les tweets de non structuré à structuré, rendant l’analyse possible et rapide (par exemple : top hashtags, influenceurs, tendances de sentiment).