# Analyse 3D des Chansons de Rap : Exploration de la Complexit√© Lexicale, du Message Politique et de la Vulgarit√©

L'analyse pr√©sent√©e dans ce notebook explore les donn√©es de chansons de rap issues du top 50 fran√ßais, en se concentrant sur trois aspects cl√©s : la complexit√© lexicale, le message politique et la vulgarit√©. Les donn√©es proviennent du dataset disponible √† l'URL : https://huggingface.co/spaces/alihmaou/parolesparolesparoles/resolve/main/genius_top_50_fr_rap_pop_rock_analyzed.parquet. Ce dataset enrichi fournit des informations d√©taill√©es sur les chansons, notamment leur titre, artiste, ann√©e de sortie, ainsi que des analyses sur leur complexit√© lexicale, th√®mes principaux et tonalit√© √©motionnelle.

L'objectif de cette analyse est de cr√©er un diagramme en 3D qui illustre l'√©volution des chansons de rap en fonction de l'ann√©e, de l'artiste, de la complexit√© lexicale, du message politique et de la vulgarit√©. Cette visualisation permettra d'identifier les tendances et les corr√©lations entre ces diff√©rents aspects, offrant ainsi une compr√©hension plus approfondie de l'√©volution du genre musical.

## M√©thodologie

La m√©thodologie utilis√©e dans cette analyse implique plusieurs √©tapes cl√©s. Tout d'abord, les donn√©es sont filtr√©es pour ne conserver que les chansons de rap. Ensuite, les variables de complexit√© lexicale, de message politique et de vulgarit√© sont transform√©es pour permettre leur utilisation dans l'analyse. Les donn√©es sont ensuite agr√©g√©es par artiste et par ann√©e, afin de calculer les moyennes de ces variables. Finalement, un diagramme en 3D anim√© est cr√©√© en utilisant la biblioth√®que Plotly, permettant de visualiser l'√©volution des chansons de rap dans le temps.

Les r√©sultats de cette analyse sont pr√©sent√©s sous forme de visualisation interactive, facilitant l'exploration et la compr√©hension des donn√©es. Cette approche permet de mettre en √©vidence les tendances et les corr√©lations entre les diff√©rentes variables, offrant ainsi une vision plus claire de l'√©volution du rap fran√ßais.

## üîß Configuration

In [1]:
# Installation et imports
import duckdb as ddb
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

## ü¶Ü Chargement du dataset avec Duckdb

In [1]:
# Fonction de chargement compl√®te (bas√©e sur load_file_from_url_lite)
def load_file_from_url_lite(url_dataset="", loader="read_csv_auto", options="", nom_table="loaded_dataset", safe_mode=False):
    ddb.execute("install spatial")
    ddb.execute("load spatial")
    ddb.execute("INSTALL h3 FROM community")
    ddb.execute("LOAD h3")
    ddb.execute("install webbed from community;")
    ddb.execute("load webbed")
    ddb.execute("set force_download=True")
    ddb.execute(f"drop table if exists {nom_table}")   
    
    # D√©tection automatique du type de fichier
    if 'csv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'tsv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'txt' in url_dataset: 
        loader = "read_csv_auto"
    elif 'parquet' in url_dataset: 
        loader = "read_parquet"
    elif 'json' in url_dataset: 
        loader = "read_json_auto"
    elif 'xls' in url_dataset or 'xlsx' in url_dataset: 
        loader = "st_read"
    elif 'shp' in url_dataset: 
        loader = "st_read"
    elif 'geojson' in url_dataset: 
        loader = "st_read"
    elif 'xml' in url_dataset: 
        loader = "read_xml"
    elif 'html' in url_dataset: 
        loader = "read_html"
    else: 
        raise ValueError(f"Type de fichier non support√© pour {url_dataset}")
    
    if options=="": 
        options = "" 
    if 'csv' in url_dataset and safe_mode==True: 
        options = ", all_varchar=1" 
    if nom_table=="": 
        nom_table = "loaded_dataset"
    
    try:
        status = ddb.sql(f"""
            create or replace table {nom_table} as select *
            from
            {loader}("{url_dataset}" {options})
        """)
        return status
    except Exception as e:
        return f"Erreur au chargement du fichier : {str(e)}"

def run_query(sql):
    return ddb.sql(sql.replace("`"," ")).to_df()

# Chargement des donn√©es
load_file_from_url_lite("https://huggingface.co/spaces/alihmaou/parolesparolesparoles/resolve/main/genius_top_50_fr_rap_pop_rock_analyzed.parquet", safe_mode=True)
print("‚úÖ Donn√©es charg√©es avec succ√®s")

## üîç Analyse SQL

Cette requ√™te utilise des techniques SQL pour extraire et transformer les donn√©es de mani√®re efficace.

In [2]:
# Ex√©cution de la requ√™te
df = run_query(""" WITH 
  -- Pr√©paration des donn√©es pour les chansons de rap
  rap_data AS (
    SELECT 
      "artiste",
      CAST("annee" AS VARCHAR) AS "annee",
      CASE "complexite_lexicale"
        WHEN 'faible' THEN 1
        WHEN 'moyen' THEN 2
        WHEN '√©lev√©' THEN 3
        ELSE 0
      END AS complexite_lexicale_value,
      CASE "message_politique"
        WHEN 'faible' THEN 1
        WHEN 'moyen' THEN 2
        WHEN '√©lev√©' THEN 3
        ELSE 0
      END AS message_politique_value,
      "vulgarite"
    FROM 
      loaded_dataset
    WHERE 
      "style_musique" = 'rap'
  ),
  
  -- Agr√©gation par artiste et par annee
  aggregated_data AS (
    SELECT 
      "annee",
      "artiste",
      AVG(complexite_lexicale_value) AS avg_complexite_lexicale,
      AVG(message_politique_value) AS avg_message_politique,
      AVG("vulgarite") AS avg_vulgarite
    FROM 
      rap_data
    GROUP BY 
      ALL
  )

-- S√©lection des donn√©es pour le diagramme
SELECT 
  "annee",
  "artiste",
  avg_complexite_lexicale,
  avg_message_politique,
  avg_vulgarite
FROM 
  aggregated_data
ORDER BY 
  "annee", "artiste" """)
print(f"R√©sultats : {len(df)} lignes")
df.head()

## üìà Visualisation

La biblioth√®que principale utilis√©e est Plotly, qui permet de cr√©er des visualisations interactives et anim√©es. Plotly est adapt√©e ici pour repr√©senter les donn√©es en 3D avec une animation temporelle, facilitant la compr√©hension des √©volutions des caract√©ristiques des chansons de rap au fil des ans. Cela permet une exploration intuitive et d√©taill√©e des donn√©es.

In [3]:
import pandas as pd
import duckdb as ddb
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Agr√©gation par ann√©e et artiste
df_agg = df.groupby(['artiste', 'annee']).agg({
    'avg_complexite_lexicale': 'mean',
    'avg_message_politique': 'mean',
    'avg_vulgarite': 'mean'
}).reset_index()

# Cr√©ation du graphique 3D anim√© avec slider d'ann√©e
dataviz = px.scatter_3d(
    df_agg,
    x='avg_complexite_lexicale',
    y='avg_message_politique',
    z='avg_vulgarite',
    color='artiste',
    hover_name='artiste',
    animation_frame='annee',
    size_max=10,
    color_discrete_sequence=px.colors.qualitative.Set3,
    hover_data={
        'annee': True,
        'avg_complexite_lexicale': ':.2f',
        'avg_message_politique': ':.2f',
        'avg_vulgarite': ':.2f'
    }
)

# Configuration du layout pour une meilleure pr√©sentation
dataviz.update_layout(
    title={
        'text': "Analyse 3D des chansons de rap par artiste et ann√©e",
        'font': {'size': 20, 'family': 'Arial'}
    },
    scene=dict(
        xaxis_title='Complexit√© lexicale',
        yaxis_title='Message politique',
        zaxis_title='Vulgarit√©',
        aspectmode='cube'
    ),
    margin=dict(l=20, r=20, t=80, b=20),
    legend_title_text='Artiste',
    plot_bgcolor='rgba(0,0,0,0)'
)

# Ajout des transitions douces entre les frames
dataviz.layout.updatemenus[0].buttons[0].args[1]["transition"]["duration"] = 750
dataviz.layout.updatemenus[0].buttons[0].args[1]["frame"]["duration"] = 1500
dataviz

---
*Made with ‚ù§Ô∏è and with [duckit.fr](https://duckit.fr) - [Ali Hmaou](https://www.linkedin.com/in/ali-hmaou-6b7b73146/)*