# Analyse Multidimensionnelle des Chansons de Rap : Complexit√©, Politique et Vulgarit√©

L'analyse pr√©sent√©e dans ce notebook se concentre sur les chansons de rap issues du top 50 fran√ßais, en explorant leur complexit√© lexicale, leur message politique et leur niveau de vulgarit√©. Les donn√©es utilis√©es proviennent d'un fichier Parquet disponible sur Hugging Face, √† l'adresse https://huggingface.co/spaces/alihmaou/parolesparolesparoles/resolve/main/genius_top_50_fr_rap_pop_rock_analyzed.parquet, qui contient des informations d√©taill√©es sur les chansons, notamment leur titre, artiste, ann√©e de sortie, complexit√© lexicale, th√®mes principaux et tonalit√© √©motionnelle.

L'objectif de cette analyse est de cr√©er un diagramme √† trois axes pour visualiser les chansons de rap en fonction de l'artiste, de leur complexit√© lexicale, de leur message politique et de leur niveau de vulgarit√©. Pour cela, nous allons agr√©ger les valeurs textuelles en valeurs num√©riques et calculer la moyenne par artiste, afin de comparer les diff√©rents artistes de rap sur ces crit√®res.

## M√©thodologie

La m√©thodologie utilis√©e dans cette analyse consiste en plusieurs √©tapes. Tout d'abord, nous avons s√©lectionn√© les donn√©es relatives aux chansons de rap et avons transform√© les niveaux textuels de complexit√© lexicale et de message politique en valeurs num√©riques. Ensuite, nous avons calcul√© la moyenne de ces valeurs, ainsi que de la vulgarit√©, pour chaque artiste. Les donn√©es ont √©t√© regroup√©es par artiste et tri√©es pour faciliter la visualisation. Nous avons utilis√© la biblioth√®que Plotly pour cr√©er un diagramme √† trois axes interactif, permettant de visualiser les relations entre la complexit√© lexicale, le message politique et la vulgarit√© pour les diff√©rents artistes de rap.

Cette d√©marche permet d'obtenir une vue d'ensemble de la mani√®re dont les artistes de rap abordent les th√®mes complexes, les messages politiques et la vulgarit√© dans leurs chansons, et de comparer leurs approches respectives de mani√®re visuelle et interactive.

## üîß Configuration

In [1]:
# Installation et imports
import duckdb as ddb
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

## ü¶Ü Chargement du dataset avec Duckdb

In [1]:
# Fonction de chargement compl√®te (bas√©e sur load_file_from_url_lite)
def load_file_from_url_lite(url_dataset="", loader="read_csv_auto", options="", nom_table="loaded_dataset", safe_mode=False):
    ddb.execute("install spatial")
    ddb.execute("load spatial")
    ddb.execute("INSTALL h3 FROM community")
    ddb.execute("LOAD h3")
    ddb.execute("install webbed from community;")
    ddb.execute("load webbed")
    ddb.execute("set force_download=True")
    ddb.execute(f"drop table if exists {nom_table}")   
    
    # D√©tection automatique du type de fichier
    if 'csv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'tsv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'txt' in url_dataset: 
        loader = "read_csv_auto"
    elif 'parquet' in url_dataset: 
        loader = "read_parquet"
    elif 'json' in url_dataset: 
        loader = "read_json_auto"
    elif 'xls' in url_dataset or 'xlsx' in url_dataset: 
        loader = "st_read"
    elif 'shp' in url_dataset: 
        loader = "st_read"
    elif 'geojson' in url_dataset: 
        loader = "st_read"
    elif 'xml' in url_dataset: 
        loader = "read_xml"
    elif 'html' in url_dataset: 
        loader = "read_html"
    else: 
        raise ValueError(f"Type de fichier non support√© pour {url_dataset}")
    
    if options=="": 
        options = "" 
    if 'csv' in url_dataset and safe_mode==True: 
        options = ", all_varchar=1" 
    if nom_table=="": 
        nom_table = "loaded_dataset"
    
    try:
        status = ddb.sql(f"""
            create or replace table {nom_table} as select *
            from
            {loader}("{url_dataset}" {options})
        """)
        return status
    except Exception as e:
        return f"Erreur au chargement du fichier : {str(e)}"

def run_query(sql):
    return ddb.sql(sql.replace("`"," ")).to_df()

# Chargement des donn√©es
load_file_from_url_lite("https://huggingface.co/spaces/alihmaou/parolesparolesparoles/resolve/main/genius_top_50_fr_rap_pop_rock_analyzed.parquet", safe_mode=True)
print("‚úÖ Donn√©es charg√©es avec succ√®s")

## üîç Analyse SQL

Cette requ√™te utilise des techniques SQL pour extraire et transformer les donn√©es de mani√®re efficace.

In [2]:
# Ex√©cution de la requ√™te
df = run_query(""" WITH 
  -- Transformation des niveaux textuels en valeurs num√©riques
  artiste_complexite AS (
    SELECT 
      "artiste",
      CASE "complexite_lexicale"
        WHEN 'faible' THEN 1
        WHEN 'moyen' THEN 2
        WHEN '√©lev√©' THEN 3
        ELSE NULL
      END AS complexite_lexicale_num,
      CASE "message_politique"
        WHEN 'faible' THEN 1
        WHEN 'moyen' THEN 2
        WHEN '√©lev√©' THEN 3
        ELSE NULL
      END AS message_politique_num,
      "vulgarite"
    FROM loaded_dataset
    WHERE "style_musique" = 'rap'
  )

SELECT 
  "artiste",
  AVG("complexite_lexicale_num") AS complexite_moyenne,
  AVG("message_politique_num") AS message_politique_moyen,
  AVG("vulgarite") AS vulgarite_moyenne
FROM artiste_complexite
GROUP BY "artiste"
ORDER BY "artiste" """)
print(f"R√©sultats : {len(df)} lignes")
df.head()

## üìà Visualisation

La biblioth√®que principale utilis√©e pour cette visualisation de donn√©es est Plotly Express, qui permet de cr√©er des graphiques interactifs en 3D. Cette technologie est adapt√©e pour repr√©senter des donn√©es multidimensionnelles complexes de mani√®re claire et engageante. Elle offre une grande flexibilit√© pour personnaliser l'apparence et le comportement de la visualisation.

In [3]:
import pandas as pd
import duckdb as ddb
import plotly.express as px

dataviz = px.scatter_3d(
    df.sort_values('vulgarite_moyenne', ascending=False),
    x='complexite_moyenne',
    y='message_politique_moyen',
    z='vulgarite_moyenne',
    color='vulgarite_moyenne',
    color_continuous_scale='Reds',
    hover_name='artiste',
    size_max=30,
    opacity=0.8,
    labels={
        'complexite_moyenne': 'Complexit√© lexicale',
        'message_politique_moyen': 'Message politique',
        'vulgarite_moyenne': 'Vulgarit√©'
    }
)

dataviz.update_layout(
    title='Analyse comparative des artistes de rap',
    scene=dict(
        xaxis=dict(title='Complexit√© lexicale', dtick=0.5),
        yaxis=dict(title='Message politique', dtick=0.5),
        zaxis=dict(title='Vulgarit√©', dtick=1)
    ),
    margin=dict(l=20, r=20, t=40, b=20),
    font=dict(family="Arial", size=12),
    coloraxis_colorbar_title_text='Vulgarit√©'
)
dataviz

---
*Made with ‚ù§Ô∏è and with [duckit.fr](https://duckit.fr) - [Ali Hmaou](https://www.linkedin.com/in/ali-hmaou-6b7b73146/)*