In [1]:
from utils.clean_data import clean_and_structure_data
import pandas as pd
from textblob import TextBlob
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
from sklearn.feature_extraction.text import TfidfVectorizer

# df = pd.read_csv("../Tesla_Trustpilot_Reviews.csv", delimiter=',')
df = clean_and_structure_data("Tesla_Trustpilot_Reviews.csv", "output")

# Fonction d'analyse de sentiment avec TextBlob
def analyze_sentiment_textblob(text):
    try:
        # Utilisation de TextBlob pour obtenir la polarité (positif, négatif, neutre)
        analysis = TextBlob(text)
        return analysis.sentiment.polarity
    except Exception as e:
        print(f"Erreur dans l'analyse avec TextBlob: {e}")
        return None

# Fonction d'analyse de sentiment avec VADER
def analyze_sentiment_vader(text):
    analyzer = SentimentIntensityAnalyzer()
    try:
        # Analyser le texte et renvoyer le score de sentiment
        sentiment_score = analyzer.polarity_scores(text)
        return sentiment_score['compound']  # Renvoie un score global de sentiment
    except Exception as e:
        print(f"Erreur dans l'analyse avec VADER: {e}")
        return None

# Appliquer TF-IDF sur le contenu pour extraire les mots-clés
def extract_keywords(df, n_keywords=10):
    vectorizer = TfidfVectorizer(stop_words='english', max_features=50)
    tfidf_matrix = vectorizer.fit_transform(df['Content'])

    # Récupérer les mots-clés en fonction de leur score TF-IDF
    feature_names = vectorizer.get_feature_names_out()
    sorted_indices = tfidf_matrix.sum(axis=0).argsort()[0, ::-1]  # Tri des indices des mots-clés

    # Récupérer les meilleurs mots-clés
    keywords = [feature_names[i] for i in sorted_indices[:n_keywords]]
    return keywords

# Extraire les 10 mots-clés les plus importants
keywords = extract_keywords(df, n_keywords=10)

# Afficher les mots-clés
print("Mots-clés les plus importants:", keywords)


# Appliquer les fonctions d'analyse de sentiment sur les données
df['Sentiment_TextBlob'] = df['Content'].apply(analyze_sentiment_textblob)
df['Sentiment_VADER'] = df['Content'].apply(analyze_sentiment_vader)

# Afficher les résultats de l'analyse de sentiment
print(df[['Username', 'Title', 'Sentiment_TextBlob', 'Sentiment_VADER']])

# Extraire les mots-clés
keywords = extract_keywords(df, n_keywords=10)
print("Mots-clés les plus importants:", keywords)


Fichier nettoyé et structuré sauvegardé sous : output

Mots-clés les plus importants: [array([['tesla', 'car', 'service', 'customer', 'model', 'company', 'new',
        'just', 'experience', 'don', 'time', 'delivery', 'told', 'worst',
        'vehicle', 'buy', 'cars', 'like', 've', 'months', 'days',
        'phone', 'app', 'day', 'good', 'great', 'order', 'bad', 'bought',
        'said', 'got', 'issues', 'years', 'weeks', 'issue', 'drive',
        'hours', 'people', 'need', 'problem', 'way', 'miles', 'money',
        'know', 'appointment', 'customers', 'make', 'work', 'center',
        'did']], dtype=object)]
                  Username                                           Title  \
0              John McLean                                   Utter Rubbish   
1    Angry from Manchester              5 5 for the car 0 5 for the dealer   
2                  Kevin O          Musk is the most embarrassing man that   
3           Andrew Haworth           Put a deposit on a cybertruck 4 ye