In [None]:
# Pour réaliser une analyse thématique, de contenu et sentimentale avec Python sur des entretiens en français transcrits
# dans un fichier Excel contenant des variables quantitatives et qualitatives (comme Q1.1, Q1.2, etc.),
# et croiser ces analyses avec des caractéristiques socio-démographiques, voici une méthode détaillée.
# Étapes pour l'analyse :
# Chargement des données (fichier Excel)
# Nettoyage du texte pour chaque variable qualitative (questions Q1.1, Q1.2, etc.)
# Analyse thématique et de contenu à partir de chaque réponse
# Analyse des sentiments pour chaque variable qualitative
# Croisement avec les caractéristiques socio-démographiques
# Visualisation des résultats (graphiques de sentiments et autres)

In [None]:
# 1. Installer les bibliothèques nécessaires
pip install pandas 
pip install nltk 
pip install textblob 
pip install textblob-fr
pip install matplotlib 
pip install seaborn

In [None]:
# Charger et explorer le fichier Excel avec pandas
import pandas as pd
# Charger le fichier Excel
file_path = 'C:/Users/peprc/Downloads/Memoire CEFORP OdileTCHATCHABLOUCOU/INTERVIEWABPFCLEAN/extraction_variables_fichiers.xlsx'
df = pd.read_excel(file_path)

# Afficher les premières lignes pour vérifier le contenu
print(df.head())
# Afficher les colonnes pour s'assurer que les questions (Q1.1, Q1.2, etc.) sont bien présentes
print(df.columns)

# Sélectionner une colonne (par exemple, Q1.1)
q1_1 = df['Q1.1']
q1_2 = df['Q1.2']
q2_18 = df['Q2.18']

In [None]:
# Nettoyage du texte avec NLTK
import nltk
from nltk.corpus import stopwords

nltk.download('stopwords')
stop_words = set(stopwords.words('french'))

# Fonction pour nettoyer le texte
def nettoyer_texte(texte):
    tokens = nltk.word_tokenize(texte.lower())  # Convertir en minuscules et tokeniser
    tokens_clean = [word for word in tokens if word.isalpha() and word not in stop_words]  # Supprimer stopwords et ponctuation
    return ' '.join(tokens_clean)

# Appliquer le nettoyage sur une variable (par exemple Q1.1)
df['Q1.1_clean'] = df['Q1.1'].apply(lambda x: nettoyer_texte(str(x)))

In [None]:
# Analyse thématique (avec TF-IDF)
from sklearn.feature_extraction.text import TfidfVectorizer

# Utiliser TF-IDF pour représenter les réponses de Q1.1 sous forme de vecteurs
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(df['Q1.1_clean'])

# Afficher les termes les plus fréquents pour comprendre les thèmes
terms = tfidf_vectorizer.get_feature_names_out()
tfidf_scores = tfidf_matrix.toarray()

In [None]:
# Analyse thématique (Wordcloud)
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# Générer un nuage de mots pour la question Q1.1
texte_q1_1 = ' '.join(df['Q1.1_nettoye'])

wordcloud = WordCloud(width=800, height=400, background_color='white').generate(texte_q1_1)

# Afficher le nuage de mots
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

In [None]:
# Analyse de contenu (Fréquence des mots)
from collections import Counter

# Fonction pour trouver les mots les plus fréquents
def mots_frequents(texte, n=10):
    mots = texte.split()
    return Counter(mots).most_common(n)

# Trouver les mots les plus fréquents pour la question Q1.1
freq_q1_1 = mots_frequents(texte_q1_1)
print(freq_q1_1)

In [None]:
# Analyse des sentiments avec TextBlob
from textblob import TextBlob
from textblob_fr import PatternTagger, PatternAnalyzer

# Fonction pour analyser le sentiment d'une réponse
def analyse_sentiment(texte):
    blob = TextBlob(texte, pos_tagger=PatternTagger(), analyzer=PatternAnalyzer())
    return blob.sentiment[0]  # Retourne le score de sentiment

# Appliquer l'analyse de sentiment à la variable Q1.1_clean
df['Sentiment_Q1.1'] = df['Q1.1_clean'].apply(lambda x: analyse_sentiment(x))

# Résumé des sentiments pour Q1.1
print(df[['Q1.1', 'Sentiment_Q1.1']].head())

In [None]:
# Croiser avec les variables socio-démographiques
import seaborn as sns
import matplotlib.pyplot as plt

# Visualiser la distribution des sentiments par groupe d'âge
sns.boxplot(x='Age', y='Sentiment_Q1.1', data=df)
plt.title('Distribution des sentiments par âge (Q1.1)')
plt.show()

In [None]:
# Analyse variable par variable et visualisation
# Nettoyage pour Q1.2
df['Q1.2_clean'] = df['Q1.2'].apply(lambda x: nettoyer_texte(str(x)))

# Analyse de sentiment pour Q1.2
df['Sentiment_Q1.2'] = df['Q1.2_clean'].apply(lambda x: analyse_sentiment(x))

# Visualisation des sentiments par sexe pour Q1.2
sns.boxplot(x='Sexe', y='Sentiment_Q1.2', data=df)
plt.title('Distribution des sentiments par sexe (Q1.2)')
plt.show()

In [None]:
# Visualisation des résultats (graphique de sentiments) 
# Histogramme des sentiments pour une question
plt.hist(df['Sentiment_Q1.1'], bins=20, color='blue', edgecolor='black')
plt.title('Distribution des sentiments pour Q1.1')
plt.xlabel('Sentiment')
plt.ylabel('Fréquence')
plt.show()