In [1]:
import pandas as pd
from nltk.corpus import stopwords 
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.naive_bayes import MultinomialNB

### Importation des données avec nettoyages des données absentes

In [2]:
df = pd.read_csv("corpus_sexe.csv",sep=",")
df = df[df["SEXE"].notna() & df["SMS_ANON"].notna()]

In [3]:
df.head()

Unnamed: 0,SMS_ANON,SEXE
0,Hey ca va?\nAlors cette rentree?\nVa falloir s...,0.0
1,Ok super merci! Oui j'y comprends rien du tout...,0.0
2,Coucou !\nC'est quand la feria de Nimes? \nJ's...,0.0
3,Coucou :)\nOui ca c'est bien passe!\nAlors je ...,0.0
4,On peut se rejoindre quelque part? Tu as cours...,0.0


### Listes des stop words en français

In [4]:
stop_words = set(stopwords.words('French')) 

### Test Rapide sur un modèle

In [5]:
X_train, X_test, y_train, y_test = train_test_split(df["SMS_ANON"], df["SEXE"], random_state=1)

In [6]:
vect = CountVectorizer(stop_words=stop_words)
X_train_dtm = vect.fit_transform(X_train)
X_test_dtm = vect.transform(X_test)

### On peut voir des résultats assez promettant

In [10]:
nb = MultinomialNB()
nb.fit(X_train_dtm, y_train)
y_pred_class = nb.predict(X_test_dtm)
metrics.accuracy_score(y_test, y_pred_class)

0.8191676833401111

### Création d'un dataframe comptant les mots utilisé par les hommes et par les femmes

In [7]:
vect = CountVectorizer(stop_words=stop_words) 
vect.fit(df["SMS_ANON"]) # Création du bag of word
female_word =  vect.transform(df[df["SEXE"]==0.0]["SMS_ANON"]) # tokenisation des sms venant des femmes
male_word =  vect.transform(df[df["SEXE"]==1]["SMS_ANON"]) # tokenisation des sms venant des hommes
female_word = female_word.sum(axis = 0) # On compte pour chaque mots son nombre utilisation ( sms femme)
male_word = male_word.sum(axis = 0)  # On compte pour chaque mots son nombre utilisation ( sms homme )
df_female = pd.DataFrame(female_word, columns=vect.get_feature_names()) # création d'un dataframe regroupant le comptage pour femme
df_male = pd.DataFrame(male_word, columns=vect.get_feature_names()) # création d'un dataframe regroupant le comptage pour homme

In [8]:
frames = [df_female,df_male]
total_word = pd.concat(frames) # fusion des deux dataframes
total_word = total_word.reset_index(drop=True)
total_word

Unnamed: 0,00,000,002,007,00h,00h00,00h15,00h20,00h26,00h30,...,înskri,ñn,ôbar,ôci,ôk,ôté,ôuake,ôui,ön,öù
0,7,17,1,0,6,2,1,1,1,1,...,1,2,1,3,3,1,1,1,2,1
1,7,8,0,1,0,3,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0


In [9]:
total_word = total_word.T # conversion des colonnes en lignes
total_word = total_word.rename(columns={ total_word.columns[0]: "female",total_word.columns[1]: "male" }) # renommage des colonnes

In [11]:
total_word.head()

Unnamed: 0,female,male
00,7,7
000,17,8
002,1,0
007,0,1
00h,6,0


### Création d'une colonne avec les coeff d'utilisation des mots par les femmes et d'une même colonne pour les hommes 

In [12]:
total_word["coeff_fem"] = total_word["female"] / (total_word["male"]+total_word["female"]) * 100
total_word["coeff_mal"] = total_word["male"] / (total_word["male"]+total_word["female"]) * 100
total_word.head()

Unnamed: 0,female,male,coeff_fem,coeff_mal
00,7,7,50.0,50.0
000,17,8,68.0,32.0
002,1,0,100.0,0.0
007,0,1,0.0,100.0
00h,6,0,100.0,0.0


### On peut maintenant afficher les mots les plus utilisé par les femmes par exemples 

In [13]:
total_word.sort_values("coeff_fem",ascending = False).head(10)

Unnamed: 0,female,male,coeff_fem,coeff_mal
jtecris,6,0,100.0,0.0
mimes,2,0,100.0,0.0
milshakes,1,0,100.0,0.0
milshake,1,0,100.0,0.0
millénaire,3,0,100.0,0.0
millième,1,0,100.0,0.0
millimètre,1,0,100.0,0.0
millieu,2,0,100.0,0.0
millieme,1,0,100.0,0.0
milliardaire,1,0,100.0,0.0


### Pareille pour les hommes

In [14]:
total_word.sort_values("coeff_mal",ascending = False).head(10)

Unnamed: 0,female,male,coeff_fem,coeff_mal
genree,0,2,0.0,100.0
faìs,0,1,0.0,100.0
fatiguand,0,1,0.0,100.0
bile,0,2,0.0,100.0
fatiguera,0,1,0.0,100.0
bil,0,1,0.0,100.0
fatiiguéé,0,1,0.0,100.0
bike,0,1,0.0,100.0
reconnaissante,0,1,0.0,100.0
reconnaissait,0,1,0.0,100.0
