In [1]:
import warnings
from math import sqrt
from random import randint

import numpy as np
import pandas as pd
from sklearn.metrics import classification_report, mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor

warnings.filterwarnings("ignore")

#### Objectif : On essaiera de remplir les valeurs manquantes des deux variables yob et Gender 

## Loading data : 

In [2]:
data=pd.read_csv('user_exo_2M.csv')

In [3]:
data.isnull().sum()

yob               0
domain            0
firstname         0
zipcode       17194
gender       804954
dtype: int64

## EDA : exploration de la données: 

### Observation de la variable yob:

In [4]:
print('les valeurs unique de la variable yob :\n',data['yob'].unique())
print('le nombre de valeurs manquantes est :\n',data[data['yob']==-1].shape[0])

les valeurs unique de la variable yob :
 [1985 1961 1977   -1 1975 1974 1957 1976 1980 1972 1965 1971 1944 1956
 1962 1970 1973 1981 1979 1947 1951 1978 1969 1968 1964 1960 1920 1966
 1949 1967 1983 1984 1950 1953 1963 1982 1958 1945 1954 1900 1936 1942
 1959 1948 1940 1941 1946 1952 1943 1988 1986 1955 1901 1930 1989 1938
 1995 1929 1931 1991 1902 1911 1987 1992 1994 1928 1923 1939 1937 1910
 1990 1933 1998 1996 1934 1932 1927 1935 1993 1997 1926 1999 1924 1922
 1925]
le nombre de valeurs manquantes est :
 800000


En observant les valeurs uniques prises par la variable explicatives 'yob' nous pouvons constater que les valeurs -1 correspondent à des valeurs nulles (manquantes)

### Observation de la variable gender:

In [5]:
print('les valeurs unique de la variable yob :\n',data['gender'].unique())
print('le nombre de valeurs manquantes est :\n',data[data['gender'].isnull()].shape[0])

les valeurs unique de la variable yob :
 ['F' 'M' nan]
le nombre de valeurs manquantes est :
 804954


## Remplissage des valeurs manquantes : 

Les deux variables qui font l'objet de notre étude sont des variables catégoriques.
L'approche que je vais expliquer ici s'inspire fortement de l'algorithme de Self-training. Pourquoi le self-training ? C'est tout simplement que c'est un modèle qui est rapide et qui est simple à implémenter même s'il existe d'autres méthodes qui sont plus performantes.

Cette approche consiste à créer un modèle prédictif pour estimer les valeurs manquantes. Dans ce cas, je vais diviser la donnée en deux parties l'une sans les valeurs manquantes et qui servira de Training set et l'autre contenant les valeurs manquantes et qui servira de Test set . J'appliquerai ce procédé pour chacune des variables contenants des valeurs manquantes.

Mais avant ça, je vais dès le départ prendre un échantillon de la data qui me servira de Test set pour vérifier à quel point cette méthode est pertinente.

In [6]:
data_to_be_splitted=data[(data.gender.notnull()) & (data.yob !=-1) & (data.zipcode.notnull())]

In [7]:
_,X_test=train_test_split(data_to_be_splitted,test_size=0.10)

In [8]:
X_train=data.drop(index=X_test.index)

Maintenant nous laisserons de côté le X_test qui nous servira par la suite pour évaluer notre approche. Nous allons nous concentrer sur le X_train qui contient les valeurs manquantes à prédire.

Etant donnée qu'on a trois variables qui contiennent des valeurs manquantes à savoir yob, zipcode et gender. il existe 6 combinaison possibles de valeurs manquantes:<br>
(yob) , (gender) , (yob,zipcode) , (yob,gender) , (zipcode,gender) et (yob,zipcode,gender)

Nous traiterons ces cas un par un en introduisant le résultat dans le training set de la partie suivante. Le modèle sur lequel je me baserai pour le remplissage des valeurs manquantes, c'est DecisionTree.

**yob tout seul :**

In [9]:
## before replacing nan values : 
X_train[X_train['yob']==-1].shape

(800000, 5)

In [10]:
train_set=X_train[(X_train.gender.notnull()) & (X_train.yob !=-1) & (X_train.zipcode.notnull())]
yob_test=X_train[(X_train.gender.notnull()) & (X_train.yob ==-1) & (X_train.zipcode.notnull())]

In [11]:
def preprocessing(dataset,preprocessing_type=0):

    dataset=pd.concat([dataset,pd.get_dummies(dataset.domain)],axis=1)
    dataset.drop(columns='domain',inplace=True)
    dataset['firstname_encoded'] = LabelEncoder().fit_transform(dataset['firstname'])
    dataset.drop(columns='firstname',inplace=True)
    if(preprocessing_type==1):        
        dataset=pd.concat([dataset,pd.get_dummies(dataset.gender)],axis=1)
        dataset['zipcode']=dataset.zipcode.astype(int)
        dataset.drop(columns='gender',inplace=True)
    elif(preprocessing_type==2):
        dataset['zipcode']=dataset.zipcode.astype(int)
    elif(preprocessing_type==3):
        dataset=pd.concat([dataset,pd.get_dummies(dataset.gender)],axis=1)
        dataset.drop(columns='gender',inplace=True)
    if(preprocessing_type==0):
        dataset['gender'] = LabelEncoder().fit_transform(dataset['gender'].astype(str))

        
    return dataset

In [12]:
## applying preprocessing on both dataset: 
train_set=preprocessing(train_set,1)
yob_test=preprocessing(yob_test,1)

In [13]:
# dropping the columns yob :
y_train_set=train_set.yob

train_set.drop(columns=['yob'],inplace=True)
yob_test.drop(columns=['yob'],inplace=True)

In [14]:
train_set=train_set[np.intersect1d(train_set.columns,yob_test.columns)]
yob_test=yob_test[np.intersect1d(train_set.columns,yob_test.columns)]

In [15]:
clf_yob=DecisionTreeRegressor(max_depth=10)
clf_yob.fit(train_set,y_train_set)
y_pred=clf_yob.predict(yob_test)

In [16]:
X_train['yob'].loc[yob_test.index.tolist()]=np.round(y_pred)
X_train[(X_train.gender.notnull()) & (X_train.yob ==-1) & (X_train.zipcode.notnull())]

Unnamed: 0,yob,domain,firstname,zipcode,gender


**Gender tout seul :**

In [17]:
train_set=X_train[(X_train.gender.notnull()) & (X_train.yob !=-1) & (X_train.zipcode.notnull())]
gender_test=X_train[(X_train.gender.isnull()) & (X_train.yob !=-1) & (X_train.zipcode.notnull())]

In [18]:
def second_preprocessing(dataset):    
    dataset=pd.concat([dataset,pd.get_dummies(dataset.domain)],axis=1)
    dataset['firstname_encoded'] = LabelEncoder().fit_transform(dataset['firstname'])
    dataset['zipcode']=dataset.zipcode.astype(int)
    dataset.drop(columns='domain',inplace=True)
    dataset.drop(columns='firstname',inplace=True)
    return dataset

In [19]:
## applying preprocessing on both dataset: 
train_set=preprocessing(train_set,2)
gender_test=preprocessing(gender_test,2)

In [20]:
# dropping the columns gender :
y_train_set=train_set.gender

train_set.drop(columns=['gender'],inplace=True)
gender_test.drop(columns=['gender'],inplace=True)

In [21]:
train_set=train_set[np.intersect1d(train_set.columns,gender_test.columns)]
gender_test=gender_test[np.intersect1d(train_set.columns,gender_test.columns)]

In [22]:
clf_gender=DecisionTreeClassifier(max_depth=10)
clf_gender.fit(train_set,y_train_set)
y_pred=clf_gender.predict(gender_test)
X_train['gender'].loc[gender_test.index.tolist()]=y_pred

Pour les groupes restants, on se trouve bien dans le cas de multi-target prediction.

Dans ce cas, je ferai l'hypothèse suivante ; les différentes variables objectives (Target variables) sont prédites de manière indépendante. cette supposition permet d'avoir une prédiction plus simple même si le résultat serait moins performant que si on avait voulu faire une prédiction simultanée des différentes variables.

Selon la littérature, il existe des modèles avancées qui permettent de prédire simultanément les différentes variables objectives. Je citerai ici en guise d'exemple le MTS qui est le multi-target stacking. vous trouverez la référence en cliquant [ici.](https://s3.amazonaws.com/academia.edu.documents/34394144/1211.6581v4.pdf?AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1549852087&Signature=uRfaLONVO1wSH1HBF5oZWTi0g8I%3D&response-content-disposition=inline%3B%20filename%3DMulti-Label_Classification_Methods_for_M.pdf)

**Les deux variables yob et gender :**

In [23]:
train_set=X_train[(X_train.gender.notnull()) & (X_train.yob !=-1) & (X_train.zipcode.notnull())]
yob_gender_test=X_train[(X_train.gender.isnull()) & (X_train.yob ==-1) & (X_train.zipcode.notnull())]

In [24]:
## the preprocessing will be done on the firstname and zipcode 
## variables that's why I apply the second preprocessing function : 
train_set=preprocessing(train_set,2)
yob_gender_test=preprocessing(yob_gender_test,2)


In [25]:
# dropping the columns gender and yop :
y_train_set_gender=train_set.gender
y_train_set_yob=train_set.yob

train_set.drop(columns=['gender','yob'],inplace=True)
yob_gender_test.drop(columns=['gender','yob'],inplace=True)

train_set=train_set[np.intersect1d(train_set.columns,yob_gender_test.columns)]
yob_gender_test=yob_gender_test[np.intersect1d(train_set.columns,yob_gender_test.columns)]

In [26]:
clf_both=DecisionTreeRegressor(max_depth=10)
clf_both.fit(train_set,y_train_set_yob)
y_pred_yob=clf_both.predict(yob_gender_test)

clf_both=DecisionTreeClassifier(max_depth=10)
clf_both.fit(train_set,y_train_set_gender)
y_pred_gender=clf_both.predict(yob_gender_test)

X_train['yob'].loc[yob_gender_test.index.tolist()]=np.round(y_pred_yob)
X_train['gender'].loc[yob_gender_test.index.tolist()]=y_pred_gender

**Les deux variables yob et zipcode:**

In [27]:
train_set=X_train[(X_train.gender.notnull()) & (X_train.yob !=-1) & (X_train.zipcode.notnull())]
yob_zipcode_test=X_train[(X_train.gender.notnull()) & (X_train.yob ==-1) & (X_train.zipcode.isnull())]

In [28]:
train_set=preprocessing(train_set,3)
yob_zipcode_test=preprocessing(yob_zipcode_test,3)

y_train_set_zipcode=train_set.zipcode
y_train_set_yob=train_set.yob

train_set.drop(columns=['zipcode','yob'],inplace=True)
yob_zipcode_test.drop(columns=['zipcode','yob'],inplace=True)

train_set=train_set[np.intersect1d(train_set.columns,yob_zipcode_test.columns)]
yob_zipcode_test=yob_zipcode_test[np.intersect1d(train_set.columns,yob_zipcode_test.columns)]

clf_both=DecisionTreeRegressor(max_depth=10)
clf_both.fit(train_set,y_train_set_yob)
y_pred_yob=clf_both.predict(yob_zipcode_test)

clf_both=DecisionTreeClassifier(max_depth=10)
clf_both.fit(train_set,y_train_set_zipcode)
y_pred_zipcode=clf_both.predict(yob_zipcode_test)

X_train['yob'].loc[yob_zipcode_test.index.tolist()]=np.round(y_pred_yob)
X_train['zipcode'].loc[yob_zipcode_test.index.tolist()]=y_pred_zipcode

**Les deux variables zipcode et gender :**

In [29]:
train_set=X_train[(X_train.gender.notnull()) & (X_train.yob !=-1) & (X_train.zipcode.notnull())]
gender_zipcode_test=X_train[(X_train.gender.isnull()) & (X_train.yob !=-1) & (X_train.zipcode.isnull())]

In [30]:
train_set=preprocessing(train_set)
gender_zipcode_test=preprocessing(gender_zipcode_test)

y_train_set_zipcode=train_set.zipcode
y_train_set_gender=train_set.gender

train_set.drop(columns=['zipcode','gender'],inplace=True)
gender_zipcode_test.drop(columns=['zipcode','gender'],inplace=True)

train_set=train_set[np.intersect1d(train_set.columns,gender_zipcode_test.columns)]
gender_zipcode_test=gender_zipcode_test[np.intersect1d(train_set.columns,gender_zipcode_test.columns)]

clf_both=DecisionTreeClassifier(max_depth=10)
clf_both.fit(train_set,y_train_set_gender)
y_pred_gender=clf_both.predict(gender_zipcode_test)

clf_both=DecisionTreeClassifier(max_depth=10)
clf_both.fit(train_set,y_train_set_zipcode)
y_pred_zipcode=clf_both.predict(gender_zipcode_test)

X_train['gender'].loc[gender_zipcode_test.index.tolist()]=y_pred_gender
X_train['zipcode'].loc[gender_zipcode_test.index.tolist()]=y_pred_zipcode


avant gender_zipcode :  yob              0
domain           0
firstname        0
zipcode      14219
gender        8263
dtype: int64
après gender_zipcode :  yob             0
domain          0
firstname       0
zipcode      9854
gender       3898
dtype: int64


In [31]:
yob_gender_test.head()

Unnamed: 0,@9online.fr,@aliceadsl.fr,@aol.com,@aol.fr,@bbox.fr,@bluewin.ch,@cegetel.net,@club-internet.fr,@dbmail.com,@ebuyclub.com,...,@outlook.fr,@sfr.fr,@skynet.be,@voila.fr,@wanadoo.fr,@yahoo.com,@yahoo.fr,@ymail.com,firstname_encoded,zipcode
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,9070,78100
9,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,4541,68300
14,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,591,75004
19,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,2002,65200
24,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,8467,91220


**Les trois variables zipcode, gender et yob :**

In [32]:
train_set=X_train[(X_train.gender.notnull()) & (X_train.yob !=-1) & (X_train.zipcode.notnull())]
yob_gender_zipcode_test=X_train[(X_train.gender.isnull())&(X_train.zipcode.isnull())&(X_train.yob==-1)]

train_set=preprocessing(train_set)
yob_gender_zipcode_test=preprocessing(yob_gender_zipcode_test)

y_train_set_zipcode=train_set.zipcode
y_train_set_gender=train_set.gender
y_train_set_yob=train_set.yob


train_set.drop(columns=['zipcode','yob','gender'],inplace=True)
yob_gender_zipcode_test.drop(columns=['zipcode','yob','gender'],inplace=True)

train_set=train_set[np.intersect1d(train_set.columns,yob_gender_zipcode_test.columns)]
yob_gender_zipcode_test=yob_gender_zipcode_test[np.intersect1d(train_set.columns,yob_gender_zipcode_test.columns)]


In [33]:
clf=DecisionTreeClassifier(max_depth=10)
clf.fit(train_set,y_train_set_gender)
y_pred_gender=clf.predict(yob_gender_zipcode_test)

clf=DecisionTreeClassifier(max_depth=10)
clf.fit(train_set,y_train_set_zipcode)
y_pred_zipcode=clf.predict(yob_gender_zipcode_test)

clf=DecisionTreeRegressor(max_depth=10)
clf.fit(train_set,y_train_set_yob)
y_pred_yob=clf.predict(yob_gender_zipcode_test)


In [34]:
X_train['gender'].loc[yob_gender_zipcode_test.index.tolist()]=y_pred_gender
X_train['zipcode'].loc[yob_gender_zipcode_test.index.tolist()]=y_pred_zipcode
X_train['yob'].loc[yob_gender_zipcode_test.index.tolist()]=np.round(y_pred_yob)

**Remarque : le cas des valeurs nulles du zipcode tout seul n'a pas été traité puisque notre objectif dès le départ est de remplir le gender et le yob.**

## Evaluation du process :

In [35]:
## I bring all the process explained in a same fill process.py. it's easier to run :  
import process as pr

In [36]:
X_test=X_test.reset_index()
X_test.drop(columns=['index'],inplace=True)
X=X_test.copy()

In [37]:
# for gender :
values_to_be_randomly_set_to_None_gender=[randint(0,79076) for i in range(8000)]
values_to_be_randomly_set_to_None_gender=np.unique(values_to_be_randomly_set_to_None_gender)
X.gender.loc[values_to_be_randomly_set_to_None_gender]=None

In [38]:
## for yob:
values_to_be_randomly_set_to_None_yob=[randint(0,79076) for i in range(8000)]
values_to_be_randomly_set_to_None_yob=np.unique(values_to_be_randomly_set_to_None_yob)
X.yob.loc[values_to_be_randomly_set_to_None_yob]=-1

In [39]:
print('nan values in gender :',X.gender.isnull().sum(),'\nnan values in yob :',X[X.yob==-1].shape)

nan values in gender : 7597 
nan values in yob : (7618, 5)


In [40]:
X=pr.processing(X,DecisionTreeClassifier(max_depth=19),DecisionTreeRegressor(max_depth=19))

In [41]:
print('nan values in gender :',X.gender.isnull().sum(),'nan values in yob :',X[X.yob==-1].shape)

nan values in gender : 0 nan values in yob : (0, 5)


In [42]:
def accuracy(X, X_test):
    y_true_yob=X_test.iloc[values_to_be_randomly_set_to_None_yob]['yob']
    y_pred_yob=X.iloc[values_to_be_randomly_set_to_None_yob]['yob']

    y_true_gender=X_test.iloc[values_to_be_randomly_set_to_None_yob]['gender']
    y_pred_gender=X.iloc[values_to_be_randomly_set_to_None_yob]['gender']

    nrmse=sqrt(mean_squared_error(y_true_yob, y_pred_yob))/ (np.max([y_true_yob, y_pred_yob]) - np.min([y_true_yob, y_pred_yob]))
    report = classification_report(y_true_gender,y_pred_gender)
    print('Scoring for gender variable :\n',report)
    print('NRMSE score for Yob :\n',nrmse)
    
    

In [43]:
accuracy(X_test,X)

Scoring for gender variable :
              precision    recall  f1-score   support

          F       0.95      0.95      0.95      3652
          M       0.95      0.96      0.96      3966

avg / total       0.95      0.95      0.95      7618

NRMSE score for Yob :
 0.1530570205748497


## Generation du fichier CSV :

In [45]:
data=pr.processing(data,DecisionTreeClassifier(max_depth=19),DecisionTreeRegressor(max_depth=19))

In [46]:
data.to_csv('user_completed.csv')

## Critiques : 

Le résultat qu'on a obtenu ci-dessus peut être amélioré du fait que j'ai essayé de remplir les valeurs manquantes sous l'hypothèse que les variables sont indépendantes alors qu'en vrai ça pourrait ne pas être le cas.

# FIN