In [10]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
import sqlalchemy
import scipy
import scipy.stats as stati
import time
%matplotlib inline
from sqlalchemy.exc import SQLAlchemyError
try:
    engine = sqlalchemy.create_engine("oracle+cx_oracle://rhdata:rhdata@localhost?service_name=RH",
                                      arraysize=1000)
    # retrive gpAffectation from GP_AFFECTATION table
    # affectation_sql = """select NUM_IM,CODEBUR,LIEU_AF,MOTIF_AFFECT,FONCTION_AF,DIVISION_AF,SERVICE_AF,DIRECTION_AF,DATE_PS from GP_AFFECTATION where date_ps IS NOT NULL"""
    affectation_sql = """select NUM_IM,CODEBUR,LIEU_AF,MOTIF_AFFECT,FONCTION_AF,DIVISION_AF,SERVICE_AF,DIRECTION_AF,DATE_PS from GP_AFFECTATION"""

    datah = pd.read_sql(affectation_sql, engine)
    # datah = pd.read_csv('./RH.csv', sep=';')
    # Collecte de données =>Formatage : nomena colonne reetr, atambatra ze mtov(variable quantitative) -mampiasa var.unique
    dfo = pd.DataFrame(datah,  index=datah.index, columns=datah.columns)
    print("dfo: ",dfo)
    print("dfo index: ",dfo.index)
    print("dfo columns: ",dfo.columns)

    # détermine si valeur en paramètre est manquante:
    def num_missing(x):
        return sum(x.isnull())
    dfo.apply(num_missing,axis=0)
    dfo.apply(num_missing,axis=1).head()
    # les individus ou lignes
    dfo = dfo.dropna(axis=0)
    # les variables ou colonnes
    dfo = dfo.dropna(axis=1)
    # Supprimer toutes les observations contenant une valeur manquante (au moins sur une variable)
    dfo.dropna(how="all", inplace=True) # lorsqu'on veut garder la même table
    dfo['service_af'].dropna(how="all", inplace=True) # lorsqu'on veut garder la même table
    dfo['Annee'] = dfo['date_ps'].apply(lambda d: d.year)
    Annee = dfo['Annee'].fillna(0).copy()
    dfo.replace(np.nan,0)
    dfo.head()
    dfo.info()

    # --------------------------- Analyse univarié -----------------------------
    # Etude univarié qualitative
    # -------- Fréquence Lieu
    xlieu = pd.value_counts(dfo['lieu_af'])
    dico=dict(xlieu) # Transformer x en un dictionnaire
    # Transformation du dictionnaire en dataframe
    col = dico.keys() # récupérer les clés du dictionnaires (Ces clés représentent les modalités analysées. Elles seront les variables dans le dataframe à créer).
    df = pd.DataFrame(dico,columns=col, index=[0]) # index=[0] doit être spécifié lorsque les valeurs du dictionnaire ne sont pas encadré par [].
    df['total']=df.sum(axis=1)
    for names, values in df.iteritems(): # on récupère le nom de la colonne et sa valeur
        df['{name}'.format(name=names)]=100*df['{name}'.format(name=names)]/df['total'] # Calcul du pourcentage
        # print("total :",df['total'])
        # print("name :",df['{name}'.format(name=names)])
    # print(df) # on obtient ainsi le tableau de fréquence en pourcentage
    ax = df.plot(kind='barh',figsize =(10, 8))
    plt.title("Fréquence de lieu d'affectation")
    plt.show()

    # Etude univarié qualitative
    # -------- Fréquence Service
    xservice = pd.value_counts(dfo['service_af'])
    fig, ax = plt.subplots()
    labels = xservice.index
    labels
    ax.pie(xservice, labels=labels, startangle=90)
    ax.axis('equal')
    plt.title("Fréquence de service d'affectation")
    plt.show()

      #Regardons maintenant Service tendance en calculant le pourcentage ou le taux. (Mode)
    x = dfo['service_af'].mode().value_counts()
    dicos=dict(x) # Transformer x en un dictionnaire
    print("dicos:",dicos)
    # Transformation du dictionnaire en dataframe
    col = dicos.keys() # récupérer les clés du dictionnaires (Ces clés représentent les modalités analysées. Elles seront les variables dans le dataframe à créer).
    dfT = pd.DataFrame(dicos,columns=col, index=[0]) # index=[0] doit être spécifié lorsque les valeurs du dictionnaire ne sont pas encadré par [].
    dfT['total']=dfT.sum(axis=1)
    for names, values in dfT.iteritems(): # on récupère le nom de la colonne et sa valeur
        dfT['{name}'.format(name=names)]=100*dfT['{name}'.format(name=names)]/dfT['total'] # Calcul du pourcentage
        # print("total :",df['total'])
        # print("name :",df['{name}'.format(name=names)])
    # print(df) # on obtient ainsi le tableau de fréquence en pourcentage
    ax = dfT.plot(kind='barh')
    plt.title("Tendance de service")
    plt.show()

     #Regardons maintenant Lieu tendance en calculant le pourcentage ou le taux. (Mode)
    xlieu = dfo['lieu_af'].mode().value_counts()
    dico=dict(xlieu)
    print("dico:",dico)# Transformer x en un dictionnaire
    # Transformation du dictionnaire en dataframe
    col = dico.keys() # récupérer les clés du dictionnaires (Ces clés représentent les modalités analysées. Elles seront les variables dans le dataframe à créer).
    dfTl = pd.DataFrame(dico,columns=col, index=[0]) # index=[0] doit être spécifié lorsque les valeurs du dictionnaire ne sont pas encadré par [].
    dfTl['total']=dfT.sum(axis=1)
    for names, values in dfTl.iteritems(): # on récupère le nom de la colonne et sa valeur
        dfTl['{nameLieu}'.format(nameLieu=names)]=100*dfTl['{nameLieu}'.format(nameLieu=names)]/dfTl['total'] # Calcul du pourcentage
        # print("total :",dfTl['total'])
        # print("nameLieu :",dfTl['{nameLieu}'.format(nameLieu=names)])
    # print(dfTl) # on obtient ainsi le tableau de fréquence en pourcentage
    ax = dfTl.plot(kind='barh')
    plt.title("Tendance de lieu")
    plt.show()

    # -------- Proportion de modalité pour chaque variable (service)
    g = dfo.groupby('service_af')
    print('Il y a', np.shape(g)[0], 'sous-groupes distincts')
    plt.hist(dfo['service_af'])
    plt.title('Histogramme des Services')
    plt.xlabel('types de service')
    plt.ylabel('effectifs')
    plt.show()

    lieu = dfo.groupby('lieu_af')
    print('Il y a', np.shape(lieu)[0], 'sous-groupes distincts')
    plt.hist(dfo['lieu_af'], color='green')
    plt.title('Histogramme des Lieux')
    plt.xlabel('types de lieu')
    plt.ylabel('effectifs')
    plt.show()

    # Etude univarié quantitative
    # Résumés numériques : moyenne empirique, variance et écart-type, min, max, quantiles, ...
    # Graphiques : Histogrammes, boite à moustache, ...
    xdate= pd.value_counts(dfo['Annee'])
    stat=[dfo['Annee'].min(),dfo['Annee'].max(),dfo['Annee'].mean(),(dfo['Annee'].std())**2,dfo['Annee'].median(),dfo['Annee'].skew(),dfo['Annee'].kurt()]
    print(stat) # attention: legère différence dans certaines valeurs kurt et skew.
    fig = plt.figure(figsize =(10, 7))
    axdate = fig.add_subplot(111)
    bp = axdate.boxplot(stat)
    bp.values
    plt.title("Etude univarié")
    axdate.legend(stat)
    # for names, values in stat.iteritems(): # on récupère le nom de la colonne et sa valeur
    #     stat['{nameSt}'.format(nameSt=names)]=100*stat['{nameSt}'.format(nameSt=names)]/stat['total'] # Calcul du pourcentage
        # print("total :",dfTl['total'])
        # print("nameLieu :",dfTl['{nameLieu}'.format(nameLieu=names)])
    # print(dfTl) # on obtient ainsi le tableau de fréquence en pourcentage
    # axdate.legend("min", "max","mean","std","median","skew","kurt" [Annee], loc='upper right')
    axdate.set_xlim(0,6)
    plt.show(bp)

    # --------------------------- Analyse bivarié -----------------------------
    # val numerique de mjer matrice de corrélation
    # val categorielle de mjer independance @ test de khi2

    # tri croisé sur colonne service_af et lieu_af afin d'obtenir un tableau de contingence(fréquences absolues)
    # Pourcentage par rapport au total
    xtotal = pd.crosstab(dfo.service_af, dfo.lieu_af).fillna(0).copy().apply(lambda r: r/len(dfo),axis=0)
    sb.set_style("whitegrid")
    ct = pd.crosstab(dfo.service_af, dfo.lieu_af).fillna(0).copy()
    ct.plot.bar(stacked=True, figsize=(18,15))
    plt.legend(title='Fréquence service selon lieu affectation')
    plt.show()
    st_chi2, st_p, st_dof, st_exp = stati.chi2_contingency(ct)
    print("chi_2: ",st_chi2)
    print("p_value: ",st_p)
    print("degre liberte: ",st_dof)
    # print("tab freq: ",st_exp)

    fig = plt.figure(num=None, figsize=(8, 6), dpi=80, facecolor='w', edgecolor='k')
    plt.clf()
    axcont = fig.add_subplot(111)
    axcont.set_aspect(1)
    res = sb.heatmap(st_exp, annot=True, fmt='.2f', cmap="YlGnBu", vmin=0.0, vmax=100.0)
    plt.title('Tableau de fréquence',fontsize=12)
    plt.show()

     # tri croisé sur colonne motif et service afin d'obtenir un tableau de contingence(fréquences absolues)
    # Pourcentage par rapport au total
    xtotalservicemotif = pd.crosstab(dfo.service_af, dfo.motif_affect).fillna(0).copy().apply(lambda r: r/len(dfo),axis=0)
    sb.set_style("whitegrid")
    ctmotif = pd.crosstab(dfo.service_af, dfo.motif_affect).fillna(0).copy()
    ctmotif.plot.bar(stacked=True, figsize=(18,15))
    plt.legend(title='Fréquence service selon motif affectation')
    plt.show()
    st_chi2, st_p, st_dof, st_exp = stati.chi2_contingency(ctmotif)
    print("chi_2: ",st_chi2)
    print("p_value: ",st_p)
    print("degre liberte: ",st_dof)
    # print("tab freq: ",st_exp)

    fig = plt.figure(num=None, figsize=(8, 6), dpi=80, facecolor='w', edgecolor='k')
    plt.clf()
    axservmotif = fig.add_subplot(111)
    axservmotif.set_aspect(1)
    reservmotif = sb.heatmap(st_exp, annot=True, fmt='.2f', cmap="YlGnBu", vmin=0.0, vmax=100.0)
    plt.title('Tableau de fréquence',fontsize=12)
    plt.show()

    # tri croisé sur colonne service_af et date_ps afin d'obtenir un tableau de contingence(fréquences absolues)
    serviceDate = pd.crosstab(dfo.service_af, Annee).fillna(0).copy()
    print("serviceDate:",serviceDate)
    # Fréquences relatives # Pourcentage par rapport au total
    xtotalSd = serviceDate.apply(lambda r: r/len(df),axis=0)
    sb.set_style("whitegrid")
    sb.boxplot(x = dfo['service_af'], y = 'Annee', data = dfo)
    plt.title("Fréquence de service par date prise de service")
    plt.show()
    st_chi2, st_p, st_dof, st_exp = stati.chi2_contingency(serviceDate)
    print("chi_2: ",st_chi2)
    print("p_value: ",st_p)
    print("degre liberte: ",st_dof)
    # print("tab freq: ",st_exp)

    plt.figure(figsize=(10,10))
    correlation = serviceDate.corr()
    sb.heatmap(correlation,vmax=1,vmin=-1,square=True,annot=True,linewidths=.5,cmap="YlGnBu")
    plt.show()

    # Test de normalité (si distribution features suit loi normal) NB : relation variable avec label
    # identification loi normal ou test non parametrique
    def shapiro_test(x):
        try :
            resh = stat.shapiro(x)
        except :
            return -1
        alpha = 0.05
        print("p = ",resh.pvalue)
        if resh.pvalue < alpha:  # null hypothesis: x comes from a normal distribution

            print("(shapiro)The null hypothesis can be rejected -> X ne possède pas une distribution normale")

        else:
            print("(shapiro) The null hypothesis cannot be rejected -> X possède éventuellement une distribution normale")
        return resh


    def omnibus_normaltest(x):
        #test D'Agostino-Pearson
        try :
            k2, p = stat.normaltest(x)
        except :
            return -1

        alpha = 0.05

        print("p = ",p)

        if p < alpha:  # null hypothesis: x comes from a normal distribution

            print("(normaltest) The null hypothesis can be rejected -> X ne possède pas une distribution normale")

        else:

            print("(normaltest) The null hypothesis cannot be rejected -> X possède éventuellement une distribution normale")

        return [k2,p]

    # -------------------------------- Préparation des données -----------------------------
    datah.info()
    n = 70
    nbhead = int(len(datah)*(n/100))
    gpAffectation = datah.head(nbhead)
    dfo = pd.DataFrame(gpAffectation,  index=gpAffectation.index, columns=gpAffectation.columns)
    # détermine si valeur en paramètre est manquante:
    def num_missing(x):
        return sum(x.isnull())
    dfo.apply(num_missing,axis=0)
    dfo.apply(num_missing,axis=1).head()
    # les individus ou lignes
    dfo = dfo.dropna(axis=0)
    # les variables ou colonnes
    dfo = dfo.dropna(axis=1)
    # Supprimer toutes les observations contenant une valeur manquante (au moins sur une variable)
    dfo.dropna(how="all", inplace=True) # lorsqu'on veut garder la même table
    dfo['service_af'].dropna(how="all", inplace=True) # lorsqu'on veut garder la même table
    dfo.replace(np.nan,0)
    dfo['Annee'] = dfo['date_ps'].apply(lambda d: d.year)
    Annee = dfo['Annee'].fillna(0).copy().astype(int)
    dfo.head()
    dfo.info()


    # effectifs = dfo["service_af"].value_counts()
    # modalites = effectifs.index # l'index de effectifs contient les modalités
    #
    # tab = pd.DataFrame(modalites, columns = ["service_af"]) # création du tableau à partir des modalités
    # tab["n"] = effectifs.values
    # tab["f"] = tab["n"] / len(dfo) # len(data) renvoie la taille de l'échantillon
    # tab = tab.sort_values("service_af") # tri des valeurs de la variable X (croissant)
    # print("tableau:", tab)



    #Examinons maintenant l'evolution des affectations
    sb.relplot(Annee,"num_im","service_af",data=dfo,height=6,s=70)
    plt.title('Evolution de l affectation')
    plt.show()

    plt.figure(figsize=(8,5))
    sb.countplot(x=Annee,data=dfo, palette='rainbow',hue='service_af')
    plt.xlabel("Affectation")
    plt.ylabel("Effectif")
    plt.title("Effectif des agents par Service")

    # Change this scatter plot to arrange the plots in rows instead of columns
    # sb.relplot(x= Annee, y= 'service_af', data=dfo, kind="scatter",row=Annee)



    # Mesure d’association entre variables qualitatives : le test d'indépendance de khi-deux (stat khi-deux, pvalue, ddl, et tableau de fréquence théorique)
    X = dfo['Annee']
    Y = dfo['service_af']
    cont = dfo[['Annee', 'service_af']].pivot_table(index=X, columns=Y, aggfunc=len).fillna(0).copy()
    tx = X.value_counts()
    ty = Y.value_counts()
    cont = cont.astype(int)
    st_chi2, st_p, st_dof, st_exp = stati.chi2_contingency(cont)
    print("chi_2: ",st_chi2)
    print("p_value: ",st_p)
    print("degre liberte: ",st_dof)
    print("tab freq: ",st_exp)


except SQLAlchemyError as e:
    print(e)


dfo:       num_id,num_im,codebur,lieu_af,motif_affect,fonction_af,division_af,service_af,direction_af,date_ps
0     2008DEC5,275 850,34AS,ANTSIRANANA,COMPLEMENT D...                                                
1     2009DEC8,318 069,22TP,TOAMASINA-PETROLES,,CHEF...                                                
2     2000DEC4,275 855,34AS,ANTSIRANANA,COMPLEMENT D...                                                
3     2001DEC2,275 855,12IV,IVATO-AEROPORT,COMPLEMEN...                                                
4     2010DEC7,275 855,22TP,TOAMASINA-PETROLES,COMPL...                                                
...                                                 ...                                                
4448  2019DEC1087,433 883,SAE,SERVICE DES ACTIONS EC...                                                
4449  2019DEC1088,347 483,SLF,SERVICE DE LA LUTTE CO...                                                
4450  2019DEC1089,353 660,SLF,SERVICE DE LA LUTTE CO...   

KeyError: 'service_af'