# ***Les conflits politiques en République Démocratique du Congo entre 1997 et 2020.*** 

## 0) PLAN :
  **1° Bon à savoir**
  
  **2° Data privacy**
  
  **3° Etude du projet***
  
>        3.1) Importation des données et des librairies
       3.2) Phase de Data Pré-processing
       3.3) Questions
       3.4) Réponses : Visualisations
       3.5) Phase finale de la Data processing
       3.6) Modélisation : jeu de données, modèle, observation et optimisation
       3.7) Prédiction, Classification et conclusion
   
  **4° Conlusion Générale**

### 1) Bon à savoir :  
***ce notebook est évolutif, il passera de version en version.***

- ***Quoi ?*** : Le projet Armed Conflict Location and Event Data Project est conçu pour l'analyse désagrégée des conflits et la cartographie des crises. Cet ensemble de données code les dates et les lieux de tous les événements de violence politique et de protestation signalés en
République démocratique du Congo. La violence politique et les manifestations comprennent les événements qui se produisent pendant les guerres civiles et les périodes d'instabilité, les manifestations publiques et l'effondrement du régime. Le projet couvre toutes les régions de 1997 à 2020.

- ***Pourquoi ? L'objectif de notre notebook*** :
est de permettre à tous, d'avoir une idée beaucoup plus détaillées du dataset des conflits politiques en RDC entre 1997 et 2020, à l'aide des visualisations, des modèles de prédictions et de classifications que nous essayerons de mettre en place plus loin.

- ***Comment ?*** : Pour parvenir à nos fins, nous procéderons de la manière suivante : 

>    - Etape de prétraitement des données : Afin d'exploiter efficacement notre dataset nous devons avoir un dataset prêt à l'emploi, d'où nous allons d'abord commencer par comprendre les données, élaguer les données et plus précisément les colonnes, formatter les données en des types plus simple à manipuler afin d'obtenir un dataset "propre" que que nous allons visualiser à l'étape suivante
    
>    - Etape de l'analyse des données :  matérialisée par des visualisations statistiques réalisées à l'aide des librairies Pandas, Sklearn, Seaborn, Folium, Matplotlib et le célèbre Plotly.

>    - Etape de prétraitement finale : Obtention des deux derniers dataset pour la phase d'apprentissage et, grâce au feature engineering.

>    - Etape de modélisation : Création des jeux de données d'entrainement (apprentissage), de test (décision), de validation et, Choix des modèles de machine learning ainsi que observation du comportement des courbes (du modèle), usage des booster pour l'optimisation.

>    - Etape de Prédictions : Appication d'un modèle prédictif et, d'un modèle de classification aisni qu'une conclusion pour l'étape.

>    - Conclusion générale

- ***Qui ?*** : Ce travail est une réalisation de la communauté Data Science for All (DSFA), une petie association de quelques Data Scientist (Débutant, Junior, Senior, etc.), originaire de la République Démocratique du Congo. Ce travail est en particulier réalisé par 5 membres de la communauté, il s'agit notamment de : Christian Labiem, Anthony Kamoto, Grace Suana, Jessy Ndaya et Ketsia Mulapi.

- ***Notre but principal :***
Nous démocratisons les connaissances en Science de Données. 

- ***Notre devise :***
Tout s'apprend. 

### 2) Data Privacy

- ***Source*** : Le DataSet (Les données) est disponible sur Kaggle grâce à ***Manassé Ngudia***, qui se propose d'expliquer ce qui s'est passé en République Démocratique du Congo de façon brève.

- ***Remerciements :***

ACLED est dirigé par le professeur Clionadh Raleigh (Université du Sussex). Il est exploité par la directrice de recherche principale Andrea Carboni (Université du Sussex) pour l'Afrique et Hillary Tanoff pour l'Asie du Sud et du Sud-Est. La collecte de données implique plusieurs analystes de recherche, dont Charles Vannice, James Moody, Daniel Wigmore-Shepherd, Andrea Carboni, Matt Batten-Carew, Margaux Pinaud, Roudabeh Kishi, Helen Morris, Braden Fuller, Daniel Moody et d'autres. Veuillez citer :

Raleigh, Clionadh, Andrew Linke, Håvard Hegre et Joakim Karlsen. 2010. Présentation des données d'événement et de localisation des conflits armés d'ACLED. Journal of Peace Research 47 (5) 651-660.

- ***Inspiration :***

Les conflits dans une région prédisent-ils de futures flambées ? Comment les acteurs individuels interagissent-ils dans le temps ? Certaines sources rapportent-elles plus souvent sur certains acteurs ?

- ***Vers le lien Kaggle :***
    https://www.kaggle.com/manassengudia/drc-conflicts-19972020

## 3) Etude du projet

### 3.1 ) Etape 1 : Importation des données et des librairies

In [4]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

/kaggle/input/drc-conflicts-19972020/conflict_data_cod.csv
/kaggle/input/drc-conflicts-19972020/qc_conflict_data_cod.csv


In [5]:
df1 = pd.read_csv("/kaggle/input/drc-conflicts-19972020/qc_conflict_data_cod.csv")

In [6]:
df2 = pd.read_csv("/kaggle/input/drc-conflicts-19972020/conflict_data_cod.csv")

***Autres libraires utiles*** :

### 3.2 ) Data pré-processing

Affichage du premier DataFrame.

In [7]:
df1

Unnamed: 0,year,admin1,fatalities
0,#date+year,#adm1+name,#affected+killed
1,2020,Sud-Ubangi,0
2,2020,Ituri,0
3,2020,Sud-Kivu,0
4,2020,Sud-Kivu,0
...,...,...,...
17413,1997,Haut-Lomami,0
17414,1997,Maniema,0
17415,1997,Tshopo,0
17416,1997,Tshopo,0


Affichage des caractéristiques du premier DataFrame

In [8]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17418 entries, 0 to 17417
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   year        17418 non-null  object
 1   admin1      17418 non-null  object
 2   fatalities  17418 non-null  object
dtypes: object(3)
memory usage: 408.4+ KB


Deuxième DataFrame

In [9]:
df2

Unnamed: 0,data_id,iso,event_id_cnty,event_id_no_cnty,event_date,year,time_precision,event_type,sub_event_type,actor1,...,location,latitude,longitude,geo_precision,source,source_scale,notes,fatalities,timestamp,iso3
0,,,#event+code,,#date+occurred,#date+year,,#event+type,,#group+name+first,...,#loc+name,#geo+lat,#geo+lon,,#meta+source,,#description,#affected+killed,,#country+code
1,7173389.0,180.0,DRC18042,18042.0,2020-08-01,2020,1.0,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),...,Gemena,3.2500,19.7667,1.0,Actualite,National,"On 1 August 2020, members and leaders of the F...",0,1.596482e+09,COD
2,7173390.0,180.0,DRC18041,18041.0,2020-08-01,2020,1.0,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),...,Bunia,1.5667,30.2500,1.0,Actualite,National,"On 1 August 2020, members and supporters of th...",0,1.596482e+09,COD
3,7173480.0,180.0,DRC18043,18043.0,2020-08-01,2020,1.0,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),...,Sange,-3.0833,29.1167,1.0,Election-Net,National,"On 1 August 2020, members of the civil society...",0,1.596482e+09,COD
4,7173575.0,180.0,DRC18040,18040.0,2020-08-01,2020,1.0,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),...,Bukavu,-2.5000,28.8667,1.0,La Prunelle,Subnational,"On 1 August 2020, tens of members of the civil...",0,1.596482e+09,COD
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17413,7016366.0,180.0,DRC68,68.0,1997-03-01,1997,1.0,Battles,Non-state actor overtakes territory,ADFL: Alliance of Democratic Forces for Libera...,...,Kanamononga,-8.8116,24.5602,1.0,Africa Confidential; Africa Contemporary Record,Other-Regional,,0,1.585692e+09,COD
17414,7016367.0,180.0,DRC69,69.0,1997-03-01,1997,1.0,Battles,Non-state actor overtakes territory,ADFL: Alliance of Democratic Forces for Libera...,...,Kindu,-2.9437,25.9224,1.0,Africa Contemporary Record; Africa Confidential,Other-Regional,,0,1.585692e+09,COD
17415,6354326.0,180.0,DRC66,66.0,1997-02-28,1997,1.0,Strategic developments,Change to group/activity,ADFL: Alliance of Democratic Forces for Libera...,...,Kisangani,0.5147,25.1896,1.0,Local Source,Subnational,Movement of forces: Rebels nearing Kisangani n...,0,1.574110e+09,COD
17416,7016368.0,180.0,DRC67,67.0,1997-02-28,1997,1.0,Battles,Armed clash,ADFL: Alliance of Democratic Forces for Libera...,...,Kisangani,0.5147,25.1896,1.0,All Africa,Regional,ADLF rebels claim to have shot down Zaire arme...,0,1.585692e+09,COD


Caractéristiques du deuxième DataFrame

In [10]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17418 entries, 0 to 17417
Data columns (total 31 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   data_id           17417 non-null  float64
 1   iso               17417 non-null  float64
 2   event_id_cnty     17418 non-null  object 
 3   event_id_no_cnty  17417 non-null  float64
 4   event_date        17418 non-null  object 
 5   year              17418 non-null  object 
 6   time_precision    17417 non-null  float64
 7   event_type        17418 non-null  object 
 8   sub_event_type    17417 non-null  object 
 9   actor1            17418 non-null  object 
 10  assoc_actor_1     2862 non-null   object 
 11  inter1            17417 non-null  float64
 12  actor2            15023 non-null  object 
 13  assoc_actor_2     2624 non-null   object 
 14  inter2            17417 non-null  float64
 15  interaction       17417 non-null  float64
 16  region            17418 non-null  object

### Explication des datasets

Ces données contiennent des informations sur :

Dates et lieux des événements de conflit 

Types spécifiques d'événements, y compris les batailles, les meurtres de civils, les émeutes, les manifestations et les activités de recrutement ;

Des événements organisés par divers acteurs, notamment des rebelles, des gouvernements, des milices, des groupes armés, des manifestants et des civils ;

Changements dans le contrôle territorial ; 

et Décès signalés.

Les données sur les événements sont dérivées de diverses sources, notamment des rapports de pays en développement et des médias locaux, d'agences humanitaires et de publications de recherche.

***On renomme les colonnes de nos deux DataFrame afin d'avoir des colonnes beacoup plus compréhensives***

In [11]:
df1=df1.rename(columns={'admin1': 'localite','fatalities': 'faits'})

In [12]:
df1

Unnamed: 0,year,localite,faits
0,#date+year,#adm1+name,#affected+killed
1,2020,Sud-Ubangi,0
2,2020,Ituri,0
3,2020,Sud-Kivu,0
4,2020,Sud-Kivu,0
...,...,...,...
17413,1997,Haut-Lomami,0
17414,1997,Maniema,0
17415,1997,Tshopo,0
17416,1997,Tshopo,0


In [13]:
df2=df2.rename(columns={'admin1': 'province1','admin2':'province2','admin3':'province3','location': 'localite','fatalities': 'faits'})

***On supprime les premières lignes de nos 2 DataFrame (dfi Pour tout i appartenant à [1,2]***) 🤔 et on renomme nos df en df_locafaits (pour le df aux 3 colonnes) et df_more (pour le df aux plus de 3 colonnes car il ets plus détaillé) 🙂.

In [14]:
df_locafaits = df1.drop(0)

In [15]:
df_locafaits

Unnamed: 0,year,localite,faits
1,2020,Sud-Ubangi,0
2,2020,Ituri,0
3,2020,Sud-Kivu,0
4,2020,Sud-Kivu,0
5,2020,Nord-Kivu,0
...,...,...,...
17413,1997,Haut-Lomami,0
17414,1997,Maniema,0
17415,1997,Tshopo,0
17416,1997,Tshopo,0


In [39]:
df_more = df2.drop(0)

In [40]:
df_more

Unnamed: 0,data_id,iso,event_id_cnty,event_id_no_cnty,event_date,year,time_precision,event_type,sub_event_type,actor1,...,localite,latitude,longitude,geo_precision,source,source_scale,notes,faits,timestamp,iso3
1,7173389.0,180.0,DRC18042,18042.0,2020-08-01,2020,1.0,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),...,Gemena,3.2500,19.7667,1.0,Actualite,National,"On 1 August 2020, members and leaders of the F...",0,1.596482e+09,COD
2,7173390.0,180.0,DRC18041,18041.0,2020-08-01,2020,1.0,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),...,Bunia,1.5667,30.2500,1.0,Actualite,National,"On 1 August 2020, members and supporters of th...",0,1.596482e+09,COD
3,7173480.0,180.0,DRC18043,18043.0,2020-08-01,2020,1.0,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),...,Sange,-3.0833,29.1167,1.0,Election-Net,National,"On 1 August 2020, members of the civil society...",0,1.596482e+09,COD
4,7173575.0,180.0,DRC18040,18040.0,2020-08-01,2020,1.0,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),...,Bukavu,-2.5000,28.8667,1.0,La Prunelle,Subnational,"On 1 August 2020, tens of members of the civil...",0,1.596482e+09,COD
5,7173384.0,180.0,DRC18032,18032.0,2020-07-31,2020,1.0,Battles,Armed clash,Unidentified Armed Group (Democratic Republic ...,...,Butembo,0.1420,29.2910,2.0,7 Sur 7,National,"On 31 July 2020, unidentified militia rebels c...",0,1.596482e+09,COD
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17413,7016366.0,180.0,DRC68,68.0,1997-03-01,1997,1.0,Battles,Non-state actor overtakes territory,ADFL: Alliance of Democratic Forces for Libera...,...,Kanamononga,-8.8116,24.5602,1.0,Africa Confidential; Africa Contemporary Record,Other-Regional,,0,1.585692e+09,COD
17414,7016367.0,180.0,DRC69,69.0,1997-03-01,1997,1.0,Battles,Non-state actor overtakes territory,ADFL: Alliance of Democratic Forces for Libera...,...,Kindu,-2.9437,25.9224,1.0,Africa Contemporary Record; Africa Confidential,Other-Regional,,0,1.585692e+09,COD
17415,6354326.0,180.0,DRC66,66.0,1997-02-28,1997,1.0,Strategic developments,Change to group/activity,ADFL: Alliance of Democratic Forces for Libera...,...,Kisangani,0.5147,25.1896,1.0,Local Source,Subnational,Movement of forces: Rebels nearing Kisangani n...,0,1.574110e+09,COD
17416,7016368.0,180.0,DRC67,67.0,1997-02-28,1997,1.0,Battles,Armed clash,ADFL: Alliance of Democratic Forces for Libera...,...,Kisangani,0.5147,25.1896,1.0,All Africa,Regional,ADLF rebels claim to have shot down Zaire arme...,0,1.585692e+09,COD


***On constate que certaines variables sont qualitatives (ou nominale) pour se faire nous voulons évaluer si c'est possible d'envisager une certaine catégorisation en raison d'un nombre minime de valeurs.***

In [18]:
str(len(df_locafaits.localite.value_counts()))+' provinces'

'26 provinces'

26 ? ça fait beaucoup pour être catégoriser sauf si l'on se tiennent à une convention administrative pour les catégoriser suivant une transformation de type OrdinalEncoder.

In [19]:
df_locafaits.localite.value_counts()

Nord-Kivu         6506
Sud-Kivu          3106
Ituri             2087
Haut-Uele          933
Kinshasa           741
Haut-Katanga       609
Tanganyika         585
Tshopo             375
Bas-Uele           331
Maniema            307
Kasai-Central      289
Kongo-Central      206
Kasai-Oriental     175
Sud-Ubangi         162
Kasai              139
Equateur           138
Lomami             120
Haut-Lomami        100
Tshuapa             93
Sankuru             89
Kwilu               88
Lualaba             67
Nord-Ubangi         65
Mai-Ndombe          50
Mongala             36
Kwango              20
Name: localite, dtype: int64

Nous pouvons observer, textuellement, de façon décroissante, les provinces les plus affectés par les manifestations politiques en RDC.

In [20]:
df_locafaits.localite.unique()

array(['Sud-Ubangi', 'Ituri', 'Sud-Kivu', 'Nord-Kivu', 'Kongo-Central',
       'Tanganyika', 'Haut-Uele', 'Tshopo', 'Maniema', 'Kinshasa',
       'Lomami', 'Kasai-Central', 'Lualaba', 'Sankuru', 'Bas-Uele',
       'Kasai-Oriental', 'Kwilu', 'Haut-Katanga', 'Kasai', 'Nord-Ubangi',
       'Haut-Lomami', 'Equateur', 'Mongala', 'Mai-Ndombe', 'Tshuapa',
       'Kwango'], dtype=object)

ci-haut, il s'agit juste d'une autre façon d'afficher les localités (provinces).

In [21]:
str(len(df_locafaits.localite.unique())) + ' provinces'

'26 provinces'

Ci-haut, encore une autre façon de découvrire le nombre de provinces.

***Maintenons que nous avons obtenu une structure qui rend nos DF facile à comprendre, nous allons manipuler le typage des variables (qui sont les colonnes). et revoir l'échelle de nos données.***

### Changement des types

In [22]:
df_locafaits.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17417 entries, 1 to 17417
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   year      17417 non-null  object
 1   localite  17417 non-null  object
 2   faits     17417 non-null  object
dtypes: object(3)
memory usage: 544.3+ KB


Pour le premier DF (df_locadfaits) nous observons une même échelle(aucune valeur nulle) de nos données, des noms de colonnes compréhensives sauf que la colonnes des faits renseignes le nombres de faits (décès, etc.) ayant eu lieu. chaque nombre est un individu, nous allons alors convertir cette colonne en entier.

In [23]:
df_locafaits.faits = df_locafaits.faits.astype("int")

In [24]:
df_locafaits.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17417 entries, 1 to 17417
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   year      17417 non-null  object
 1   localite  17417 non-null  object
 2   faits     17417 non-null  int64 
dtypes: int64(1), object(2)
memory usage: 544.3+ KB


Nous allons procéder de la même façon pour notre deuxième DF.

In [25]:
df_more.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17417 entries, 1 to 17417
Data columns (total 31 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   data_id           17417 non-null  float64
 1   iso               17417 non-null  float64
 2   event_id_cnty     17417 non-null  object 
 3   event_id_no_cnty  17417 non-null  float64
 4   event_date        17417 non-null  object 
 5   year              17417 non-null  object 
 6   time_precision    17417 non-null  float64
 7   event_type        17417 non-null  object 
 8   sub_event_type    17417 non-null  object 
 9   actor1            17417 non-null  object 
 10  assoc_actor_1     2861 non-null   object 
 11  inter1            17417 non-null  float64
 12  actor2            15022 non-null  object 
 13  assoc_actor_2     2623 non-null   object 
 14  inter2            17417 non-null  float64
 15  interaction       17417 non-null  float64
 16  region            17417 non-null  object

ici on constate que nous avons un problème d'échelle, de typage.

***Commençons par décider ce que nous devons supprimer et ce que nous devons garder : ici nous n'énumerrons que ce que nous devons supprimer et expliqueront en bref pourquoi nous aurons garder le reste***

***- Nous devons supprimer :***

> - La data_id : l'index joue déjà mieux ce rôle
> - event_id-cnty : l'index joue déjà mieux ce rôle
> - iso : il s'agit de la norme iso 180 qui ne fait que se répéter, cela ne fera que favoriser du sur apprentissage inutile.
> - geo_precision : elle varie entre 1 et 3 en passant par 2 par conséquent elle ne nous renseigne pas sur grand chose
> - time_precision : idem que le précédent, pas assez informatif
> - interraction : on va le supprimer par erreur puis le remettre...pour raison pédagogique🙃!!!!
> - region : Toutes ces manifs ont lieu en Afrique centrale, à quoi bon le répeter ?
> - country : Toutes ces manifs ont lieu en République Démocratique du Congo donc, pas trop important non plus
> - notes : Les notes ce sont les observations des sources (media), ls témoignages et autres informations
> - iso3 : Il s'agit du Code de la RDC au format iso3 COD.  
> - inter1 : moins significatif
> - inter2 : moins significatif

***- Nous devons garder :***

> - event_id_no_cnty : L'ordre d'apparition des manifestations, il peut y  avoir 3 eventment le même jour
> - event_date       : La date de la manif
> - year             : L'année de la manif
> - event_type       : Le type de manifestastion
> - sub_event_type   : Le sous type d'évenment
> - actor1           : L'acteur principale de la manifestastion
> - assoc_actor_1    : L'associer de l'acteur principal 
> - actor2           : L'acteur secondaire de la manif 
> - assoc_actor_2    : L'associer de l'acteur secondaire de la manif
> - interaction      : Le nombre d'interractions lors de la manif
> - province1        : La première province où a eu lieu la mif le même jour 
> - province2        : La deuxième province où a eu lieu la mif le même jour 
> - province3        : La troisième province où a eu lieu la mif le même jour  
> - localite         : La province qui a lancé un appel à l'organisation de la manif
> - latitude         : La latitude de la localité de la manifestation 
> - longitude        : La longitude de la localité de la manifestation 
> - source           : Le média qui informe sur les manifestations 
> - source_scale     : Le type de média selon l'échelle nationale, internationale, etc.  
> - faits            : Les tragédies...les décès, les accidents, les personnes tuées, etc. 
> - timestamp        : il s'agit de la date de la manif en valeur réel calculé à partir du 1er Janvier 1970

***Le sdeux lignes suivantes sont nécessaire si et seulement si vous voulez voir le dataset détaillé au niveau des colonnes ou au niveau des lignes.***

In [26]:
# pd.set_option("display.max_columns",None)
# pd.set_option("display.max_row²",None)

***suppression***

In [42]:
df_more = df_more.drop(["data_id","iso","geo_precision","time_precision","interaction","region","country", "notes", "iso3","event_id_cnty","inter1", "inter2"],axis=1)

In [43]:
df_more.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17417 entries, 1 to 17417
Data columns (total 19 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   event_id_no_cnty  17417 non-null  float64
 1   event_date        17417 non-null  object 
 2   year              17417 non-null  object 
 3   event_type        17417 non-null  object 
 4   sub_event_type    17417 non-null  object 
 5   actor1            17417 non-null  object 
 6   assoc_actor_1     2861 non-null   object 
 7   actor2            15022 non-null  object 
 8   assoc_actor_2     2623 non-null   object 
 9   province1         17417 non-null  object 
 10  province2         17417 non-null  object 
 11  province3         17393 non-null  object 
 12  localite          17417 non-null  object 
 13  latitude          17417 non-null  object 
 14  longitude         17417 non-null  object 
 15  source            17417 non-null  object 
 16  source_scale      17417 non-null  object

***Conversion des types de colonnes***

In [44]:
df_more["event_date"] = pd.to_datetime(df_more["event_date"])

In [45]:
df_more["year"] = df_more.event_date.dt.year

In [46]:
df_more.longitude = df_more.longitude.astype("float")

In [47]:
df_more.latitude = df_more.latitude.astype("float")

In [48]:
df_more.event_id_no_cnty = df_more.event_id_no_cnty.astype("int")

In [49]:
df_more.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17417 entries, 1 to 17417
Data columns (total 19 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   event_id_no_cnty  17417 non-null  int64         
 1   event_date        17417 non-null  datetime64[ns]
 2   year              17417 non-null  int64         
 3   event_type        17417 non-null  object        
 4   sub_event_type    17417 non-null  object        
 5   actor1            17417 non-null  object        
 6   assoc_actor_1     2861 non-null   object        
 7   actor2            15022 non-null  object        
 8   assoc_actor_2     2623 non-null   object        
 9   province1         17417 non-null  object        
 10  province2         17417 non-null  object        
 11  province3         17393 non-null  object        
 12  localite          17417 non-null  object        
 13  latitude          17417 non-null  float64       
 14  longitude         1741

***Rajouter la colonne interractions qui avait été supprimé*** 

In [50]:
df_more["interactions"] = df2["interaction"]

In [51]:
df_more.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17417 entries, 1 to 17417
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   event_id_no_cnty  17417 non-null  int64         
 1   event_date        17417 non-null  datetime64[ns]
 2   year              17417 non-null  int64         
 3   event_type        17417 non-null  object        
 4   sub_event_type    17417 non-null  object        
 5   actor1            17417 non-null  object        
 6   assoc_actor_1     2861 non-null   object        
 7   actor2            15022 non-null  object        
 8   assoc_actor_2     2623 non-null   object        
 9   province1         17417 non-null  object        
 10  province2         17417 non-null  object        
 11  province3         17393 non-null  object        
 12  localite          17417 non-null  object        
 13  latitude          17417 non-null  float64       
 14  longitude         1741

***ici on veut ordonner le dataset selon l'ordre de la plus ancienne manifestation à la plus récente, tout en respectant l'apparution de ces manifestations (car souvenez-vous nous avons vu plus haut que en un jour, il peut y avoir plusieurs manifestations).***

In [52]:
df_more = df_more.sort_values(by=['event_date','event_id_no_cnty'], ascending=True)

In [53]:
df_more

Unnamed: 0,event_id_no_cnty,event_date,year,event_type,sub_event_type,actor1,assoc_actor_1,actor2,assoc_actor_2,province1,province2,province3,localite,latitude,longitude,source,source_scale,faits,timestamp,interactions
17417,65,1997-02-27,1997,Battles,Non-state actor overtakes territory,ADFL: Alliance of Democratic Forces for Libera...,,Military Forces of the Democratic Republic of ...,,Maniema,Kindu,Kindu,Kindu,-2.9437,25.9224,Reuters,International,0,1.585692e+09,12.0
17415,66,1997-02-28,1997,Strategic developments,Change to group/activity,ADFL: Alliance of Democratic Forces for Libera...,,,,Tshopo,Kisangani,Kisangani,Kisangani,0.5147,25.1896,Local Source,Subnational,0,1.574110e+09,20.0
17416,67,1997-02-28,1997,Battles,Armed clash,ADFL: Alliance of Democratic Forces for Libera...,,Military Forces of the Democratic Republic of ...,,Tshopo,Kisangani,Kisangani,Kisangani,0.5147,25.1896,All Africa,Regional,0,1.585692e+09,12.0
17413,68,1997-03-01,1997,Battles,Non-state actor overtakes territory,ADFL: Alliance of Democratic Forces for Libera...,,Military Forces of the Democratic Republic of ...,,Haut-Lomami,Kamina,Kamina,Kanamononga,-8.8116,24.5602,Africa Confidential; Africa Contemporary Record,Other-Regional,0,1.585692e+09,12.0
17414,69,1997-03-01,1997,Battles,Non-state actor overtakes territory,ADFL: Alliance of Democratic Forces for Libera...,,Military Forces of the Democratic Republic of ...,,Maniema,Kindu,Kindu,Kindu,-2.9437,25.9224,Africa Contemporary Record; Africa Confidential,Other-Regional,0,1.585692e+09,12.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13,18039,2020-07-31,2020,Riots,Violent demonstration,Rioters (Democratic Republic of Congo),,Police Forces of the Democratic Republic of Co...,,Sud-Kivu,Uvira,Uvira,Sange,-3.0833,29.1167,La Prunelle; Radio Okapi,Subnational-National,0,1.596482e+09,15.0
4,18040,2020-08-01,2020,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),LUCHA: Fight for Change,,,Sud-Kivu,Bukavu,Bukavu,Bukavu,-2.5000,28.8667,La Prunelle,Subnational,0,1.596482e+09,60.0
2,18041,2020-08-01,2020,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),FCC: Common Front for Congo,,,Ituri,Irumu,Irumu,Bunia,1.5667,30.2500,Actualite,National,0,1.596482e+09,60.0
1,18042,2020-08-01,2020,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),FCC: Common Front for Congo,,,Sud-Ubangi,Gemena,Gemena,Gemena,3.2500,19.7667,Actualite,National,0,1.596482e+09,60.0


***Nous allons à présent appeler notre DataFrame df_more df tout court et reformatter l'indexation.***

In [55]:
df= df_more.copy()

In [56]:
df.index = range(len(df_more))

In [58]:
df #nouveau DataFrame principal

Unnamed: 0,event_id_no_cnty,event_date,year,event_type,sub_event_type,actor1,assoc_actor_1,actor2,assoc_actor_2,province1,province2,province3,localite,latitude,longitude,source,source_scale,faits,timestamp,interactions
0,65,1997-02-27,1997,Battles,Non-state actor overtakes territory,ADFL: Alliance of Democratic Forces for Libera...,,Military Forces of the Democratic Republic of ...,,Maniema,Kindu,Kindu,Kindu,-2.9437,25.9224,Reuters,International,0,1.585692e+09,12.0
1,66,1997-02-28,1997,Strategic developments,Change to group/activity,ADFL: Alliance of Democratic Forces for Libera...,,,,Tshopo,Kisangani,Kisangani,Kisangani,0.5147,25.1896,Local Source,Subnational,0,1.574110e+09,20.0
2,67,1997-02-28,1997,Battles,Armed clash,ADFL: Alliance of Democratic Forces for Libera...,,Military Forces of the Democratic Republic of ...,,Tshopo,Kisangani,Kisangani,Kisangani,0.5147,25.1896,All Africa,Regional,0,1.585692e+09,12.0
3,68,1997-03-01,1997,Battles,Non-state actor overtakes territory,ADFL: Alliance of Democratic Forces for Libera...,,Military Forces of the Democratic Republic of ...,,Haut-Lomami,Kamina,Kamina,Kanamononga,-8.8116,24.5602,Africa Confidential; Africa Contemporary Record,Other-Regional,0,1.585692e+09,12.0
4,69,1997-03-01,1997,Battles,Non-state actor overtakes territory,ADFL: Alliance of Democratic Forces for Libera...,,Military Forces of the Democratic Republic of ...,,Maniema,Kindu,Kindu,Kindu,-2.9437,25.9224,Africa Contemporary Record; Africa Confidential,Other-Regional,0,1.585692e+09,12.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17412,18039,2020-07-31,2020,Riots,Violent demonstration,Rioters (Democratic Republic of Congo),,Police Forces of the Democratic Republic of Co...,,Sud-Kivu,Uvira,Uvira,Sange,-3.0833,29.1167,La Prunelle; Radio Okapi,Subnational-National,0,1.596482e+09,15.0
17413,18040,2020-08-01,2020,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),LUCHA: Fight for Change,,,Sud-Kivu,Bukavu,Bukavu,Bukavu,-2.5000,28.8667,La Prunelle,Subnational,0,1.596482e+09,60.0
17414,18041,2020-08-01,2020,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),FCC: Common Front for Congo,,,Ituri,Irumu,Irumu,Bunia,1.5667,30.2500,Actualite,National,0,1.596482e+09,60.0
17415,18042,2020-08-01,2020,Protests,Peaceful protest,Protesters (Democratic Republic of Congo),FCC: Common Front for Congo,,,Sud-Ubangi,Gemena,Gemena,Gemena,3.2500,19.7667,Actualite,National,0,1.596482e+09,60.0


***On va devoir dissocier DataFrame de visualisation et DataFrame pour la rpediction en aprtant du df principale***

In [59]:
df_viz = df.copy()

### 3.3 ) Les questions

    0) Matrice de covariance
    0.1) Des affichages simples
    1) Nombre de victimes par provinces
    2) Nombre de morts dans l'armée et dans la société civile
    3) Observer les faits durant les années
    4) Moyenne des décès par année
    5) La proportion des types d'évenements
    6) Représentation spatiale des localités (+ le point 4)
    7) Représenter l'évolution des types d'évenements pendant le temps
    8) Observer les interractions durant les années
    9) Nuages de points avec x et y comme latitude et longitude et, localité comme des points étiquettes Localite(latitude,longitude) et jointplot
    10) Connaître les sources qui informe le plus et, les sources qui informes le moins
    11) Moyenne des décès par année avec un box plot
    12) réaliser une matrice colorié (Heat Map) pour représenter le nombre de fois que les acteurs ont organisés une manifestations entre 1997 et 2020
    13) En partant des 3 meilleurs sources, représenter sur 3 années prises au hasard, le nombre d'évenemnts
    14) Retoucher (design) le dataset avec plotly
    15) Représentation en groupe by
    16) Matrice de covariance finale

### 3.4 ) Les réponses : visualisations

### 3.5 ) Final Data Processing

### 3.6 ) Modélisation

### 3.7 ) Prédiction et classification

# ENCODAGE OU PAS ? (soon)

In [None]:
df_more = pd.get_dummies(dadf_more['event_type'], columns=np.unique(df_more['event_type'].values))