# Étape 1 : Importer les bibliothèques nécessaires

In [3]:
!pip install pandas numpy matplotlib seaborn

Defaulting to user installation because normal site-packages is not writeable
Collecting seaborn
  Downloading seaborn-0.13.2-py3-none-any.whl (294 kB)
     ------------------------------------ 294.9/294.9 kB 176.8 kB/s eta 0:00:00
Installing collected packages: seaborn
Successfully installed seaborn-0.13.2



[notice] A new release of pip available: 22.3 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Étape 2 : Traitement du premier dataset

### 1. Explication de contenu de dataset "drugs_side_effects_drugs_com.csv"

| Colonne                      | Description                                                                                                 |
|------------------------------|-------------------------------------------------------------------------------------------------------------|
| **`drug_name`**               | Le **nom du médicament** (par exemple : Ibuprofen, Paracetamol).                                            |
| **`medical_condition`**       | La **condition médicale** pour laquelle le médicament est prescrit (ex. : douleur chronique, anxiété, diabète).|
| **`side_effects`**            | La liste des **effets secondaires** fréquemment rapportés (ex. : nausée, vertiges, somnolence).              |
| **`generic_name`**            | Le **nom générique** du médicament (par ex. "acetaminophen" pour "Tylenol").                                |
| **`drug_classes`**            | La **classe pharmacologique** du médicament (ex. : AINS, inhibiteur de la pompe à protons).                  |
| **`brand_names`**             | Les **noms commerciaux/marques** sous lesquels le médicament est vendu (ex. : Advil, Motrin).                |
| **`activity`**                | Information sur **l'activité thérapeutique** (peut être vide ou indiquer actif/inactif, ou le mécanisme d’action).|
| **`rx_otc`**                  | Indique si le médicament est **prescription only (Rx)** ou **en vente libre (OTC)**.                        |
| **`pregnancy_category`**      | La **catégorie de risque pendant la grossesse** (A, B, C, D, X) selon la FDA (X = à éviter absolument).       |
| **`csa`**                     | Catégorie selon le **Controlled Substances Act** (par ex. : Schedule II = fort potentiel d'abus).            |
| **`alcohol`**                 | Avertissements ou interactions connues avec l’**alcool**.                                                   |
| **`related_drugs`**           | Autres médicaments **similaires ou alternatifs** utilisés pour la même condition.                           |
| **`medical_condition_description`** | Une **description textuelle** de la condition médicale (ex. : explication du diabète de type 2).              |
| **`rating`**                  | **Note moyenne** donnée par les utilisateurs (souvent sur 10).                                               |
| **`no_of_reviews`**           | Nombre de **commentaires ou évaluations** d’utilisateurs pour ce médicament.                                |
| **`drug_link`**               | Lien web vers la page détaillée du médicament.                                                              |
| **`medical_condition_url`**   | Lien vers la page détaillée de la condition médicale.                                                       |


### 2. Charger le dataset

In [5]:
# Charger le premier dataset
df1 = pd.read_csv('archive/drugs_side_effects_drugs_com.csv')

# Aperçu des premières lignes
df1.head()

Unnamed: 0,drug_name,medical_condition,side_effects,generic_name,drug_classes,brand_names,activity,rx_otc,pregnancy_category,csa,alcohol,related_drugs,medical_condition_description,rating,no_of_reviews,drug_link,medical_condition_url
0,doxycycline,Acne,"(hives, difficult breathing, swelling in your ...",doxycycline,"Miscellaneous antimalarials, Tetracyclines","Acticlate, Adoxa CK, Adoxa Pak, Adoxa TT, Alod...",87%,Rx,D,N,X,amoxicillin: https://www.drugs.com/amoxicillin...,Acne Other names: Acne Vulgaris; Blackheads; B...,6.8,760.0,https://www.drugs.com/doxycycline.html,https://www.drugs.com/condition/acne.html
1,spironolactone,Acne,hives ; difficulty breathing; swelling of your...,spironolactone,"Aldosterone receptor antagonists, Potassium-sp...","Aldactone, CaroSpir",82%,Rx,C,N,X,amlodipine: https://www.drugs.com/amlodipine.h...,Acne Other names: Acne Vulgaris; Blackheads; B...,7.2,449.0,https://www.drugs.com/spironolactone.html,https://www.drugs.com/condition/acne.html
2,minocycline,Acne,"skin rash, fever, swollen glands, flu-like sym...",minocycline,Tetracyclines,"Dynacin, Minocin, Minolira, Solodyn, Ximino, V...",48%,Rx,D,N,,amoxicillin: https://www.drugs.com/amoxicillin...,Acne Other names: Acne Vulgaris; Blackheads; B...,5.7,482.0,https://www.drugs.com/minocycline.html,https://www.drugs.com/condition/acne.html
3,Accutane,Acne,problems with your vision or hearing; muscle o...,isotretinoin (oral),"Miscellaneous antineoplastics, Miscellaneous u...",,41%,Rx,X,N,X,doxycycline: https://www.drugs.com/doxycycline...,Acne Other names: Acne Vulgaris; Blackheads; B...,7.9,623.0,https://www.drugs.com/accutane.html,https://www.drugs.com/condition/acne.html
4,clindamycin,Acne,hives ; difficult breathing; swelling of your ...,clindamycin topical,"Topical acne agents, Vaginal anti-infectives","Cleocin T, Clindacin ETZ, Clindacin P, Clindag...",39%,Rx,B,N,,doxycycline: https://www.drugs.com/doxycycline...,Acne Other names: Acne Vulgaris; Blackheads; B...,7.4,146.0,https://www.drugs.com/mtm/clindamycin-topical....,https://www.drugs.com/condition/acne.html


### 3. Explorer le dataset

In [6]:
# Afficher les informations générales du dataset
df1.info()

# Résumé statistique
df1.describe()

# Vérification des valeurs manquantes
df1.isnull().sum()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2931 entries, 0 to 2930
Data columns (total 17 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   drug_name                      2931 non-null   object 
 1   medical_condition              2931 non-null   object 
 2   side_effects                   2807 non-null   object 
 3   generic_name                   2888 non-null   object 
 4   drug_classes                   2849 non-null   object 
 5   brand_names                    1718 non-null   object 
 6   activity                       2931 non-null   object 
 7   rx_otc                         2930 non-null   object 
 8   pregnancy_category             2702 non-null   object 
 9   csa                            2931 non-null   object 
 10  alcohol                        1377 non-null   object 
 11  related_drugs                  1462 non-null   object 
 12  medical_condition_description  2931 non-null   o

drug_name                           0
medical_condition                   0
side_effects                      124
generic_name                       43
drug_classes                       82
brand_names                      1213
activity                            0
rx_otc                              1
pregnancy_category                229
csa                                 0
alcohol                          1554
related_drugs                    1469
medical_condition_description       0
rating                           1345
no_of_reviews                    1345
drug_link                           0
medical_condition_url               0
dtype: int64

### 4. Nettoyer et prétraiter

In [7]:
#supprimer les colonnes inutiles
"""
*brand_names : Redondant avec drug_name, sauf si tu veux gérer les marques.
*activity : Souvent vide ou imprécis. Peut être ignoré si pas exploité
*drug_link, medical_condition_url: Liens web, inutiles pour du machine learning.
"""
df1 = df1.drop(columns=['brand_names', 'activity', 'drug_link', 'medical_condition_url'])

# Vérification des modifications
df1.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2931 entries, 0 to 2930
Data columns (total 13 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   drug_name                      2931 non-null   object 
 1   medical_condition              2931 non-null   object 
 2   side_effects                   2807 non-null   object 
 3   generic_name                   2888 non-null   object 
 4   drug_classes                   2849 non-null   object 
 5   rx_otc                         2930 non-null   object 
 6   pregnancy_category             2702 non-null   object 
 7   csa                            2931 non-null   object 
 8   alcohol                        1377 non-null   object 
 9   related_drugs                  1462 non-null   object 
 10  medical_condition_description  2931 non-null   object 
 11  rating                         1586 non-null   float64
 12  no_of_reviews                  1586 non-null   f

In [8]:
#Gestion des valeurs manquantes
# Remplir les valeurs manquantes dans les colonnes numériques avec la moyenne
df1['rating'] = df1['rating'].fillna(df1['rating'].mean())
df1['no_of_reviews'] = df1['no_of_reviews'].fillna(df1['no_of_reviews'].mean())

# Remplir les valeurs manquantes dans les colonnes de type objet avec une valeur par défaut ou une chaîne vide
df1['side_effects'] = df1['side_effects'].fillna('Inconnu')  # Par exemple, si les effets secondaires sont manquants
df1['generic_name'] = df1['generic_name'].fillna('Non spécifié')
df1['drug_classes'] = df1['drug_classes'].fillna('Non spécifié')
df1['rx_otc'] = df1['rx_otc'].fillna('Non spécifié')
df1['pregnancy_category'] = df1['pregnancy_category'].fillna('Inconnu')
df1['alcohol'] = df1['alcohol'].fillna('Inconnu')
df1['related_drugs'] = df1['related_drugs'].fillna('Inconnu')

# Vérification après traitement des valeurs manquantes
df1.isnull().sum()


drug_name                        0
medical_condition                0
side_effects                     0
generic_name                     0
drug_classes                     0
rx_otc                           0
pregnancy_category               0
csa                              0
alcohol                          0
related_drugs                    0
medical_condition_description    0
rating                           0
no_of_reviews                    0
dtype: int64

In [9]:
#Suppression des doublons
# Supprimer les doublons basés sur toutes les colonnes
df1 = df1.drop_duplicates()

# Vérification après suppression des doublons
df1.shape


(2931, 13)

# Étape 2 : Traitement du deuxieme dataset

### 1. Explication de contenu de dataset "faers_sample_300.csv"

| **Colonne**     | **Description**                                                                 |
|-----------------|---------------------------------------------------------------------------------|
| `report_id`     | Identifiant unique du rapport d'événement indésirable (généralement utilisé pour suivre et référencer les rapports dans une base de données). |
| `age`           | L'âge du patient (en années) au moment de la déclaration de l'événement indésirable. |
| `sex`           | Le sexe du patient |
| `reactions`     | Une liste des réactions indésirables observées chez le patient|
| `drugs`         | Une liste des médicaments administrés au patient, qui peuvent être responsables des réactions indésirables. |


### 2. Charger le dataset

In [None]:
# Charger le premier dataset
df2 = pd.read_csv('ffaers_sample_300/faers_sample_300.csv')

# Aperçu des premières lignes
df2.head()

### 3. Explorer le dataset

In [None]:
# Afficher les informations générales du dataset
df2.info()

# Résumé statistique
df2.describe()

# Vérification des valeurs manquantes
df2.isnull().sum()


### 4. Nettoyer et prétraiter

In [None]:
#Gestion des valeurs manquantes
# Remplacer les âges manquants par la médiane
df['age'] = df['age'].fillna(df['age'].median())

# Remplacer les sexes manquants par "Inconnu"
df['sex'] = df['sex'].fillna(0)  # 0 = Inconnu (on peut le mapper ensuite)

# Remplacer les réactions manquantes par "NON SPÉCIFIÉ"
df['reactions'] = df['reactions'].fillna("NON SPÉCIFIÉ")

# Remplacer les médicaments manquants par "NON SPÉCIFIÉ"
df['drugs'] = df['drugs'].fillna("NON SPÉCIFIÉ")


In [None]:
#Suppression des doublons
# Supprimer les doublons exacts
df2 = df2.drop_duplicates()

# Supprimer les doublons selon un identifiant unique
df2 = df2.drop_duplicates(subset='report_id')

# Étape 3 : Fusion des deux dataset

In [None]:
# Standardize column names (strip spaces and lowercase for easier merging)
df1.columns = df1.columns.str.strip().str.lower()
df2.columns = df2.columns.str.strip().str.lower()

# Ensure column name consistency for merge (drug_name vs drugs)
# We'll split 'drugs' in df2 if it's a list and take the first drug for simplicity
df2['drug_name'] = df2['drugs'].str.split(';').str[0].str.strip().str.lower()
df1['drug_name'] = df1['drug_name'].str.lower()

# Merge datasets on drug_name
merged_df = pd.merge(df2, df1, on='drug_name', how='left')

# Drop duplicates and reset index
merged_df.drop_duplicates(inplace=True)
merged_df.reset_index(drop=True, inplace=True)

# Display merged structure
print("\nMerged DataFrame:")
print(merged_df.head())

# Optional: Save cleaned merged data
merged_df.to_csv("merged_cleaned_data.csv", index=False)


In [None]:
# Aperçu des premières lignes
print(merged_df.head())

# Structure du DataFrame
merged_df.info()

# Dimensions du dataset
print(f"Nombre de lignes : {merged_df.shape[0]}")
print(f"Nombre de colonnes : {merged_df.shape[1]}")
print(merged_df.isnull().sum())
