# PROJET - ESCOBADDICTIONS
## 8PRO408 – Outils de programmation pour la science des données
### Auteurs : Andonin COUSSEAU / Etienne CHEVROLLIER / Khassan TASSOUEV / Damien BALLET

## Etude 1 - Les morts par type de drogues aux Etats-Unis

In [1]:
import pandas as pd

# Chargement du fichier CSV Kaggle dans un DataFrame
df = pd.read_csv(".\\data\\drug_related_death_classification.csv")
display(df)

Unnamed: 0.1,Unnamed: 0,ID,Date,Age,Sex,Race,ResidenceCity,ResidenceCounty,ResidenceState,DeathCity,...,Benzodiazepine,Methadone,Amphet,Tramad,Morphine_NotHeroin,Hydromorphone,Other,OpiateNOS,AnyOpioid,MannerofDeath
0,0,14-0273,06/28/2014 12:00:00 AM,,,,,,,,...,Y,,,,,,,,,Accident
1,1,13-0102,03/21/2013 12:00:00 AM,48.0,Male,Black,NORWALK,,,NORWALK,...,,,,,,,,,,Accident
2,2,16-0165,03/13/2016 12:00:00 AM,30.0,Female,White,SANDY HOOK,FAIRFIELD,CT,DANBURY,...,,,,,,,,,Y,Accident
3,3,16-0208,03/31/2016 12:00:00 AM,23.0,Male,White,RYE,WESTCHESTER,NY,GREENWICH,...,,,,,,,,,Y,Accident
4,4,13-0052,02/13/2013 12:00:00 AM,22.0,Male,"Asian, Other",FLUSHING,QUEENS,,GREENWICH,...,,,,,,,,,,Accident
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5100,5100,15-0466,09/08/2015 12:00:00 AM,43.0,Male,White,CHESHIRE,NEW HAVEN,CT,CHESHIRE,...,Y,,,,,,,,,Accident
5101,5101,17-0618,07/22/2017 12:00:00 AM,21.0,Male,White,MADISON,NEW HAVEN,CT,NEW HAVEN,...,Y,,,,,,,,,Accident
5102,5102,18-0646,08/14/2018 12:00:00 AM,30.0,Male,White,LAWRENCEVILLE,TIOGA,PA,DANBURY,...,,,,Y,,,,,Y,Accident
5103,5103,14-0124,03/16/2014 12:00:00 AM,33.0,Male,White,HARTFORD,,,WINDSOR,...,,,,,,,,,,Accident


Traduction et récupération des données intéressantes

In [2]:
import pandas as pd

# Création de la base du DataFrame
df_morts_drogues = pd.DataFrame(columns=['drogue', 'pourcentage_mort', 'moyenne_age', 'pourcentage_hommes', 'pourcentage_femmes'])

# Liste des drogues à analyser
liste_drogues = [
    ('Heroin', 'Héroïne'),
    ('Cocaine', 'Cocaïne'),
    ('Fentanyl', 'Fentanyl'),
    ('FentanylAnalogue', 'Fentanyl Analogue'),
    ('Oxycodone', 'Oxycodone'),
    ('Oxymorphone', 'Oxymorphone'),
    ('Ethanol', 'Alcool'),
    ('Hydrocodone', 'Hydrocodone'),
    ('Benzodiazepine', 'Benzodiazépine'),
    ('Amphet', 'Amphétamine'),
    ('Tramad', 'Tramadol'),
    ('Morphine_NotHeroin', 'Morphine'),
    ('Hydromorphone', 'Hydromorphone'),
    ('Other', 'Autres'),
    ('OpiateNOS', 'Opiacé'),
    ('AnyOpioid', 'Opioïde')
]

# Calcul des statistiques pour chaque drogue
for drogue in liste_drogues:
    drogue_col = drogue[0]
    drogue_name = drogue[1]

    # Filtrage des lignes correspondant à la drogue
    drogue_rows = df[df[drogue_col] == 'Y'].copy()

    # Calcul du pourcentage de morts pour cette drogue
    pourcentage_mort = len(drogue_rows) / len(df) * 100

    # Calcul de la moyenne d'âge pour cette drogue
    moyenne_age = drogue_rows['Age'].mean()

    # Remplacement des valeurs manquantes dans la colonne 'Sex' par une valeur par défaut ('Unknown')
    drogue_rows.loc[:, 'Sex'] = drogue_rows['Sex'].fillna('Unknown')

    # Calcul du pourcentage d'hommes et de femmes pour cette drogue
    total_rows = len(drogue_rows)
    pourcentage_hommes = (drogue_rows['Sex'] == 'Male').sum() / total_rows * 100
    pourcentage_femmes = (drogue_rows['Sex'] == 'Female').sum() / total_rows * 100

    # Création d'un DataFrame temporaire pour la drogue actuelle
    temp_df = pd.DataFrame({
        'drogue': [drogue_name],
        'pourcentage_mort': [pourcentage_mort],
        'moyenne_age': [moyenne_age],
        'pourcentage_hommes': [pourcentage_hommes],
        'pourcentage_femmes': [pourcentage_femmes]
    })

    # Concaténation du DataFrame temporaire avec df_morts_drogues
    df_morts_drogues = pd.concat([df_morts_drogues, temp_df], ignore_index=True)

# Affichage du DataFrame
display(df_morts_drogues)


  pourcentage_hommes = (drogue_rows['Sex'] == 'Male').sum() / total_rows * 100
  pourcentage_femmes = (drogue_rows['Sex'] == 'Female').sum() / total_rows * 100


Unnamed: 0,drogue,pourcentage_mort,moyenne_age,pourcentage_hommes,pourcentage_femmes
0,Héroïne,49.539667,40.360617,78.647687,21.312772
1,Cocaïne,29.794319,42.826316,74.819198,25.04931
2,Fentanyl,43.643487,40.312668,78.904847,20.870736
3,Fentanyl Analogue,7.61998,41.128535,78.663239,21.079692
4,Oxycodone,11.890304,46.032949,66.227348,33.607908
5,Oxymorphone,2.115573,44.361111,67.592593,32.407407
6,Alcool,24.427032,43.819567,77.866881,21.972735
7,Hydrocodone,2.311459,47.880342,52.542373,46.610169
8,Benzodiazépine,26.307542,43.187034,65.376024,34.475056
9,Amphétamine,3.114594,39.050314,69.811321,30.188679


Exportation du DataFrame

In [4]:
# Exporter le dataframe en json
df_morts_drogues.to_csv('.\\df_morts_par_drogue.csv', orient='records')