

# Project: Investigate a Dataset - No-show appointments

## Table of Contents
<ul>
<li><a href="#intro">Introduction</a></li>
<li><a href="#wrangling">Data Wrangling</a></li>
<li><a href="#eda">Exploratory Data Analysis</a></li>
<li><a href="#conclusions">Conclusions</a></li>
</ul>



<a id='intro'></a>
## Introduction

### Description  de notre jeu de données

Notre jeu de données regroupe les informations de plus de 100 000 rendez-vous médicals au Brésil et est orienté sur la question si oui ou non les patients se présente à leur rendez-vous.Ci-dessous est présenté les différentes informations collectées.

<ol>
    <li> <strong>PatientId</strong>: Identifiant du patient </li>
    <li> <strong>AppointmentID</strong>: Identifiant de chaque rendez-vous </li>
    <li> <strong>Gender</strong>: Genre ( Homme ou Femme) </li>
    <li> <strong>ScheduledDay</strong>: Jour de reservation </li>
    <li> <strong>AppointmentDay</strong>: Jour du rendez-vous </li>
    <li> <strong>Age</strong>: Age du patient </li>
    <li> <strong>Neighbourhood</strong>:Lieu du rendez-vous </li>
    <li> <strong>Scholarship</strong>: Support financière (vrai ou faux) </li>
    <li> <strong>Hipertension</strong>: Hypertension (vrai ou faux) </li>
    <li> <strong>Diabetes</strong>: Diabète (vrai ou faux) </li>
    <li> <strong>Alcoholism</strong>: Alcolique (vrai ou faux)</li>
    <li> <strong>Handcap</strong>: Handicape (vrai ou faux) </li>
    <li> <strong>SMS_received</strong>: SMS de rappel reçu 1 ou plusieurs. </li>
    <li> <strong>No-show</strong>: présent au rendez-vous (vrai ou faux) </li>
<ol>

   


### Question(s) pour l'analyse
    
Quels facteurs font qu'un patient peut ne pas se présenter à un rendez-vous? Nous allons essayer de répondre à cette question en explorant notre jeu de données.

In [3]:
# Importation de packages
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## Data Wrangling

### Chargement de notre jeu de donnée

In [4]:
df = pd.read_csv("KaggleV2-May-2016.csv",sep=",")
# affichage des 5 premières lignes de notre jeu de données
df.head()

Unnamed: 0,PatientId,AppointmentID,Gender,ScheduledDay,AppointmentDay,Age,Neighbourhood,Scholarship,Hipertension,Diabetes,Alcoholism,Handcap,SMS_received,No-show
0,29872500000000.0,5642903,F,2016-04-29T18:38:08Z,2016-04-29T00:00:00Z,62,JARDIM DA PENHA,0,1,0,0,0,0,No
1,558997800000000.0,5642503,M,2016-04-29T16:08:27Z,2016-04-29T00:00:00Z,56,JARDIM DA PENHA,0,0,0,0,0,0,No
2,4262962000000.0,5642549,F,2016-04-29T16:19:04Z,2016-04-29T00:00:00Z,62,MATA DA PRAIA,0,0,0,0,0,0,No
3,867951200000.0,5642828,F,2016-04-29T17:29:31Z,2016-04-29T00:00:00Z,8,PONTAL DE CAMBURI,0,0,0,0,0,0,No
4,8841186000000.0,5642494,F,2016-04-29T16:07:23Z,2016-04-29T00:00:00Z,56,JARDIM DA PENHA,0,1,1,0,0,0,No


### Liste des colonnes et leur type

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 110527 entries, 0 to 110526
Data columns (total 14 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   PatientId       110527 non-null  float64
 1   AppointmentID   110527 non-null  int64  
 2   Gender          110527 non-null  object 
 3   ScheduledDay    110527 non-null  object 
 4   AppointmentDay  110527 non-null  object 
 5   Age             110527 non-null  int64  
 6   Neighbourhood   110527 non-null  object 
 7   Scholarship     110527 non-null  int64  
 8   Hipertension    110527 non-null  int64  
 9   Diabetes        110527 non-null  int64  
 10  Alcoholism      110527 non-null  int64  
 11  Handcap         110527 non-null  int64  
 12  SMS_received    110527 non-null  int64  
 13  No-show         110527 non-null  object 
dtypes: float64(1), int64(8), object(5)
memory usage: 11.8+ MB


### Les dimensions de notre jeu de données

In [6]:
df.shape

(110527, 14)

### Le nombre de valeur manquante
Nous cherchons si notre dataset contient des valeurs manquantes que nous nettoyeront par la suite.

In [8]:
df.isnull().sum()

PatientId         0
AppointmentID     0
Gender            0
ScheduledDay      0
AppointmentDay    0
Age               0
Neighbourhood     0
Scholarship       0
Hipertension      0
Diabetes          0
Alcoholism        0
Handcap           0
SMS_received      0
No-show           0
dtype: int64

### Le nombre de ligne dupliqué

In [9]:
df.duplicated().sum()

0

Notre jeu de données ne contient ni de valeur manquante ni de ligne dupliquée.

In [12]:
df.nunique()

PatientId          62299
AppointmentID     110527
Gender                 2
ScheduledDay      103549
AppointmentDay        27
Age                  104
Neighbourhood         81
Scholarship            2
Hipertension           2
Diabetes               2
Alcoholism             2
Handcap                5
SMS_received           2
No-show                2
dtype: int64

En vérifiant le nombre de valeurs uniques de nos données, nous constatont qu'ils existe des patients ayant programmé programmer plusieurs rendez-vous. Et que handcap peut contenir 5 valeurs différentes.

In [22]:
df.Handcap.unique()

array([0, 1], dtype=int64)

>En étudiant la description de notre dataset, nous avons définit Handcap comme pouvant prendre les valeurs vrai(1) ou faux(0). Dans cette exploration, nous constatons qu'il peut en prendre plus. N'ayant donc pas les précisions sur les valeurs supplémentaires [2,3,4], à supposer qu'elles puissent indiquer sur le type d'handicape atteint par le patient, nous allons donc les remplacer par 1 pour ainsi dire que le patient est atteint d'handicap.

In [16]:
# remplacement des valeurs de Handcap >=2 par 1
df.loc[df["Handcap"]>=2]=1

In [17]:
#verification des changements
df.Handcap.unique()

array([0, 1], dtype=int64)

Nous pouvons aussi supprimer les colonnes **PatientId** et **AppointmentID** qui servent à identifier le rendez-vous sachant qu'ils ne peuvent influer sur la présentation du client au rendez-vous. De même que **Neighbourhood** qui reste unitile si on ne connait pas l'adresse du patient et la distance entre ces 2 lieux.

In [23]:
#suppression des 3 colonnes citées
df.drop(['PatientId', 'AppointmentID','Neighbourhood'], axis=1, inplace=True)


In [25]:
# vérification suppression
df.columns

Index(['Gender', 'ScheduledDay', 'AppointmentDay', 'Age', 'Scholarship',
       'Hipertension', 'Diabetes', 'Alcoholism', 'Handcap', 'SMS_received',
       'No-show'],
      dtype='object')

In [26]:
df.shape

(110527, 11)

df.info

La colonne **No-show** permet de définir si un utilisateur s'est présenté au rendew-vous ou pas. Nous allons le transformer de sorte qu'il