# Evaluation pour le poste Inria / AP-PH - Partie 1

### Dans ce notebook, nous allons comprendre le jeu de données, les problèmes de la qualité de données en faisant ressortir les données manquantes, les données incohérents, etc...

#### Import du jeu de données : Les données sont synthétiques et correspondent à la géographie de l'Australie.

In [2]:
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('sqlite:///data.db', echo=False)
con = engine.connect()
df_patient = pd.read_sql('select * from patient', con=con)
df_pcr = pd.read_sql('select * from test', con=con)
con.close()

###### Le jeux de données comportent deux tables : la tables patients et la tables pcr (pour les tests)

### 1 - La table patient 

In [4]:
### La taille de la table patient
df_patient.shape 

(20000, 12)

In [10]:
### Les différents colonnes du jeu de données
df_patient.columns

Index(['patient_id', 'given_name', 'surname', 'street_number', 'address_1',
       'suburb', 'postcode', 'state', 'date_of_birth', 'age', 'phone_number',
       'address_2'],
      dtype='object')

In [3]:
### Nous vérifions le contenu de la table patient
df_patient.head()

Unnamed: 0,patient_id,given_name,surname,street_number,address_1,suburb,postcode,state,date_of_birth,age,phone_number,address_2
0,221958,matisse,clarke,13.0,rene street,ellenbrook,2527,wa,19710708.0,32.0,08 86018809,westella
1,771155,joshua,elrick,23.0,andrea place,east preston,2074,nsw,19120921.0,34.0,02 97793152,foxdown
2,231932,alice,conboy,35.0,mountain circuit,prospect,2305,nsw,19810905.0,22.0,02 20403934,
3,465838,sienna,craswell,39.0,cumberlegeicrescent,henty,3620,wa,19840809.0,30.0,02 62832318,jodane
4,359178,joshua,bastiaans,144.0,lowrie street,campbell town,4051,nsw,19340430.0,31.0,03 69359594,


In [6]:
### Nous cherchons si la table patient contient les données manquantes dans chacune de ces colonnes.
print(df_patient.isnull().sum(axis = 0))

patient_id           0
given_name         440
surname            425
street_number      382
address_1          796
suburb             212
postcode           199
state             1990
date_of_birth     2011
age               3997
phone_number       919
address_2        12107
dtype: int64


###### On constate que seule la colonne des identifiants des patients ne contient pas les données manquantes, nous allons supprimer lces données manquantes

In [7]:
### Suppression des données manaquantes du jeu de données 
df_patient.dropna(axis = 0, inplace = True)

In [8]:
print(df_patient.isnull().sum(axis = 0))

patient_id       0
given_name       0
surname          0
street_number    0
address_1        0
suburb           0
postcode         0
state            0
date_of_birth    0
age              0
phone_number     0
address_2        0
dtype: int64


###### On voit maintenant qu'il n'y a plus de données manquantes dans cette table

### 2 - La table pcr

In [11]:
### la taille de la table 
df_pcr.shape

(8800, 2)

In [12]:
### les colonnes de la table 
df_pcr.columns

Index(['patient_id', 'pcr'], dtype='object')

##### Cette table contient uniquement deux colonnes, l'identifiant du patient et le statut du test pcr effectué 

In [13]:
### Nous vérifions le contenu de la table patient
df_pcr.head()

Unnamed: 0,patient_id,pcr
0,653091,N
1,347667,Negative
2,708481,Positive
3,148825,Negative
4,150081,Negative


In [14]:
### On vérifie les données manquantes 
print(df_pcr.isnull().sum(axis = 0))

patient_id    0
pcr           0
dtype: int64


###### Il n'a aucune données manquantes dans cette table.

###### On constate dans cette table, il y a quatre façons d'enregistrer le statut du test : "N", "Négative", "P", "Positive". 
###### Nous allons adopté un enregistrement uniforme, c'est à dire "N" = "Négative" et "P" = "Positive"

In [15]:
#### On recode les statuts des tests pcr
df_pcr['pcr'].replace(['P'], 'Positive', inplace=True)
df_pcr['pcr'].replace(['N'], 'Négative', inplace=True)

In [16]:
#### Vsualisation de la table recodée
df_pcr.head()

Unnamed: 0,patient_id,pcr
0,653091,Négative
1,347667,Negative
2,708481,Positive
3,148825,Negative
4,150081,Negative
