# Projet de Fouille de données

## Etape I : Analyse exploratoire des données

### Import des librairies

On commence par importer les librairies.

In [1]:
import pandas
import numpy

### Import des données

Puis, on importe les données de notre jeu de données, et on les "wrap" dans un DataFrame de Pandas.

In [2]:
data = pandas.read_csv("../data/corrupted_data.csv")
dataFrame = pandas.DataFrame(data)

### Visualisation des données

On affiche les données, pour les visualiser et se faire un premier avis.

In [3]:
dataFrame.head()

Unnamed: 0.1,Unnamed: 0,date,county,state,fips,cases,deaths
0,0,2020-01-21,Snohomish,Washington,53061.0,1.0,0.0
1,1,2020-01-22,Snohomish,Washington,53061.0,1.0,0.0
2,2,2020-01-23,Snohomish,Washington,53061.0,1.0,0.0
3,3,2020-01-24,Cook,Illinois,17031.0,1.0,0.0
4,4,2020-01-24,Snohomish,Washington,53061.0,1.0,0.0


In [4]:
dataFrame

Unnamed: 0.1,Unnamed: 0,date,county,state,fips,cases,deaths
0,0,2020-01-21,Snohomish,Washington,53061.0,1.0,0.0
1,1,2020-01-22,Snohomish,Washington,53061.0,1.0,0.0
2,2,2020-01-23,Snohomish,Washington,53061.0,1.0,0.0
3,3,2020-01-24,Cook,Illinois,17031.0,1.0,0.0
4,4,2020-01-24,Snohomish,Washington,53061.0,1.0,0.0
...,...,...,...,...,...,...,...
800432,800432,2020-12-05,Sweetwater,Wyoming,56037.0,2098.0,10.0
800433,800433,2020-12-05,Teton,Wyoming,56039.0,1739.0,2.0
800434,800434,2020-12-05,Uinta,Wyoming,56041.0,1187.0,5.0
800435,800435,2020-12-05,Washakie,Wyoming,56043.0,519.0,8.0


In [5]:
list(dataFrame.columns)

['Unnamed: 0', 'date', 'county', 'state', 'fips', 'cases', 'deaths']

Ce jeu de données contient a priori 7 colonnes et 800 437 lignes. 

Il semble associer à une date et à un comté d'un état, un nombre de cas et un nombre de morts du Covid-19.

La première colonne semble avoir un nom par défaut choisi par la librairie donc.

 TODO https://fr.wikipedia.org/wiki/Federal_Information_Processing_Standard

### Renommage de la première colonne en "id"

On renomme la première colonne avec un nom correct. 

In [6]:
dataFrame = dataFrame.rename(columns={'Unnamed: 0': 'id'})

In [7]:
list(dataFrame.columns)

['id', 'date', 'county', 'state', 'fips', 'cases', 'deaths']

### Analayse exploratoire

#### Analyse exploratoire introductive

In [8]:
len(dataFrame)

800437

In [9]:
dataFrame.count() 

id        800437
date      800299
county    800307
state     800303
fips      792743
cases     800292
deaths    783561
dtype: int64

In [10]:
len(dataFrame) - dataFrame.count() 

id            0
date        138
county      130
state       134
fips       7694
cases       145
deaths    16876
dtype: int64

On peut d'or et déjà observé que des colonnes comportent des valeurs manquantes (des cellules vides donc), puisque la fonction count() décompte dans les colonnes que les valeurs renseignes, les ceulles pas vides donc.

A l'inverse la fonction len() décompte toutes les valeurs dans les colonnes.

<b>Seule la colonne "id" semble ne pas comporter de données manquantes (données manquantes au sens cellules vides ici (transformées en NaN par pandas à l'import)).</b>

#### Analyse exploratoire de la colonne "id"

On effectue une analyse exploratoire de la colonne "id" des identifiants.

In [11]:
dataFrame[dataFrame['id']=='Unknown']

Unnamed: 0,id,date,county,state,fips,cases,deaths


In [12]:
len(dataFrame[dataFrame['id']=='Unknown']['id'])

0

La colonne "id" ne contient pas de valeurs explicitement renseignés comme manquantes.

In [13]:
idIsNull = pandas.isnull(dataFrame["id"])
dataFrame[idIsNull]

Unnamed: 0,id,date,county,state,fips,cases,deaths


In [14]:
idIsNull.sum()

0

La colonne "id" ne contient aucune valeur manquante.

In [15]:
len(dataFrame['id'])

800437

In [16]:
len(dataFrame[dataFrame.id.apply(str).str.contains('^[0-9]+$', regex = True, na = False)]['id'])

800437

In [17]:
(len(dataFrame.index)
 - len(dataFrame[dataFrame['id'].apply(str).str.contains('^[0-9]+$', regex = True, na = False)]['id']))

0

La colonne "id" ne contient que des entiers positifs.

In [18]:
len(dataFrame['id'].unique())

800437

In [19]:
len(dataFrame['id']) - len(dataFrame['id'].unique())

0

La colonne "id" ne contient que des valeurs uniques.

Tous les identidifiants de la colonne "id" sont donc des nombres entiers positifs et uniques. 

Cela correspond à la description d'identifiants corrects. 

<b>Pour conclure sur la colonne "id" : cette dernière ne contient aucune donnée erronée : pas de données manquantes, et pas de données incohérentes.</b>

#### Analyse  exploratoire de la colonne "date"

On effectue une analyse exploratoire de la colonne "date".

In [20]:
dataFrame[dataFrame["date"]=="Unknown"]

Unnamed: 0,id,date,county,state,fips,cases,deaths


In [21]:
len(dataFrame[dataFrame["date"]=="Unknown"]["date"])

0

La colonne "date" ne contient aucune valeur "Unknown".

In [22]:
dateIsNull = pandas.isnull(dataFrame["date"])
dataFrame[dateIsNull]["date"]

18243     NaN
25438     NaN
26345     NaN
28217     NaN
29487     NaN
         ... 
757800    NaN
768876    NaN
775081    NaN
785062    NaN
786772    NaN
Name: date, Length: 138, dtype: object

In [23]:
dateIsNull.sum()

138

La colonne "date" contient des valeurs manquantes.

In [24]:
dataFrame['date'].count()

800299

In [25]:
dataFrame[dataFrame['date'].str.contains('^[0-9]{4}-[0-9]{2}-[0-9]{2}$', regex = True, na = False)]['date']

0         2020-01-21
1         2020-01-22
2         2020-01-23
3         2020-01-24
4         2020-01-24
             ...    
800432    2020-12-05
800433    2020-12-05
800434    2020-12-05
800435    2020-12-05
800436    2020-12-05
Name: date, Length: 799042, dtype: object

In [26]:
len(dataFrame[dataFrame['date'].str.contains('^[0-9]{4}-[0-9]{2}-[0-9]{2}$', regex = True, na = False)]['date'])

799042

In [27]:
(dataFrame['date'].count() 
- len(dataFrame[dataFrame['date'].str.contains('^[0-9]{4}-[0-9]{2}-[0-9]{2}$', regex = True, na = False)]['date']))

1257

La colonne "date" contient quasiment que des dates matchant avec ce format "YYYY-MM-DD" (799042).

In [28]:
dataFrame[dataFrame['date'].str.contains('^[0-9]{4}-[0-9]{2}-[0-9]{2}$', regex = True, na = False) == False]['date']

1008      2020.03.10
2242      2020.03.14
2836      2020.03.16
3774      2020.03.18
4514      2020.03.19
             ...    
795819    2020.12.04
796123    2020.12.04
796776    2020.12.04
796794    2020.12.04
799827    2020.12.05
Name: date, Length: 1395, dtype: object

In [29]:
len(dataFrame[dataFrame['date'].str.contains('^[0-9]{4}\.[0-9]{2}\.[0-9]{2}$', regex = True, na = False)]['date'])

1257

In [30]:
(dataFrame['date'].count()
- len(dataFrame[dataFrame['date'].str.contains('^[0-9]{4}-[0-9]{2}-[0-9]{2}$', regex = True, na = False)]['date'])
- len(dataFrame[dataFrame['date'].str.contains('^[0-9]{4}\.[0-9]{2}\.[0-9]{2}$', regex = True, na = False)]['date']))

0

In [31]:
dataFrame[dataFrame['date'].str.contains('^[0-9]{4}-[0-9]{2}-[0-9]{2}$|^[0-9]{4}\.[0-9]{2}\.[0-9]{2}$', regex = True, na = False) == False]['date']

18243     NaN
25438     NaN
26345     NaN
28217     NaN
29487     NaN
         ... 
757800    NaN
768876    NaN
775081    NaN
785062    NaN
786772    NaN
Name: date, Length: 138, dtype: object

In [32]:
len(dataFrame[dataFrame['date'].str.contains('^[0-9]{4}-[0-9]{2}-[0-9]{2}$|^[0-9]{4}\.[0-9]{2}\.[0-9]{2}$', regex = True, na = False) == False]['date'])

138

In [33]:
(len(dataFrame)
- len(dataFrame[dataFrame['date'].str.contains('^[0-9]{4}-[0-9]{2}-[0-9]{2}$', regex = True, na = False)]['date'])
- len(dataFrame[dataFrame['date'].str.contains('^[0-9]{4}\.[0-9]{2}\.[0-9]{2}$', regex = True, na = False)]['date'])
- len(dataFrame[dataFrame['date'].str.contains('^[0-9]{4}-[0-9]{2}-[0-9]{2}$|^[0-9]{4}\.[0-9]{2}\.[0-9]{2}$', regex = True, na = False) == False]['date']))

0

La colonne "date" contient également des dates matchant avec le format "YYYY.MM.DD" (1257), et toutes les dates renseignées de la colonne "date" matche soit avec ce format : "YYYY-MM-DD" (799042), soit avec celui-ci : "YYYY.MM.DD" (1257).

<b>Pour conlure sur la colonne "date" : cette colonne contient des données manquantes (138), et également des données incohérentes (1257) puisque deux formats différents sont utilisés pour réprésenter les dates.</b>

#### Analyse exploratoire de la colonne "county"

On effectue une analyse exploratoire de la colonne "county".

In [34]:
dataFrame[dataFrame["county"]=="Unknown"]["county"]

418       Unknown
450       Unknown
485       Unknown
522       Unknown
569       Unknown
           ...   
799602    Unknown
799803    Unknown
800090    Unknown
800107    Unknown
800281    Unknown
Name: county, Length: 6870, dtype: object

In [35]:
len(dataFrame[dataFrame["county"]=="Unknown"]["county"])

6870

La colonne "county" contient des valeurs "Unknown" (6870), des données de cette colonne sont donc manquantes, mais renseignées comme manquantes avec "Unknown".

In [36]:
countyIsNull = pandas.isnull(dataFrame["county"])
dataFrame[countyIsNull]["county"]

7877      NaN
9410      NaN
16113     NaN
36581     NaN
40683     NaN
         ... 
776385    NaN
783350    NaN
790449    NaN
794963    NaN
800247    NaN
Name: county, Length: 130, dtype: object

In [37]:
countyIsNull.sum()

130

La colonne "county" contient des valeurs manquantes (130).

In [38]:
len(dataFrame[dataFrame['county'].str.contains('^.+$', regex = True, na = False)]['county'])

800307

In [39]:
len(dataFrame[dataFrame['county'].str.contains('^Unknown$', regex = True, na = False)]['county'])

6870

In [40]:
(len(dataFrame[dataFrame['county'].str.contains('^.+$', regex = True, na = False)]['county'])
 -  len(dataFrame[dataFrame['county'].str.contains('^Unknown$', regex = True, na = False)]['county']))

793437

In [41]:
(len(dataFrame)
- len(dataFrame[dataFrame['county'].str.contains('^.+$', regex = True, na = False)]['county']))

130

In [42]:
len(dataFrame[dataFrame['county'].str.contains('^.+[0-9]+.+$', regex = True, na = False)]['county'])

0

In [43]:
dataFrame[dataFrame['county'].str.contains('^[a-zA-Z- \.\'ñ]+$', regex = True, na = False)]['county']

0          Snohomish
1          Snohomish
2          Snohomish
3               Cook
4          Snohomish
             ...    
800432    Sweetwater
800433         Teton
800434         Uinta
800435      Washakie
800436        Weston
Name: county, Length: 800307, dtype: object

In [44]:
len(dataFrame[dataFrame['county'].str.contains('^[a-zA-Z- \.\'ñ]+$', regex = True, na = False)]['county'])

800307

In [45]:
dataFrame[dataFrame['county'].str.contains('^[a-zA-Z- \.\'ñ]+$', regex = True, na = False) == False]['county']

7877      NaN
9410      NaN
16113     NaN
36581     NaN
40683     NaN
         ... 
776385    NaN
783350    NaN
790449    NaN
794963    NaN
800247    NaN
Name: county, Length: 130, dtype: object

In [46]:
len(dataFrame[dataFrame['county'].str.contains('^[a-zA-Z- \.\'ñ]+$', regex = True, na = False) == False]['county'])

130

In [47]:
len(dataFrame[dataFrame['county'].str.contains('^[a-zA-Z]+[a-zA-Z- \.\'ñ]+$', regex = True, na = False)]['county'])

800307

In [48]:
(len(dataFrame)
  - len(dataFrame[dataFrame['county'].str.contains('^[a-zA-Z- \.\'ñ]+$', regex = True, na = False)]['county'])
  - len(dataFrame[dataFrame['county'].str.contains('^[a-zA-Z- \.\'ñ]+$', regex = True, na = False) == False]['county']))

0

Hormis les valeurs manquantes (cellules vides), toutes les valeurs de la colonne "county" semblent matcher avec cette expression régulière "^[a-zA-Z- \\.\\'ñ]+$", cela semble cohérent pour des noms de comtés d'état.

<b>Pour conlure sur la colonne "county" : cette dernière contient des valeurs manquantes ("Unknown" : 6870, "" (cellule vide) : 130), mais pas de données incohérentes.</b>

#### Analyse exploratoire de la colonne "state"

On effectue une analyse exploratoire de la colonne "state".

In [49]:
dataFrame[dataFrame["state"]=="Unknown"]

Unnamed: 0,id,date,county,state,fips,cases,deaths


In [50]:
len(dataFrame[dataFrame["state"]=="Unknown"]["state"])

0

La colonne "state" ne contient pas de valeurs "Unknown". 

In [51]:
stateIsNull = pandas.isnull(dataFrame["state"])
dataFrame[stateIsNull]["state"]

12916     NaN
15191     NaN
19325     NaN
22837     NaN
40051     NaN
         ... 
786480    NaN
786545    NaN
787167    NaN
788075    NaN
791545    NaN
Name: state, Length: 134, dtype: object

In [52]:
stateIsNull.sum()

134

La colonne "state" contient des valeurs manquantes (134).

In [53]:
len(dataFrame[dataFrame['state'].str.contains('^.+$', regex = True, na = False)]['state'])

800303

In [54]:
len(dataFrame[dataFrame['state'].str.contains('^.+[0-9]+.+$', regex = True, na = False)]['state'])

0

In [55]:
len(dataFrame[dataFrame['state'].str.contains('^[a-zA-Z- ]+$', regex = True, na = False)]['state'])

800303

In [56]:
len(dataFrame[dataFrame['state'].str.contains('^[a-zA-Z]+[a-zA-Z- ]+$', regex = True, na = False)]['state'])

800303

In [57]:
dataFrame[dataFrame['state'].str.contains('^[a-zA-Z- ]+$', regex = True, na = False) == False]['state']

12916     NaN
15191     NaN
19325     NaN
22837     NaN
40051     NaN
         ... 
786480    NaN
786545    NaN
787167    NaN
788075    NaN
791545    NaN
Name: state, Length: 134, dtype: object

In [58]:
len(dataFrame[dataFrame['state'].str.contains('^[a-zA-Z- ]+$', regex = True, na = False) == False]['state'])

134

In [59]:
(len(dataFrame)
  - len(dataFrame[dataFrame['state'].str.contains('^[a-zA-Z- ]+$', regex = True, na = False)]['state'])
  - len(dataFrame[dataFrame['state'].str.contains('^[a-zA-Z- ]+$', regex = True, na = False) == False]['state']))

0

Hormis les valeurs manquantes, toutes les valeurs de la colonne "state" semblent matcher avec cette expression régulière "^[a-zA-Z- ]+$", cela semble cohérent pour des noms d'états.

<b>Pour conclure sur la colonne "state" : cette dernière contient des valeurs manquantes (134), mais pas de données incohérentes.</b>

#### Analyse exploratoire de la colonne "fips"

On effectue une analyse exploratoire de la colonne "fips".

In [60]:
dataFrame[dataFrame["fips"]=="Unknown"]

Unnamed: 0,id,date,county,state,fips,cases,deaths


In [61]:
len(dataFrame[dataFrame["fips"]=="Unknown"]["fips"])

0

La colonne "fips" ne contient pas de valeurs "Unknown".

In [62]:
fipsIsNull = pandas.isnull(dataFrame["fips"])
dataFrame[fipsIsNull]["fips"]

416      NaN
418      NaN
448      NaN
450      NaN
482      NaN
          ..
799803   NaN
800090   NaN
800107   NaN
800281   NaN
800330   NaN
Name: fips, Length: 7694, dtype: float64

In [63]:
fipsIsNull.sum()

7694

La colonne "fips" contient des valeurs manquantes (7694).

In [64]:
len(dataFrame[dataFrame['fips'].apply(str).str.contains('^[0-9]+$', regex = True, na = False)]['fips'])

0

In [65]:
dataFrame[dataFrame['fips'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False)]['fips']

0         53061.0
1         53061.0
2         53061.0
3         17031.0
4         53061.0
           ...   
800432    56037.0
800433    56039.0
800434    56041.0
800435    56043.0
800436    56045.0
Name: fips, Length: 791338, dtype: float64

In [66]:
len(dataFrame[dataFrame['fips'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False)]['fips'])

791338

In [67]:
dataFrame[dataFrame['fips'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False) == False]['fips']

416           NaN
418           NaN
439       -6097.0
448           NaN
450           NaN
           ...   
799862   -48101.0
800090        NaN
800107        NaN
800281        NaN
800330        NaN
Name: fips, Length: 9099, dtype: float64

In [68]:
dataFrame[dataFrame['fips'].apply(str).str.contains('^-[0-9]+.[0-9]+$', regex = True, na = False)]['fips']

439       -6097.0
1590     -51059.0
1650      -6095.0
2105     -26115.0
2874     -17089.0
           ...   
799381   -40093.0
799496   -42089.0
799503   -42103.0
799586   -72133.0
799862   -48101.0
Name: fips, Length: 1405, dtype: float64

In [69]:
len(dataFrame[dataFrame['fips'].apply(str).str.contains('^-[0-9]+.[0-9]+$', regex = True, na = False)]['fips'])

1405

In [70]:
dataFrame[dataFrame['fips'].apply(str).str.contains('^-?[0-9]+.[0-9]+$', regex = True, na = False) == False]['fips']

416      NaN
418      NaN
448      NaN
450      NaN
482      NaN
          ..
799803   NaN
800090   NaN
800107   NaN
800281   NaN
800330   NaN
Name: fips, Length: 7694, dtype: float64

In [71]:
len(dataFrame[dataFrame['fips'].apply(str).str.contains('^-?[0-9]+.[0-9]+$', regex = True, na = False) == False]['fips'])

7694

In [72]:
(len(dataFrame)
  - len(dataFrame[dataFrame['fips'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False)]['fips'])
  - len(dataFrame[dataFrame['fips'].apply(str).str.contains('^-[0-9]+.[0-9]+$', regex = True, na = False)]['fips'])
  - len(dataFrame[dataFrame['fips'].apply(str).str.contains('^-?[0-9]+.[0-9]+$', regex = True, na = False) == False]['fips']))

0

La colonne "fips" contient des valeurs incohérentes.

Déja toutes ses valeurs formies, hormis celles manquantes, sont de type décimal (791338), alors que "fips" devrait logiquement être un entier. 

Ensuite, certaines valeurs sont négatives (1405), là aussi, logiquement, ça ne devrait pas être possible pour cette colonne.

<b>Pour conclure sur la colonne "fips": cette colonne contient des données manquantes (7694), et des données incohérentes (décimales : 791338, négatives : 1405).</b>

#### Analyse exploratoire de la colonne "cases"

On effectue une analyse exploratoire de la colonne "cases".

In [73]:
dataFrame[dataFrame["cases"]=="Unknown"]

Unnamed: 0,id,date,county,state,fips,cases,deaths


In [74]:
len(dataFrame[dataFrame["cases"]=="Unknown"]["cases"])

0

La colonne "cases" ne contient pas de valeurs "Unknown".

In [75]:
casesIsNull = pandas.isnull(dataFrame["cases"])
dataFrame[casesIsNull]["cases"]

1508     NaN
31801    NaN
35371    NaN
50190    NaN
57570    NaN
          ..
776690   NaN
779435   NaN
781265   NaN
787807   NaN
794483   NaN
Name: cases, Length: 145, dtype: float64

In [76]:
casesIsNull.sum()

145

La colonne "cases" contient des valeurs manquantes (145).

In [77]:
len(dataFrame[dataFrame['cases'].apply(str).str.contains('^[0-9]+$', regex = True, na = False)]['cases'])

0

In [78]:
dataFrame[dataFrame['cases'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False)]['cases']

0            1.0
1            1.0
2            1.0
3            1.0
4            1.0
           ...  
800432    2098.0
800433    1739.0
800434    1187.0
800435     519.0
800436     419.0
Name: cases, Length: 798997, dtype: float64

In [79]:
len(dataFrame[dataFrame['cases'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False)]['cases'])

798997

In [80]:
dataFrame[dataFrame['cases'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False) == False]['cases']

1508         NaN
2614        -1.0
2689        -1.0
2971        -3.0
4454       -42.0
           ...  
798207   -1911.0
798244    -690.0
798891    -295.0
799369    -626.0
800170   -2622.0
Name: cases, Length: 1440, dtype: float64

In [81]:
len(dataFrame[dataFrame['cases'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False) == False]['cases'])

1440

In [82]:
dataFrame[dataFrame['cases'].apply(str).str.contains('^-[0-9]+.[0-9]+$', regex = True, na = False)]['cases']

2614        -1.0
2689        -1.0
2971        -3.0
4454       -42.0
6106        -6.0
           ...  
798207   -1911.0
798244    -690.0
798891    -295.0
799369    -626.0
800170   -2622.0
Name: cases, Length: 1295, dtype: float64

In [83]:
len(dataFrame[dataFrame['cases'].apply(str).str.contains('^-[0-9]+.[0-9]+$', regex = True, na = False)]['cases'])

1295

In [84]:
dataFrame[dataFrame['cases'].apply(str).str.contains('^-?[0-9]+.[0-9]+$', regex = True, na = False) == False]['cases']

1508     NaN
31801    NaN
35371    NaN
50190    NaN
57570    NaN
          ..
776690   NaN
779435   NaN
781265   NaN
787807   NaN
794483   NaN
Name: cases, Length: 145, dtype: float64

In [85]:
len(dataFrame[dataFrame['cases'].apply(str).str.contains('^-?[0-9]+.[0-9]+$', regex = True, na = False) == False]['cases'])

145

In [86]:
(len(dataFrame)
  - len(dataFrame[dataFrame['cases'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False)]['cases'])
  - len(dataFrame[dataFrame['cases'].apply(str).str.contains('^-[0-9]+.[0-9]+$', regex = True, na = False)]['cases'])
  - len(dataFrame[dataFrame['cases'].apply(str).str.contains('^-?[0-9]+.[0-9]+$', regex = True, na = False) == False]['cases']))

0

La colonne "cases" contient des valeurs incohérentes, ce sont les mêmes problèmes que pour la colonne "fips".

Toutes ses valeurs formies, hormis celles manquantes, sont également de type décimal (798997), alors que "cases" devrait également logiquement être un entier. 

Ensuite, certaines valeurs sont également négatives (1245), là aussi, logiquement, ça ne devrait pas être possible pour cette colonne.

<b>Pour conclure sur la colonne "deaths": cette colonne contient des données manquantes (145), et des données incohérentes (décimales : 798997, négatives : 1245).</b>

#### Analyse exploratoire de la colonne "deaths"

On effectue une analyse exploratoire de la colonne "deaths".

In [87]:
dataFrame[dataFrame["deaths"]=="Unknown"]

Unnamed: 0,id,date,county,state,fips,cases,deaths


In [88]:
len(dataFrame[dataFrame["deaths"]=="Unknown"]["deaths"])

0

La colonne "deaths" ne contient pas de valeurs "Unknown".

In [89]:
deathsIsNull = pandas.isnull(dataFrame["deaths"])
dataFrame[deathsIsNull]["deaths"]

17526    NaN
26569    NaN
37444    NaN
37919    NaN
48098    NaN
          ..
799593   NaN
799594   NaN
799595   NaN
799596   NaN
799597   NaN
Name: deaths, Length: 16876, dtype: float64

In [90]:
deathsIsNull.sum()

16876

La colonne "deaths" contient des valeurs manquantes (16876).

In [91]:
len(dataFrame[dataFrame['deaths'].apply(str).str.contains('^[0-9]+$', regex = True, na = False)]['deaths'])

0

In [92]:
dataFrame[dataFrame['deaths'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False)]['deaths']

0          0.0
1          0.0
2          0.0
3          0.0
4          0.0
          ... 
800432    10.0
800433     2.0
800434     5.0
800435     8.0
800436     2.0
Name: deaths, Length: 782245, dtype: float64

In [93]:
len(dataFrame[dataFrame['deaths'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False)]['deaths'])

782245

In [94]:
dataFrame[dataFrame['deaths'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False) == False]['deaths']

153      -0.0
1222     -0.0
1979     -0.0
2344     -1.0
3587     -0.0
         ... 
799594    NaN
799595    NaN
799596    NaN
799597    NaN
800112   -1.0
Name: deaths, Length: 18192, dtype: float64

In [95]:
len(dataFrame[dataFrame['deaths'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False) == False]['deaths'])

18192

In [96]:
dataFrame[dataFrame['deaths'].apply(str).str.contains('^-[0-9]+.[0-9]+$', regex = True, na = False)]['deaths']

153       -0.0
1222      -0.0
1979      -0.0
2344      -1.0
3587      -0.0
          ... 
796486   -29.0
797892   -26.0
798687   -11.0
799194    -0.0
800112    -1.0
Name: deaths, Length: 1316, dtype: float64

In [97]:
len(dataFrame[dataFrame['deaths'].apply(str).str.contains('^-[0-9]+.[0-9]+$', regex = True, na = False)]['deaths'])

1316

In [98]:
dataFrame[dataFrame['deaths'].apply(str).str.contains('^-?[0-9]+.[0-9]+$', regex = True, na = False) == False]['deaths']

17526    NaN
26569    NaN
37444    NaN
37919    NaN
48098    NaN
          ..
799593   NaN
799594   NaN
799595   NaN
799596   NaN
799597   NaN
Name: deaths, Length: 16876, dtype: float64

In [99]:
len(dataFrame[dataFrame['deaths'].apply(str).str.contains('^-?[0-9]+.[0-9]+$', regex = True, na = False) == False]['deaths'])

16876

In [100]:
(len(dataFrame)
  - len(dataFrame[dataFrame['deaths'].apply(str).str.contains('^[0-9]+.[0-9]+$', regex = True, na = False)]['deaths'])
  - len(dataFrame[dataFrame['deaths'].apply(str).str.contains('^-[0-9]+.[0-9]+$', regex = True, na = False)]['deaths'])
  - len(dataFrame[dataFrame['deaths'].apply(str).str.contains('^-?[0-9]+.[0-9]+$', regex = True, na = False) == False]['deaths']))

0

La colonne "deaths" contient des valeurs incohérentes, ce sont toujours les mêmes problèmes que pour la colonne "fips".

Toutes ses valeurs formies, hormis celles manquantes, sont également de type décimal (782245), alors que "deaths" devrait également logiquement être un entier.

Certaines valeurs sont également négatives (1316), et logiquement, ça ne devrait pas être possible.

<b> Pour conclure sur la colonne "deaths": cette colonne contient des données manquantes (16876), et des données incohérentes (décimales : 782245, négatives : 1316).</b>

#### Verification de  l'unicité du couple (date, comté)

On vérifie que le couple (date, comté) est unique à chaque ligne.

Etant donné qu'un comté peut avoir le même nom qu'un aute comté d'un autre état, nous étudions l'unicité du couple (date, comté) avec le couple (date, fips), et l'ensemble (date, state, county), et cela pour éviter les problèmes de doublons de comté entre état.

On supprime les données manquantes, pour éviter des problèmes avec la vérification.

On passe également toutes les dates au format "YYYT-MM-DD", toujours pour éviter des problèmes avec la vérification.

In [101]:
cleanedDataFrame = dataFrame.dropna()

In [102]:
cleanedDataFrame = cleanedDataFrame.drop(cleanedDataFrame[cleanedDataFrame["county"]=="Unknown"].index)

In [103]:
 cleanedDataFrame['date'] = cleanedDataFrame['date'].replace(to_replace = "^([0-9]{4})\.([0-9]{2})\.([0-9]{2}){1}$", value = "\\1-\\2-\\3", regex=True)

In [104]:
cleanedDataFrame 

Unnamed: 0,id,date,county,state,fips,cases,deaths
0,0,2020-01-21,Snohomish,Washington,53061.0,1.0,0.0
1,1,2020-01-22,Snohomish,Washington,53061.0,1.0,0.0
2,2,2020-01-23,Snohomish,Washington,53061.0,1.0,0.0
3,3,2020-01-24,Cook,Illinois,17031.0,1.0,0.0
4,4,2020-01-24,Snohomish,Washington,53061.0,1.0,0.0
...,...,...,...,...,...,...,...
800432,800432,2020-12-05,Sweetwater,Wyoming,56037.0,2098.0,10.0
800433,800433,2020-12-05,Teton,Wyoming,56039.0,1739.0,2.0
800434,800434,2020-12-05,Uinta,Wyoming,56041.0,1187.0,5.0
800435,800435,2020-12-05,Washakie,Wyoming,56043.0,519.0,8.0


In [105]:
len(cleanedDataFrame)

775346

In [106]:
cleanedDataFrame['date-fips'] = cleanedDataFrame['date'].str.cat("---" + cleanedDataFrame['fips'].apply(str))

In [107]:
cleanedDataFrame['date-fips']

0         2020-01-21---53061.0
1         2020-01-22---53061.0
2         2020-01-23---53061.0
3         2020-01-24---17031.0
4         2020-01-24---53061.0
                  ...         
800432    2020-12-05---56037.0
800433    2020-12-05---56039.0
800434    2020-12-05---56041.0
800435    2020-12-05---56043.0
800436    2020-12-05---56045.0
Name: date-fips, Length: 775346, dtype: object

In [108]:
len(cleanedDataFrame['date-fips'].unique())

775346

In [109]:
(len(cleanedDataFrame)
 - len(cleanedDataFrame['date-fips'].unique()))

0

In [110]:
cleanedDataFrame

Unnamed: 0,id,date,county,state,fips,cases,deaths,date-fips
0,0,2020-01-21,Snohomish,Washington,53061.0,1.0,0.0,2020-01-21---53061.0
1,1,2020-01-22,Snohomish,Washington,53061.0,1.0,0.0,2020-01-22---53061.0
2,2,2020-01-23,Snohomish,Washington,53061.0,1.0,0.0,2020-01-23---53061.0
3,3,2020-01-24,Cook,Illinois,17031.0,1.0,0.0,2020-01-24---17031.0
4,4,2020-01-24,Snohomish,Washington,53061.0,1.0,0.0,2020-01-24---53061.0
...,...,...,...,...,...,...,...,...
800432,800432,2020-12-05,Sweetwater,Wyoming,56037.0,2098.0,10.0,2020-12-05---56037.0
800433,800433,2020-12-05,Teton,Wyoming,56039.0,1739.0,2.0,2020-12-05---56039.0
800434,800434,2020-12-05,Uinta,Wyoming,56041.0,1187.0,5.0,2020-12-05---56041.0
800435,800435,2020-12-05,Washakie,Wyoming,56043.0,519.0,8.0,2020-12-05---56043.0


In [111]:
cleanedDataFrame['date-state-county'] = cleanedDataFrame['date'].str.cat("---" + cleanedDataFrame['state'].str.cat("---" + cleanedDataFrame['county'].apply(str)))

In [112]:
cleanedDataFrame['date-state-county']

0         2020-01-21---Washington---Snohomish
1         2020-01-22---Washington---Snohomish
2         2020-01-23---Washington---Snohomish
3                2020-01-24---Illinois---Cook
4         2020-01-24---Washington---Snohomish
                         ...                 
800432      2020-12-05---Wyoming---Sweetwater
800433           2020-12-05---Wyoming---Teton
800434           2020-12-05---Wyoming---Uinta
800435        2020-12-05---Wyoming---Washakie
800436          2020-12-05---Wyoming---Weston
Name: date-state-county, Length: 775346, dtype: object

In [113]:
len(cleanedDataFrame['date-state-county'].unique())

775346

In [114]:
(len(cleanedDataFrame['date-fips'].unique())
 - len(cleanedDataFrame['date-state-county'].unique()))

0

<b>Pour conclure sur le couple (date, comté): le couple (date, fips) est bien unique à chaque ligne, et de même pour l'ensemble (date, state, county), le couple (date, comté) est donc bien unique pour chaque ligne.</b>