# Projet de Fouille de données

## Etape I : Analyse exploratoire des données

### Import des librairies

On commence par importer les librairies.

In [1]:
import pandas
import numpy

### Import des données

Puis, on importe les données de notre jeu de données, et on les "wrap" dans un DataFrame de Pandas.

In [2]:
data = pandas.read_csv("../data/corrupted_data.csv")
dataFrame = pandas.DataFrame(data)

### Visualisation des données

On affiche les données, pour les visualiser et se faire un premier avis.

In [3]:
dataFrame.head()

Unnamed: 0.1,Unnamed: 0,date,county,state,fips,cases,deaths
0,0,2020-01-21,Snohomish,Washington,53061.0,1.0,0.0
1,1,2020-01-22,Snohomish,Washington,53061.0,1.0,0.0
2,2,2020-01-23,Snohomish,Washington,53061.0,1.0,0.0
3,3,2020-01-24,Cook,Illinois,17031.0,1.0,0.0
4,4,2020-01-24,Snohomish,Washington,53061.0,1.0,0.0


In [4]:
dataFrame

Unnamed: 0.1,Unnamed: 0,date,county,state,fips,cases,deaths
0,0,2020-01-21,Snohomish,Washington,53061.0,1.0,0.0
1,1,2020-01-22,Snohomish,Washington,53061.0,1.0,0.0
2,2,2020-01-23,Snohomish,Washington,53061.0,1.0,0.0
3,3,2020-01-24,Cook,Illinois,17031.0,1.0,0.0
4,4,2020-01-24,Snohomish,Washington,53061.0,1.0,0.0
...,...,...,...,...,...,...,...
800432,800432,2020-12-05,Sweetwater,Wyoming,56037.0,2098.0,10.0
800433,800433,2020-12-05,Teton,Wyoming,56039.0,1739.0,2.0
800434,800434,2020-12-05,Uinta,Wyoming,56041.0,1187.0,5.0
800435,800435,2020-12-05,Washakie,Wyoming,56043.0,519.0,8.0


In [5]:
list(dataFrame.columns)

['Unnamed: 0', 'date', 'county', 'state', 'fips', 'cases', 'deaths']

Ce jeu de données contient a priori 7 colonnes et 800 437 lignes. 

Il semble associer à une date et à un comté d'un état, un nombre de cas et un nombre de morts du Covid-19.

La première colonne semble avoir un nom par défaut choisi par la librairie donc.

 TODO https://fr.wikipedia.org/wiki/Federal_Information_Processing_Standard

### Renommage de la première colonne en "id"

On renomme la première colonne avec un nom correct. 

In [6]:
dataFrame = dataFrame.rename(columns={'Unnamed: 0': 'id'})

In [7]:
list(dataFrame.columns)

['id', 'date', 'county', 'state', 'fips', 'cases', 'deaths']

### Analayse exploratoire

#### Analyse exploratoire de la colonne "id"

On effectue une analyse exploratoire de la colonne "id" des identifiants.

In [42]:
dataFrame[dataFrame['id']=='Unknown']

Unnamed: 0,id,date,county,state,fips,cases,deaths,date-fips


In [9]:
dataFrame[dataFrame['id']=='Unknown']['id'].count()

0

La colonne "id" ne contient pas de "Unknown".

In [10]:
idIsNull = pandas.isnull(dataFrame["id"])
dataFrame[idIsNull == True]

Unnamed: 0,id,date,county,state,fips,cases,deaths


In [55]:
idIsNull.sum()

0

La colonne "id" ne contient aucune valeur manquante.

In [57]:
dataFrame['id'].count()

800437

In [13]:
dataFrame[dataFrame.id.apply(str).str.contains('^\d+$', regex = True, na = False)]['id'].count()

800437

In [60]:
(len(dataFrame.index)
 - dataFrame[dataFrame['id'].apply(str).str.contains('^\d+$', regex = True, na = False)]['id'].count())

0

La colonne "id" ne contient que des entiers positifs.

In [15]:
 pandas.DataFrame(dataFrame['id'].unique(), columns=["id"]).count()

id    800437
dtype: int64

In [16]:
dataFrame['id'].count() - pandas.DataFrame(dataFrame['id'].unique(), columns=["id"]).count()

id    0
dtype: int64

La colonne "id" ne contient que des valeurs uniques.

Tous les identidifiants de la colonne "id" sont donc des nombres entiers positifs et uniques. 

Cela correspond à la description d'identifiants corrects. 

<b>Pour conclure sur la colonne "id" : cette dernière ne contient aucune donnée erronée : pas de données manquantes, et pas de données incohérentes.</b>

#### Analyse  exploratoire de la colonne "date"

On effectue une analyse exploratoire de la colonne "date".

In [43]:
dataFrame[dataFrame["date"]=="Unknown"]

Unnamed: 0,id,date,county,state,fips,cases,deaths,date-fips


In [18]:
dataFrame[dataFrame["date"]=="Unknown"]["date"].count()

0

La colonne "date" ne contient aucune valeur "Unknown".

In [44]:
dateIsNull = pandas.isnull(dataFrame["date"])
dataFrame[dateIsNull == True]["date"]

18243     NaN
25438     NaN
26345     NaN
28217     NaN
29487     NaN
         ... 
757800    NaN
768876    NaN
775081    NaN
785062    NaN
786772    NaN
Name: date, Length: 138, dtype: object

In [52]:
dateIsNull.sum()

138

La colonne "date" contient des valeurs manquantes.

In [61]:
 dataFrame['date'].count()

800299

In [21]:
 dataFrame[dataFrame['date'].str.contains('^\d{4}-\d{2}-\d{2}$', regex = True, na = False)]['date'].count()

799042

In [22]:
(dataFrame['date'].count() 
- dataFrame[dataFrame['date'].str.contains('^\d{4}-\d{2}-\d{2}$', regex = True, na = False)]['date'].count())

1257

La colonne "date" contient quasiment que des dates matchant avec ce format "YYYY-MM-DD" (799042).

In [23]:
dataFrame[dataFrame['date'].str.contains('^\d{4}-\d{2}-\d{2}$', regex = True, na = False) == False]['date']

1008      2020.03.10
2242      2020.03.14
2836      2020.03.16
3774      2020.03.18
4514      2020.03.19
             ...    
795819    2020.12.04
796123    2020.12.04
796776    2020.12.04
796794    2020.12.04
799827    2020.12.05
Name: date, Length: 1395, dtype: object

In [24]:
dataFrame[dataFrame['date'].str.contains('^\d{4}\.\d{2}\.\d{2}$', regex = True, na = False)]['date'].count()

1257

In [25]:
(dataFrame['date'].count()
- dataFrame[dataFrame['date'].str.contains('^\d{4}-\d{2}-\d{2}$', regex = True, na = False)]['date'].count() 
- dataFrame[dataFrame['date'].str.contains('^\d{4}\.\d{2}\.\d{2}$', regex = True, na = False)]['date'].count())

0

La colonne "date" contient également des dates matchant avec le format "YYYY.MM.DD" (1257), et toutes les dates renseignées de la colonne "date" matche soit avec ce format : "YYYY-MM-DD" (799042), soit avec celui-ci : "YYYY.MM.DD" (1257).

<b>Pour conlure sur la colonne "date" : cette dernière contient des données manquantes (138), et également des données incohérentes (1257) puisque deux formats différents sont utilisés pour réprésenter les dates.</b>

#### Analyse exploratoire de la colonne "county"

On effectue une analyse exploratoire de la colonne "county".

In [26]:
dataFrame[dataFrame["county"]=="Unknown"]["county"]

418       Unknown
450       Unknown
485       Unknown
522       Unknown
569       Unknown
           ...   
799602    Unknown
799803    Unknown
800090    Unknown
800107    Unknown
800281    Unknown
Name: county, Length: 6870, dtype: object

In [27]:
dataFrame[dataFrame["county"]=="Unknown"]["county"].count()

6870

 La colonne "county" contient des valeurs "Unknown", des données de cette colonne sont donc pas renseignées.

In [28]:
countyIsNull = pandas.isnull(dataFrame["county"])
dataFrame[countyIsNull == True]["county"]

7877      NaN
9410      NaN
16113     NaN
36581     NaN
40683     NaN
         ... 
776385    NaN
783350    NaN
790449    NaN
794963    NaN
800247    NaN
Name: county, Length: 130, dtype: object

In [51]:
countyIsNull.sum()

130

La colonne "county" contient des valeurs manquantes.

In [30]:
dataFrame[dataFrame['county'].str.contains('^.+$', regex = True, na = False)]['county'].count()

800307

In [31]:
dataFrame[dataFrame['county'].str.contains('^Unknown$', regex = True, na = False)]['county'].count()

6870

In [32]:
(dataFrame[dataFrame['county'].str.contains('^.+$', regex = True, na = False)]['county'].count()
 -  dataFrame[dataFrame['county'].str.contains('^Unknown$', regex = True, na = False)]['county'].count())

793437

In [33]:
dataFrame.index

RangeIndex(start=0, stop=800437, step=1)

In [34]:
(len(dataFrame.index)
- dataFrame[dataFrame['county'].str.contains('^.+$', regex = True, na = False)]['county'].count())

130

In [35]:
dataFrame["county"].count()

800307

#### Verification de  l'unicité du couple (date, fips)

In [36]:
 pandas.DataFrame(dataFrame['date'].unique(), columns=["date"]).count()

date    581
dtype: int64

In [37]:
dataFrame['date-fips'] = dataFrame['date'].str.cat("---" + dataFrame['fips'].apply(str))
print(dataFrame['date-fips'])

0         2020-01-21---53061.0
1         2020-01-22---53061.0
2         2020-01-23---53061.0
3         2020-01-24---17031.0
4         2020-01-24---53061.0
                  ...         
800432    2020-12-05---56037.0
800433    2020-12-05---56039.0
800434    2020-12-05---56041.0
800435    2020-12-05---56043.0
800436    2020-12-05---56045.0
Name: date-fips, Length: 800437, dtype: object


In [38]:
pandas.DataFrame(dataFrame['date-fips'].unique(), columns=["date-fips"]).count()

date-fips    792899
dtype: int64

In [39]:
pandas.DataFrame(dataFrame['date'].unique(), columns=["date"]).count()

date    581
dtype: int64

In [40]:
pandas.DataFrame(dataFrame['fips'].unique(), columns=["fips"]).count()

fips    4352
dtype: int64

In [41]:
dataFrame["id"].count() - pandas.DataFrame(dataFrame['date-fips'].unique(), columns=["date-fips"]).count()

date-fips    7538
dtype: int64