# Projet de Fouille de données

## Etape I : Analyse exploratoire des données

### Import des librairies

On commence par importer les librairies.

In [1]:
import pandas
import numpy

### Import des données

Puis, on importe les données de notre jeu de données, et on le "wrap" dans DataFrame de Pandas.

In [2]:
data = pandas.read_csv("../data/corrupted_data.csv")
dataFrame = pandas.DataFrame(data)

### Visualisation des données

On affiche les données, pour les visualiser et se faire un premier avis.

In [3]:
dataFrame.head()

Unnamed: 0.1,Unnamed: 0,date,county,state,fips,cases,deaths
0,0,2020-01-21,Snohomish,Washington,53061.0,1.0,0.0
1,1,2020-01-22,Snohomish,Washington,53061.0,1.0,0.0
2,2,2020-01-23,Snohomish,Washington,53061.0,1.0,0.0
3,3,2020-01-24,Cook,Illinois,17031.0,1.0,0.0
4,4,2020-01-24,Snohomish,Washington,53061.0,1.0,0.0


In [4]:
dataFrame

Unnamed: 0.1,Unnamed: 0,date,county,state,fips,cases,deaths
0,0,2020-01-21,Snohomish,Washington,53061.0,1.0,0.0
1,1,2020-01-22,Snohomish,Washington,53061.0,1.0,0.0
2,2,2020-01-23,Snohomish,Washington,53061.0,1.0,0.0
3,3,2020-01-24,Cook,Illinois,17031.0,1.0,0.0
4,4,2020-01-24,Snohomish,Washington,53061.0,1.0,0.0
...,...,...,...,...,...,...,...
800432,800432,2020-12-05,Sweetwater,Wyoming,56037.0,2098.0,10.0
800433,800433,2020-12-05,Teton,Wyoming,56039.0,1739.0,2.0
800434,800434,2020-12-05,Uinta,Wyoming,56041.0,1187.0,5.0
800435,800435,2020-12-05,Washakie,Wyoming,56043.0,519.0,8.0


Le jeu de données contient a priori 7 colonnes, et entres autre associe à une date et à une ville, un noombre de cas et un nombre de morts.

In [5]:
list(dataFrame.columns)

['Unnamed: 0', 'date', 'county', 'state', 'fips', 'cases', 'deaths']

La première colonne semble avoir un nom par défaut.

### Renommage de la première colonne en "id"

In [6]:
dataFrame = dataFrame.rename(columns={'Unnamed: 0': 'id'})
print(list(dataFrame.columns))

['id', 'date', 'county', 'state', 'fips', 'cases', 'deaths']


### Analayse exploratoire

#### Analyse exploratoire de la colonne "id"

On effectue une analyse exploratoire de la colonne "id" des identifiants.

In [7]:
dataFrame[dataFrame['id']=='Unknown']['id'].count()

0

La colonne "id" ne contient pas de "Unknown".

In [8]:
dataFrame[dataFrame["id"]==""]["id"].count()

0

La colonne "id" ne contient aucune cellule vide.

In [9]:
idIsNull = pandas.isnull(dataFrame["id"])
dataFrame[idIsNull == True]

Unnamed: 0,id,date,county,state,fips,cases,deaths


In [10]:
dataFrame[idIsNull == True]['id'].count()

0

La colonne "id" ne contient aucune valeur nulle  /  manquante.

In [11]:
dataFrame['id'].count()

800437

In [12]:
dataFrame[dataFrame.id.apply(str).str.contains('\d+', regex = True, na = False)]['id'].count()

800437

In [13]:
dataFrame['id'].count() - dataFrame[dataFrame['id'].apply(str).str.contains('\d+', regex = True, na = False)]['id'].count()

0

La colonne "id" ne contient que des entiers positifs.

In [14]:
 pandas.DataFrame(dataFrame['id'].unique(), columns=["id"]).count()

id    800437
dtype: int64

In [15]:
dataFrame['id'].count() - pandas.DataFrame(dataFrame['id'].unique(), columns=["id"]).count()

id    0
dtype: int64

La colonne "id" ne contient que des valeurs uniques.

Tous les identidifiants de la colonne "id" sont donc des nombres entiers positifs et uniques. 

Cela correspond à la description d'identifiants corrects, la colonne "id" ne contient donc aucune donnée erronée.

#### Analyse  exploratoire de la colonne "date"

On effectue une analyse exploratoire de la colonne "date".

In [16]:
dataFrame[dataFrame["date"]=="Unknown"]["date"].count()

0

La colonne "date" ne contient aucune valeur "Unknown".

In [17]:
dataFrame[dataFrame["date"]==""]["date"].count()

0

La colonne "date" ne contient aucune cellule vide.

In [18]:
dateIsNull = pandas.isnull(dataFrame["date"])
dataFrame[dateIsNull == True]["date"].count() 

0

La colonne "date" ne contient aucune valeur nulle / manquante.

In [19]:
 dataFrame[dataFrame['date'].str.contains('\d{4}-\d{2}-\d{2}', regex = True, na = False)]['date'].count()

799042

In [20]:
dataFrame['date'].count() - dataFrame[dataFrame['date'].str.contains('\d{4}-\d{2}-\d{2}', regex = True, na = False)]['date'].count()

1257

La colonne "date" contient quasiment que des dates matchant avec ce format "YYYY-MM-DD".

In [21]:
dataFrame[dataFrame['date'].str.contains('\d{4}-\d{2}-\d{2}', regex = True, na = False) == False]['date']

1008      2020.03.10
2242      2020.03.14
2836      2020.03.16
3774      2020.03.18
4514      2020.03.19
             ...    
795819    2020.12.04
796123    2020.12.04
796776    2020.12.04
796794    2020.12.04
799827    2020.12.05
Name: date, Length: 1395, dtype: object

In [22]:
dataFrame[dataFrame['date'].str.contains('\d{4}\.\d{2}\.\d{2}', regex = True, na = False)]['date'].count()

1257

In [23]:
(dataFrame['date'].count()
- dataFrame[dataFrame['date'].str.contains('\d{4}-\d{2}-\d{2}', regex = True, na = False)]['date'].count() 
- dataFrame[dataFrame['date'].str.contains('\d{4}\.\d{2}\.\d{2}', regex = True, na = False)]['date'].count())

0

La colonne "date" contient également des dates matchant avec le format "YYYY.MM.DD", et toutes les dates de la colonne "date" match soit avec ce format : "YYYY-MM-DD", soit avec celui-ci : "YYYY.MM.DD".

La colonne "date" contient des données mal renseignées puisque deux formats différents sont utilisés pour les réprésenter.

#### Verification de  l'unicité du couple (date, fips)

In [24]:
 pandas.DataFrame(dataFrame['date'].unique(), columns=["date"]).count()

date    581
dtype: int64

In [25]:
dataFrame['date-fips'] = dataFrame['date'].str.cat("---" + dataFrame['fips'].apply(str))
print(dataFrame['date-fips'])

0         2020-01-21---53061.0
1         2020-01-22---53061.0
2         2020-01-23---53061.0
3         2020-01-24---17031.0
4         2020-01-24---53061.0
                  ...         
800432    2020-12-05---56037.0
800433    2020-12-05---56039.0
800434    2020-12-05---56041.0
800435    2020-12-05---56043.0
800436    2020-12-05---56045.0
Name: date-fips, Length: 800437, dtype: object


In [26]:
pandas.DataFrame(dataFrame['date-fips'].unique(), columns=["date-fips"]).count()

date-fips    792899
dtype: int64

In [29]:
pandas.DataFrame(dataFrame['date'].unique(), columns=["date"]).count()

date    581
dtype: int64

In [28]:
pandas.DataFrame(dataFrame['fips'].unique(), columns=["fips"]).count()

fips    4352
dtype: int64

In [30]:
dataFrame["id"].count() - pandas.DataFrame(dataFrame['date-fips'].unique(), columns=["date-fips"]).count()

date-fips    7538
dtype: int64