In [4]:
import pandas as pd #importer librairie

# Exercices Pandas
## Importer un fichier

In [3]:
base="https://bit.ly/world-cities-clean"
base=pd.read_csv(base)

base.head(5) #lecture des 5 premières lignes

Unnamed: 0,name,country,subcountry,geonameid
0,les Escaldes,Andorra,Escaldes-Engordany,3040051
1,Andorra la Vella,Andorra,Andorra la Vella,3041563
2,Umm al Qaywayn,United Arab Emirates,Umm al Qaywayn,290594
3,Ras al-Khaimah,United Arab Emirates,Raʼs al Khaymah,291074
4,Khawr Fakkān,United Arab Emirates,Ash Shāriqah,291696


## Comprendre les erreurs

### Erreurs liées au fichier
#### Accès par un chemin d'accès inexistant

In [4]:
path = "chemin/qui/n'existe pas"
pd.read_csv(path)

FileNotFoundError: [Errno 2] No such file or directory: "chemin/qui/n'existe pas"

**Rapport d'erreur :**```FileNotFoundError: [Errno 2] No such file or directory: "chemin/qui/n'existe pas"```

Il n'y a pas de fichier ou de dossier dont le chemin d'accès est celui indiqué

**Solution :** Corriger le chemin d'accès

#### Accès depuis une URL, fichier sans ligne d'en-tête

In [12]:
url="https://bit.ly/world-cities-dirty-v1"
data=pd.read_csv(url, names=["name","country","subcountry", "geonameid"])
data.head()

Unnamed: 0,name,country,subcountry,geonameid
0,les Escaldes,Andorra,Escaldes-Engordany,3040051
1,Andorra la Vella,Andorra,Andorra la Vella,3041563
2,Umm al Qaywayn,United Arab Emirates,Umm al Qaywayn,290594
3,Ras al-Khaimah,United Arab Emirates,Raʼs al Khaymah,291074
4,Khawr Fakkān,United Arab Emirates,Ash Shāriqah,291696


**Problème :** Le fichier ne contient pas de ligne d'en-tête de colonnes.

**Solution :** L'argument ```name=[""] ``` de la fonction ```read_csv()``` permet d'imputer à la main le nom des colonnes.

#### Accès à un fichier avec du texte au début et à la fin

In [34]:
url="https://bit.ly/world-cities-dirty-v2"
data=pd.read_csv(url, skiprows=2, skipfooter=1, encoding='utf8')
data.head()

  data=pd.read_csv(url, skiprows=2, skipfooter=1,encoding='utf8')


Unnamed: 0,name,country,subcountry,geonameid
0,les Escaldes,Andorra,Escaldes-Engordany,3040051
1,Andorra la Vella,Andorra,Andorra la Vella,3041563
2,Umm al Qaywayn,United Arab Emirates,Umm al Qaywayn,290594
3,Ras al-Khaimah,United Arab Emirates,Raʼs al Khaymah,291074
4,Khawr Fakkān,United Arab Emirates,Ash Shāriqah,291696


**Problème :** Du texte est inséré au début et à la fin du fichier à importer.

**Rapport d'erreur :* ```ParserError: Error tokenizing data. C error: Expected 4 fields in line 23022, saw 7```

Erreur dans l'importation des données. 4 champs attendus, 7 champs à la ligne 23022.

**Solution :** L'argument ```skiprows=n``` de la fonction read_csv() permet de défini **n** lignes à ignorer au début du fichier.

L'argument ```skipfooter=n``` de la fonction read_csv() permet de défini **n** lignes à ignorer à la fin du fichier.

**Erreur Bonus :** 

Erreur d'encodage :```UnicodeDecodeError: 'charmap' codec can't decode byte 0x81 in position 1580: character maps to <undefined>```

Corriger avec l'argument : ```encoding='utf8'```

#### Accès à un fichier avec un séparateur différent

In [37]:
url="https://bit.ly/world-cities-dirty-v3"
data=pd.read_csv(url, sep='|', names=["name","country","subcountry", "geonameid"])
data.head()

Unnamed: 0,name,country,subcountry,geonameid
0,les Escaldes,Andorra,Escaldes-Engordany,3040051
1,Andorra la Vella,Andorra,Andorra la Vella,3041563
2,Umm al Qaywayn,United Arab Emirates,Umm al Qaywayn,290594
3,Ras al-Khaimah,United Arab Emirates,Raʼs al Khaymah,291074
4,Khawr Fakkān,United Arab Emirates,Ash Shāriqah,291696


**Problème :** Le tableau importé n'est composé que d'une colonne car le séparateur utilisé dans le fichier brut n'est pas la virgule et les colonnes n'ont pas d'en-tête.

**Solution :** L'argument ```sep=''``` de la fonction read_csv() permet de définir à la main le séparateur du fichier brut.

L'argument ```name=[""]``` de la fonction read_csv() permet d'imputer à la main le nom des colonnes.

## Bonnes pratiques à l'ouverture d'un fichier CSV

**df.shape** pour regarder le nombres de ligne et de colonnes
<br/>**df.dtypes** pour regarder le nom des colonnes et leur type d'un seul coup (j'en profite pour repérer d'éventuel conversion de types qu'il faudra effectuer)
<br/>**df.head()** pour regarder à quoi ressemble les premières lignes du dataset.
<br/>**df.tail()** pour regarder les dernières lignes du dataset. J'en profite pour comparer le résultat de head avec celui de tail, y-a-t'il une quelconque différence? Parfois les anomalies sont rangées à la fin du dataset.
<br/>**df.isna().sum()** pour vérifier la présence de valeurs manquantes par colonnes.

### Application

In [70]:
base1=pd.read_csv("https://bit.ly/world-cities-clean")
base2=pd.read_csv("https://bit.ly/bitcoin-data")

#### Dimensions de la table de données

In [48]:
print(base1.shape, base2.shape)

(23018, 4) (33, 7)


La base de donnée 1 est composée de 23 018 lignes et de 4 colonnes.<br/>
La base de donnée 2 est composée de 33 lignes et de 7 colonnes.

#### Prévisualisation des données
**Premières lignes**

In [49]:
base1.head()

Unnamed: 0,name,country,subcountry,geonameid
0,les Escaldes,Andorra,Escaldes-Engordany,3040051
1,Andorra la Vella,Andorra,Andorra la Vella,3041563
2,Umm al Qaywayn,United Arab Emirates,Umm al Qaywayn,290594
3,Ras al-Khaimah,United Arab Emirates,Raʼs al Khaymah,291074
4,Khawr Fakkān,United Arab Emirates,Ash Shāriqah,291696


**Dernières lignes**

In [51]:
base1.tail()

Unnamed: 0,name,country,subcountry,geonameid
23013,Bulawayo,Zimbabwe,Bulawayo,894701
23014,Bindura,Zimbabwe,Mashonaland Central,895061
23015,Beitbridge,Zimbabwe,Matabeleland South,895269
23016,Epworth,Zimbabwe,Harare,1085510
23017,Chitungwiza,Zimbabwe,Harare,1106542


Les données ont l'air d'être triées dans l'ordre croissant selon le Pays. <br/>
Pas de déchet au début ou à la fin du fichier.

**Premières lignes**

In [52]:
base2.head()

Unnamed: 0,Date,Open*,High,Low,Close**,Volume,Market Cap
0,Jan 14 2020,8140.93,8879.51,8140.93,8827.76,44841780000.0,160319500000.0
1,Jan 13 2020,8189.77,8197.79,8079.7,8144.19,22482910000.0,147890500000.0
2,Jan 12 2020,8033.26,8200.06,8009.06,8192.49,22903440000.0,148753000000.0
3,Jan 11 2020,8162.19,8218.36,8029.64,8037.54,25521170000.0,145924200000.0
4,Jan 10 2020,7878.31,8166.55,7726.77,8166.55,28714580000.0,148249900000.0


**Dernières lignes**

In [53]:
base2.tail()

Unnamed: 0,Date,Open*,High,Low,Close**,Volume,Market Cap
28,Dec 17 2019,6931.32,6964.07,6587.97,6640.52,22363800000.0,120234200000.0
29,Dec 16 2019,7153.66,7171.17,6903.68,6932.48,20213270000.0,125515600000.0
30,Dec 15 2019,7124.24,7181.08,6924.38,7152.3,16881130000.0,129481400000.0
31,* Earliest data in range (UTC time),,,,,,
32,** Latest data in range (UTC time),,,,,,


Les données ont l'air d'être triées dans l'ordre décroissant selon la Date.<br/>
Déchets à la fin du fichier.

#### Recherche de valeurs manquantes

In [54]:
base1.isna().sum()

name           0
country        0
subcountry    26
geonameid      0
dtype: int64

26 Données manquantes dans la colonne ```subcountry```.

In [55]:
base2.isna().sum()

Date          0
Open*         2
High          2
Low           2
Close**       2
Volume        2
Market Cap    2
dtype: int64

Données manquantes correspondant aux lignes issues des déchets.

## Modifier une base de données 
### Modifier le nom d'une colonne
**Par la fonction rename**

In [72]:
base_rename=base2.copy()
base_rename.rename(columns={"Open*": "Open", "Close**":"Close"}, inplace=True)
base_rename.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Market Cap
0,Jan 14 2020,8140.93,8879.51,8140.93,8827.76,44841780000.0,160319500000.0
1,Jan 13 2020,8189.77,8197.79,8079.7,8144.19,22482910000.0,147890500000.0
2,Jan 12 2020,8033.26,8200.06,8009.06,8192.49,22903440000.0,148753000000.0
3,Jan 11 2020,8162.19,8218.36,8029.64,8037.54,25521170000.0,145924200000.0
4,Jan 10 2020,7878.31,8166.55,7726.77,8166.55,28714580000.0,148249900000.0


**Par duplication de la colonne puis supression de l'ancienne colonne**

In [84]:
base_dupli=base2.copy()
base_dupli['Open']=base_dupli['Open*']
base_dupli.drop(['Open*'], axis='columns',inplace=True)
base_dupli.head()

Unnamed: 0,Date,High,Low,Close**,Volume,Market Cap,Open
0,Jan 14 2020,8879.51,8140.93,8827.76,44841780000.0,160319500000.0,8140.93
1,Jan 13 2020,8197.79,8079.7,8144.19,22482910000.0,147890500000.0,8189.77
2,Jan 12 2020,8200.06,8009.06,8192.49,22903440000.0,148753000000.0,8033.26
3,Jan 11 2020,8218.36,8029.64,8037.54,25521170000.0,145924200000.0,8162.19
4,Jan 10 2020,8166.55,7726.77,8166.55,28714580000.0,148249900000.0,7878.31


**Par modification de la chaîne de caractères du nom de la colonne**

In [90]:
def modif_adhoc(s):
    s=s.replace('*','')
    s=s.replace(' ','_')
    return s

In [92]:
base_function=base2.copy()
base_function.rename(modif_adhoc, axis='columns',inplace=True)
base_function.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Market_Cap
0,Jan 14 2020,8140.93,8879.51,8140.93,8827.76,44841780000.0,160319500000.0
1,Jan 13 2020,8189.77,8197.79,8079.7,8144.19,22482910000.0,147890500000.0
2,Jan 12 2020,8033.26,8200.06,8009.06,8192.49,22903440000.0,148753000000.0
3,Jan 11 2020,8162.19,8218.36,8029.64,8037.54,25521170000.0,145924200000.0
4,Jan 10 2020,7878.31,8166.55,7726.77,8166.55,28714580000.0,148249900000.0


**Par utilisation du module**

In [99]:
base_method=base2.copy()
base_method.columns=base_method.columns.str.replace('*','')
base_method.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Market Cap
0,Jan 14 2020,8140.93,8879.51,8140.93,8827.76,44841780000.0,160319500000.0
1,Jan 13 2020,8189.77,8197.79,8079.7,8144.19,22482910000.0,147890500000.0
2,Jan 12 2020,8033.26,8200.06,8009.06,8192.49,22903440000.0,148753000000.0
3,Jan 11 2020,8162.19,8218.36,8029.64,8037.54,25521170000.0,145924200000.0
4,Jan 10 2020,7878.31,8166.55,7726.77,8166.55,28714580000.0,148249900000.0


***Application***
Passer le nom des colonnes en majuscule.

In [106]:
test = pd.DataFrame(data={'a':[1,2],
                         'b':[3,3]})
test

Unnamed: 0,a,b
0,1,3
1,2,3


In [107]:
#Methode 1 : Rename
test.rename(str.upper, axis='columns', inplace=True)
test

Unnamed: 0,A,B
0,1,3
1,2,3


In [111]:
#Methode 2 : Module
test.columns = test.columns.str.upper()
test

Unnamed: 0,A,B
0,1,3
1,2,3


## Nettoyer des données
Les données sont classées en deux catégories : les données sales et les données clean.

| Sale | Clean : int/flt |
|:-:|:-:|
| object | numérique |
| str | catégorielle |
| int/flt | ordinale |

### Transformation des données sales en clean

a/ Extraire 'str'-> numérique int/flt<br/>
b/ Extraires numérique -> ordinale<br/>
c/ Extraire date -> numérique<br/>
d/ Extraire date -> ordinale

Traitement des valeurs manquantes (NaN)

e/ Extraire tout type de variable -> catégorielle

### Application

In [122]:
base_sale=pd.read_csv("https://bit.ly/bitcoin-purchases2")
base_sale.head()

Unnamed: 0,bitcoin address,wire amount,credit card
0,1J9DVMtgvnPv4KGHL2XSzoTSt5cBBL1DXe,£8356.92,3543456448666398
1,1HaiVQbzCTs7t1K1fckYEUi9t8ERBFRR7Q,"€311,06",3584615208479876
2,1NGPjXfDScEUSZYajAzCkxaVApTbBHC7jP,"€2032,44",6370577480710876
3,15cSYRTbcrxYinxNxk7VbkPLZG8nypdjy6,¥8155.74,4508652385157398
4,18j2qG1DH9YduJiBiccAq8Ak897G3E4JyZ,£3265.44,374622922103592


**transformer les , en .**

In [125]:
base_sale['wire amount']=base_sale['wire amount'].str.replace(',','.')
base_sale.head()

Unnamed: 0,bitcoin address,wire amount,credit card
0,1J9DVMtgvnPv4KGHL2XSzoTSt5cBBL1DXe,£8356.92,3543456448666398
1,1HaiVQbzCTs7t1K1fckYEUi9t8ERBFRR7Q,€311.06,3584615208479876
2,1NGPjXfDScEUSZYajAzCkxaVApTbBHC7jP,€2032.44,6370577480710876
3,15cSYRTbcrxYinxNxk7VbkPLZG8nypdjy6,¥8155.74,4508652385157398
4,18j2qG1DH9YduJiBiccAq8Ak897G3E4JyZ,£3265.44,374622922103592


**Extraire les Devises dans une nouvelles colonne**

In [127]:
base_sale['devise']=base_sale['wire amount'].str.get(0)
base_sale.head()

Unnamed: 0,bitcoin address,wire amount,credit card,devise
0,1J9DVMtgvnPv4KGHL2XSzoTSt5cBBL1DXe,£8356.92,3543456448666398,£
1,1HaiVQbzCTs7t1K1fckYEUi9t8ERBFRR7Q,€311.06,3584615208479876,€
2,1NGPjXfDScEUSZYajAzCkxaVApTbBHC7jP,€2032.44,6370577480710876,€
3,15cSYRTbcrxYinxNxk7VbkPLZG8nypdjy6,¥8155.74,4508652385157398,¥
4,18j2qG1DH9YduJiBiccAq8Ak897G3E4JyZ,£3265.44,374622922103592,£


In [129]:
base_sale['wire amount']=base_sale['wire amount'].str[1:]
base_sale.head()

Unnamed: 0,bitcoin address,wire amount,credit card,devise
0,1J9DVMtgvnPv4KGHL2XSzoTSt5cBBL1DXe,8356.92,3543456448666398,£
1,1HaiVQbzCTs7t1K1fckYEUi9t8ERBFRR7Q,311.06,3584615208479876,€
2,1NGPjXfDScEUSZYajAzCkxaVApTbBHC7jP,2032.44,6370577480710876,€
3,15cSYRTbcrxYinxNxk7VbkPLZG8nypdjy6,8155.74,4508652385157398,¥
4,18j2qG1DH9YduJiBiccAq8Ak897G3E4JyZ,3265.44,374622922103592,£


**Pour extraire des valeurs numériques depuis des chaînes de caractères, il faut:**

1/ Retravailler la colonne pour que toutes les entrées soient *castable* en **in** ou **float**.

2/ Effectuer la conversion de votre choix avec ```astype(int)```ou ```astype(float)```

**Exercice 1 :**

In [144]:
import random
def makeNumberStr(sep=[',']):
    avantVirgule=str(random.randint(1,1000))
    aprèsVirgule='{:02}'.format(random.randint(0,99))
    sep=random.choice(sep)
    return avantVirgule + sep + aprèsVirgule

col1 = [makeNumberStr() for _ in range(200)]
col2 = [makeNumberStr(['.',',']) for _ in range (200)]

exo1 = pd.DataFrame(data={"col1":col1,
                         "col2":col2})
exo1.head()

Unnamed: 0,col1,col2
0,42079,939.81
1,16468,98341.0
2,19320,517.42
3,90472,332.33
4,34353,30818.0


In [141]:
exo1['col1']=exo1['col1'].str.replace(',','.')
exo1['col2']=exo1['col2'].str.replace(',','.')
exo1 = exo1.astype({'col1': 'float', 'col2': 'float'})
exo1.head()

Unnamed: 0,col1,col2
0,239.27,780.32
1,404.71,104.93
2,507.44,407.27
3,669.94,152.39
4,854.97,909.84


**Exercice 2 :**

In [145]:
def makeNumberStrRandSign(sep=[','], signs=['€','$']):
    avantVirgule=str(random.randint(1,1000))
    aprèsVirgule='{:02}'.format(random.randint(0,99))
    sep=random.choice(sep)
    sign=random.choice(signs)
    return avantVirgule + sep + aprèsVirgule + sign

col1 = [makeNumberStrRandSign() for _ in range(200)]
col2 = [makeNumberStrRandSign(['.',',']) for _ in range (200)]

exo2 = pd.DataFrame(data={"col1":col1,
                         "col2":col2})
exo2.head()

Unnamed: 0,col1,col2
0,"933,93$",65.20€
1,"254,70$",22.74$
2,"78,77€",203.66€
3,"549,96$",298.29€
4,"574,18$","55,67$"


In [152]:
exo2['col1']=exo2['col1'].str.replace(',','.')
exo2['col2']=exo2['col2'].str.replace(',','.')
exo2['devise1']=exo2['col1'].str[-1]
exo2['devise2']=exo2['col2'].str[-1]
exo2['col1']=exo2['col1'].str[:-1]
exo2['col2']=exo2['col2'].str[:-1]

exo2 = exo2.astype({'col1': 'float', 'col2': 'float'})
exo2.head()

Unnamed: 0,col1,col2,devise1,devise2
0,933.93,65.2,$,€
1,254.7,22.74,$,$
2,78.77,203.66,€,€
3,549.96,298.29,$,€
4,574.18,55.67,$,$


### Utiliser la fonction ```.cut()```

In [168]:
exo1=pd.Series(data=[0,1,2,3])

In [171]:
pd.cut(exo1,
      bins=[0,2,3],
      labels=["A","B"],include_lowest=True)

0    A
1    A
2    A
3    B
dtype: category
Categories (2, object): ['A' < 'B']

In [172]:
prefix = ['ten','twen','thir','four','fif','six','seven', 'eight','nine']
labels = [p+'ties' for p in prefix]
labels

['tenties',
 'twenties',
 'thirties',
 'fourties',
 'fifties',
 'sixties',
 'seventies',
 'eightties',
 'nineties']

In [187]:
data['decade']=pd.cut(data['Age'],      
         bins=[i*10-1 for i in range (1,11)],      
         labels=labels)
data.head()

Unnamed: 0,Date of Arrest,Age,Convicted,decade
0,2014-07-16 14:59:18,77,Yes,seventies
1,2002-12-19 22:17:59,28,Yes,twenties
2,1994-06-28 09:31:40,21,No,twenties
3,1985-05-14 09:52:17,45,Yes,fourties
4,1985-05-25 14:06:28,39,Yes,thirties


In [191]:
data.dtypes

Date of Arrest      object
Age                  int64
Convicted           object
decade            category
dtype: object

#### Gérer les cycles

In [48]:
data=pd.read_csv("https://bit.ly/felonies-dataset")
data.rename(columns={"Date of Arrest":"DoA"}, inplace=True)
data['DoA']=pd.to_datetime(data['DoA'])
data.head()

Unnamed: 0,DoA,Age,Convicted
0,2014-07-16 14:59:18,77,Yes
1,2002-12-19 22:17:59,28,Yes
2,1994-06-28 09:31:40,21,No
3,1985-05-14 09:52:17,45,Yes
4,1985-05-25 14:06:28,39,Yes


In [65]:
print("Les jours vont de",
      data['DoA'].dt.day.min(),
      "à",
      data['DoA'].dt.day.max())
print("Les mois vont de",
      data['DoA'].dt.month.min(),
      "à",
      data['DoA'].dt.month.max())

Les jours vont de 1 à 31
Les mois vont de 1 à 12


In [50]:
coltemp=data['DoA'].dt.month*100+data['DoA'].dt.day
coltemp

0       716
1      1219
2       628
3       514
4       525
       ... 
995     204
996     429
997     715
998     705
999     317
Name: DoA, Length: 1000, dtype: int64

In [56]:
av_janvier=0
av_printmps=320
av_ete=620
av_autmn=920
av_hiver=1221
fin_année=1232
bins=[av_janvier,av_printmps,av_ete,av_autmn,av_hiver,fin_année]
saisons=pd.cut(coltemp,
      bins=bins,
      labels=['HIVER','PRINTEMPS','ETE','AUTOMNE','HIVER2'])
saisons.head()

0          ETE
1      AUTOMNE
2          ETE
3    PRINTEMPS
4    PRINTEMPS
Name: DoA, dtype: category
Categories (5, object): ['HIVER' < 'PRINTEMPS' < 'ETE' < 'AUTOMNE' < 'HIVER2']

In [58]:
saisons=saisons.str.replace('2','')
saisons.unique()

array(['ETE', 'AUTOMNE', 'PRINTEMPS', 'HIVER'], dtype=object)

In [62]:
ordre=['HIVER','PRINTEMPS','ETE','AUTOMNE']
saison=(saisons.astype('category').
                        cat.reorder_categories(ordre).
                        cat.as_ordered())
saison.head()

0          ETE
1      AUTOMNE
2          ETE
3    PRINTEMPS
4    PRINTEMPS
Name: DoA, dtype: category
Categories (4, object): ['HIVER' < 'PRINTEMPS' < 'ETE' < 'AUTOMNE']

##### Application : Gérer les cycles sur les périodes de la journée
22h12-3h24 : Nuit
3h25 - 16h12 : Matin
16h13 - 22h11 : Après-Midi

In [68]:
data=pd.read_csv("https://bit.ly/felonies-dataset")
data.rename(columns={"Date of Arrest":"DoA"}, inplace=True)
data['DoA']=pd.to_datetime(data['DoA'])
print("Les minutes vont de",
      data['DoA'].dt.minute.min(),
      "à",
      data['DoA'].dt.minute.max())
print("Les heures vont de",
      data['DoA'].dt.hour.min(),
      "à",
      data['DoA'].dt.hour.max())

Les minutes vont de 0 à 59
Les heures vont de 0 à 23


In [69]:
coltemp_pj=data['DoA'].dt.hour*100+data['DoA'].dt.minute
coltemp_pj

0      1459
1      2217
2       931
3       952
4      1406
       ... 
995    1424
996    1803
997    2159
998    1716
999    1829
Name: DoA, Length: 1000, dtype: int64

In [76]:
av_debut=0
av_matin=324
av_aprem=1612
av_nuit=2211
fin_jour=2360
bins=[av_debut,av_matin,av_aprem,av_nuit,fin_jour]
periodesJours=pd.cut(coltemp_pj,
      bins=bins,
      labels=['NUIT','AM','PM','NUIT2'],include_lowest=True)
print("Valeurs manquantes ",periodesJours.isna().sum())
periodesJours.head()

Valeurs manquantes  0


0       AM
1    NUIT2
2       AM
3       AM
4       AM
Name: DoA, dtype: category
Categories (4, object): ['NUIT' < 'AM' < 'PM' < 'NUIT2']

In [77]:
periodesJours=periodesJours.str.replace('2','')
periodesJours.unique()

array(['AM', 'NUIT', 'PM'], dtype=object)

In [78]:
ordre=['NUIT', 'AM', 'PM']
periodesJour=(periodesJours.astype('category').
                        cat.reorder_categories(ordre).
                        cat.as_ordered())
periodesJour.head()

0      AM
1    NUIT
2      AM
3      AM
4      AM
Name: DoA, dtype: category
Categories (3, object): ['NUIT' < 'AM' < 'PM']

### Traiter les dates

In [192]:
data.rename(columns={"Date of Arrest":"DoA"},inplace=True)

In [203]:
data['DoA']=pd.to_datetime(data['DoA'])
data.head()

Unnamed: 0,DoA,Age,Convicted,decade,YoA
0,2014-07-16 14:59:18,77,Yes,seventies,-
1,2002-12-19 22:17:59,28,Yes,twenties,-
2,1994-06-28 09:31:40,21,No,twenties,-
3,1985-05-14 09:52:17,45,Yes,fourties,-
4,1985-05-25 14:06:28,39,Yes,thirties,-


In [205]:
data['YoA']=data['DoA'].dt.year
data.head()

Unnamed: 0,DoA,Age,Convicted,decade,YoA
0,2014-07-16 14:59:18,77,Yes,seventies,2014
1,2002-12-19 22:17:59,28,Yes,twenties,2002
2,1994-06-28 09:31:40,21,No,twenties,1994
3,1985-05-14 09:52:17,45,Yes,fourties,1985
4,1985-05-25 14:06:28,39,Yes,thirties,1985


In [207]:
from datetime import datetime

bins=list(range(1959,2039,10))
prefix = ['six','seven', 'eight','nine','zero','ten','twen']
labels = [p+'ties' for p in prefix]

pd.cut(data['DoA'].dt.year, bins=bins, labels=labels)

0        tenties
1       zeroties
2       nineties
3      eightties
4      eightties
         ...    
995     nineties
996     nineties
997    eightties
998     nineties
999     nineties
Name: DoA, Length: 1000, dtype: category
Categories (7, object): ['sixties' < 'seventies' < 'eightties' < 'nineties' < 'zeroties' < 'tenties' < 'twenties']

#### Utilisation de la méthode map de Pandas

In [6]:
data=pd.read_csv("https://bit.ly/felonies-dataset")
data['DoA']=pd.to_datetime(data['Date of Arrest'])
data.dtypes

Date of Arrest            object
Age                        int64
Convicted                 object
DoA               datetime64[ns]
dtype: object

In [9]:
data.drop(['Date of Arrest'], axis='columns', inplace=True)
data.head()

Unnamed: 0,Age,Convicted,DoA
0,77,Yes,2014-07-16 14:59:18
1,28,Yes,2002-12-19 22:17:59
2,21,No,1994-06-28 09:31:40
3,45,Yes,1985-05-14 09:52:17
4,39,Yes,1985-05-25 14:06:28


In [13]:
dow2weektime={0:'Debut',1:'Debut',
              2:'Milieu',3:'Milieu',4:'Milieu',
              5:'Weekend',6:'Weekend'}
data.DoA.dt.dayofweek.map(dow2weektime)

0       Milieu
1       Milieu
2        Debut
3        Debut
4      Weekend
        ...   
995      Debut
996      Debut
997      Debut
998      Debut
999    Weekend
Name: DoA, Length: 1000, dtype: object

In [15]:
id2str=['monday','tuesday','wednesday','thursday','friday','saturday','sunday']
str2id={value: idx for idx, value in enumerate(id2str)}
str2id

{'monday': 0,
 'tuesday': 1,
 'wednesday': 2,
 'thursday': 3,
 'friday': 4,
 'saturday': 5,
 'sunday': 6}

In [19]:
id2str={idx:value for idx, value in enumerate(id2str)}
id2str

{0: 'monday',
 1: 'tuesday',
 2: 'wednesday',
 3: 'thursday',
 4: 'friday',
 5: 'saturday',
 6: 'sunday'}

In [20]:
data['DoA'].dt.dayofweek.map(id2str)

0      wednesday
1       thursday
2        tuesday
3        tuesday
4       saturday
         ...    
995      tuesday
996       monday
997      tuesday
998       monday
999       sunday
Name: DoA, Length: 1000, dtype: object

In [41]:
periodeSemaine={'monday': 'debut',
                'tuesday': 'debut',
                'wednesday': 'milieu',
                'thursday': 'milieu',
                'friday': 'milieu',
                'saturday': 'week-end',
                'sunday': 'week-end'}

In [42]:
data['periodeSemaine']=data['DoA'].dt.dayofweek.map(id2str).map(periodeSemaine)
data.head()

Unnamed: 0,Age,Convicted,DoA,periodeSemaine
0,77,Yes,2014-07-16 14:59:18,milieu
1,28,Yes,2002-12-19 22:17:59,milieu
2,21,No,1994-06-28 09:31:40,debut
3,45,Yes,1985-05-14 09:52:17,debut
4,39,Yes,1985-05-25 14:06:28,week-end


### Gestion des manquants
Il faudra supprimer les manquants. Pour ne pas perdre d'information il faut insérer une colonne comportant l'information de la présence de manquant.

In [139]:
data=pd.read_csv('https://bit.ly/missing-values')
data_miss=data.copy()
data_miss.head()

Unnamed: 0,color,rating
0,,1.16
1,Red,
2,Blue,2.54
3,Red,1.51
4,Red,


#### Traiter la présence de valeurs manquantes [NUM/ORD]

##### Marquer la présence des manquants

In [88]:
data_miss['color_missing']=data_miss['color'].isna()
data_miss.head()

Unnamed: 0,color,rating,color_missing
0,,1.16,True
1,Red,,False
2,Blue,2.54,False
3,Red,1.51,False
4,Red,,False


In [89]:
data_miss.insert(1,'_missing',data_miss['color'].isna())
data_miss.head()

Unnamed: 0,color,_missing,rating,color_missing
0,,True,1.16,True
1,Red,False,,False
2,Blue,False,2.54,False
3,Red,False,1.51,False
4,Red,False,,False


In [140]:
data_miss=data.copy()

# N'inclure que le nom des colonnes NUMERIQUES ou ORDINALES
for nom_colonne in ['color','rating']:
    index_colonne=data_miss.columns.get_loc(nom_colonne)
    data_miss.insert(index_colonne+1,
             nom_colonne+'_missing',
             data_miss[nom_colonne].isna().astype('int8'))
data_miss.head()

Unnamed: 0,color,color_missing,rating,rating_missing
0,,1,1.16,0
1,Red,0,,1
2,Blue,0,2.54,0
3,Red,0,1.51,0
4,Red,0,,1


Pour les colonnes ordinales, ```colonnes.cat.codes``` <br/>
Pour les colonnes numériques, ```astype('int')```ou ```astype('float')```

##### Remplacer les valeurs manquantes

In [141]:
data_miss['rating'].fillna(data_miss['rating'].mean()) #Récupérer et utiliser la moyenne

0      1.160000
1      3.066672
2      2.540000
3      1.510000
4      3.066672
         ...   
912    3.400000
913    3.066672
914    1.240000
915    2.640000
916    3.066672
Name: rating, Length: 917, dtype: float64

In [150]:
data_miss['color'].fillna(data_miss['color'].mode().item()) #Récupérer et utiliser la valeur la plus fréquente

0        Blue
1         Red
2        Blue
3         Red
4         Red
        ...  
912      Blue
913       Red
914      Blue
915    Yellow
916      Blue
Name: color, Length: 917, dtype: object

In [151]:
data_miss['color'].fillna('Missing') #Utiliser une valeur hors plage

0      Missing
1          Red
2         Blue
3          Red
4          Red
        ...   
912       Blue
913        Red
914    Missing
915     Yellow
916       Blue
Name: color, Length: 917, dtype: object

#### Traiter la présence de valeurs manquantes [CATE]
S'applique à des variables catégorielles non ordonnées

In [154]:
data_miss['rating'].fillna(data_miss['rating'].mean(),inplace=True)
data_miss.head()

Unnamed: 0,color,color_missing,rating,rating_missing
0,,1,1.16,0
1,Red,0,3.066672,1
2,Blue,0,2.54,0
3,Red,0,1.51,0
4,Red,0,3.066672,1


In [157]:
data_miss['color']=data_miss['color'].astype('category')

In [160]:
pd.get_dummies(data_miss,
              dummy_na=True,
              columns=['color']).head()

Unnamed: 0,color_missing,rating,rating_missing,color_Blue,color_Orange,color_Red,color_Yellow,color_nan
0,1,1.16,0,0,0,0,0,1
1,0,3.066672,1,0,0,1,0,0
2,0,2.54,0,1,0,0,0,0
3,0,1.51,0,0,0,1,0,0
4,0,3.066672,1,0,0,1,0,0


#### Supprimer les lignes comportant des NaN

In [108]:
data=pd.read_csv('https://bit.ly/missing-values-toy')
data

Unnamed: 0,Colonne Importante,Colonne Inutile,Colonne Peu Utile
0,Oui,,2.0
1,Non,1.0,
2,Légerement,,3.0
3,,1.0,
4,Oui,1.0,4.0
5,,,3.0
6,,2.0,


In [109]:
data.dropna()

Unnamed: 0,Colonne Importante,Colonne Inutile,Colonne Peu Utile
4,Oui,1.0,4.0


##### Supprimer les lignes comportant AU MOINS une valeur manquante

In [113]:
data_any=data.dropna(how="any", subset=['Colonne Importante'])
data_any

Unnamed: 0,Colonne Importante,Colonne Inutile,Colonne Peu Utile
0,Oui,,2.0
1,Non,1.0,
2,Légerement,,3.0
4,Oui,1.0,4.0


##### Supprimer les lignes ne comportant QUE des valeurs manquantes

In [114]:
data_all=data.dropna(how='all',subset=['Colonne Importante','Colonne Peu Utile'])
data_all

Unnamed: 0,Colonne Importante,Colonne Inutile,Colonne Peu Utile
0,Oui,,2.0
1,Non,1.0,
2,Légerement,,3.0
4,Oui,1.0,4.0
5,,,3.0


### Gestion des doublons

In [117]:
data=pd.read_csv('https://bit.ly/tx-data')
data.head()

Unnamed: 0,transaction_id,first_name,last_name,ip_address,amount
0,50563-403,Jacobo,Haresign,18.144.134.48,$647.77
1,54569-3911,Christy,Derl,254.107.123.242,$460.47
2,59667-0024,Florie,Prewer,148.80.11.233,$565.38
3,60429-123,Danika,Shimuk,233.91.221.158,$794.76
4,0187-0771,Annelise,Antonescu,238.143.41.105,$790.41


In [120]:
data.duplicated(keep='first') #marque en TRUE les valeurs déja rencontrées

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15     True
16    False
17    False
18    False
19     True
20     True
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28     True
29    False
30    False
31    False
32     True
33    False
34    False
35    False
36    False
37     True
38    False
39    False
40    False
41    False
42     True
43    False
44    False
45    False
46    False
47    False
dtype: bool

In [121]:
data.duplicated(keep='last') #marque en TRUE la première occurrence des valeurs en double

0     False
1     False
2      True
3     False
4     False
5      True
6     False
7      True
8     False
9     False
10    False
11    False
12     True
13    False
14     True
15    False
16     True
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31    False
32     True
33    False
34    False
35    False
36    False
37    False
38    False
39    False
40    False
41    False
42    False
43    False
44    False
45    False
46    False
47    False
dtype: bool

In [123]:
data.duplicated(keep=False) #marque en TRUE toutes les lignes possédant des doublons

0     False
1     False
2      True
3     False
4     False
5      True
6     False
7      True
8     False
9     False
10    False
11    False
12     True
13    False
14     True
15     True
16     True
17    False
18    False
19     True
20     True
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28     True
29    False
30    False
31    False
32     True
33    False
34    False
35    False
36    False
37     True
38    False
39    False
40    False
41    False
42     True
43    False
44    False
45    False
46    False
47    False
dtype: bool

In [134]:
duplicatas = data.duplicated(keep=False,
                                 subset=['transaction_id']) #Montre toutes les lignes dupliquées
data[duplicatas].sort_values(['transaction_id']).head() #regroupe les doublons

Unnamed: 0,transaction_id,first_name,last_name,ip_address,amount
16,0066-0508,Jedd,Hartman,21.55.247.91,$749.96
42,0066-0508,Jedd,Hartman,21.55.247.91,$749.96
5,53942-299,Upton,Emig,103.190.123.125,$759.53
19,53942-299,Upton,Emig,103.190.123.125,$759.53
2,59667-0024,Florie,Prewer,148.80.11.233,$565.38


In [135]:
data_unique=data.drop_duplicates(subset=['transaction_id'])
data_unique.head(10)

Unnamed: 0,transaction_id,first_name,last_name,ip_address,amount
0,50563-403,Jacobo,Haresign,18.144.134.48,$647.77
1,54569-3911,Christy,Derl,254.107.123.242,$460.47
2,59667-0024,Florie,Prewer,148.80.11.233,$565.38
3,60429-123,Danika,Shimuk,233.91.221.158,$794.76
4,0187-0771,Annelise,Antonescu,238.143.41.105,$790.41
5,53942-299,Upton,Emig,103.190.123.125,$759.53
6,41163-519,Rachael,Housley,3.188.252.248,$871.72
7,60289-247,Corri,Rockcliffe,46.150.208.18,$5.68
8,0527-1742,Ambros,Goulding,174.124.224.39,$726.12
9,57237-083,Roma,Addekin,37.14.63.174,$526.89


## Transformer des données

### Transformer un jeu de données en données ordinales

In [155]:
data=pd.read_csv("https://bit.ly/felonies-dataset")
data.head()

Unnamed: 0,Date of Arrest,Age,Convicted
0,2014-07-16 14:59:18,77,Yes
1,2002-12-19 22:17:59,28,Yes
2,1994-06-28 09:31:40,21,No
3,1985-05-14 09:52:17,45,Yes
4,1985-05-25 14:06:28,39,Yes


In [156]:
data['Age'].describe()

count    1000.000000
mean       54.605000
std        25.225172
min        10.000000
25%        33.000000
50%        53.000000
75%        76.000000
max        99.000000
Name: Age, dtype: float64

Comment transformer une valeur numérique en catégorie ?

In [157]:
o=pd.cut(data['Age'],
      bins=[10,14,20,65,100],
      labels=['Enfant','Ado','Adult','Senior'])

In [158]:
o.isna().sum()

13

Des cas n'ont pas été pris en compte dans le choix des bornes ce qui a créé des NaN.

### Transformer les données en catégories hiérarchisées [ORDINAL]

In [43]:
ordre=['debut','milieu','week-end']
data['periodeSemaine']=(data['periodeSemaine'].astype('category').
                        cat.reorder_categories(ordre).
                        cat.as_ordered())
data['periodeSemaine'].dtype

CategoricalDtype(categories=['debut', 'milieu', 'week-end'], ordered=True)

In [44]:
data.head()

Unnamed: 0,Age,Convicted,DoA,periodeSemaine
0,77,Yes,2014-07-16 14:59:18,milieu
1,28,Yes,2002-12-19 22:17:59,milieu
2,21,No,1994-06-28 09:31:40,debut
3,45,Yes,1985-05-14 09:52:17,debut
4,39,Yes,1985-05-25 14:06:28,week-end


### Convertir la colonne "category" en "int" [ORDINAL]

In [45]:
data['periodeSemaine']=data['periodeSemaine'].cat.codes
data.head()

Unnamed: 0,Age,Convicted,DoA,periodeSemaine
0,77,Yes,2014-07-16 14:59:18,1
1,28,Yes,2002-12-19 22:17:59,1
2,21,No,1994-06-28 09:31:40,0
3,45,Yes,1985-05-14 09:52:17,0
4,39,Yes,1985-05-25 14:06:28,2


***Bonus : Sauvegarder des objets***
<br/>Méthode intéressante pour sauvegarder le vocabulaire et pouvoir le réutiliser

*A Savoir : On ne peut pas pickle des objets numpy*

In [18]:
import pickle
path=('C:/Users/elisa/Desktop/Python H3/Devoir Pandas/dictionnaire.pkl')

#en écriture
with open (path, 'wb') as f:
    pickle.dump(id2str,f) #pickle.dump(object, directory)
    
#en lecture
with open (path, 'rb') as f:
    objet=pickle.load(f) #pickle.dump(object, directory)
objet

['monday', 'tuesday', 'wednesday', 'thursday', 'friday', 'saturday', 'sunday']

## Sauvegarder/Exporter une base de données

In [162]:
data.to_csv('C:/Users/elisa/Desktop/Python H3/Devoir Pandas/dataset.csv',
           index=None)