# Chargement et Exploration données

In [24]:
# Importation des données
import pandas as pd
import numpy as np
from datetime import datetime

Pour ce projet, nous disposons de deux jeux de données, `business.csv` et `economy.csv`. Voyons ce qu'ils contiennent

In [25]:
df1 = pd.read_csv('../data/business.csv')
df2 = pd.read_csv('../data/economy.csv')

In [26]:
df1.head()

Unnamed: 0,date,airline,ch_code,num_code,dep_time,from,time_taken,stop,arr_time,to,price
0,11-02-2022,Air India,AI,868,18:00,Delhi,02h 00m,non-stop,20:00,Mumbai,25612
1,11-02-2022,Air India,AI,624,19:00,Delhi,02h 15m,non-stop,21:15,Mumbai,25612
2,11-02-2022,Air India,AI,531,20:00,Delhi,24h 45m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,20:45,Mumbai,42220
3,11-02-2022,Air India,AI,839,21:25,Delhi,26h 30m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,23:55,Mumbai,44450
4,11-02-2022,Air India,AI,544,17:15,Delhi,06h 40m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,23:55,Mumbai,46690


In [27]:
df2.head()

Unnamed: 0,date,airline,ch_code,num_code,dep_time,from,time_taken,stop,arr_time,to,price
0,11-02-2022,SpiceJet,SG,8709,18:55,Delhi,02h 10m,non-stop,21:05,Mumbai,5953
1,11-02-2022,SpiceJet,SG,8157,06:20,Delhi,02h 20m,non-stop,08:40,Mumbai,5953
2,11-02-2022,AirAsia,I5,764,04:25,Delhi,02h 10m,non-stop,06:35,Mumbai,5956
3,11-02-2022,Vistara,UK,995,10:20,Delhi,02h 15m,non-stop,12:35,Mumbai,5955
4,11-02-2022,Vistara,UK,963,08:50,Delhi,02h 20m,non-stop,11:10,Mumbai,5955


Après avoir jeté un coup d'œil à nos jeux de données, on peut constater qu'ils ont la même structure. L'un représente les vols éffectués en classe business et l'autre représente ceux éffectués en classe économique. Pour avoir tout dans une même base de données afin d'éviter de devoir les étudier séparemment, nous allons les concaténer.

In [28]:
# D'abord, on ajoute une colonne 'class' pour définir la classe de chaque vol.
df1['class'] = "business"
df2['class'] = "economy"
# On peut à présent procéder à la concaténation
data = pd.concat([df1, df2])
data.head()

Unnamed: 0,date,airline,ch_code,num_code,dep_time,from,time_taken,stop,arr_time,to,price,class
0,11-02-2022,Air India,AI,868,18:00,Delhi,02h 00m,non-stop,20:00,Mumbai,25612,business
1,11-02-2022,Air India,AI,624,19:00,Delhi,02h 15m,non-stop,21:15,Mumbai,25612,business
2,11-02-2022,Air India,AI,531,20:00,Delhi,24h 45m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,20:45,Mumbai,42220,business
3,11-02-2022,Air India,AI,839,21:25,Delhi,26h 30m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,23:55,Mumbai,44450,business
4,11-02-2022,Air India,AI,544,17:15,Delhi,06h 40m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,23:55,Mumbai,46690,business


In [29]:
data.tail()

Unnamed: 0,date,airline,ch_code,num_code,dep_time,from,time_taken,stop,arr_time,to,price,class
206769,31-03-2022,Vistara,UK,832,07:05,Chennai,13h 50m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,20:55,Hyderabad,7697,economy
206770,31-03-2022,Vistara,UK,832,07:05,Chennai,13h 50m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,20:55,Hyderabad,7709,economy
206771,31-03-2022,Vistara,UK,826,12:30,Chennai,20h 35m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,09:05,Hyderabad,8640,economy
206772,31-03-2022,Vistara,UK,822,09:45,Chennai,23h 20m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,09:05,Hyderabad,8640,economy
206773,31-03-2022,Vistara,UK,824,20:30,Chennai,24h 25m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,20:55,Hyderabad,8640,economy


In [30]:
data.shape

(300261, 12)

Notre dataframe contient 300261 observations et 12 variables

Maintenant qu'on a notre base de données, on va explorer nos variables et supprimer celles qui nous serons inutile lors de l'analyse.

On supprimera les colonnes:
- ch_code
- num_code

In [31]:
del data['ch_code']
del data['num_code']

In [32]:
data.head()

Unnamed: 0,date,airline,dep_time,from,time_taken,stop,arr_time,to,price,class
0,11-02-2022,Air India,18:00,Delhi,02h 00m,non-stop,20:00,Mumbai,25612,business
1,11-02-2022,Air India,19:00,Delhi,02h 15m,non-stop,21:15,Mumbai,25612,business
2,11-02-2022,Air India,20:00,Delhi,24h 45m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,20:45,Mumbai,42220,business
3,11-02-2022,Air India,21:25,Delhi,26h 30m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,23:55,Mumbai,44450,business
4,11-02-2022,Air India,17:15,Delhi,06h 40m,1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...,23:55,Mumbai,46690,business


# Néttoyage et Manipulation des données

In [33]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 300261 entries, 0 to 206773
Data columns (total 10 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   date        300261 non-null  object
 1   airline     300261 non-null  object
 2   dep_time    300261 non-null  object
 3   from        300261 non-null  object
 4   time_taken  300261 non-null  object
 5   stop        300261 non-null  object
 6   arr_time    300261 non-null  object
 7   to          300261 non-null  object
 8   price       300261 non-null  object
 9   class       300261 non-null  object
dtypes: object(10)
memory usage: 25.2+ MB


Aucune colonne ne contient de valeurs manquantes. Cependant, il y a des erreurs de type au niveau de certaines colonnes :
- `date`, `dep_time` et `arr_time`: type "object" au lieu de "date" et "time"
- `time_taken`: type "object" au lieu de "datetime.timedelta"
- `price`: type "object" au lieu de "int"

Nous allons donc corriger cela

In [34]:
# conversion en type date et time
data['date'] = pd.to_datetime(data['date'], format='%d-%m-%Y', errors='coerce')
data['dep_time'] = data['dep_time'].apply(lambda x: datetime.strptime(x, '%H:%M').time())
data['arr_time'] = data['arr_time'].apply(lambda x: datetime.strptime(x, '%H:%M').time())
data[['date', 'dep_time', 'arr_time']].head()

Unnamed: 0,date,dep_time,arr_time
0,2022-02-11,18:00:00,20:00:00
1,2022-02-11,19:00:00,21:15:00
2,2022-02-11,20:00:00,20:45:00
3,2022-02-11,21:25:00,23:55:00
4,2022-02-11,17:15:00,23:55:00


In [35]:
# conversion en type timedelta
data['time_taken'] = pd.to_timedelta(data['time_taken'], errors='coerce')

In [36]:
data['price'] = data['price'].str.replace(",", "")
data['price'] = pd.to_numeric(data.price, errors="coerce")

In [37]:
data[['time_taken', 'price']].head()

Unnamed: 0,time_taken,price
0,0 days 02:00:00,25612
1,0 days 02:15:00,25612
2,1 days 00:45:00,42220
3,1 days 02:30:00,44450
4,0 days 06:40:00,46690


Les conversions ont été éffectuées avec succès.
À présent, prêtons attention à la colonne `stop`

In [38]:
data['stop'].unique()

array(['non-stop ',
       '1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t',
       '1-stop\n\t\t\t\t\t\t\t\t\t\t\t\tVia IDR\n\t\t\t\t\t\t\t\t\t\t\t\t',
       '1-stop\n\t\t\t\t\t\t\t\t\t\t\t\tVia IXU\n\t\t\t\t\t\t\t\t\t\t\t\t',
       '1-stop\n\t\t\t\t\t\t\t\t\t\t\t\tVia Chennai\n\t\t\t\t\t\t\t\t\t\t\t\t',
       '1-stop\n\t\t\t\t\t\t\t\t\t\t\t\tVia Lucknow\n\t\t\t\t\t\t\t\t\t\t\t\t',
       '1-stop\n\t\t\t\t\t\t\t\t\t\t\t\tVia STV\n\t\t\t\t\t\t\t\t\t\t\t\t',
       '1-stop\n\t\t\t\t\t\t\t\t\t\t\t\tVia Hyderabad\n\t\t\t\t\t\t\t\t\t\t\t\t',
       '1-stop\n\t\t\t\t\t\t\t\t\t\t\t\tVia GAY\n\t\t\t\t\t\t\t\t\t\t\t\t',
       '2+-stop',
       '1-stop\n\t\t\t\t\t\t\t\t\t\t\t\tVia Guwahati\n\t\t\t\t\t\t\t\t\t\t\t\t',
       '1-stop\n\t\t\t\t\t\t\t\t\t\t\t\tVia GAU\n\t\t\t\t\t\t\t\t\t\t\t\t',
       '1-stop\n\t\t\t\t\t\t\t\t\t\t\t\tVia VTZ\n\t\t\t\t\t\t\t\t\t\t\t\t',
       '1-stop\n\t\t\t\t\t\t\t\t\t\t\t\tVia NDC\n\t\t\t\t\t\t\t\t\t\t\t\t',
       '1-stop\n\t\t\t\t\t\t\t\t\t\t\t

Cette colonne contient des valeurs pas très cohérentes, voire incompréhensibles. On pourrait la supprimer, mais elle contient quand même une information importante : le nombre d'arrêts pendant le vol. On va donc transformer cette colonne pour obtenir des valeurs plus exploitables.

In [39]:
def transform(value:str) -> str :
    if value[0] == '1':
        value = '1-stop'
    elif value[0] == '2':
        value = '>= 2-stop'
    elif value[0] == 'n':
        value = '0-stop'
    else: value = np.nan

    return value

data['stop'] = data['stop'].apply(transform)

In [40]:
data['stop'].head()

0    0-stop
1    0-stop
2    1-stop
3    1-stop
4    1-stop
Name: stop, dtype: object

On vérifie à présent s'il n'y a pas d'anomalies au niveau des variables quantitatives

In [41]:
data.describe()

Unnamed: 0,date,time_taken,price
count,300261,300257,300261.0
mean,2022-03-08 00:06:26.447790336,0 days 12:13:04.462976716,20883.717666
min,2022-02-11 00:00:00,0 days 00:50:00,1105.0
25%,2022-02-25 00:00:00,0 days 06:45:00,4783.0
50%,2022-03-08 00:00:00,0 days 11:15:00,7425.0
75%,2022-03-20 00:00:00,0 days 16:10:00,42521.0
max,2022-03-31 00:00:00,2 days 01:50:00,123071.0
std,,0 days 07:11:34.327426346,22695.911266


La variable `time_taken` semble avoir 4 valeurs manquantes. Sinon tout a l'air correcte pour les autres variables. On supprimera les lignes contenant les valeurs manquantes.

In [42]:
data.dropna(ignore_index=True, inplace=True)

In [47]:
print("Nombre de valeurs manquantes:\n", data.isnull().sum())
print("\nNombre de doublons: ", data.duplicated().sum())
data.drop_duplicates(inplace=True)

Nombre de valeurs manquantes:
 date          0
airline       0
dep_time      0
from          0
time_taken    0
stop          0
arr_time      0
to            0
price         0
class         0
dtype: int64

Nombre de doublons:  0


In [44]:
data.duplicated().sum()

np.int64(0)

Plus de valeurs manquantes et de doublon détecté. On peut enfin sauvegarder nos données néttoyées.

In [45]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 300182 entries, 0 to 300256
Data columns (total 10 columns):
 #   Column      Non-Null Count   Dtype          
---  ------      --------------   -----          
 0   date        300182 non-null  datetime64[ns] 
 1   airline     300182 non-null  object         
 2   dep_time    300182 non-null  object         
 3   from        300182 non-null  object         
 4   time_taken  300182 non-null  timedelta64[ns]
 5   stop        300182 non-null  object         
 6   arr_time    300182 non-null  object         
 7   to          300182 non-null  object         
 8   price       300182 non-null  int64          
 9   class       300182 non-null  object         
dtypes: datetime64[ns](1), int64(1), object(7), timedelta64[ns](1)
memory usage: 25.2+ MB


In [48]:
data.to_csv('../output/cleaned_data/data_cleaned.csv', index=False)