# Работаем с датасетом "Public transport traffic data in France"
## 1.Выбор и описание данных
Датасет содержит данные о движении скоростных поездов во Франции с 2015 по 2020 год.
Имеются следующие аттрибуты:
* год и месяц сбора данных;
* станции отправления и прибытия;
* среднее время в пути;
* количество запланированных, отмененных и опоздавших (как при прибытии, так и при отправлении) рейсов;
* среднее время опаздания при отправлении/прибытии для опоздавших при отправлении/прибытии и для всех поездов
* распределение причин опоздания поездов (в десятичных дробях и в процентах):
* * по независящим причинам
* * из-за железнодорожной инфраструктуры
* * из-за организации движения
* * из-за подвижного состава
* * из-за управления станцией и несоответствия сроков эксплуатации оборудования
* * из-за пассажиров

Ссылка на страницу датасета на kaggle.com:
www.kaggle.com/datasets/gatandubuc/public-transport-traffic-data-in-france?select=Regularities_by_liaisons_Trains_France.csv

Импортируем необходимые библиотеки: Pandas и Plotly.

In [20]:
import pandas as pd
import plotly.express as px

Импортируем csv файл в датафрейм.
Просматриваем "голову" датасета.

In [21]:
data = pd.read_csv('trains.csv')
data.head()

Unnamed: 0,Year,Month,Departure station,Arrival station,Average travel time (min),Number of expected circulations,Number of cancelled trains,Number of late trains at departure,Average delay of late departing trains (min),Average delay of all departing trains (min),...,Average train delay > 15min,Number of late trains > 30min,Number of late trains > 60min,Period,Delay due to external causes,Delay due to railway infrastructure,Delay due to traffic management,Delay due to rolling stock,Delay due to station management and reuse of material,Delay due to travellers taken into account
0,2019,7.0,ANGOULEME,PARIS MONTPARNASSE,131.91498,247.0,0.0,191.0,3.576353,2.678273,...,32.965873,7.0,2.0,2019-07,25.0,15.0,27.5,12.5,2.5,17.5
1,2019,7.0,PARIS MONTPARNASSE,LA ROCHELLE VILLE,175.61157,242.0,0.0,178.0,9.780805,7.033609,...,32.057143,14.0,2.0,2019-07,20.0,24.444444,26.666667,24.444444,0.0,4.444444
2,2019,7.0,LE MANS,PARIS MONTPARNASSE,62.395349,435.0,5.0,391.0,3.896974,3.529341,...,42.367241,13.0,4.0,2019-07,16.176471,32.352941,26.470588,14.705882,2.941176,7.352941
3,2019,7.0,ST MALO,PARIS MONTPARNASSE,172.421053,114.0,0.0,101.0,1.95099,1.685673,...,27.620833,2.0,0.0,2019-07,15.384615,15.384615,23.076923,38.461538,0.0,7.692308
4,2019,7.0,PARIS MONTPARNASSE,ST PIERRE DES CORPS,67.31,404.0,4.0,284.0,8.379108,5.803125,...,37.658333,12.0,3.0,2019-07,18.461538,12.307692,40.0,16.923077,7.692308,4.615385


## 2.Описание показателей
* Year - год - 2015..2020, шкала порядковая
* Month - месяц - 1..12, шкала порядковая
* Departure station - станция отправления, шкала номинальная
* Arrival station - станция прибытия, шкала номинальная
* Average travel time (min) - среднее время в пути (в минутах) - 35.88..786.5, шкала абсолютная
* Number of expected circulations - ожидаемое количество рейсов - 1..960, шкала абсолютная
* Number of cancelled trains - количество отмененных рейсов - 0..279, шкала абсолютная
* Number of late trains at departure - количество рейсов с задержанным отправлением - 0..591, шкала абсолютная
* Average delay of late departing trains (min) - средняя задержка поздно отправившегося рейса - 0..316, шкала абсолютная
* Average delay of all departing trains (min) - средняя задержка (при отправлении) по всем рейсам - -229..173, шкала абсолютная
* Comment (optional) delays at departure - пояснение задержки при отправлении
* Number of trains late on arrival - количество поздно отправившихся поездов - 0..235, шкала абсолютная
* Average delay of late arriving trains (min) - средняя задержка поздно прибывшего поезда - -40..258, шкала абсолютная
* Average delay of all arriving trains (min) - средняя задержка (при прибытии) по всем рейсам - -472..83, шкала абсолютная
* Comment (optional) - комментарий, опционален
* trains late due to external causes (weather, obstacles, suspicious packages, malevolence, social movements, etc.) - доля задержек по независящим причинам, дес.дробь - 0..1, шкала интервальная
* trains late due to railway infrastructure (maintenance, works) - доля задержек из-за железнодорожной инфраструктуры, дес.дробь - 0..1, шкала интервальная
* trains late due to traffic management (rail line traffic, network interactions) - доля задержек из-за организации движения, дес.дробь - 0..1, шкала интервальная
* trains late due to rolling stock - доля задержек из-за подвижного состава, дес.дробь - 0..1, шкала интервальная
* trains late due to station management and reuse of material - доля задержек из-за управления станцией и несоответствия сроков эксплуатации оборудования, дес.дробь - 0..1, шкала интервальная
* trains late due to passenger traffic (affluence, PSH management, connections) - доля задержек из-за пассажиров, дес.дробь - 0..1, шкала интервальная
* Number of late trains > 15min - количество поездов с задержкой более 15 минут - 0..192, шкала абсолютная
* Average train delay > 15min - средняя задержка поезда (если более 15 минут) - -118..258, шкала абсолютная
* Number of late trains > 30min - количество поездов с задержкой более 30 минут - 0..91, шкала абсолютная
* Number of late trains > 60min - количество поездов с задержкой более 60 минут - 0..37, шкала абсолютная
* Period - период - 2015/01..2020/06, шкала порядковая
* Delay due to external causes - доля задержек по независящим причинам, 0..100%, шкала интервальная
* Delay due to railway infrastructure - доля задержек из-за железнодорожной инфраструктуры, 0..100%, шкала интервальная
* Delay due to traffic management - доля задержек из-за организации движения, 0..100%, шкала интервальная
* Delay due to rolling stock - доля задержек из-за подвижного состава, 0..100%, шкала интервальная
* Delay due to station management and reuse of material - доля задержек из-за управления станцией и несоответствия сроков эксплуатации оборудования, 0..100%, шкала интервальная
* Delay due to travellers taken into account - доля задержек из-за пассажиров, 0..100%, шкала интервальная

Просматриваем статистические характеристики для всех количественных атрибутов.

In [22]:
for i in data.columns:
    if data[i].dtype == float:
        print(data[i].describe())

count    7806.000000
mean        6.216372
std         3.440601
min         1.000000
25%         3.000000
50%         6.000000
75%         9.000000
max        12.000000
Name: Month, dtype: float64
count    7743.000000
mean      166.759261
std        80.737092
min        35.888889
25%       100.643605
50%       162.178808
75%       207.885957
max       786.500000
Name: Average travel time (min), dtype: float64
count    7743.000000
mean      266.510913
std       157.456548
min         1.000000
25%       163.000000
50%       227.000000
75%       352.000000
max       960.000000
Name: Number of expected circulations, dtype: float64
count    7806.000000
mean        7.911478
std        20.997806
min         0.000000
25%         0.000000
50%         1.000000
75%         6.000000
max       279.000000
Name: Number of cancelled trains, dtype: float64
count    7806.000000
mean       63.519088
std        78.822324
min         0.000000
25%        12.000000
50%        33.000000
75%        84.000000
ma

Выведем среднее значение/моду для всех столбцов в зависимости от типа данных.

In [23]:
for i in data.columns:
    print('Column name: {:.40}'.format(i),
          'Mean = ' if data[i].dtype == float else 'Mode = ',
          data[i].mean() if data[i].dtype == float else data[i].mode()[0])

Column name: Year Mode =  2018
Column name: Month Mean =  6.216372021521906
Column name: Departure station Mode =  PARIS LYON
Column name: Arrival station Mode =  PARIS LYON
Column name: Average travel time (min) Mean =  166.75926117254494
Column name: Number of expected circulations Mean =  266.51091308278444
Column name: Number of cancelled trains Mean =  7.911478349987189
Column name: Number of late trains at departure Mean =  63.51908788111709
Column name: Average delay of late departing trains ( Mean =  14.744144631895482
Column name: Average delay of all departing trains (m Mean =  2.956190994154825
Column name: Comment (optional) delays at departure Mean =  nan
Column name: Number of trains late on arrival Mean =  36.01959512068518
Column name: Average delay of late arriving trains (m Mean =  32.737533404681
Column name: Average delay of all arriving trains (mi Mean =  5.2128002292812745
Column name: Comment (optional) delays on arrival Mode =  Ce mois-ci, l'OD a été touchée par

## 3.Визуализация для отдельных показателей

In [24]:
px.box(data, x='Average travel time (min)')

In [25]:
px.box(data, x='Number of trains late on arrival')

In [26]:
low = 2.5*data['Number of trains late on arrival'].describe()['25%']\
      -1.5*data['Number of trains late on arrival'].describe()['75%']
high = 2.5*data['Number of trains late on arrival'].describe()['75%']\
       -1.5*data['Number of trains late on arrival'].describe()['25%']
low = 0 if low < data['Number of trains late on arrival'].describe()['min'] else low
high = 0 if high > data['Number of trains late on arrival'].describe()['max'] else high

print('low: ', low, 'high: ', high, data['Number of trains late on arrival'].describe())

low:  0 high:  96.0 count    7706.000000
mean       36.019595
std        29.210396
min         0.000000
25%        16.000000
50%        28.000000
75%        48.000000
max       235.000000
Name: Number of trains late on arrival, dtype: float64


In [27]:
px.box(data, x='Average train delay > 15min')

In [28]:
px.histogram(data, x='Arrival station', color='Arrival station')

In [29]:
px.histogram(data, x='Year', color='Year')

In [30]:
px.histogram(data, x='Month', color='Month', nbins=12)

## 4.Группировка показателей
Выберем две группы: поезда отправляющиеся с PARIS LYON и PARIS MONTPARNASSE.
Обойдем все столбцы и найдем столбец с максимальной разностью средних значений по каждой из групп.

In [31]:
dataPL = data[data['Departure station']=='PARIS LYON']
dataPM = data[data['Departure station']=='PARIS MONTPARNASSE']
delta=0

for i in dataPL.columns:
    if dataPL[i].dtype == float:
        if abs(dataPL[i].mean() - dataPM[i].mean()) > delta:
            delta = abs(dataPL[i].mean() - dataPM[i].mean())
            deltaN = i

print('Column name:', deltaN, 'Delta:', delta, 'PL:', dataPL[deltaN].mean(), 'PM:', dataPM[deltaN].mean())

Column name: Number of expected circulations Delta: 75.06178059415618 PL: 248.1898813241724 PM: 323.2516619183286


Построим диаграммы размаха для данных показателей.

In [32]:
px.box(data[(data['Departure station']=='PARIS MONTPARNASSE') | (data['Departure station']=='PARIS LYON')],
       x='Number of expected circulations',
       y='Departure station',
       color='Departure station')

In [33]:
px.density_heatmap(data[((data['Departure station']=='PARIS MONTPARNASSE')|(data['Departure station'] == 'PARIS LYON'))
                        & (data['Year']==2016) & (data['Month']==1)],
           x='Arrival station',
           y='Departure station', z='Number of expected circulations')

## 5.Визуализация зависимостей показателей
Построим график зависимости средней времени в пути от времени.

In [34]:
data=data.sort_values(by='Period')
px.line(data,
        x=data[data['Departure station']=='LE MANS']['Period'],
        y=data[data['Departure station']=='LE MANS']['Average travel time (min)'],
        labels={'x':'Period', 'y':'Average travel time'},
        title='Average travel time distributed by time.')

Построим график зависимости доли каждой из причин опоздания (количественные показатели) от месяца (качественный показатель).
В данном случае используются месяцы как качественные показатели, так как все данные делятся на 12 групп в соответствии с месяцами.

In [35]:
cold = data[(data['Arrival station']=='LE MANS') & (data['Year']==2019)]
px.bar(cold,
       x='Month',
       y=['Delay due to external causes','Delay due to railway infrastructure','Delay due to traffic management','Delay due to rolling stock','Delay due to station management and reuse of material','Delay due to travellers taken into account'],
       labels={'value':'Reason part, %', 'Month':'Month, no'},
       title='Part of delays reasons distributing during months of 2019 year.')

Построим график зависимости станции отправления (качественный показатель) от станции назначения (качественный показатель).

In [36]:
px.scatter(data,
           x='Arrival station',
           y='Departure station',
           title='Distribution arrival stations according to departure stations')

## 6.Пропуски данных и аномальные выбросы
Посчитаем пропуски в данных и их долю в датасете:

In [37]:
print('There are {} missing values and it is approximately {:2.2%} of all dataframe.'.format(
    data.isnull().values.ravel().sum(),
    data.isnull().values.ravel().sum()/(data.shape[0]*data.shape[1])))
print("Excluding 'null' comments there are {} missing values and it is approximately {:2.2%} of all dataframe.".format(
    data.isnull().values.ravel().sum()
    -data['Comment (optional) delays on arrival'].isnull().values.ravel().sum()
    -data['Comment (optional) delays at departure'].isnull().values.ravel().sum(),
    (data.isnull().values.ravel().sum()
     -data['Comment (optional) delays on arrival'].isnull().values.ravel().sum()
     -data['Comment (optional) delays at departure'].isnull().values.ravel().sum())
    /(data.shape[0]*data.shape[1])))

There are 17825 missing values and it is approximately 7.14% of all dataframe.
Excluding 'null' comments there are 4016 missing values and it is approximately 1.61% of all dataframe.



Посчитаем количество выбросов:

In [38]:
count = 0
count1 = 0
dataF = data.select_dtypes(include=float)
for i in dataF.columns:
    low = dataF[i].describe()['min'] \
        if 2.5*dataF[i].describe()['25%']-1.5*dataF[i].describe()['75%'] < dataF[i].describe()['min']\
        else 2.5*dataF[i].describe()['25%']-1.5*dataF[i].describe()['75%']
    high = dataF[i].describe()['max'] \
    if 2.5*dataF[i].describe()['75%']-1.5*dataF[i].describe()['25%'] > dataF[i].describe()['max']\
    else 2.5*dataF[i].describe()['75%']-1.5*dataF[i].describe()['25%']
    for j in data[i]:
        if j > high or j < low:
            count+=1
    print('Column:', i, '| outliers: ', count)
    count1 += count
    count = 0
print('Total outliers: {} (about {:2.3%} of all numeric data)'.format(count1, count1/(dataF.shape[0]*data.shape[1])))

Column: Month | outliers:  0
Column: Average travel time (min) | outliers:  121
Column: Number of expected circulations | outliers:  140
Column: Number of cancelled trains | outliers:  902
Column: Number of late trains at departure | outliers:  566
Column: Average delay of late departing trains (min) | outliers:  228
Column: Average delay of all departing trains (min) | outliers:  465
Column: Comment (optional) delays at departure | outliers:  0
Column: Number of trains late on arrival | outliers:  367
Column: Average delay of late arriving trains (min) | outliers:  262
Column: Average delay of all arriving trains (min) | outliers:  285
Column: % trains late due to external causes (weather, obstacles, suspicious packages, malevolence, social movements, etc.) | outliers:  174
Column: % trains late due to railway infrastructure (maintenance, works) | outliers:  217
Column: % trains late due to traffic management (rail line traffic, network interactions) | outliers:  179
Column: % trains 