##### Файл - BoardingData

In [3]:
%matplotlib inline
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import matplotlib.ticker as ticker
import numpy as np
sns.set_palette(palette="husl")

### Представление массива данных

In [4]:
file_path = "BoardingData_2.csv"
date_parser = lambda x: pd.to_datetime(x, format="%d.%m.%Y")
parse_dates={'datetime': ['date', 'time']}
df = pd.read_csv(file_path, sep=";", na_values="None", converters={"TicketNumber": lambda x: str(x),
                                                                   "PassengerDocument": lambda x: str(x),
                                                                  "PassengerBirthDate": date_parser,
                                                                  "FlightDate": date_parser})
df

FileNotFoundError: [Errno 2] File b'BoardingData_2.csv' does not exist: b'BoardingData_2.csv'

### Кол-во уникальных данных

In [None]:
df.nunique()

In [None]:
df.describe()

#### Форматирование данных

In [None]:
# convert data columns
df["Destination"] = df["Destination"].astype(str)
df["Destination"] = df.apply(lambda city: city["Destination"].upper(), axis=1)
df.head()

### График с представлением кол-ва перелетов в города

In [None]:
plt.figure(figsize=(15, 10))

city_count = df["Destination"].value_counts()
cnt = sns.countplot(y="Destination", data=df, 
                    order = df['Destination'].value_counts().index, saturation=0.9) 
cnt.xaxis.set_major_locator(ticker.MultipleLocator(5000))

### Возраст пассажиров

In [None]:
df["Age"] = ((df["FlightDate"] - df["PassengerBirthDate"]) / np.timedelta64(1, "Y")).astype(int)
df.head()

In [None]:
plt.figure(figsize=(12, 6))
plt.yticks(fontsize=12)
plt.title("Распределение возраста пассажиров")
sns.countplot(y="Age", data=df, saturation=0.9)

### Как часто летают пассажиры

In [None]:
plt.figure(figsize=(12, 6))
plt.title("Перелеты")
# Группировка пассажиров по именам и пассажирскому документу
flight_freq = (df["PassengerDocument"].astype(str) + ";" + df["PassengerFirstLastName"]).value_counts().to_frame("flights")
sns.countplot(y="flights", data=flight_freq, palette="husl", saturation=0.9)

In [None]:
# Разделение док-та от имени пассажира
flight_freq_two = flight_freq.reset_index()
flight_freq_two = flight_freq_two.rename(columns={"index": "combin"})
flight_freq_two[["PassengerDocument", "PassengerFirstLastName"]] = flight_freq_two["combin"].str.split(";", expand=True)
flight_freq_two = flight_freq_two.drop(columns = ["combin"])
flight_freq_two = flight_freq_two.drop_duplicates()
flight_freq_two.head()

### Добавление кол-ва перелетов по каждому пассажиру

In [None]:
# Слияние 2 таблиц по 2 столбцам
df_flights = pd.merge(df, flight_freq_two, on=["PassengerDocument", "PassengerFirstLastName"], how="right")
df_flights.head()

In [None]:
df_flights = df_flights.sort_values(by="flights", ascending=False)

In [None]:
# Датафрейм с данными о пассажирах, которые летали чаще 7 раз
df_flights = df_flights[df_flights["flights"] >= 7]


### Группировка пассажиров

In [None]:
# Удаление лишних колонок
df_flights_small = df_flights.drop(columns=["PassengerSex", "PassengerBirthDate",
                                           "Baggage", "FlightTime", "CodeShare", "Age"])
# Группировка пассажиров по датам перелета и рейсам
grouped_flights = df_flights_small.groupby(["flights", "PassengerDocument"], as_index=False)
# Список  созданных групп
flights_groups = list(grouped_flights.groups.keys())

grouped_flighters = {}

for group in flights_groups:
    # Для каждой группы пассажиров
    tmp_df = grouped_flights.get_group(group)
#      Если пассажиров > 1
    if tmp_df.shape[0] > 1:
#         Получаем кол-во перелетов этой группы
        flights_count = group[0]
#         Обновляем данные по групповым перелетам
        if flights_count in grouped_flighters.keys():
            grouped_flighters.update({flights_count: grouped_flighters[flights_count].append(tmp_df)})
        else:
            grouped_flighters.update({flights_count: tmp_df})


In [None]:
for key in grouped_flighters.keys():
    # размер группы
    group_size = grouped_flighters[key]["PassengerDocument"].drop_duplicates().shape[0]
    print(f'В группе с {key} перелетами находилось {group_size} уникальных пассажиров')


In [None]:
# Пассажиры сгруппированы по кол-ву полетов
# Обращение проискодит по ключу, где ключ = [7,..., 16] 
grouped_flighters[7].head()

### Пассажир, совершивший наибольшее кол-во перелетов

In [None]:
grouped_flighters[16]

In [None]:
# Куда чаще летала
grouped_flighters[16]["Destination"].value_counts()

In [None]:
import re
col_names = list(df_flights.columns)
col_names_upper = []
for col_name in col_names:
    col_names_upper.append("_".join([val.upper() for val in re.findall('[A-Z][^A-Z]*',col_name)]))


In [None]:
col_names_upper[-1] = "FLIGHTS"
df_flights.columns = col_names_upper
df_flights.columns

In [None]:
df_flights.head()
# col_names_upper

In [None]:
# write_path = "normal_data\\BoardingData_2_normal.csv"
# df_flights.to_csv(write_path, sep=";", na_rep="NULL")