<a href="https://colab.research.google.com/github/acrismail/airlines_traffic_/blob/main/Airlines_Traffic_Passenger_ml.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## About Dataset
## Airlines Traffic Passenger Statistics

* A New Look at an Old Problem
* About this dataset

This dataset contains information on air traffic passenger statistics by the airline. It includes information on the airlines, airports, and regions that the flights departed from and arrived at. It also includes information on the type of activity, price category, terminal, boarding area, and number of passengers

* How to use the dataset

Air traffic passenger statistics can be a useful tool for understanding the airline industry and for making travel plans. This dataset from Open Flights contains information on air traffic passenger statistics by airline for 2017. The data includes the number of passengers, the operating airline, the published airline, the geographic region, the activity type code, the price category code, the terminal, the boarding area, and the year and month of the flight

Research Ideas

Air traffic passenger statistics could be used to predict future trends in air travel.
The data could be used to generate heat maps of airline traffic patterns.
The data could be used to study the effects of different factors on air traffic passenger numbers, such as the time of year or day, the price of airfare, or the number of flights offered by an airline


## Features Illustrations

0--Index

1--Activity Period----The date of the activity. (Date)

2--Operating Airline----The airline that operated the flight. (String)

3--Operating Airline IATA Code----Operating Airline IATA Code

4--Published Airline----The airline that published the fare for the flight. (String)

5--Published Airline IATA Code----The IATA code of the airline that published the fare for the flight. (String)

6--GEO Summary----A summary of the geographic region. (String)

7--GEO Region----The geographic region. (String)

8--Activity Type Code----The type of activity. (String)

9--Price Category Code----The price category of the fare. (String)

10--Terminal----The terminal of the flight. (String)

11--Boarding Area----The boarding area of the flight. (String)

12--Passenger Count----The number of passengers on the flight. (Integer)

13--Adjusted Activity Type Code----The type of activity, adjusted for missing data. (String)

14--Adjusted Passenger Count----The number of passengers on the flight, adjusted for missing data. (Integer)

15--Year----The year of the activity. (Integer)

16--Month----The month of the activity. (Integer)


## Veri Kümesi Hakkında

## Havayolları Trafik Yolcu İstatistikleri

Eski Bir Soruna Yeni Bir Bakış

Bu veri kümesi hakkında

Bu veri seti, havayolu tarafından hava trafiği yolcu istatistikleri hakkında bilgi içerir. Uçuşların kalkış ve varış yaptığı havayolları, havalimanları ve bölgelere ilişkin bilgileri içerir. Ayrıca faaliyet türü, fiyat kategorisi, terminal, biniş alanı ve yolcu sayısı hakkında bilgiler içerir.

veri kümesi nasıl kullanılır;

Hava trafiği yolcu istatistikleri, havayolu endüstrisini anlamak ve seyahat planları yapmak için yararlı bir araç olabilir. Open Flights'tan alınan bu veri kümesi, 2017 yılı için havayoluna göre hava trafiği yolcu istatistikleri hakkında bilgi içerir. Veriler arasında yolcu sayısı, faaliyet gösteren havayolu şirketi, yayınlanan havayolu şirketi, coğrafi bölge, aktivite türü kodu, fiyat kategori kodu, terminal, biniş alanı ve uçuş yılı ve ayı

Araştırma Fikirleri;

Hava trafiği yolcu istatistikleri, hava yolculuğunda gelecekteki eğilimleri tahmin etmek için kullanılabilir.
Veriler, havayolu trafik modellerinin ısı haritalarını oluşturmak için kullanılabilir.
Veriler, yılın veya günün saati, uçak bileti fiyatı veya bir havayolu tarafından sunulan uçuş sayısı gibi farklı faktörlerin hava trafiği yolcu sayıları üzerindeki etkilerini incelemek için kullanılabilir.

## Özellikler Resimleri

0--Dizin

1--Faaliyet Süresi----Faaliyetin tarihi. (Tarih)

2--İşleten Havayolu----Uçuşu gerçekleştiren havayolu. (Sicim)

3--İşletilen Havayolu IATA Kodu----İşletilen Havayolu IATA Kodu

4--Yayınlanan Havayolu----Uçuş ücretini yayınlayan havayolu. (Sicim)

5--Yayınlanan Havayolu IATA Kodu----Uçuş ücretini yayınlayan havayolunun IATA kodu. (Sicim)

6--GEO Özeti----Coğrafi bölgenin özeti. (Sicim)

7--GEO Bölgesi----Coğrafi bölge. (Sicim)

8--Aktivite Türü Kodu----Aktivite türü. (Sicim)

9--Fiyat Kategorisi Kodu----Ücretin fiyat kategorisi. (Sicim)

10--Terminal----Uçuş terminali. (Sicim)

11--Biniş Alanı----Uçuşun biniş alanı. (Sicim)

12--Yolcu Sayısı----Uçuştaki yolcu sayısı. (Tam sayı)

13--Düzeltilmiş Etkinlik Türü Kodu----Eksik veriler için düzeltilmiş etkinlik türü. (Sicim)

14--Düzeltilmiş Yolcu Sayısı----Eksik veriler için düzeltilmiş uçuştaki yolcu sayısı. (Tam sayı)

15--Yıl----Faaliyet yılı. (Tam sayı)

16--Ay----Etkinliğin ayı. (Tam sayı)

## Analysis Content 
* 1.[Python Libraries](#1)
* 2.[data loading](#2)
* 3.[EDA](#3)
* 4.[data Preprocessing](#4)
* 5.[K-MEANS](#5) 
* 6.[Hierarcihal Cluster](#6)   
* 7.[conclusion](#7)  

<a id="1"></a>
## 1.Python Libraries

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import missingno as msno
import scipy.cluster.hierarchy as sch
from scipy.cluster.hierarchy import linkage,dendrogram
from sklearn.decomposition import PCA
import plotly.express as px
import warnings   
warnings.filterwarnings("ignore",category=DeprecationWarning)
warnings.filterwarnings("ignore",category=FutureWarning)

<a id="2"></a>
## 2.Data Loading

In [None]:
df=pd.read_csv("/content/Air_Traffic_Passenger_Statistics.csv")
df.head()

In [None]:
df.tail()

<a id="3"></a>
## 3.EDA

In [None]:
#gereksiz değişkeni silelim
#delete the unnecessary variable

In [None]:
df.drop(["index","Activity Period"],axis=1,inplace=True)

In [None]:
df.head(3)

In [None]:
df.columns

In [None]:
#kolonları düzeltelim,gereksiz boşlukları atalım
#fix the colons, remove the unnecessary spaces

df.columns=df.columns.str.replace(" ","_").str.lower()

In [None]:
df.columns

In [None]:
df.shape

In [None]:
# verisetimiz gerekli düzeltmeler yapıldıktan sonra 15007 satır ve 15 değişkenden oluşmaktadır
# Our dataset consists of 15007 rows and 15 variables after necessary corrections are made.

In [None]:
df.dtypes

In [None]:
# verisetinin değişken tipleri yada info ile gözlemlenebilir daha fazla ayrıntıya ulaşmış oluruz;

df.info()

In [None]:
# verisetimiz 12 string ,3 integer değişkenden oluşuyor,eksik değerler olduğunu gözlemleyebiliyoruz
# our dataset consists of 12 strings, 3 integer variables, we can observe that there are missing values

In [None]:
#statistical summary

df.describe().T

In [None]:
df.operating_airline.value_counts()

In [None]:
# uçuşu gerçekleştiren 77 farklı havayolunun sayılarına eriştik
#We reached the numbers of 77 different airlines operating flights

In [None]:
df.operating_airline_iata_code.value_counts()

In [None]:
# havayolu kodlarına eriştik
# accessed airline codes

In [None]:
df.published_airline.value_counts()

In [None]:
#uçuş ücretini yayımlayan 68 farklı havayolunun sayılarına eriştik

In [None]:
df.published_airline_iata_code.value_counts()

In [None]:
#uçuş ücretini yayımlayan havyollarının kodlarının sayılarına erişmiş olduk

In [None]:
df.geo_summary.value_counts()

In [None]:
#Coğrafi bölgenin özetine eriştik.

In [None]:
df.geo_region.value_counts()

In [None]:
df.activity_type_code.value_counts()

In [None]:
#aktive türündeki her türün sayılarına eriştik

In [None]:
df.price_category_code.value_counts()  #ücretin fiyat kodu

In [None]:
df.terminal.value_counts()  # herbir terminaldeki yolcu sayısı

In [None]:
df.boarding_area.value_counts()  #uçuuşun biniş alanı 8 farklı kategorideki sayılarına erişelim

In [None]:
df.adjusted_activity_type_code.value_counts() #Eksik veriler için düzeltilmiş etkinlik türü.

In [None]:
df.year.value_counts()  # yıllara före yolcu sayısı

In [None]:
df.month.value_counts()  # hangi ayda kaçtane yolcu taşınmış(2005-2016),en fazla yolcu Ağustos ayında taşınmış

In [None]:
df.sort_values("year",ascending=False).head(15)

In [None]:
df.sort_values("adjusted_passenger_count",ascending=False).head(15)


In [None]:
df.sort_values("passenger_count",ascending=True).head(15) # en az yolcuuun olduğu uçuşlar

In [None]:
df.sort_values("passenger_count",ascending=False).head(15) # en çok yolcunun olduğu uçuşlar

In [None]:
df.groupby("month").describe().T

In [None]:
df.groupby("month")["year"].describe().T #her ay için tüm yıllara göre istatistiklere eriştik

In [None]:
df.groupby("operating_airline")["passenger_count"].describe().T #havayollarına göre uçuş istatistikleri

In [None]:
df.groupby("geo_region")["passenger_count"].describe().T #coğrafi bölgeye göre yolcu sayıları

<a id="4"></a>
## 4.Data Preprocessing

In [None]:
# missing values query(eksik değer sorgulama)

df.isnull().sum()

In [None]:
# verisetimizde 2 değişkende eksik değer var
# there are missing values in 2 variables in our data

In [None]:
# eksik değerleri gidermeden önce dapılımları inceleyelim
# let's examine the data before removing the missing values

In [None]:
# sayısal ve kategorik değerler için birer liste oluşturalım
# let's create a list for numerical and categorical values

In [None]:
cat_list=[]
num_list=[]

for i in df.columns:
    unique_val=len(df[i].unique())
    
    if unique_val<78:
        cat_list.append(i)
    else:
        num_list.append(i)

In [None]:
cat_list

In [None]:
num_list

In [None]:
# Eksik değer Görselleştirme

In [None]:

msno.matrix(df)
plt.show()

In [None]:
# eksik değer korelasyon;

msno.heatmap(df)
plt.show()

In [None]:
# eksik değerlerin birbiriyle tamamen bağlantılı olduğunu görmüş olduk
# we have seen that the missing values are completely related to each other

In [None]:
df[df.operating_airline_iata_code.isna()]

In [None]:
#eksik değerler kategorik bunları giderelim
#missing values let's fix them categorically

In [None]:
#belirli bir sıralamayla eksik değerler var,kendisnden önceki değerlerle doldralım
#there are missing values in a certain order, let's fill them with the previous values

In [None]:
df.operating_airline_iata_code.fillna(method="ffill",inplace=True)
df.published_airline_iata_code.fillna(method="ffill",inplace=True)

In [None]:
df.isna().sum()

In [None]:
#eksik değerleri gidermiş olduk,sayısal değişkenlerin dağılımlarına bakalım
##we have corrected the missing values,let's look at the distributions of numerical variables

In [None]:
k=1
plt.figure(figsize=(12,12))
plt.tight_layout()
plt.suptitle("distribution of numerical values")


for i in df.loc[:,num_list]:
    plt.subplot(2,1,k)   
    sns.distplot(df[i])
    plt.title(i)
    k+=1

In [None]:
k=1
plt.figure(figsize=(10,10))
plt.suptitle("Distribution of Outliers")

for i in df.loc[:,num_list]:
    plt.subplot(2,2,k)
    sns.boxplot(x = i, data = df.loc[:,num_list])
    plt.title(i)
    k+=1


In [None]:
#iki değişkende aynı anlamı ifade ediyor aslında,korelasyonlar sonrasında gerekirse birisini sileriz
#it means the same thing in two variables, in fact, we delete one of them if necessary after correlations

### Data Visualize

In [None]:
#categorical analysis

for i in cat_list:
    
    plt.figure(figsize=(13,13))
    sns.countplot(x=i,data=df.loc[:,cat_list])
    plt.title(i)


In [None]:
# numerical analsis

sns.pairplot(df.loc[:,num_list]);

In [None]:
# buradan iki sayısal değişkenin birbiriyle tamamen bağlantılı olduğunu görebiliriz
# from here we can see that the two numerical variables are completely connected to each other

In [None]:
df.hist(figsize=(6,6));

In [None]:
plt.figure(figsize=(15,15))
plt.subplot(3,3,1)
sns.scatterplot(x ='year',y ='passenger_count',data = df)
plt.subplot(3,3,2)
sns.pointplot(x="month",y="passenger_count",data=df)
plt.subplot(3,3,3)
sns.barplot(x="year",y="passenger_count",data=df)
plt.subplot(3,3,4)
sns.barplot(x="geo_region",y="passenger_count",data=df)
plt.subplot(3,3,5)
sns.barplot(x="geo_summary",y="passenger_count",data=df)
plt.subplot(3,3,6)
sns.barplot(x="price_category_code",y="passenger_count",data=df)
plt.subplot(3,3,7)
sns.barplot(x="terminal",y="passenger_count",data=df)


### ENCODİNG

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
le=LabelEncoder()

In [None]:

df["operating_airline"]=le.fit_transform(df["operating_airline"])
df["operating_airline_iata_code"]=le.fit_transform(df["operating_airline_iata_code"])
df["published_airline"]=le.fit_transform(df["published_airline"])
df["published_airline_iata_code"]=le.fit_transform(df["published_airline_iata_code"])
df["geo_summary"]=le.fit_transform(df["geo_summary"])
df["geo_region"]=le.fit_transform(df["geo_region"])
df["activity_type_code"]=le.fit_transform(df["activity_type_code"])
df["price_category_code"]=le.fit_transform(df["price_category_code"])
df["terminal"]=le.fit_transform(df["terminal"])
df["boarding_area"]=le.fit_transform(df["boarding_area"])
df["adjusted_activity_type_code"]=le.fit_transform(df["adjusted_activity_type_code"])
df["month"]=le.fit_transform(df["month"])

In [None]:
df.head()

In [None]:
#tüm değerleri numerike çevirdik
#we have converted all values to numeric

### Corelation Analysis

In [None]:
plt.figure(figsize=(14,14))
sns.heatmap(df.corr(),annot=True,linewidths=0.7,fmt=".2f",cmap="coolwarm")
plt.show()

In [None]:
#korelasyonu yüksek olan değişkenleri atalım;
# Let's discard the variables with high correlation;

In [None]:
df.columns

In [None]:
df.drop(["adjusted_activity_type_code","adjusted_passenger_count","geo_summary",
         "operating_airline_iata_code","published_airline"],axis=1,inplace=True)

In [None]:
df.head()

In [None]:
#iki yaklaşım kullanalım,1.normal veri,2.si standartlaştıralım karşılaştıralım
#use two approaches, 1st normal data, 2nd standardize and compare

<a id="5"></a>
## 5.K-MEANS

In [None]:
#1. yaklaşım ilk durumdaki veri üzerinden(normal data);

In [None]:
kmeans=KMeans().fit(df)


In [None]:
# let's find the optimum number of clusters;
#optimum küme sayısını bulalım;

In [None]:
score=[]
K=range(1,10)

for i in K:
    kmeans=KMeans(n_clusters=i,init="k-means++",random_state=0)
    kmeans.fit(df)
    score.append(kmeans.inertia_)

In [None]:
#visualize;

plt.plot(K,score,color="red")
plt.xlabel("k value")
plt.ylabel("wcss value")
plt.show()

In [None]:
# optimum küme sayısı seçilebilir

In [None]:
#2.yaklaşım standartlaştırma;

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
sc=StandardScaler()

In [None]:
X_std=sc.fit_transform(df)

In [None]:
score=[]
K=range(1,10)

for i in K:
    kmeans=KMeans(n_clusters=i,init="k-means++",random_state=0)
    kmeans.fit(X_std)
    score.append(kmeans.inertia_)

In [None]:
#visualize;

plt.plot(K,score,color="red")
plt.xlabel("k value")
plt.ylabel("wcss value")
plt.show()

In [None]:
# küme sayısı arttı,ilk durum üzerinden gidelim;
# number of clusters increased, let's go through the first case;

In [None]:
#final model;
kmeans=KMeans(n_clusters=3,init="k-means++").fit(df)

In [None]:
#add tag values;

#etiket değerleri ekleyelim;

In [None]:
cluster=kmeans.labels_
cluster

In [None]:
df["cluster_no"]=cluster
df.head()

In [None]:
#divided into clusters
#kümelere ayırdık

In [None]:
df.cluster_no.value_counts()

In [None]:
# her kümenin kaç elemandan oluştuğunu gözlemledik
# we observed how many elements each set consists of

In [None]:
# kümeleme işlemini başarıyla gerçekleştirdik
# we have successfully performed the clustering operation

<a id="6"></a>
## 6.Hierarcihal Cluster

In [None]:
dendogram=sch.dendrogram(sch.linkage(df,method="ward"))
plt.show()

In [None]:
# görüldüğü 5 noktasınnda çok rahat bir şekilde 3 küme seçimi ideal görünüyor...
# 3 cluster selection seems ideal in a very comfortable way at the 5 point of view...

<a id="7"></a>
## 7.Conclusion

Airlines Traffic Passenger Statistics verisetini kullanarak kümeleme işlemi gerçekleştirdik.
Amacımız;uçuşların farklı  özelliklerinden yola çıkarak benzerliklerine göre kümelere ayırmaktır.

Bu veri seti, havayolu tarafından hava trafiği yolcu istatistikleri hakkında bilgi içerir. Uçuşların kalkış ve varış yaptığı havayolları, havalimanları ve bölgelere ilişkin bilgileri içerir. Ayrıca faaliyet türü, fiyat kategorisi, terminal, biniş alanı ve yolcu sayısı hakkında bilgiler içerir.


We performed clustering using the Airlines Traffic Passenger Statistics dataset.
Our aim is to divide the flights into clusters based on their similarities, based on their different characteristics.

This dataset contains information about air traffic passenger statistics by airline. It contains information about airlines, airports and regions from which flights depart and arrive. It also contains information about the type of activity, price category, terminal, boarding area and number of passengers.