# CZĘŚĆ 1 - OPTYMALIZACJA

## OPIS ZESTAWU DANYCH
Dane składają się z informacji o przylotach i odlotach wszystkich lotów komercyjnych w USA od października 1987 do kwietnia 2008 – przede wszystkim o ich opóźnieniach. Zbiór danych jest bardzo duży (120mln rekordów, 12GB danych) – na potrzeby projektu wykorzystamy jedynie dane z lat 2006-2008 (to ograniczy ich rozmiar do ok. 1.5GB).

In [2]:
import pandas as pd
import numpy as np
from sklearn import preprocessing
from matplotlib.pyplot import figure
from matplotlib import pyplot as plt
import statistics
from sklearn.impute import KNNImputer
import seaborn as sns
from pyspark.sql import SparkSession
from pyspark.sql.functions import isnull, when, count, col, hour, mean, lit, stddev,abs

#### OPIS KLAS
W sumie klas jest 29, opisują one następujące informacje:
Rok, miesiąc, dzień miesiąca, dzień tygodnia, rzeczywisty czas odlotu, zaplanowany czas odlotu, rzeczywisty czas przylotu, zaplanowany czas przylotu, kod przewoźnika, numer lotu, numer ogonowy samolotu, całkowity czas lotu w minutach, rzeczywisty czas lotu, całkowity czas w powietrzu, opóźnienie lotu w minutach, miejsce startu, miejsce docelowe, odległość w milach, dane dotyczące przyjazdu taksówki, informacje o tym czy lot był anulowany, powód anulowania (pogoda, przewoźnik, ochron, NAS), przekierowanie (tak/nie), opóźnienie przewoźnika w minutach, opóźnienie pogodowe w minutach, opóźnienie NAS w minutach, opóźnienie z powodów bezpieczeństwa w minutach, sumaryczne opóźnienie w minutach.

In [3]:
data = pd.read_csv('./data/2007.xls', delimiter=',')
data.head()

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,...,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
0,2007,1,1,1,1232.0,1225,1341.0,1340,WN,2891,...,4.0,11.0,0.0,,0.0,0.0,0.0,0.0,0.0,0.0
1,2007,1,1,1,1918.0,1905,2043.0,2035,WN,462,...,5.0,6.0,0.0,,0.0,0.0,0.0,0.0,0.0,0.0
2,2007,1,1,1,2206.0,2130,2334.0,2300,WN,1229,...,6.0,9.0,0.0,,0.0,3.0,0.0,0.0,0.0,31.0
3,2007,1,1,1,1230.0,1200,1356.0,1330,WN,1355,...,3.0,8.0,0.0,,0.0,23.0,0.0,0.0,0.0,3.0
4,2007,1,1,1,831.0,830,957.0,1000,WN,2278,...,3.0,9.0,0.0,,0.0,0.0,0.0,0.0,0.0,0.0


Jak widać w powyższej tabeli, niektóre kolumny zawierają dane tekstowe - UniqueCarrier, TailNum, Origin, Dest i CancellationCode.
Z racji tego, że w projekcie chcielibyśmy się skupić na powiązaniach między opóźnieniami/odwołaniami lotów, a momentem ich odbywania, część danych będzie nam zbędna. Dlatego też zdecydowaliśmy się na usuięcie kolumn:
- UniqueCarrier - indywidualny kod przewoźnika
- TailNum - numer ogonowy
- Origin - miejsce rozpoczęcia podróży
- Dest - cel podróży
- CancellationCode - kod odwołania

In [4]:
data.drop('UniqueCarrier', inplace=True, axis =1)
data.drop('TailNum', inplace=True, axis =1)
data.drop('Origin', inplace=True, axis =1)
data.drop('Dest', inplace=True, axis =1)
data.drop('CancellationCode', inplace=True, axis =1)

In [5]:
data.describe()

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,FlightNum,ActualElapsedTime,...,Distance,TaxiIn,TaxiOut,Cancelled,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
count,3593413.0,3593413.0,3593413.0,3593413.0,3502301.0,3593413.0,3494258.0,3593413.0,3593413.0,3494258.0,...,3593412.0,3593412.0,3593412.0,3593412.0,3593412.0,3593412.0,3593412.0,3593412.0,3593412.0,3593412.0
mean,2007.0,3.454024,15.64337,3.918267,1340.944,1331.584,1484.115,1496.19,2237.95,124.9881,...,708.1792,6.554661,16.00806,0.02535529,0.002238263,3.864038,0.8129967,3.736539,0.02299653,5.139931
std,0.0,1.679768,8.7348,1.980029,478.7119,463.9604,505.5874,480.3858,1988.754,70.28618,...,553.6289,5.165002,11.68459,0.1572018,0.04725731,20.58578,10.01654,15.87624,1.036474,21.40643
min,2007.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,12.0,...,11.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,2007.0,2.0,8.0,2.0,930.0,930.0,1108.0,1115.0,617.0,75.0,...,314.0,4.0,10.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,2007.0,3.0,16.0,4.0,1330.0,1325.0,1514.0,1519.0,1550.0,107.0,...,552.0,5.0,13.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,2007.0,5.0,23.0,6.0,1734.0,1720.0,1912.0,1907.0,3685.0,155.0,...,936.0,8.0,19.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
max,2007.0,6.0,31.0,7.0,2400.0,2359.0,2400.0,2400.0,9600.0,1270.0,...,4962.0,545.0,435.0,1.0,1.0,1409.0,1137.0,1352.0,382.0,1014.0


#### TO DO: dodać komentarz dotyczący średnich

## WIZUALIZACJA DANYCH

### BOXPLOTY

In [None]:
fig, axes = plt.subplots(6,4, figsize=(10,10))
for c, i in zip(data.columns, range(0,24)):
    a = data.boxplot(column=c, ax=axes.flatten()[i])
plt.tight_layout()
plt.show()

#### TO DO: Dodać komentarz dotyczący boxplotów

### HISTOGRAMY

In [None]:
fig, axes = plt.subplots(4, 6, figsize=(10,10))
data = data.toPandas()
for c, i in zip(data.columns, range(0,24)):
    a = data.hist(column=c, ax=axes.flatten()[i])
plt.tight_layout()
plt.show()

#### TO DO: Dodać komentarz dotyczący histogramów

### SCATTER PLOT

In [None]:
plt.scatter(data)

#### TO DO: Dodać komentarz dotyczący scatterplot

## PROBLEMY Z DANYMI - DANE BRAKUJĄCE, NIEPRAWIDŁOWE, ODSTAJĄCE

### SPRAWDZENIE POPRAWNOŚCI TYPÓW DANYCH

In [None]:
import pyarrow as pa

table = pa.Table.from_pandas(data)
print(table.schema)

#### TO DO: Dodać komentarz dotyczący danych w złym formacie

### USUWANIE DANYCH ODSTAJĄCYCH

In [None]:
sizeBefore = np.shape(data)[0]
for col in data.columns:
    data = data[np.abs(data[col]-data[col].mean()) <= (3*data[col].std())]
sizeAfter =  np.shape(data)[0]
print("Count of reduced rows: ", sizeBefore - sizeAfter)
print("Percent od reduced rows: ", 100*sum(sizeBefore - sizeAfter)/sum(sizeBefore))

#### TO DO: Dodać komentarz dotyczący danych odstających

### NAPRAWA WIERSZY Z PUSTYMI DANYMI

In [None]:
# Obliczenie ilosci pustych danych
np.max(np.sum(data.isna()))

In [None]:
sizeBeforeDeleteNull= data.count()
dataWithoutNull = data.dropna()
sizeAfterDeleteNull =  dataWithoutNull.count()
print("Usunieto: ", sizeBeforeDeleteNull - sizeAfterDeleteNull)

print("Percent od reduced rows: ", 100*sum(sizeBeforeDeleteNull - sizeAfterDeleteNull)/sum(sizeBeforeDeleteNull))

In [None]:
### TO DO: ZMIENIC SPOSÓB RADZENIA SOBIE Z PUSTYMI DANYMI
### TO DO: Dodać komentarz dotyczący danych pustych

# KORELACJE

In [None]:
sns.pairplot(data)

In [None]:
plt.figure(figsize=(20, 20), dpi=80)
corrMatrix = data.corr()
sns.heatmap(corrMatrix, annot=True)
plt.show()

#### TO DO: Dodać komentarz dotyczący korelacji między danymi, ew dodać pairploty do wybranych danych

In [None]:
### TO DO: "Normalizacja danych (przedstawić wyniki min-max i standaryzacji). Zastanowić się nad zakresem skalowania danych"


# REDUKCJA WYMIAROWOŚCI

In [None]:
### TO DO: Genetyczna optymalizacja cech

In [None]:
# Genetyczna optymalizacja cech - NA RAZIE SAMA SELEKCJA NA PODSTAWIE KORELACJI
pandasDF = data.filter(["DayOfWeek", "DayofMonth", "Distance", "DepTime", "Cancelled", "Diverted", "LateAircraftDelay", "DepDelay", "ArrDelay"], axis = 1)

In [None]:
spark = SparkSession.builder.master("local").appName("Project").getOrCreate()
sparkDF=spark.createDataFrame(pandasDF)
sparkDF.printSchema()
sparkDF.show()

In [None]:
#wybor algorytmu uczenia maszynowego- min 3 modele i wybrac najlepszy

In [None]:
#przetestowanie zespolu klasyfikatorow pjedyncznych i porownanie wynikow

In [None]:
#wybranie odpowiedniej metryki wraz z komentarzem, dkonanie testow innych metryk, przedstawienie wynikow (czulosc, precyzja, f1, accuracy, macierz pmylek), reczna walidacja krzyzowa  testwanie na niej wszytkich miar

In [None]:
# optymalizacja parametrow klasyfikatorow

In [None]:
# wyniki