# Prevendo atrasos de voos ✈

Nosso case a ser analisado na aula de hoje é um dataset que contém algumas características sobre informações de voos.

Nosso foco basicamente consiste em prever se um determinado voo sofrerá atrasos, a partir da informação da partida programada.



*   Flight: Número do voo.
*   Time: Horário de partida do voo.
*   Length: Duração do voo.
*   Airline: Nome do avião.
*   AirportFrom: Partida.
*   AirportTo: Destino.
*   DayOfWeek: Dia da semana

*  Class: Classe de atraso.




Vamos trabalhar com os dados?

In [1]:
# Importando as bibliotecas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


In [2]:
# Importando a base de dados
df = pd.read_csv('airlines.csv',sep=',')


In [3]:
# Analisando as primeiras linhas
df.head(3)


Unnamed: 0,Flight,Time,Length,Airline,AirportFrom,AirportTo,DayOfWeek,Class
0,2313.0,1296.0,141.0,DL,ATL,HOU,1,0
1,6948.0,360.0,146.0,OO,COS,ORD,4,0
2,1247.0,1170.0,143.0,B6,BOS,CLT,3,0


In [4]:
df.shape


(539382, 8)

# Analisando a consistência dos dados

Vamos validar se o dataset contém dados nulos e valores duplicados.

In [6]:
# Analisando valores nulos
df.isnull().sum()


Flight         0
Time           0
Length         0
Airline        0
AirportFrom    0
AirportTo      0
DayOfWeek      0
Class          0
dtype: int64

In [8]:
# Limpando os dados nulos / Caso tivesse. Já vimos acima que a base não possui valores nulos
df = df.dropna()


Conforme analisado, não temos nenhum valor nulo na base de dados


# Verificando se há dados duplicados


In [9]:
duplicated_cols = []
for col in df.columns:
    if df[col].duplicated().any():
        duplicated_cols.append(col)
print(duplicated_cols)


['Flight', 'Time', 'Length', 'Airline', 'AirportFrom', 'AirportTo', 'DayOfWeek', 'Class']


Conforme a análise sobre os valores duplicados, podemos considerar o comportamento normal pois podemos ter vários casos com o mesmo valor na base.  
Como por exemplo, dias da semana.

# Análise exploratória dos dados

Vamos construir uma análise inicial para conhecer os dados! Primeiramente, vamos aplicar a análise estatística descritiva dos dados e fazer algumas inferências sobre os dados.

In [10]:
df.describe()


Unnamed: 0,Flight,Time,Length,DayOfWeek,Class
count,539382.0,539382.0,539382.0,539382.0,539382.0
mean,2427.927988,802.728161,132.202104,3.929666,0.445443
std,2067.4317,278.045546,70.117045,1.914666,0.497015
min,1.0,10.0,0.0,1.0,0.0
25%,712.0,565.0,81.0,2.0,0.0
50%,1809.0,795.0,115.0,4.0,0.0
75%,3745.0,1035.0,162.0,5.0,1.0
max,7814.0,1439.0,655.0,7.0,1.0
