# Análise de dados usando Python

O dataset que vamos usar aqui hoje é fornecido pela ANAC (Agência Nacional de Aviação Civil), com todos os voos do país no período de 2005-2017, nos conformes da Lei de Acesso à Informação.

## Importando as bibliotecas que precisamos e o dataset

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('voosBR.csv', encoding="latin1")

## Como são os nossos dados?

In [3]:
df.head()

Unnamed: 0,Voos,Companhia.Aerea,Codigo.Tipo.Linha,Partida.Prevista,Partida.Real,Chegada.Prevista,Chegada.Real,Situacao.Voo,Codigo.Justificativa,Aeroporto.Origem,...,Estado.Origem,Pais.Origem,Aeroporto.Destino,Cidade.Destino,Estado.Destino,Pais.Destino,LongDest,LatDest,LongOrig,LatOrig
0,AAL - 203,AMERICAN AIRLINES INC,Internacional,2016-01-30T08:58:00Z,2016-01-30T08:58:00Z,2016-01-30T10:35:00Z,2016-01-30T10:35:00Z,Realizado,,Afonso Pena,...,PR,Brasil,Salgado Filho,Porto Alegre,RS,Brasil,-51.175381,-29.993473,-49.172481,-25.532713
1,AAL - 203,AMERICAN AIRLINES INC,Internacional,2016-01-13T12:13:00Z,2016-01-13T12:13:00Z,2016-01-13T21:30:00Z,2016-01-13T21:30:00Z,Realizado,,Salgado Filho,...,RS,Brasil,Miami,Miami,N/I,Estados Unidos,-80.287046,25.795865,-51.175381,-29.993473
2,AAL - 203,AMERICAN AIRLINES INC,Internacional,2016-01-29T12:13:00Z,2016-01-29T12:13:00Z,2016-01-29T21:30:00Z,2016-01-29T21:30:00Z,Realizado,,Salgado Filho,...,RS,Brasil,Miami,Miami,N/I,Estados Unidos,-80.287046,25.795865,-51.175381,-29.993473
3,AAL - 203,AMERICAN AIRLINES INC,Internacional,2016-01-19T12:13:00Z,2016-01-18T12:03:00Z,2016-01-19T21:30:00Z,2016-01-18T20:41:00Z,Realizado,LIBERACAO SERV. TRAFEGO AEREO/ANTECIPACAO,Salgado Filho,...,RS,Brasil,Miami,Miami,N/I,Estados Unidos,-80.287046,25.795865,-51.175381,-29.993473
4,AAL - 203,AMERICAN AIRLINES INC,Internacional,2016-01-30T12:13:00Z,2016-01-30T12:13:00Z,2016-01-30T21:30:00Z,2016-01-30T21:30:00Z,Realizado,,Salgado Filho,...,RS,Brasil,Miami,Miami,N/I,Estados Unidos,-80.287046,25.795865,-51.175381,-29.993473


## Quais colunas temos pra trabalhar?

In [15]:
df.columns

Index(['Voos', 'Companhia.Aerea', 'Codigo.Tipo.Linha', 'Partida.Prevista',
       'Partida.Real', 'Chegada.Prevista', 'Chegada.Real', 'Situacao.Voo',
       'Codigo.Justificativa', 'Aeroporto.Origem', 'Cidade.Origem',
       'Estado.Origem', 'Pais.Origem', 'Aeroporto.Destino', 'Cidade.Destino',
       'Estado.Destino', 'Pais.Destino', 'LongDest', 'LatDest', 'LongOrig',
       'LatOrig'],
      dtype='object')

## Origem e destino dos voos

In [43]:
#De quais cidades os  voos estão saindo?
#df['Cidade.Origem'].unique()

#De quais cidades do Brasil os voos estão saindo?
#df[df['Pais.Origem'] == 'Brasil'].loc[:, 'Cidade.Origem'].unique()

#Quais países estão vindo ao Brasil?
df[df['Pais.Origem'] != 'Brasil'].loc[:, 'Pais.Origem'].unique()

array(['Estados Unidos', 'Canada', 'Espanha', 'Franca', 'Colombia',
       'Argentina', 'Italia', 'Guiana Francesa', 'Reino Unido', 'Bolivia',
       'Alemanha', 'Panama', 'Angola', 'Emirados Arabes Unidos',
       'Ethiopia', 'Suriname', 'Paraguai', 'Uruguai',
       'Antilhas Holandesas', 'Venezuela', 'Barbados',
       'Republica Dominicana', 'Chile', 'Holanda', 'Peru', 'Qatar',
       'Marrocos', 'Africa Do Sul', 'Suica', 'Equador', 'Mexico',
       'Portugal', 'Cabo Verde', 'Turquia', 'Guiana', 'Togo',
       'Luxemburgo'], dtype=object)

## Refinando a busca

In [16]:
CIDADE = 'Porto Alegre'

df[df['Cidade.Origem'] == CIDADE].groupby('Cidade.Destino').Voos.count().sort_values(ascending=False)

Cidade.Destino
Guarulhos                  19289
Rio De Janeiro             13416
Sao Paulo                  13162
Sao Jose Dos Pinhais        7961
Campinas                    7880
Florianopolis               4561
Brasilia                    4134
Navegantes                  1786
Confins                     1575
Foz Do Iguacu               1346
Pelotas                     1144
Buenos Aires/Aeroparque      985
Lima                         943
Buenos Aires                 909
Santa Maria                  878
Panama                       866
Chapeco                      752
Montevideu                   646
Uruguaiana                   552
Salvador                     483
Lisboa                       466
Miami                        427
Joinville                    316
Maringa                      283
Londrina                     188
Passo Fundo                  179
Varzea Grande                139
Rio Largo                     57
Goiania                       51
Sao Jose Dos Campos         

## Quantos voos atrasaram?

In [18]:
atrasados = df[df['Partida.Prevista'] != df['Partida.Real']].Voos.count()

todos = len(df['Partida.Prevista'])

print((atrasados / todos) * 100)

40.16264971864517


## Quantos voos são feitos por cada companhia


In [14]:
TIPO_DE_VOO = 'Internacional'

df[df['Codigo.Tipo.Linha'] == TIPO_DE_VOO].groupby('Companhia.Aerea').Voos.count().sort_values(ascending=False)

Companhia.Aerea
TAM                                                 68683
GOL                                                 38801
AMERICAN AIRLINES INC                               22975
COPA -COMPANIA PANAMENA DE AVIACION                 21034
TAP AIR PORTUGAL                                    18878
AEROLINEAS ARGENTINAS                               16522
UNITED AIRLINES                                      9269
LAN CHILE                                            9141
DELTA AIRLINES                                       9054
AUSTRAL LINEAS AREAS CIELOS DEL SUR S.A             8941
AZUL                                                 7283
AIR FRANCE                                           6819
TRASAMERICA  AIRLINES-TACAPERU                       5660
EMIRATES                                             5646
AVIANCA                                              5553
LUFTHANSA                                            4974
IBERIA                                               409

## Quais companhias atrasam mais em quais tipos de voos


In [20]:
TIPO_DE_VOO = 'Internacional'
PAIS_DE_ORIGEM = 'Brasil'

df[(df['Codigo.Tipo.Linha'] == TIPO_DE_VOO) & (df['Partida.Prevista'] != df['Partida.Real']) & (df['Pais.Origem'] == PAIS_DE_ORIGEM)].groupby('Companhia.Aerea').Voos.count().sort_values(ascending=False)

Companhia.Aerea
TAM                                                 6461
AMERICAN AIRLINES INC                               4050
GOL                                                 4025
TRASAMERICA  AIRLINES-TACAPERU                      2723
AVIANCA                                             2548
AZUL                                                2460
TAP AIR PORTUGAL                                    1847
ALITALIA                                            1715
DELTA AIRLINES                                      1603
COPA -COMPANIA PANAMENA DE AVIACION                 1419
TURKISH AIRLINES INC.                               1234
AEROLINEAS ARGENTINAS                               1173
TAAG LINHAS AEREAS DE ANGOLA                        1081
UNITED AIRLINES                                      871
AUSTRAL LINEAS AREAS CIELOS DEL SUR S.A             787
AIR EUROPA S/A                                       716
AIR FRANCE                                           671
SOUTH µFRICAN A