## Análisis de vuelos comerciales

**Autor:** Roberto Muñoz <br />
**E-mail:** <rmunoz@metricarts.com> <br />
**Github:** <https://github.com/rpmunoz> <br />

Para este tutorial usaremos una base de datos de vuelos áreos publicada por el sitio web [Openflights](https://openflights.org/data.html). La base de datos contiene una tabla de los aeropuertos en el mundo (**`aeropuertos.csv`**), una tabla de las aerolíneas en el mundo (**`aerolineas.csv`**) y una tabla de las rutas de vuelos comerciales (**`rutas.csv`**).

Más información en https://github.com/jpatokal/openflights

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline
params = {'legend.fontsize': 'x-large',
          'figure.figsize': (10, 7.5),
         'axes.labelsize': 'x-large',
         'axes.titlesize':'x-large',
         'xtick.labelsize':'x-large',
         'ytick.labelsize':'x-large'}
plt.rcParams.update(params)

# También es posible limitar el número de registros que imprimirá en pantalla Pandas
pd.set_option('display.max_rows', 30)

## 1. Lectura de datos de openflights

In [2]:
aeropuertos_file='https://metriclearning.blob.core.windows.net/tallerpython/openflights_aeropuertos.csv'
aerolineas_file='https://metriclearning.blob.core.windows.net/tallerpython/openflights_aerolineas.csv'
rutas_file='https://metriclearning.blob.core.windows.net/tallerpython/openflights_rutas.csv'

aeropuertos=pd.read_csv(aeropuertos_file)
aerolineas=pd.read_csv(aerolineas_file)
rutas=pd.read_csv(rutas_file)

In [6]:
# Imprimir encabezado de aeropuertos

aeropuertos.head()

Unnamed: 0,Id,Nombre,Ciudad,Pais,IATA,OACI,Latitud,Longitud,Altitud,Zona_horaria,Horario_verano,Zona_horaria_lugar,Tipo,Fuente
0,1,Goroka Airport,Goroka,Papua New Guinea,GKA,AYGA,-6.08169,145.391998,1610.0,10.0,U,Pacific/Port_Moresby,airport,OurAirports
1,2,Madang Airport,Madang,Papua New Guinea,MAG,AYMD,-5.20708,145.789001,6.1,10.0,U,Pacific/Port_Moresby,airport,OurAirports
2,3,Mount Hagen Kagamuga Airport,Mount Hagen,Papua New Guinea,HGU,AYMH,-5.82679,144.296005,1642.3,10.0,U,Pacific/Port_Moresby,airport,OurAirports
3,4,Nadzab Airport,Nadzab,Papua New Guinea,LAE,AYNZ,-6.569803,146.725977,72.8,10.0,U,Pacific/Port_Moresby,airport,OurAirports
4,5,Port Moresby Jacksons International Airport,Port Moresby,Papua New Guinea,POM,AYPY,-9.44338,147.220001,44.5,10.0,U,Pacific/Port_Moresby,airport,OurAirports


In [7]:
# Imprimir encabezado de aerolineas

aerolineas.head()

Unnamed: 0,Linea_aerea_Id,Linea_aerea,Alias,IATA,OACI,Sigla_identificacion,Pais,Activa
0,-1,Unknown,,-,,,,Y
1,1,Private flight,,-,,,,Y
2,2,135 Airways,,,GNL,GENERAL,United States,N
3,3,1Time Airline,,1T,RNX,NEXTIME,South Africa,Y
4,4,2 Sqn No 1 Elementary Flying Training School,,,WYT,,United Kingdom,N


In [8]:
# Imprimir encabezado de rutas

rutas.head()

Unnamed: 0,Linea_aerea,Linea_aerea_Id,Aeropuerto_origen,Aeropuerto_origen_Id,Aeropuerto_destino,Aeropuerto_destino_Id,Vuelo_operado,Numero_paradas,Modelo_avion,Pais_origen,Pais_destino,Distancia_km
0,2B,410,AER,2965,KZN,2990,,0,CR2,Russia,Russia,1505.879589
1,2B,410,ASF,2966,KZN,2990,,0,CR2,Russia,Russia,1039.785086
2,2B,410,ASF,2966,MRV,2962,,0,CR2,Russia,Russia,447.883531
3,2B,410,CEK,2968,KZN,2990,,0,CR2,Russia,Russia,770.02474
4,2B,410,CEK,2968,OVB,4078,,0,CR2,Russia,Russia,1337.791014


## Actividad 1

Use el dataframe rutas y analice la distribución de los paises de origen de los vuelos y la distancia que recorren. Genere tablas de agrupación y gráficos que permitan visualizar la distribución de los vuelos.

## Actividad 2

Use el dataframe rutas y clasifique los vuelos en tres categorías de acuerdo a la distancia recorrida: vuelos cortos, intermedios y largos.

Haga un gráfico de barras que permita visualizar la distribución de estos vuelos.

## Actividad 3

Cree un nuevo dataframe que solo contenga los vuelos cuyo país de origen corresponda a un país sudamericano.

Determine a que % respecto al total corresponden los vuelos que parten desde sudamerica.

Haga un gráfico de cajas (https://es.wikipedia.org/wiki/Diagrama_de_caja) de la distancia recorrida por los vuelos que parten desde sudamérica. En el eje X debe aparecer cada país de Sudamética y en el eje Y la distribución de las distancia recorridas por los vuelos.