# Análisis descriptivo

**Autor:** Roberto P. Muñoz<br />
**Cargo:** Data Scientist en MetricArts<br />
**Github:** <https://github.com/rpmunoz>

In [56]:
import numpy as np
import pandas as pd

np.set_printoptions(precision=2)
%precision 2

'%.2f'

## Lectura de datos

Para este tutorial usaremos la base de datos de vuelos áreos publicada por el sitio web Openflights. En particular, usaremos la tabla de las rutas de vuelos comerciales (**`rutas.csv`**).

Más información en https://github.com/jpatokal/openflights

In [55]:
rutas_file='data/rutas.csv'
rutas=pd.read_csv(rutas_file)
rutas=rutas.sample(frac=1)

rutas.head()

Unnamed: 0,Linea_aerea,Linea_aerea_Id,Aeropuerto_origen,Aeropuerto_origen_Id,Aeropuerto_destino,Aeropuerto_destino_Id,Vuelo_operado,Numero_paradas,Modelo_avion,Pais_origen,Pais_destino,Distancia_km
8275,AD,13983,AQA,2521,VCP,2578,,0,AT7,Brazil,Brazil,167.833407
31585,HY,5281,DME,4029,KSQ,6153,,0,320,Russia,Uzbekistan,2773.324178
19369,DE,1868,AYT,1688,HAM,342,,0,757,Turkey,Germany,2452.612922
21845,DV,4840,PPK,6084,ALA,2908,,0,AN4,Kazakhstan,Kazakhstan,1390.234006
42974,NK,4687,FLL,3533,DTW,3645,,0,320 319 321,United States,United States,1817.155698


In [23]:
print("Número de rutas aéreas: ", len(rutas))
print("Número de países: ", len(rutas['Pais_origen'].unique()))

Número de rutas aéreas:  66765
Número de países:  225


## Construcción de tabla de frencuencias

Una de los primeros pasos del análisis descriptivo consiste en la organización de los datos mediante el uso de tablas o estructuras similares. La organización de los datos es fundamental para facilitar el entendimiento y posterior análisis de los datos.

Es común analizar conjuntos de datos con un gran número de registros y cuyo entendimiento se dificulta debido al volumen de los datos. En nuestro caso, la tabla de rutas aéreas contiene más de 66 mil registros.

La **tabla de frecuencias** o **distribución de frecuencias** es una manera de organizar los datos en forma de tabla, asignando a cada categoría o rango de valores su frecuencia correspondiente. Se pueden usar tanto variables cuantitativas como cualitativas.

La primera columna contiene el **valor único** o el **rango de valores** de la variable en estudio. En nuestro caso, usaremos la variable *País de origen* para construir la tabla de frencuencias.

La segunda columna contiene la **frecuencia absoluta**, la cual es el número de veces que aparece un determinado valor en un conjunto de datos. La suma de las frecuencias absolutas es igual al número total de registros.

La tercera columna contiene la **frecuencia relativa**, la cual es el cuociente entre la frecuencia absoluta de un determinado valor y el número total de datos. La suma de las frecuencias relativas es igual a 1.

In [54]:
rutas_pais=pd.value_counts(rutas['Pais_origen']).reset_index()
rutas_pais.columns=['País', 'Frecuencia absoluta']
rutas_pais['Frencuencia relativa']=rutas_pais['Frecuencia absoluta']/rutas_pais['Frecuencia absoluta'].sum()
rutas_pais

Unnamed: 0,País,Frecuencia absoluta,Frencuencia relativa
0,United States,13046,0.195402
1,China,8121,0.121636
2,United Kingdom,2661,0.039856
3,Spain,2528,0.037864
4,Germany,2352,0.035228
5,France,1926,0.028847
6,Russia,1808,0.027080
7,Italy,1776,0.026601
8,Canada,1521,0.022781
9,Brazil,1387,0.020774


## Medidas de localización y dispersión

Si bien la tabla de frecuencias ofrece toda la información disponible, el analista puede encontrar difícil la interpretación de toda esta información. Supongamos que queremos estudiar la columna **Distancia_km** de la tabla rutas, la cual contiene la distancia en kilómetros de cada vuelo aéreo que existe en el mundo. Sin duda la cantidad de datos es grande y difícil de interpretar.

En el análisis descriptivo es conveniente sinterizar la información en unas pocas medidas de resumen. Estas medidas son llamadas medidas de localización y medidas de dispersión.

Usaremos la columna Distancia_km para sintetizar la información asociada al largo de los vuelos.

Las medidas de localización más empleadas son **el promedio, la mediana, los percentiles y los cuartiles**.

Partamos calculando el valor promedio usando la función mean() de la librería numpy de Python.

In [74]:
np.mean(rutas['Distancia_km'])

1824.65

El valor promedio de la distancia reocrrida por los vuelos aéreos es 1.824,65 kilómetros.

Calculemos la mediana usando la función median()

In [73]:
np.median(rutas['Distancia_km'])

1180.01

Vemos que el valor de la mediana es 1.180,01 kilómetros, muy diferente al valor promedio. Esto suele ocurrir cuando el conjunto de datos contiene un número importante de valores atípicos o la distribución de datos tiene un alto grado de asimetría.

Calculemos los percentiles usando la función percentile(). Calculemos los percentiles 10, 50 y 90.

In [59]:
np.percentile(rutas['Distancia_km'],10)

309.21

In [60]:
np.percentile(rutas['Distancia_km'],50)

1180.01

In [61]:
np.percentile(rutas['Distancia_km'],90)

3927.46

Una vez ordenados los datos de menor a mayor, el percentil 10 es el valor de la variable por debajo del cual se encuentra el 10% de los datos. Para el percentil 50 corresponde al valor que encierra al 50% de los datos, y cuyo valor coincide con la mediana.

Calculemos los cuartiles usando la función percentile() y los valores 25, 50 y 75 que corresponden a los tres cuartiles.


In [62]:
np.percentile(rutas['Distancia_km'],25)

610.76

In [64]:
np.percentile(rutas['Distancia_km'],50)

1180.01

In [63]:
np.percentile(rutas['Distancia_km'],75)

2139.02

Las medidas de localización más empleadas son **el rango estadísitico, la desviación, la varianza y la desviación típica**.

Partamos calculando el rango estadístico usando la función ptp()

In [71]:
np.ptp(rutas['Distancia_km'])

16072.16

Vemos que la diferencia entre el vuelo más largo de la tabla y el vuelo más corto corresponde a 16.072.16 kms

Calculemos la desviación para los primeros 5 valores de la tabla. Usaremos el valor de cada registro y el promedio calculado usando la función mean()

In [78]:
rutas['Distancia_km'][0:5].values - np.mean(rutas['Distancia_km'])

array([-1656.81,   948.68,   627.96,  -434.41,    -7.49])

Vemos que el primer registro está por debajo del promedio y por ello su desviación es negativa.

Calulemos la varianza usando la función var()

In [79]:
np.var(rutas['Distancia_km'])

4050466.74

Vemos que la varianza del conjunto de datos es bastante alta, pues su valor es 4.050.466,74 $km^2$. Es importante notar que las unidades de varianza son cuadráticas y por ello decimos $km^2$.

Calulemos la desviación típica o desviación estándar usando la función std()

In [80]:
np.std(rutas['Distancia_km'])

2012.58

Vemos que la desviación típica es 2.012,58 km. La desviación estándar tiene las mismas unidades físicas que el conjunto de datos.