## Selección del conjunto de datos

In [0]:
display(dbutils.fs.ls("/databricks-datasets/flights"))

path,name,size
dbfs:/databricks-datasets/flights/README.md,README.md,412
dbfs:/databricks-datasets/flights/airport-codes-na.txt,airport-codes-na.txt,11411
dbfs:/databricks-datasets/flights/departuredelays.csv,departuredelays.csv,33396236


In [0]:
data = spark.read.csv("/databricks-datasets/flights/departuredelays.csv", header = "true", inferSchema = "true")

## Inspección del conjunto de datos

In [0]:
data.printSchema

In [0]:
display(data)

date,delay,distance,origin,destination
1011245,6,602,ABE,ATL
1020600,-8,369,ABE,DTW
1021245,-2,602,ABE,ATL
1020605,-4,602,ABE,ATL
1031245,-4,602,ABE,ATL
1030605,0,602,ABE,ATL
1041243,10,602,ABE,ATL
1040605,28,602,ABE,ATL
1051245,88,602,ABE,ATL
1050605,9,602,ABE,ATL


## Preguntas

1. ¿Cuál es la destinación que más ocurrencias tiene en el conjunto de datos?
2. ¿Cuál es la destinación que menos ocurrencias tiene en el conjunto de datos?
3. ¿Cuál es el retraso promedio para cada una de las dos destinaciones a las que más y menos vuelos salen?

In [0]:
# Haciendo un dataframe con la cantidad de vuelos hacia cada región:
qFlights2Dest = data.groupBy("destination").count().sort("count")
display(qFlights2Dest)

destination,count
GFK,4
ADK,26
PPG,27
VEL,51
CNY,52
MQT,77
INL,89
IMT,90
OTH,90
GUM,90


### 1. ¿Cuál es la destinación que más ocurrencias tiene en el conjunto de datos?

In [0]:
# Guardando el valor máximo del conteo en su respectiva variable:
max = qFlights2Dest.orderBy("count", ascending=False).take(1)

display(max)

destination,count
ATL,90434


### 2. ¿Cuál es la destinación que menos ocurrencias tiene en el conjunto de datos?

In [0]:
# Guardando el valor mínimo del conteo en su respectiva variable:
min = qFlights2Dest.orderBy("count", ascending=True).take(1)

display(min)

destination,count
GFK,4


### 3. ¿Cuál es el retraso promedio para cada una de las dos destinaciones a las que más y menos vuelos se registraron?

#### Retraso promedio para el máximo

In [0]:
# Retraso promedio a ATL
# Guardando el resultado del query en una lista que será útil para promediar:
delayListATL = data.select("delay", data.destination.like("ATL")).collect()

In [0]:
# Procesando los datos que arrojó la query anterior, con el fin de obtener el retraso promedio:
sum = 0
denominador = 0
for i in range(len(delayListATL)):
  if(delayListATL[i][1] == True):
    sum += delayListATL[i][0]
    denominador += 1
avgATL = sum/denominador
print("Retraso promedio para ATL: ", avgATL)

#### Retraso promedio para el mínimo

In [0]:
# Retraso promedio a GFK
# Guardando el resultado del query en una lista que será útil para promediar:
delayListGFK = data.select("delay", data.destination.like("GFK")).collect()

In [0]:
# Procesando los datos que arrojó la query anterior, con el fin de obtener el retraso promedio:
sum = 0
denominador = 0
for i in range(len(delayListGFK)):
  if(delayListGFK[i][1] == True):
    sum += delayListGFK[i][0]
    denominador += 1
avgGFK = sum/denominador
print("Retraso promedio para GFK: ", avgGFK)