In [8]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local[*]').getOrCreate()

In [9]:
schema = '''airport_id string, name string, city string, country string, 
            iata_code string, icao_code string, latitude double, longitude double, 
            altitude double, timezone string, dst string, timezone_olson string'''
airports = spark.read.csv('data/airports.text', schema=schema)

In [10]:
# Create airport list using groupByKey

airports.rdd \
  .map(lambda a: (a.country, a.name)) \
  .groupByKey() \
  .mapValues(lambda l: list(l)) \
  .take(1)

[('Argentina',
  ['Aeropuerto de Rafaela',
   'Comodoro Pierrestegui',
   'Gualeguaychu',
   'Junin',
   'General Urquiza',
   'Rosario',
   'Sauce Viejo',
   'Aeroparque Jorge Newbery',
   'Ambrosio L V Taravella',
   'Chamical',
   'San Fernando',
   'Mariano Moreno',
   'La Plata',
   'Moron',
   'El Palomar',
   'Chos Malal',
   'General Roca',
   'El Plumerillo',
   'Malargue',
   'San Rafael',
   'Catamarca',
   'Santiago Del Estero',
   'Tinogasta',
   'La Rioja',
   'Chilecito',
   'Teniente Benjamin Matienzo',
   'San Juan',
   'Rio Cuarto Area De Material',
   'Villa Dolores',
   'Laboulaye',
   'Marcos Juarez',
   'Villa Reynolds',
   'San Luis',
   'Corrientes',
   'Resistencia',
   'Formosa',
   'Cataratas Del Iguazu',
   'Paso De Los Libres',
   'Monte Caseros',
   'Posadas',
   'Termal',
   'Salta',
   'Jujuy',
   'Oran',
   'La Quiaca',
   'Eldorado',
   'Goya',
   'Obera',
   'Reconquista',
   'Curuzu Cuatia',
   'El Bolson',
   'Comodoro Rivadavia',
   'Esquel',
   'A

In [11]:
# Create airport list using aggregateByKey

def append_value(list_, value):
  list_.append(value)
  return list_

airports.rdd \
  .map(lambda a: (a.country, a.name)) \
  .aggregateByKey([], append_value, lambda l1, l2: l1 + l2) \
  .take(1)

[('Argentina',
  ['Aeropuerto de Rafaela',
   'Comodoro Pierrestegui',
   'Gualeguaychu',
   'Junin',
   'General Urquiza',
   'Rosario',
   'Sauce Viejo',
   'Aeroparque Jorge Newbery',
   'Ambrosio L V Taravella',
   'Chamical',
   'San Fernando',
   'Mariano Moreno',
   'La Plata',
   'Moron',
   'El Palomar',
   'Chos Malal',
   'General Roca',
   'El Plumerillo',
   'Malargue',
   'San Rafael',
   'Catamarca',
   'Santiago Del Estero',
   'Tinogasta',
   'La Rioja',
   'Chilecito',
   'Teniente Benjamin Matienzo',
   'San Juan',
   'Rio Cuarto Area De Material',
   'Villa Dolores',
   'Laboulaye',
   'Marcos Juarez',
   'Villa Reynolds',
   'San Luis',
   'Corrientes',
   'Resistencia',
   'Formosa',
   'Cataratas Del Iguazu',
   'Paso De Los Libres',
   'Monte Caseros',
   'Posadas',
   'Termal',
   'Salta',
   'Jujuy',
   'Oran',
   'La Quiaca',
   'Eldorado',
   'Goya',
   'Obera',
   'Reconquista',
   'Curuzu Cuatia',
   'El Bolson',
   'Comodoro Rivadavia',
   'Esquel',
   'A