# 15. Listado en orden de importancia (del más hablado al menos hablado) de los idiomas que manejan aquellos usuarios que hablan por lo menos tres idiomas. (**)

In [1]:
from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark.sql import SQLContext
import pandas as pd
import numpy as np
import os

In [2]:
spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext
sqlContext = SQLContext(sc)

In [3]:
languages_ori = sqlContext.read.parquet('Wikipedia dataset 2c2021/languages.parquet').rdd
languages_ori.take(5)

[Row(babel_user=4502458, babel_lang='FR', babel_level='2'),
 Row(babel_user=5928200, babel_lang='aa', babel_level='0'),
 Row(babel_user=46918, babel_lang='ab', babel_level='0'),
 Row(babel_user=2050449, babel_lang='ab', babel_level='1'),
 Row(babel_user=4715583, babel_lang='ace', babel_level='0')]

In [4]:
lang = languages_ori.map(lambda x: (x[0],x[1]))
lang.take(2)

[(4502458, 'FR'), (5928200, 'aa')]

In [5]:
lang_per_user = lang.groupByKey().map(lambda x: (x[0],list(x[1])))
lang_per_user.take(1)

[(4502458, ['FR', 'en', 'es'])]

In [6]:
lang_per_user_3 = lang_per_user.filter(lambda x: len(x[1]) >= 3)
lang_per_user_3.take(5)

[(4502458, ['FR', 'en', 'es']),
 (5928200,
  ['aa',
   'ace',
   'af',
   'alt',
   'am',
   'an',
   'ang',
   'ar',
   'arc',
   'ase',
   'ast',
   'av',
   'az',
   'azb',
   'ba',
   'ban',
   'bar',
   'bcl',
   'be',
   'be-tarask',
   'bg',
   'bi',
   'bjn',
   'bm',
   'bn',
   'bo',
   'br',
   'bug',
   'ca',
   'ceb',
   'cho',
   'chr',
   'co',
   'cr',
   'cs',
   'cy',
   'da',
   'de',
   'de-AT',
   'de-CH',
   'din',
   'diq',
   'dsb',
   'dz',
   'ee',
   'el',
   'eml',
   'en',
   'en-CA',
   'en-GB',
   'eo',
   'es',
   'et',
   'eu',
   'ext',
   'fa',
   'fi',
   'fj',
   'fo',
   'fr',
   'frc',
   'frp',
   'fy',
   'ga',
   'gag',
   'gcr',
   'gd',
   'gl',
   'gn',
   'gor',
   'got',
   'gsw',
   'gv',
   'hak',
   'haw',
   'he',
   'hi',
   'hr',
   'hsb',
   'ht',
   'hu',
   'hy',
   'ia',
   'id',
   'ie',
   'ig',
   'ii',
   'ike-Cans',
   'ike-Latn',
   'io',
   'is',
   'it',
   'iu',
   'ja',
   'jam',
   'jv',
   'ka',
   'kg',
   'kk',
   '

In [15]:
def funcion(lista):
    lista_separada = [];
    for idioma in lista:
        if idioma is None: continue
        lista_separada += [[idioma]]
        
    return lista_separada

In [16]:
lang_split = lang_per_user_3.flatMap(lambda x: funcion(x[1]))
lang_split.take(3)

[['FR'], ['en'], ['es']]

In [21]:
lang_importance = lang_split.map(lambda x: (x[0],1)).reduceByKey(lambda a, b: a+b)
lang_importance.take(5)

[('FR', 1), ('en', 6401), ('es', 6385), ('aa', 1), ('ace', 2)]

In [22]:
resultado_final = lang_importance.takeOrdered(resultado_final.count(),lambda x: -x[1])
resultado_final

[('en', 6401),
 ('es', 6385),
 ('fr', 3488),
 ('it', 1766),
 ('de', 1710),
 ('pt', 1611),
 ('ca', 1256),
 ('ja', 483),
 ('ru', 469),
 ('gl', 464),
 ('la', 448),
 ('eo', 263),
 ('eu', 244),
 ('zh', 214),
 ('ar', 190),
 ('ast', 154),
 ('pl', 143),
 ('nl', 142),
 ('el', 125),
 ('sv', 117),
 ('he', 92),
 ('grc', 71),
 ('ko', 69),
 ('uk', 68),
 ('ro', 65),
 ('an', 59),
 ('fi', 56),
 ('oc', 49),
 ('no', 49),
 ('nah', 48),
 ('cs', 47),
 ('gn', 45),
 ('qu', 45),
 ('da', 42),
 ('hr', 42),
 ('tr', 42),
 ('lad', 42),
 ('hu', 40),
 ('sr', 38),
 ('fa', 33),
 ('bg', 31),
 ('sk', 27),
 ('be', 25),
 ('ia', 25),
 ('id', 21),
 ('pt-BR', 21),
 ('sl', 21),
 ('ext', 19),
 ('ga', 19),
 ('hi', 19),
 ('th', 18),
 ('arn', 18),
 ('et', 17),
 ('lt', 16),
 ('mk', 15),
 ('sh', 15),
 ('gsw', 14),
 ('io', 14),
 ('is', 14),
 ('sa', 14),
 ('bs', 13),
 ('qya', 13),
 ('scn', 12),
 ('simple', 12),
 ('sw', 12),
 ('yue', 12),
 ('nn', 12),
 ('af', 11),
 ('lv', 11),
 ('vec', 11),
 ('co', 10),
 ('ms', 10),
 ('sc', 10),
 ('tl'