## 18. Para cada lenguaje indicar cuántos usuarios lo comprenden, cuantos lo manejan a nivel lectura y escritura base, cuantos hacen de él, un uso avanzado. (Para resolver deberá mapear los niveles de babel a esas categorías propuestas y darles un nombre). (⭐)

In [1]:
from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark import SparkContext
from pyspark.sql import SQLContext

In [2]:
spark = SparkSession.builder.getOrCreate()

In [3]:
rdd = spark.read.csv("../Dataset/languages.csv", header = True).rdd
rdd.takeSample(False, 5)

[Row(babel_user='48607', babel_lang='es', babel_level='N'),
 Row(babel_user='307240', babel_lang='fr', babel_level='4'),
 Row(babel_user='1302219', babel_lang='es', babel_level='N'),
 Row(babel_user='1686285', babel_lang='ar', babel_level='1'),
 Row(babel_user='59012', babel_lang='es', babel_level='N')]

Armo los grupos en base a lo interpretado a la [documentación](https://es.wikipedia.org/wiki/Wikipedia:Babel):

0. "Comprensión": Nivel >= 1
1. "Básico": Nivel >= 2
2. "Avanzado": Nivel >= 3

El nivel de lengua materna es equivalente en conocimiento al nivel 4, por lo que los considero iguales.

In [4]:
def categorizar_niveles(x):
    level = 4 if x == 'N' else int(x)
    
    if level >= 3:
        return [0, 0, 1]
    elif level >= 2:
        return [0, 1, 1]
    elif level >= 1:
        return [1, 1, 1]

rdd.filter(lambda x: x["babel_level"] != '0')\
    .map(lambda x: (x["babel_lang"], categorizar_niveles(x["babel_level"])))\
    .reduceByKey(lambda a, b: [x + y for x, y in zip(a, b)])\
    .collect()

[('FR', [0, 1, 1]),
 ('ab', [1, 1, 1]),
 ('acf', [1, 1, 1]),
 ('af', [6, 8, 10]),
 ('agr', [1, 1, 1]),
 ('akk', [1, 1, 1]),
 ('aln', [0, 0, 2]),
 ('am', [0, 1, 2]),
 ('an', [38, 47, 57]),
 ('ang', [3, 6, 6]),
 ('ar', [92, 120, 161]),
 ('arc', [1, 1, 3]),
 ('arn', [10, 13, 15]),
 ('ary', [0, 0, 1]),
 ('ase', [1, 2, 2]),
 ('ast', [58, 89, 152]),
 ('avk', [0, 1, 1]),
 ('ay', [4, 4, 4]),
 ('az', [1, 3, 6]),
 ('azb', [0, 0, 1]),
 ('bar', [2, 3, 6]),
 ('bcl', [1, 1, 1]),
 ('be', [8, 14, 24]),
 ('bew', [0, 0, 1]),
 ('bg', [15, 19, 30]),
 ('bjn', [1, 1, 1]),
 ('bn', [0, 0, 1]),
 ('br', [0, 1, 2]),
 ('bs', [4, 4, 13]),
 ('ca', [260, 448, 1289]),
 ('cak', [1, 1, 1]),
 ('cas', [0, 0, 1]),
 ('cbk', [1, 1, 1]),
 ('ceb', [3, 3, 3]),
 ('ch', [0, 0, 2]),
 ('chr', [0, 0, 1]),
 ('ckb', [0, 0, 1]),
 ('cmn', [0, 0, 1]),
 ('cnt', [0, 1, 1]),
 ('co', [4, 7, 7]),
 ('cs', [17, 23, 44]),
 ('csb', [1, 1, 1]),
 ('csc', [1, 1, 1]),
 ('csn', [0, 1, 1]),
 ('cu', [1, 1, 1]),
 ('cv', [1, 1, 2]),
 ('cy', [5, 5, 7]),
 