In [37]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StringType
from pyspark.sql.functions import split
from pyspark.sql.functions import col, when 

spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

In [25]:
df = spark.read.load("data/timesData.csv",
                     format="csv", sep=",", inferSchema="true", header="true")
df = df.select("world_rank", "university_name", "country", "total_score", "num_students", "international_students", "female_male_ratio", "year")
df = df.filter(df["total_score"] != "-")


In [42]:
filtro = df.groupBy(df["university_name"]).agg({"total_score":"avg"}).withColumnRenamed("avg(total_score)", "media")
filtro.show()

+--------------------+------------------+
|     university_name|             media|
+--------------------+------------------+
| New York University| 70.03333333333333|
|  Cornell University| 81.69999999999999|
|University of St ...| 55.71666666666666|
|University of Kon...| 46.86666666666667|
|   Yonsei University| 46.73333333333333|
|Pennsylvania Stat...| 62.68333333333333|
|    Ghent University| 55.68333333333334|
|Erasmus Universit...|56.666666666666664|
|University of Col...|              52.3|
|Scuola Superiore ...|              50.2|
|University Colleg...|             49.72|
|Newcastle University|              48.1|
|Washington Univer...| 69.03333333333333|
|Lancaster University|             52.25|
|Stockholm University| 53.45000000000001|
|  Indiana University|             50.92|
|Queen’s Universit...|              48.8|
|University of Oxford|              93.3|
|Tokyo Institute o...| 52.71999999999999|
|     Yale University| 88.35000000000001|
+--------------------+------------

In [41]:
def Categorizar(row):
    score = row.media
    if  score >= 91:
        cat = 'A'
    elif score >= 81:
        cat = 'B'
    elif score >= 71:
        cat = 'C'
    elif score >= 51:
        cat = 'D'
    else:
        cat = 'E'
    return cat



filtro = filtro.withColumn("categoria", \
                                        when(col("media") >= 91, "A") \
                                       .when(col("media") >= 81, "B") \
                                       .when(col("media") >= 71, "C") \
                                       .when(col("media") >= 51, "D") \
                                       .otherwise("E"))

filtro.show()

+--------------------+------------------+---------+
|     university_name|             media|categoria|
+--------------------+------------------+---------+
| New York University| 70.03333333333333|        D|
|  Cornell University| 81.69999999999999|        B|
|University of St ...| 55.71666666666666|        D|
|University of Kon...| 46.86666666666667|        E|
|   Yonsei University| 46.73333333333333|        E|
|Pennsylvania Stat...| 62.68333333333333|        D|
|    Ghent University| 55.68333333333334|        D|
|Erasmus Universit...|56.666666666666664|        D|
|University of Col...|              52.3|        D|
|Scuola Superiore ...|              50.2|        E|
|University Colleg...|             49.72|        E|
|Newcastle University|              48.1|        E|
|Washington Univer...| 69.03333333333333|        D|
|Lancaster University|             52.25|        D|
|Stockholm University| 53.45000000000001|        D|
|  Indiana University|             50.92|        E|
|Queen’s Uni