# PEC2 – Infr. Big Data – Ejercicio 1 - Spark SQL

## Tratamiento de datos en batch – Spark-sql
Aquí podéis incluir las sentencias de importación de paquetes e inicialización que necesitéis

In [1]:
#from pathToUri import toUri
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql import Window
spark = SparkSession.builder.appName('ejercicio1').getOrCreate()

### Carga el fichero en un DataFrame  de Spark que se llame cars, muestra por pantalla la estructura de cars y las primeras 5 filas 
Incluir las celdas con las respuestas a continuación

Lectura (en mi caso cars esta en la misma carpeta):

In [2]:
cars = spark.read.format('csv')\
.option('sep', ';') \
.option('header', 'true')\
.option('inferSchema', 'true')\
.load('cars.csv')

Muestra estructura:

In [7]:
cars.printSchema()

root
 |-- Car: string (nullable = true)
 |-- MPG: double (nullable = true)
 |-- Cylinders: integer (nullable = true)
 |-- Displacement: double (nullable = true)
 |-- Horsepower: double (nullable = true)
 |-- Weight: decimal(4,0) (nullable = true)
 |-- Acceleration: double (nullable = true)
 |-- Model: integer (nullable = true)
 |-- Origin: string (nullable = true)



Muestro los 5 primeros registros:

In [8]:
cars.show(5)

+--------------------+----+---------+------------+----------+------+------------+-----+------+
|                 Car| MPG|Cylinders|Displacement|Horsepower|Weight|Acceleration|Model|Origin|
+--------------------+----+---------+------------+----------+------+------------+-----+------+
|Chevrolet Chevell...|18.0|        8|       307.0|     130.0|  3504|        12.0|   70|    US|
|   Buick Skylark 320|15.0|        8|       350.0|     165.0|  3693|        11.5|   70|    US|
|  Plymouth Satellite|18.0|        8|       318.0|     150.0|  3436|        11.0|   70|    US|
|       AMC Rebel SST|16.0|        8|       304.0|     150.0|  3433|        12.0|   70|    US|
|         Ford Torino|17.0|        8|       302.0|     140.0|  3449|        10.5|   70|    US|
+--------------------+----+---------+------------+----------+------+------------+-----+------+
only showing top 5 rows



### Usando el framework de spark-sql muestra las columnas "Cars" y "Cylinders" de todos los vehículos que sean de "Europa"
Incluir las celdas con las respuestas a continuación

In [9]:
#cars.select('Car', 'Cylinders').where('Origin==Europe').show()
cars.select('Car', 'Cylinders', 'Origin')\
.filter(F.col('Origin')=='Europe')\
.show()

+--------------------+---------+------+
|                 Car|Cylinders|Origin|
+--------------------+---------+------+
|Citroen DS-21 Pallas|        4|Europe|
|Volkswagen 1131 D...|        4|Europe|
|         Peugeot 504|        4|Europe|
|         Audi 100 LS|        4|Europe|
|            Saab 99e|        4|Europe|
|            BMW 2002|        4|Europe|
|Volkswagen Super ...|        4|Europe|
|           Opel 1900|        4|Europe|
|         Peugeot 304|        4|Europe|
|           Fiat 124B|        4|Europe|
|Volkswagen Model 111|        4|Europe|
|   Volkswagen Type 3|        4|Europe|
|     Volvo 145e (sw)|        4|Europe|
| Volkswagen 411 (sw)|        4|Europe|
|    Peugeot 504 (sw)|        4|Europe|
|     Renault 12 (sw)|        4|Europe|
|Volkswagen Super ...|        4|Europe|
|Fiat 124 Sport Coupe|        4|Europe|
|            Fiat 128|        4|Europe|
|          Opel Manta|        4|Europe|
+--------------------+---------+------+
only showing top 20 rows



### Obtener la media de "Horsepower", "Weight" y "Acceleration" por "Origen"   
Incluir las celdas con las respuestas a continuación

In [10]:
cars.groupBy('Origin')\
.agg(F.mean('Horsepower').alias('Media Caballos'),\
     F.mean('Weight').alias('Media Peso'),\
     F.mean('Acceleration').alias('Media Aceleración')).show()

+------+------------------+----------+------------------+
|Origin|    Media Caballos|Media Peso| Media Aceleración|
+------+------------------+----------+------------------+
|Europe| 78.78082191780823| 2431.4932| 16.82191780821918|
|    US|118.01181102362204| 3372.7008|14.942519685039361|
| Japan| 79.83544303797468| 2221.2278|16.172151898734175|
+------+------------------+----------+------------------+



### Calcular el ratio entre potencia y peso y a continuación sacar la media por cantidad de cilindros 
Incluir las celdas con las respuestas a continuación

In [11]:
RatioPotenciaPeso = cars.withColumn('Ratio', F.col('Horsepower')/F.col('Weight'))

In [12]:
RatioPotenciaPeso.groupBy('Cylinders').mean('Ratio').show()

+---------+--------------------+
|Cylinders|          avg(Ratio)|
+---------+--------------------+
|        6| 0.03163238614784404|
|        3|0.041441818290915214|
|        5|0.026973551761855744|
|        4|0.033217183371144564|
|        8| 0.03872856292574305|
+---------+--------------------+



### Queremos tener información de la potencia (Horsepower) de los vehículos según su cilindrada, para ello hay que elaborar el ranking de potencia de los vehículos por cilindors. Se necesita presentar los dos primeros vehículos de cada cilindrada
Incluir las celdas con las respuestas a continuación

In [13]:
window = Window \
.partitionBy("Cylinders")\
.orderBy(F.desc("Horsepower"))\
.rowsBetween(Window.unboundedPreceding, Window.currentRow)

In [14]:
RankHorsepower = F.rank().over(window)

In [15]:
cars.select(cars['Cylinders'], cars['Horsepower'], cars['Car'], RankHorsepower.alias('Ranking'))\
    .filter((F.col('Ranking') == 1) | (F.col('Ranking') == 2)).show()

+---------+----------+--------------------+-------+
|Cylinders|Horsepower|                 Car|Ranking|
+---------+----------+--------------------+-------+
|        6|     165.0|Buick Regal Sport...|      1|
|        6|     133.0|       Peugeot 604sl|      2|
|        3|     110.0|          Mazda RX-4|      1|
|        3|     100.0|       Mazda RX-7 GS|      2|
|        5|     103.0|           Audi 5000|      1|
|        5|      77.0|  Mercedes Benz 300d|      2|
|        4|     115.0|Citroen DS-21 Pallas|      1|
|        4|     115.0|           Saab 99LE|      1|
|        4|     115.0|          Saab 99gle|      1|
|        8|     230.0|  Pontiac Grand Prix|      1|
|        8|     225.0|    Pontiac Catalina|      2|
|        8|     225.0|Buick Estate Wago...|      2|
|        8|     225.0|Buick Electra 225...|      2|
+---------+----------+--------------------+-------+

