# Ejercicio pyspark
Para este ejercicio vas a trabajar con una base de datos de canciones. Hay que realizar analítica sobre los datos que tenemos y para ello, es necesario responder a las siguientes preguntas.
1. Imprime por pantalla las columnas y el esquema
2. ¿De cuántas canciones se compone la base de datos?
3. ¿Cuántas bandas diferentes hay? ¿Y géneros?
4. Número de canciones de los Beattles
5. ¿Cuál es la duración media de las canciones?
6. Duración media de las canciones por año
7. ¿Qué canciones son las de duración mínima y máxima?
8. Grupo con la canción más larga
9. Teniendo en cuenta los scores de todas las canciones. ¿Cuáles son los géneros con mayor score?
10. ¿En qué años se han publicado menos canciones? ¿Y más?
11. Lista todas las canciones publicadas en 2010
12. ¿Qué album obtuvo un mayor score en 2011?
13. Canciones de genero rock por año desde 1965

Para ello tendrás que usar la librería `pyspark`. **Las columnas del dataset tienen los siguientes nombres: BandName, Country, Genre, SongName, AlbumName, Duration, ScoreGenre, Year**

In [2]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('exercise').getOrCreate()
sc = spark.sparkContext

### 1. Imprime por pantalla las columnas y el esquema

In [10]:
from pyspark.sql.types import StructField, StringType, IntegerType, StructType

data_schema = [StructField('BandName', StringType(), True),
              StructField('Country', StringType(), True),
              StructField('Genre', StringType(), True),
              StructField('SongName', StringType(), True),
              StructField('AlbumName', StringType(), True),
              StructField('Duration', IntegerType(), True),
              StructField('ScoreGenre', IntegerType(), True),
              StructField('Year', IntegerType(), True)]

final_struc = StructType(fields = data_schema)

In [11]:
df = spark.read.csv('/user/input/recordings.csv', schema = final_struc)
df.printSchema()

root
 |-- BandName: string (nullable = true)
 |-- Country: string (nullable = true)
 |-- Genre: string (nullable = true)
 |-- SongName: string (nullable = true)
 |-- AlbumName: string (nullable = true)
 |-- Duration: integer (nullable = true)
 |-- ScoreGenre: integer (nullable = true)
 |-- Year: integer (nullable = true)



### 2. ¿De cuántas canciones se compone la base de datos?

In [14]:
df.select('SongName').count()

12060

### 3. ¿Cuántas bandas diferentes hay? ¿Y géneros?

In [23]:
from pyspark.sql.functions import countDistinct

df.select(countDistinct('BandName')).show()
df.select(countDistinct('Genre')).show()

+------------------------+
|count(DISTINCT BandName)|
+------------------------+
|                     189|
+------------------------+

+---------------------+
|count(DISTINCT Genre)|
+---------------------+
|                   59|
+---------------------+



### 4. Número de canciones de los Beattles

In [34]:
df.filter(df['BandName'] == 'Beattles').count()

0

### 5. ¿Cuál es la duración media de las canciones?

In [40]:
df.select('Duration').agg({'Duration': 'mean'}).show()

+------------------+
|     avg(Duration)|
+------------------+
|254095.46380296873|
+------------------+



### 6. Duración media de las canciones por año

In [53]:
df.groupBy('Year').mean('Duration').orderBy('Year').show()

+----+------------------+
|Year|     avg(Duration)|
+----+------------------+
|null|              null|
|1958|          135932.0|
|1961|139716.14285714287|
|1962|142949.91666666666|
|1963|127032.34782608696|
|1964|140105.26315789475|
|1965|        135396.625|
|1966|153755.78260869565|
|1967|175546.57894736843|
|1968| 250561.1052631579|
|1969|225333.33333333334|
|1970|         347821.12|
|1971| 568719.7777777778|
|1972| 270422.6666666667|
|1973|         416969.75|
|1974|201419.82222222222|
|1975| 272476.3214285714|
|1976|          429333.0|
|1977|295491.53846153844|
|1978| 294139.6818181818|
+----+------------------+
only showing top 20 rows



### 7. ¿Qué canciones son las de duración mínima y máxima?

In [88]:
df.groupBy('SongName', 'Duration').max('Duration').orderBy(df['Duration'].desc()).show()

+--------------------+--------+-------------+
|            SongName|Duration|max(Duration)|
+--------------------+--------+-------------+
|             The Con| 5878000|      5878000|
|    Systematic Chaos| 5449000|      5449000|
|Paradise Is There...| 4792000|      4792000|
|        Kill ’em All| 4208986|      4208986|
|              Circle| 3651000|      3651000|
|              Circle| 3631000|      3631000|
|The Wanderings of...| 3250750|      3250750|
|              Sparks| 2924000|      2924000|
|            Stand Up| 2750000|      2750000|
|        Silent Alarm| 2708000|      2708000|
|              Sparks| 2706000|      2706000|
|    Thick as a Brick| 2616466|      2616466|
|              Sparks| 2530000|      2530000|
|     We Are the Void| 2514000|      2514000|
|        All Mod Cons| 2164000|      2164000|
|       Yanqui U.X.O.| 1885746|      1885746|
|  Ride the Lightning| 1873986|      1873986|
|A Matter of Life ...| 1815000|      1815000|
| Brain Salad Surgery| 1779373|   

### 8. Grupo con la canción más larga

### 9. Teniendo en cuenta los scores de todas las canciones. ¿Cuáles son los géneros con mayor score?

### 10. ¿En qué años se han publicado menos canciones? ¿Y más?

### 11. Lista todas las canciones publicadas en 2010

### 12. ¿Qué album obtuvo un mayor score en 2011?

### 13. Canciones de genero rock por año desde 1965