# Introducción

In [0]:
#Importamos estas funciones de PySpark para más adelante poder llevar a cabo operaciones de agregación en un dataframe. En concreto, "avg" para calcular el promedio de valores y "sum" para la suma de dichos valores.
from pyspark.sql.functions import avg
from pyspark.sql.functions import sum

In [0]:
#Leemos el archivo CSV mediante PySpark mediante la función read.csv de PySpark. Lo mostramos mediante la función "show()". Veremos que el conjunto de datos que nos muestra está desordenado, lo arreglamos en la siguiente celda.
df = spark.read.csv('/FileStore/tables/datos.csv',sep = ';')
df.show()

+--------+--------------------+----+-----------+------------------+
|     _c0|                 _c1| _c2|        _c3|               _c4|
+--------+--------------------+----+-----------+------------------+
|    Name|Tiempo_en_hospita...|Edad|Facturacion|          Hospital|
|   Laura|                68.0|27.0|     9600.0|  Hospital Alberto|
|   Jorge|                42.0|39.0|     6200.0|  Hospital Alberto|
|   Pablo|                44.0|61.0|     6100.0|  Hospital Alberto|
|   Mario|                46.0|46.0|     6500.0|Hospital Alejandro|
|  Marcos|                68.0|27.0|     9200.0|     Hospital Jhon|
|   María|                61.0|36.0|     9500.0|Hospital Alejandro|
|    Alba|                45.0|62.0|     6100.0|Hospital Alejandro|
|Estrella|                65.0|62.0|     8200.0|Hospital Alejandro|
|    Luna|                65.0|30.0|     8500.0|     Hospital Jhon|
|  Carlos|                40.0|39.0|     5300.0|  Hospital Alberto|
|  Noelia|                50.0|46.0|     8000.0|

In [0]:
#Volvemos a leer los datos pero con "header=True para que sepa que contiene los nombres de las columnas. Implementamos "inferSchema = True" para que PySpark procese el tipo de datos de las columbas de acuerdo a los valores de las filas 
df = spark.read.csv('/FileStore/tables/datos.csv',sep = ';', header = True, inferSchema =True)
df.show(5)

+------+------------------------+----+-----------+------------------+
|  Name|Tiempo_en_hospital_horas|Edad|Facturacion|          Hospital|
+------+------------------------+----+-----------+------------------+
| Laura|                    68.0|27.0|     9600.0|  Hospital Alberto|
| Jorge|                    42.0|39.0|     6200.0|  Hospital Alberto|
| Pablo|                    44.0|61.0|     6100.0|  Hospital Alberto|
| Mario|                    46.0|46.0|     6500.0|Hospital Alejandro|
|Marcos|                    68.0|27.0|     9200.0|     Hospital Jhon|
+------+------------------------+----+-----------+------------------+
only showing top 5 rows



In [0]:
#Mostramos las 5 primeras filas
display(df.take(5))

Name,Tiempo_en_hospital_horas,Edad,Facturacion,Hospital
Laura,68.0,27.0,9600.0,Hospital Alberto
Jorge,42.0,39.0,6200.0,Hospital Alberto
Pablo,44.0,61.0,6100.0,Hospital Alberto
Mario,46.0,46.0,6500.0,Hospital Alejandro
Marcos,68.0,27.0,9200.0,Hospital Jhon


In [0]:
df.printSchema()

root
 |-- Name: string (nullable = true)
 |-- Tiempo_en_hospital_horas: double (nullable = true)
 |-- Edad: double (nullable = true)
 |-- Facturacion: double (nullable = true)
 |-- Hospital: string (nullable = true)



In [0]:
#Mostramos la estructura de los datos para ver su organización
df.describe().show()

+-------+----+------------------------+------------------+------------------+----------------+
|summary|Name|Tiempo_en_hospital_horas|              Edad|       Facturacion|        Hospital|
+-------+----+------------------------+------------------+------------------+----------------+
|  count|  20|                      22|                21|                23|              24|
|   mean|null|       54.22727272727273| 49.42857142857143| 7560.869565217391|            null|
| stddev|null|       10.96718837164844|15.583874449479591|1496.5837249715776|            null|
|    min|Alba|                    40.0|              27.0|            5100.0|Hospital Alberto|
|    max| Ros|                    68.0|              79.0|            9600.0|   Hospital Jhon|
+-------+----+------------------------+------------------+------------------+----------------+



In [0]:
'''
Seleccionamos mediante "select" las columnas "Hospital" y "Facturacion" agrupándolas por "Hospital" y calculamos la media de los valores de "Facturación". 
Después utilizamos la función "groupby" para agrupar los los datos del df por la columna "Hospital"

Con la función "agg" agregamos la columna "Facturacion" con respecto a "Hospital"

TL;DR: Calculamos la media de facturación de cada hospital y ordenamos los resultados segun el nombre del hospital
''' 
display(df.select("Hospital","Facturacion").groupBy("Hospital").agg(avg("Facturacion")).sort("Hospital"))

Hospital,avg(Facturacion)
Hospital Alberto,6875.0
Hospital Alejandro,7971.428571428572
Hospital Jhon,7887.5


Databricks visualization. Run in Databricks to view.