## Ejemplo IoT Devices

#### Creamos la clase DeviceIoTData

In [0]:
%scala
case class DeviceIoTData(battery_level: Long, c02_level: Long, 
    cca2: String, cca3: String, cn: String, device_id: Long, 
    device_name: String, humidity: Long, ip: String, latitude: Double,
    lcd: String, longitude: Double, scale:String, temp: Long, timestamp: Long)

#### Creamos la clase DeviceTempByCountry

In [0]:
%scala
case class DeviceTempByCountry(temp: Long, device_name: String, device_id: Long, cca3: String)

#### Creamos el DataSet leyendo el fichero y usando la clase _DeviceIoTData_

In [0]:
%scala
val ds = spark.read.json("/databricks-datasets/learning-spark-v2/iot-devices/iot_devices.json").as[DeviceIoTData]

#### Mostramos el esquema del DataSet

In [0]:
%scala
ds.printSchema

#### Mostramos los 5 primeros resultados

In [0]:
%scala
ds.show(5, false)

#### Creamos un nuevo DataSet con los datos de temperatura y humedad filtrando que la temperatura sea mayor a 30 y la humedad mayor a 70

In [0]:
%scala
val filterTempDs = ds.filter(data => {data.temp > 30 && data.humidity > 70})

#### Mostramos los primeros 5 resultados

In [0]:
%scala
filterTempDs.show(5, false)

#### Creamos un nuevo DataSet usando la clase _DeviceTempByCountry_, primero filtramos que la temperatura sea mayor a 25, y luego con un _map_ iteraremos todos sus datos y le cambiaremos el nombre el nombre a las columnas

In [0]:
%scala
val dsTemp = ds.filter(data => {data.temp < 25}).map(data => (data.temp, data.device_name, data.device_id, data.cca3))
  .withColumnRenamed("_1", "temp")
  .withColumnRenamed("_2", "device_name")
  .withColumnRenamed("_3", "device_id")
  .withColumnRenamed("_4", "cca3").as[DeviceTempByCountry]

#### Mostamos los 10 primeros resultados

In [0]:
%scala
dsTemp.show(10)

#### Mostramos los primeros 5 resultados, filtrando que la temperatura sea mayor a 25, devolverá un objeto `Row` generico

In [0]:
%scala
ds.select($"temp", $"device_name", $"device_id", $"humidity", $"cca3", $"cn").where("temp > 25").show(5, false)

#### Mostraremos los 5 primeros resultados, en este caso se devolverá la clase _DeviceTempByCountry_

In [0]:
%scala
val dsTemp2 = ds.select($"temp", $"device_name", $"device_id", $"humidity", $"cca3", $"cn").where("temp > 25").as[DeviceTempByCountry]

dsTemp.show(5, false)

#### Recogemos el primer resultado del DataSet _dsTemp_

In [0]:
%scala
val device = dsTemp.first()

#### Mostramos los 5 primeros resultados, filtrando que el nivel de bateria sea menor a 8 y ordenado de menor a mayor según su nivel de CO2

In [0]:
%scala
ds.select($"battery_level", $"c02_level", $"device_name").where($"battery_level" < 8).sort($"c02_level").show(5, false)

#### Creamos un nuevo DataSet con los países que emiten más niveles de CO2

In [0]:
%scala
val newDs = ds.filter(data => {data.c02_level > 1300}).groupBy($"cn").avg().sort($"avg(c02_level)".desc)

newDs.show(10, false)

#### Mostramos los 10 primeros resultados, agrupados por países, con la media de temperatura y humedad

In [0]:
%scala
ds.filter(data => {data.temp > 25 && data.humidity > 75})
  .select("temp", "humidity", "cn").groupBy($"cn").avg().sort($"avg(temp)".desc, $"avg(humidity)".desc).as("avg_humidity").show(10, false)

#### Mostramos los 10 primeros resultados de los valores mínimos y máximos de la temperatura, humedad, nivel de CO2

In [0]:
%scala
import org.apache.spark.sql.functions._

ds.select(min("temp"), max("temp"), min("humidity"), max("humidity"), min("c02_level"), max("c02_level"), min("battery_level"), max("battery_level")).show(10)