# **Data Processing using Pyspark and Google Colab.**

# **1. Configuraciones iniciales**

In [2]:
# Configuración en google colab de spark y pyspark
from google.colab import drive
drive.mount('/content/gdrive')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


In [3]:
# Eliminamos spark para asegurar que todo quede bien luego.
!rm -f spark-3.5.3-bin-hadoop3.tgz

In [4]:
# Instalamos Java y Spark
!apt-get install openjdk-11-jdk-headless -qq > /dev/null

In [5]:
# Descargamos Spark.
!wget -q https://dlcdn.apache.org/spark/spark-3.5.3/spark-3.5.3-bin-hadoop3.tgz

In [6]:
# Descomprimimos el archivo.
!tar xf spark-3.5.3-bin-hadoop3.tgz

In [7]:
# Instalamos Spark.
!pip install -q findspark

In [8]:
# Importamos las variables de entorno de Java y Spark.
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.5.3-bin-hadoop3"

In [9]:
# Importamos e iniciamos sesión en Spark.
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
sc = spark.sparkContext

In [10]:
spark

In [11]:
sc

In [12]:
# Ingresamos a la carpeta de datasets.
%cd /content/gdrive/MyDrive/Semestre_2024.2/04._Tópicos_Espec_en_Telemática/Labs/st0263-242/bigdata/datasets

/content/gdrive/MyDrive/Semestre_2024.2/04._Tópicos_Espec_en_Telemática/Labs/st0263-242/bigdata/datasets


In [13]:
# Verificamos que estemos en la carperta indicada.
!pwd

/content/gdrive/MyDrive/Semestre_2024.2/04._Tópicos_Espec_en_Telemática/Labs/st0263-242/bigdata/datasets


In [14]:
# Comando para descargar los datos del Covid 19 en Colombia en la carpeta indicada.
# !wget -O Covid19-Colombia.csv "https://www.datos.gov.co/api/views/gt2j-8ykr/rows.csv?accessType=DOWNLOAD"

In [15]:
# Verificamos el contenido de la carpeta que exista el archivo recién descargado.
%ll

total 1546099
-rw------- 1 root     780058 Oct 19 05:04 airlines.csv
drwx------ 2 root       4096 Nov  1 16:36 [0m[01;34mall-news[0m/
drwx------ 2 root       4096 Nov  1 16:36 [01;34mcovid19[0m/
-rw------- 1 root 1181518251 Jan 18  2024 Covid19-Colombia.csv
drwx------ 2 root       4096 Nov  1 16:36 [01;34mflights[0m/
drwx------ 2 root       4096 Nov  1 16:36 [01;34mgutenberg[0m/
drwx------ 2 root       4096 Nov  1 16:36 [01;34mgutenberg-small[0m/
drwx------ 2 root       4096 Nov  1 16:36 [01;34monu[0m/
drwx------ 2 root       4096 Nov  1 16:36 [01;34motros[0m/
drwx------ 2 root       4096 Nov  1 16:36 [01;34mretail_logs[0m/
-rw------- 1 root        534 Oct 19 05:04 sample_data.csv
drwx------ 2 root       4096 Nov  1 16:36 [01;34mspark[0m/
drwx------ 2 root       4096 Nov 20 00:46 [01;34mspark-3.5.3-bin-hadoop3[0m/
-rw------- 1 root  400864419 Sep  9 05:35 spark-3.5.3-bin-hadoop3.tgz


In [16]:
!pwd

/content/gdrive/MyDrive/Semestre_2024.2/04._Tópicos_Espec_en_Telemática/Labs/st0263-242/bigdata/datasets


In [17]:
# Cargamos el dataset desde el csv.
df=spark.read.csv('gdrive/MyDrive/Semestre_2024.2/04._Tópicos_Espec_en_Telemática/Labs/st0263-242/bigdata/datasets/Covid19-Colombia.csv',inferSchema=True,header=True)

# **2. Análisis exploratorio de datos en dataframes donde cargamos los datos: (programa en jupyterhub y google colab)**
- ###  **2.1 Columnas.**
- ###  **2.2 Tipos de datos.**
- ###  **2.3 Seleccionar algunas columnas**
- ###  **2.4 Renombrar Columnas (esto se recomienda hacerlo para facilitar el procesamiento posterior).**
- ###  **2.5 Agregar columnas.**
- ###  **2.6 Borrar columnas.**
- ###  **2.7 Filtrar datos.**
- ###  **2.8 Ejecutar alguna función UDF o lambda sobre alguna columna creando una nueva.**

- ###  **2.1 Columnas.**

In [18]:
# Visualizar las columnas que hay en el Dataframe de Covid10-Colombia.csv
df.columns

['fecha reporte web',
 'ID de caso',
 'Fecha de notificación',
 'Código DIVIPOLA departamento',
 'Nombre departamento',
 'Código DIVIPOLA municipio',
 'Nombre municipio',
 'Edad',
 'Unidad de medida de edad',
 'Sexo',
 'Tipo de contagio',
 'Ubicación del caso',
 'Estado',
 'Código ISO del país',
 'Nombre del país',
 'Recuperado',
 'Fecha de inicio de síntomas',
 'Fecha de muerte',
 'Fecha de diagnóstico',
 'Fecha de recuperación',
 'Tipo de recuperación',
 'Pertenencia étnica',
 'Nombre del grupo étnico']

In [19]:
# Verificamos el número de columnas que hay en el Dataframe.
len(df.columns)

23

In [20]:
# Número de records en el Dataframe.
df.count()

6390971

In [21]:
# Forma del dataset. (# Filas, # Colunas)
print((df.count(),len(df.columns)))

(6390971, 23)


- ###  **2.2 Tipos de datos.**

In [22]:
# Imrpimimos las variables del Dataframe.
df.printSchema()

root
 |-- fecha reporte web: timestamp (nullable = true)
 |-- ID de caso: integer (nullable = true)
 |-- Fecha de notificación: timestamp (nullable = true)
 |-- Código DIVIPOLA departamento: integer (nullable = true)
 |-- Nombre departamento: string (nullable = true)
 |-- Código DIVIPOLA municipio: integer (nullable = true)
 |-- Nombre municipio: string (nullable = true)
 |-- Edad: integer (nullable = true)
 |-- Unidad de medida de edad: integer (nullable = true)
 |-- Sexo: string (nullable = true)
 |-- Tipo de contagio: string (nullable = true)
 |-- Ubicación del caso: string (nullable = true)
 |-- Estado: string (nullable = true)
 |-- Código ISO del país: integer (nullable = true)
 |-- Nombre del país: string (nullable = true)
 |-- Recuperado: string (nullable = true)
 |-- Fecha de inicio de síntomas: timestamp (nullable = true)
 |-- Fecha de muerte: timestamp (nullable = true)
 |-- Fecha de diagnóstico: timestamp (nullable = true)
 |-- Fecha de recuperación: timestamp (nullable = tr

In [23]:
# Imprimimos las primeras 15 filas del dataset.
df.show(15)

+-------------------+----------+---------------------+----------------------------+-------------------+-------------------------+----------------+----+------------------------+----+----------------+------------------+---------+-------------------+---------------+----------+---------------------------+-------------------+--------------------+---------------------+--------------------+------------------+-----------------------+
|  fecha reporte web|ID de caso|Fecha de notificación|Código DIVIPOLA departamento|Nombre departamento|Código DIVIPOLA municipio|Nombre municipio|Edad|Unidad de medida de edad|Sexo|Tipo de contagio|Ubicación del caso|   Estado|Código ISO del país|Nombre del país|Recuperado|Fecha de inicio de síntomas|    Fecha de muerte|Fecha de diagnóstico|Fecha de recuperación|Tipo de recuperación|Pertenencia étnica|Nombre del grupo étnico|
+-------------------+----------+---------------------+----------------------------+-------------------+-------------------------+-----------

- ###  **2.3 Seleccionar algunas columnas**

In [24]:
# Seleccionamos sólo 2 columnas del dataset, imprimimos 10 filas.
df.select('Edad','Nombre municipio').show(10)

+----+----------------+
|Edad|Nombre municipio|
+----+----------------+
|  67|            CALI|
|  66|            CALI|
|  68|            CALI|
|  74|            CALI|
|  65|            CALI|
|  66|            CALI|
|  74|            CALI|
|  66|            CALI|
|  64|            CALI|
|  65|            CALI|
+----+----------------+
only showing top 10 rows



In [25]:
# Seleccionamos algunas columnas del dataset, imprimimos 10 filas.
nuevo_df = df.select('fecha reporte web', 'Edad','Nombre departamento', 'Nombre municipio', 'Sexo')
nuevo_df.show(10)

+-------------------+----+-------------------+----------------+----+
|  fecha reporte web|Edad|Nombre departamento|Nombre municipio|Sexo|
+-------------------+----+-------------------+----------------+----+
|2020-12-24 00:00:00|  67|              VALLE|            CALI|   F|
|2020-12-24 00:00:00|  66|              VALLE|            CALI|   F|
|2020-12-24 00:00:00|  68|              VALLE|            CALI|   F|
|2020-12-24 00:00:00|  74|              VALLE|            CALI|   F|
|2020-12-24 00:00:00|  65|              VALLE|            CALI|   F|
|2020-12-24 00:00:00|  66|              VALLE|            CALI|   F|
|2020-12-24 00:00:00|  74|              VALLE|            CALI|   F|
|2020-12-24 00:00:00|  66|              VALLE|            CALI|   F|
|2020-12-24 00:00:00|  64|              VALLE|            CALI|   F|
|2020-12-24 00:00:00|  65|              VALLE|            CALI|   F|
+-------------------+----+-------------------+----------------+----+
only showing top 10 rows



- ###  **2.4 Renombrar Columnas (esto se recomienda hacerlo para facilitar el procesamiento posterior).**

In [26]:
# Renombramos dos columnas 'Nombre departamento', 'Nombre municipio'
df_rename=nuevo_df.withColumnRenamed('Nombre departamento','Departamento').withColumnRenamed('Nombre municipio','Municipio').withColumnRenamed('fecha reporte web','Fecha Registro')
df_rename.show(10)

+-------------------+----+------------+---------+----+
|     Fecha Registro|Edad|Departamento|Municipio|Sexo|
+-------------------+----+------------+---------+----+
|2020-12-24 00:00:00|  67|       VALLE|     CALI|   F|
|2020-12-24 00:00:00|  66|       VALLE|     CALI|   F|
|2020-12-24 00:00:00|  68|       VALLE|     CALI|   F|
|2020-12-24 00:00:00|  74|       VALLE|     CALI|   F|
|2020-12-24 00:00:00|  65|       VALLE|     CALI|   F|
|2020-12-24 00:00:00|  66|       VALLE|     CALI|   F|
|2020-12-24 00:00:00|  74|       VALLE|     CALI|   F|
|2020-12-24 00:00:00|  66|       VALLE|     CALI|   F|
|2020-12-24 00:00:00|  64|       VALLE|     CALI|   F|
|2020-12-24 00:00:00|  65|       VALLE|     CALI|   F|
+-------------------+----+------------+---------+----+
only showing top 10 rows



- ###  **2.5 Agregar columnas.**

In [27]:
# Agregar una nueva columna.
from pyspark.sql.functions import col
df_with_new_column = df_rename.withColumn("Suma", col("Edad") + col("Edad"))
df_with_new_column.show(10)

+-------------------+----+------------+---------+----+----+
|     Fecha Registro|Edad|Departamento|Municipio|Sexo|Suma|
+-------------------+----+------------+---------+----+----+
|2020-12-24 00:00:00|  67|       VALLE|     CALI|   F| 134|
|2020-12-24 00:00:00|  66|       VALLE|     CALI|   F| 132|
|2020-12-24 00:00:00|  68|       VALLE|     CALI|   F| 136|
|2020-12-24 00:00:00|  74|       VALLE|     CALI|   F| 148|
|2020-12-24 00:00:00|  65|       VALLE|     CALI|   F| 130|
|2020-12-24 00:00:00|  66|       VALLE|     CALI|   F| 132|
|2020-12-24 00:00:00|  74|       VALLE|     CALI|   F| 148|
|2020-12-24 00:00:00|  66|       VALLE|     CALI|   F| 132|
|2020-12-24 00:00:00|  64|       VALLE|     CALI|   F| 128|
|2020-12-24 00:00:00|  65|       VALLE|     CALI|   F| 130|
+-------------------+----+------------+---------+----+----+
only showing top 10 rows



- ###  **2.6 Borrar columnas.**

In [28]:
from pyspark.sql.types import StringType,DoubleType,IntegerType

In [29]:
# Creamos una nueva columna la cual vamos luego a eliminar 'Suma_double'.
df_with_new_column.withColumn('Suma_double',df_with_new_column['Suma'].cast(DoubleType())).show(10,False)

+-------------------+----+------------+---------+----+----+-----------+
|Fecha Registro     |Edad|Departamento|Municipio|Sexo|Suma|Suma_double|
+-------------------+----+------------+---------+----+----+-----------+
|2020-12-24 00:00:00|67  |VALLE       |CALI     |F   |134 |134.0      |
|2020-12-24 00:00:00|66  |VALLE       |CALI     |F   |132 |132.0      |
|2020-12-24 00:00:00|68  |VALLE       |CALI     |F   |136 |136.0      |
|2020-12-24 00:00:00|74  |VALLE       |CALI     |F   |148 |148.0      |
|2020-12-24 00:00:00|65  |VALLE       |CALI     |F   |130 |130.0      |
|2020-12-24 00:00:00|66  |VALLE       |CALI     |F   |132 |132.0      |
|2020-12-24 00:00:00|74  |VALLE       |CALI     |F   |148 |148.0      |
|2020-12-24 00:00:00|66  |VALLE       |CALI     |F   |132 |132.0      |
|2020-12-24 00:00:00|64  |VALLE       |CALI     |F   |128 |128.0      |
|2020-12-24 00:00:00|65  |VALLE       |CALI     |F   |130 |130.0      |
+-------------------+----+------------+---------+----+----+-----

In [30]:
# Eliminar la columna 'Suma_double'.
df_with_new_column.drop('Suma_double').show(20)

+-------------------+----+---------------+-----------+----+----+
|     Fecha Registro|Edad|   Departamento|  Municipio|Sexo|Suma|
+-------------------+----+---------------+-----------+----+----+
|2020-12-24 00:00:00|  67|          VALLE|       CALI|   F| 134|
|2020-12-24 00:00:00|  66|          VALLE|       CALI|   F| 132|
|2020-12-24 00:00:00|  68|          VALLE|       CALI|   F| 136|
|2020-12-24 00:00:00|  74|          VALLE|       CALI|   F| 148|
|2020-12-24 00:00:00|  65|          VALLE|       CALI|   F| 130|
|2020-12-24 00:00:00|  66|          VALLE|       CALI|   F| 132|
|2020-12-24 00:00:00|  74|          VALLE|       CALI|   F| 148|
|2020-12-24 00:00:00|  66|          VALLE|       CALI|   F| 132|
|2020-12-24 00:00:00|  64|          VALLE|       CALI|   F| 128|
|2020-12-24 00:00:00|  65|          VALLE|       CALI|   F| 130|
|2020-12-24 00:00:00|  62|          VALLE|       CALI|   F| 124|
|2020-12-24 00:00:00|  36|          VALLE|       CALI|   F|  72|
|2020-12-24 00:00:00|  36

- ###  **2.7 Filtrar datos.**

In [31]:
# Filtrar los registros.
df_with_new_column.filter(df_with_new_column['Departamento']=='ANTIOQUIA').show(10)

+-------------------+----+------------+---------+----+----+
|     Fecha Registro|Edad|Departamento|Municipio|Sexo|Suma|
+-------------------+----+------------+---------+----+----+
|2020-11-08 00:00:00|  37|   ANTIOQUIA| ENVIGADO|   F|  74|
|2020-11-08 00:00:00|  37|   ANTIOQUIA| ENVIGADO|   F|  74|
|2020-11-08 00:00:00|  36|   ANTIOQUIA|   ITAGUI|   F|  72|
|2020-11-08 00:00:00|  63|   ANTIOQUIA| ENVIGADO|   F| 126|
|2020-08-05 00:00:00|  52|   ANTIOQUIA| MEDELLIN|   M| 104|
|2020-11-08 00:00:00|  22|   ANTIOQUIA| MEDELLIN|   M|  44|
|2020-11-08 00:00:00|  42|   ANTIOQUIA| MEDELLIN|   F|  84|
|2020-11-08 00:00:00|  40|   ANTIOQUIA|    BELLO|   M|  80|
|2020-11-08 00:00:00|  52|   ANTIOQUIA| MEDELLIN|   F| 104|
|2020-08-05 00:00:00|  60|   ANTIOQUIA| MEDELLIN|   M| 120|
+-------------------+----+------------+---------+----+----+
only showing top 10 rows



In [32]:
# Filtrar los registros.
df_with_new_column.filter(df_with_new_column['Departamento']=='ANTIOQUIA').select('Edad','Departamento','Municipio').show(10)

+----+------------+---------+
|Edad|Departamento|Municipio|
+----+------------+---------+
|  37|   ANTIOQUIA| ENVIGADO|
|  37|   ANTIOQUIA| ENVIGADO|
|  36|   ANTIOQUIA|   ITAGUI|
|  63|   ANTIOQUIA| ENVIGADO|
|  52|   ANTIOQUIA| MEDELLIN|
|  22|   ANTIOQUIA| MEDELLIN|
|  42|   ANTIOQUIA| MEDELLIN|
|  40|   ANTIOQUIA|    BELLO|
|  52|   ANTIOQUIA| MEDELLIN|
|  60|   ANTIOQUIA| MEDELLIN|
+----+------------+---------+
only showing top 10 rows



In [33]:
# Filtrar multiples condicionales
df_with_new_column.filter((df_with_new_column['Departamento']=='ANTIOQUIA')&(df_with_new_column['Sexo']=='F')).show(10)

+-------------------+----+------------+---------+----+----+
|     Fecha Registro|Edad|Departamento|Municipio|Sexo|Suma|
+-------------------+----+------------+---------+----+----+
|2020-11-08 00:00:00|  37|   ANTIOQUIA| ENVIGADO|   F|  74|
|2020-11-08 00:00:00|  37|   ANTIOQUIA| ENVIGADO|   F|  74|
|2020-11-08 00:00:00|  36|   ANTIOQUIA|   ITAGUI|   F|  72|
|2020-11-08 00:00:00|  63|   ANTIOQUIA| ENVIGADO|   F| 126|
|2020-11-08 00:00:00|  42|   ANTIOQUIA| MEDELLIN|   F|  84|
|2020-11-08 00:00:00|  52|   ANTIOQUIA| MEDELLIN|   F| 104|
|2020-08-05 00:00:00|  25|   ANTIOQUIA| MEDELLIN|   F|  50|
|2020-08-05 00:00:00|  29|   ANTIOQUIA| MEDELLIN|   F|  58|
|2020-08-05 00:00:00|  70|   ANTIOQUIA| MEDELLIN|   F| 140|
|2020-08-17 00:00:00|  48|   ANTIOQUIA|   ITAGUI|   F|  96|
+-------------------+----+------------+---------+----+----+
only showing top 10 rows



In [34]:
# Distintos valores en una columna.
df.select('Sexo').distinct().show(10)

+----+
|Sexo|
+----+
|   F|
|   f|
|   M|
|   m|
+----+



In [35]:
#distinct value count
valor = df.select('Sexo').distinct().count()
print("Distinct count of Department column:",valor)

Distinct count of Department column: 4


In [36]:
df.groupBy('Sexo').count().show(valor,False)

+----+-------+
|Sexo|count  |
+----+-------+
|F   |3417087|
|f   |6      |
|M   |2973872|
|m   |6      |
+----+-------+



In [37]:
# Value counts
df_with_new_column.groupBy('Departamento').count().orderBy('count',ascending=True).show(60)

+---------------+-------+
|   Departamento|  count|
+---------------+-------+
|         Caldas|      1|
|         Tolima|      1|
|       Putumayo|      1|
|   Cundinamarca|      7|
|      Santander|    162|
|         VAUPES|   1972|
|        GUAINIA|   2795|
|        VICHADA|   3496|
|       GUAVIARE|   5692|
|       AMAZONAS|   7879|
|     SAN ANDRES|  10402|
|         ARAUCA|  17387|
|          CHOCO|  18907|
|       PUTUMAYO|  22142|
|        CAQUETA|  25750|
|      MAGDALENA|  33165|
|        BOLIVAR|  40336|
|       CASANARE|  43302|
|        GUAJIRA|  58353|
|          SUCRE|  67471|
|        QUINDIO|  73290|
|          CAUCA|  77337|
| STA MARTA D.E.|  84863|
|          HUILA| 103578|
|           META| 108194|
|         NARIÑO| 108967|
|          CESAR| 109830|
|      RISARALDA| 110235|
|         CALDAS| 120029|
|        CORDOBA| 123095|
|NORTE SANTANDER| 126015|
|         TOLIMA| 127764|
|         BOYACA| 131133|
|      ATLANTICO| 141072|
|      CARTAGENA| 163526|
|   BARRANQU

In [38]:
# Edades diferentes en el dataset.
edades_diferentes = df_with_new_column.select('Edad').distinct().count()

# Mostrar las edades diferentes de forma ascendente.
df_with_new_column.select('Edad').distinct().orderBy('Edad', ascending=True).show(edades_diferentes)

+----+
|Edad|
+----+
|   1|
|   2|
|   3|
|   4|
|   5|
|   6|
|   7|
|   8|
|   9|
|  10|
|  11|
|  12|
|  13|
|  14|
|  15|
|  16|
|  17|
|  18|
|  19|
|  20|
|  21|
|  22|
|  23|
|  24|
|  25|
|  26|
|  27|
|  28|
|  29|
|  30|
|  31|
|  32|
|  33|
|  34|
|  35|
|  36|
|  37|
|  38|
|  39|
|  40|
|  41|
|  42|
|  43|
|  44|
|  45|
|  46|
|  47|
|  48|
|  49|
|  50|
|  51|
|  52|
|  53|
|  54|
|  55|
|  56|
|  57|
|  58|
|  59|
|  60|
|  61|
|  62|
|  63|
|  64|
|  65|
|  66|
|  67|
|  68|
|  69|
|  70|
|  71|
|  72|
|  73|
|  74|
|  75|
|  76|
|  77|
|  78|
|  79|
|  80|
|  81|
|  82|
|  83|
|  84|
|  85|
|  86|
|  87|
|  88|
|  89|
|  90|
|  91|
|  92|
|  93|
|  94|
|  95|
|  96|
|  97|
|  98|
|  99|
| 100|
| 101|
| 102|
| 103|
| 104|
| 105|
| 106|
| 107|
| 108|
| 109|
| 110|
| 111|
| 112|
| 113|
| 114|
+----+



- ###  **2.8 Ejecutar alguna función UDF o lambda sobre alguna columna creando una nueva.**

In [39]:
# Importamos UDF.
from pyspark.sql.functions import udf

In [40]:
# Función para clasificar la edad en rangos de 10 en 10
def clasificar_edad(edad):
    if edad is None:
        return "Desconocido"  # Para manejar valores nulos
    rango_inferior = (edad // 10) * 10
    rango_superior = rango_inferior + 9
    return f"{rango_inferior}-{rango_superior}"

In [41]:
# Registrar la función como una UDF
clasificar_edad_udf = udf(clasificar_edad, StringType())
# Aplicar la UDF sobre la columna "Edad" y crear una nueva columna "Rango_Edad"
df_con_rango = df_with_new_column.withColumn("Rango_Edad", clasificar_edad_udf(df["Edad"]))

# Mostrar el resultado
df_con_rango.show()

+-------------------+----+---------------+-----------+----+----+----------+
|     Fecha Registro|Edad|   Departamento|  Municipio|Sexo|Suma|Rango_Edad|
+-------------------+----+---------------+-----------+----+----+----------+
|2020-12-24 00:00:00|  67|          VALLE|       CALI|   F| 134|     60-69|
|2020-12-24 00:00:00|  66|          VALLE|       CALI|   F| 132|     60-69|
|2020-12-24 00:00:00|  68|          VALLE|       CALI|   F| 136|     60-69|
|2020-12-24 00:00:00|  74|          VALLE|       CALI|   F| 148|     70-79|
|2020-12-24 00:00:00|  65|          VALLE|       CALI|   F| 130|     60-69|
|2020-12-24 00:00:00|  66|          VALLE|       CALI|   F| 132|     60-69|
|2020-12-24 00:00:00|  74|          VALLE|       CALI|   F| 148|     70-79|
|2020-12-24 00:00:00|  66|          VALLE|       CALI|   F| 132|     60-69|
|2020-12-24 00:00:00|  64|          VALLE|       CALI|   F| 128|     60-69|
|2020-12-24 00:00:00|  65|          VALLE|       CALI|   F| 130|     60-69|
|2020-12-24 

In [42]:
# Usando una funcion lamda
age_udf = udf(lambda age: "Joven" if age <= 30 else "Adulto", StringType())
# Aplicando udf en el dataframe.
df_con_rango.withColumn("age_group", age_udf(df_con_rango.Edad)).show(10,False)

+-------------------+----+------------+---------+----+----+----------+---------+
|Fecha Registro     |Edad|Departamento|Municipio|Sexo|Suma|Rango_Edad|age_group|
+-------------------+----+------------+---------+----+----+----------+---------+
|2020-12-24 00:00:00|67  |VALLE       |CALI     |F   |134 |60-69     |Adulto   |
|2020-12-24 00:00:00|66  |VALLE       |CALI     |F   |132 |60-69     |Adulto   |
|2020-12-24 00:00:00|68  |VALLE       |CALI     |F   |136 |60-69     |Adulto   |
|2020-12-24 00:00:00|74  |VALLE       |CALI     |F   |148 |70-79     |Adulto   |
|2020-12-24 00:00:00|65  |VALLE       |CALI     |F   |130 |60-69     |Adulto   |
|2020-12-24 00:00:00|66  |VALLE       |CALI     |F   |132 |60-69     |Adulto   |
|2020-12-24 00:00:00|74  |VALLE       |CALI     |F   |148 |70-79     |Adulto   |
|2020-12-24 00:00:00|66  |VALLE       |CALI     |F   |132 |60-69     |Adulto   |
|2020-12-24 00:00:00|64  |VALLE       |CALI     |F   |128 |60-69     |Adulto   |
|2020-12-24 00:00:00|65  |VA

# **3. Contestar las siguientes preguntas de negocio sobre los datos de covid:**

**ESTE NUMERAL 3, debe ser realizado con 2 tipos de procesamiento Spark: Dataframes y SparkSQL**

**Ver ejemplo de procesamiento en SparkSQL en:
https://www.oreilly.com/library/view/learning-spark-2nd/9781492050032/ch04.html**

**Los datos de prueba de este anterior ejemplo:
https://github.com/databricks/LearningSparkV2/tree/master/databricks-datasets/learning-spark-v2/flights**

- ### **3.1 Los 10 departamentos con más casos de covid en Colombia ordenados de mayor a menor.**
- ### **3.2 Las 10 ciudades con más casos de covid en Colombia ordenados de mayor a menor.**
- ### **3.3 Los 10 días con más casos de covid en Colombia ordenados de mayor a menor.**
- ### **3.4 Distribución de casos por edades de covid en Colombia.**
- ### **3.5 Realice la pregunda de negocio que quiera sobre los datos y respondala con la correspondiente programación en spark.**

## **CON DATAFRAMES.**

- ### **3.1 Los 10 departamentos con más casos de covid en Colombia ordenados de mayor a menor.**

In [43]:
from pyspark.sql.functions import col, desc

In [44]:
# Agrupar por departamento y contar los casos
top_departamentos = df_with_new_column.groupBy("Departamento").count().orderBy(desc("count")).limit(10)
top_departamentos.show()

+------------+-------+
|Departamento|  count|
+------------+-------+
|      BOGOTA|1888137|
|   ANTIOQUIA| 955271|
|       VALLE| 572724|
|CUNDINAMARCA| 331331|
|   SANTANDER| 297370|
|BARRANQUILLA| 277989|
|   CARTAGENA| 163526|
|   ATLANTICO| 141072|
|      BOYACA| 131133|
|      TOLIMA| 127764|
+------------+-------+



- ### **3.2 Las 10 ciudades con más casos de covid en Colombia ordenados de mayor a menor.**

In [45]:
# Agrupar por ciudad (En el este caso, es Municipio.) y contar los casos
top_ciudad = df_with_new_column.groupBy("Municipio").count().orderBy(desc("count")).limit(10)
top_ciudad.show()

+------------+-------+
|   Municipio|  count|
+------------+-------+
|      BOGOTA|1888137|
|    MEDELLIN| 550790|
|        CALI| 406751|
|BARRANQUILLA| 277989|
|   CARTAGENA| 163526|
| BUCARAMANGA| 142842|
|      IBAGUE|  91598|
| SANTA MARTA|  84863|
|   MANIZALES|  84478|
|      CUCUTA|  77359|
+------------+-------+



- ### **3.3 Los 10 días con más casos de covid en Colombia ordenados de mayor a menor.**

In [46]:
# Agrupar por Fecha de registro y contar los casos.
top_fecha = df_with_new_column.groupBy("Fecha Registro").count().orderBy(desc("count")).limit(10)
top_fecha.show()

+-------------------+-----+
|     Fecha Registro|count|
+-------------------+-----+
|2022-01-15 00:00:00|35576|
|2022-01-14 00:00:00|34924|
|2021-06-26 00:00:00|33593|
|2021-06-24 00:00:00|32997|
|2021-06-25 00:00:00|32732|
|2021-06-27 00:00:00|32377|
|2022-01-16 00:00:00|32318|
|2022-01-08 00:00:00|31170|
|2022-01-21 00:00:00|31039|
|2022-01-09 00:00:00|30630|
+-------------------+-----+



- ### **3.4 Distribución de casos por edades de covid en Colombia.**

In [47]:
# Agrupar por Edad y contar los casos.
# Edades diferentes en el dataset.
edades_diferentes = df_with_new_column.select('Edad').distinct().count()
edades = df_with_new_column.groupBy("Edad").count().orderBy(desc("count")).limit(edades_diferentes)
edades.show(edades_diferentes)

+----+------+
|Edad| count|
+----+------+
|  30|152958|
|  29|151462|
|  28|151306|
|  31|149885|
|  27|149393|
|  26|148680|
|  32|146696|
|  25|142829|
|  33|141574|
|  35|140235|
|  34|138847|
|  36|138467|
|  24|135788|
|  38|134881|
|  37|134255|
|  39|133056|
|  40|131115|
|  41|126219|
|  23|125315|
|  42|117987|
|  22|115027|
|  43|111028|
|  21|106309|
|  44|105934|
|  45|101553|
|  46| 96587|
|  49| 94243|
|  47| 94180|
|  20| 93686|
|  48| 93191|
|  50| 92907|
|  51| 90744|
|  52| 90305|
|  53| 88702|
|  54| 87667|
|  55| 86660|
|  56| 85580|
|  57| 84028|
|  19| 80783|
|  58| 80198|
|  59| 76675|
|  60| 74524|
|  61| 69375|
|  62| 65734|
|  18| 64310|
|  63| 61170|
|  64| 57508|
|  65| 52856|
|  17| 52437|
|  66| 48922|
|  16| 46546|
|  67| 45707|
|  15| 43189|
|  68| 42967|
|  14| 39774|
|  69| 39753|
|  70| 37931|
|  13| 36646|
|  71| 35683|
|  11| 34814|
|  12| 34208|
|  72| 33733|
|   1| 33429|
|  10| 31768|
|  73| 31707|
|   9| 30256|
|  74| 29176|
|   8| 28717|
|  75|

- ### **3.5 Realice la pregunda de negocio que quiera sobre los datos y respondala con la correspondiente programación en spark.**

**¿Cuál es el promedio de edad de los casos registrados en los 5 departamentos con más casos?**

In [48]:
# Calcular el promedio de edad en estos departamentos
from pyspark.sql.functions import avg

In [49]:
# Obtener los 5 departamentos con más casos
top_5_departamentos = df_with_new_column.groupBy("Departamento").count().orderBy(desc("count")).limit(5)

# Filtrar el DataFrame original para incluir solo los 5 departamentos principales
df_top_5 = df_with_new_column.join(top_5_departamentos, on="Departamento", how="inner")

promedio_edad_top_5 = df_top_5.groupBy("Departamento").agg(avg("Edad").alias("Promedio_Edad")).orderBy(desc("Promedio_Edad"))
promedio_edad_top_5.show()

+------------+-----------------+
|Departamento|    Promedio_Edad|
+------------+-----------------+
|       VALLE| 41.5677219742843|
|   SANTANDER|41.30062548340451|
|   ANTIOQUIA|39.44484654092922|
|      BOGOTA|39.22756664373401|
|CUNDINAMARCA|39.05846117628595|
+------------+-----------------+



## **CON SPARKSQL.**

- ### **3.0 Configuraciones iniciales.**

In [50]:
# Creamos la tabla 'Covid19' con el contenido del dataframe ya establecido antes 'df_with_new_column'.
df_with_new_column.createOrReplaceTempView('Covid19')

In [51]:
# Mostramos el contenido de las 10 primeras entradas de la tabla 'Covid19'.
spark.sql('SELECT * from Covid19').show(10)

+-------------------+----+------------+---------+----+----+
|     Fecha Registro|Edad|Departamento|Municipio|Sexo|Suma|
+-------------------+----+------------+---------+----+----+
|2020-12-24 00:00:00|  67|       VALLE|     CALI|   F| 134|
|2020-12-24 00:00:00|  66|       VALLE|     CALI|   F| 132|
|2020-12-24 00:00:00|  68|       VALLE|     CALI|   F| 136|
|2020-12-24 00:00:00|  74|       VALLE|     CALI|   F| 148|
|2020-12-24 00:00:00|  65|       VALLE|     CALI|   F| 130|
|2020-12-24 00:00:00|  66|       VALLE|     CALI|   F| 132|
|2020-12-24 00:00:00|  74|       VALLE|     CALI|   F| 148|
|2020-12-24 00:00:00|  66|       VALLE|     CALI|   F| 132|
|2020-12-24 00:00:00|  64|       VALLE|     CALI|   F| 128|
|2020-12-24 00:00:00|  65|       VALLE|     CALI|   F| 130|
+-------------------+----+------------+---------+----+----+
only showing top 10 rows



- ### **3.1 Los 10 departamentos con más casos de covid en Colombia ordenados de mayor a menor.**

In [52]:
# Realizamos la query para optener los 10 departamentos con más casos de covid en colombia ordenados de mayor a menor.
spark.sql('SELECT Departamento, COUNT(*) as Total_Casos FROM Covid19 GROUP BY Departamento ORDER BY Total_Casos DESC LIMIT 10').show()

+------------+-----------+
|Departamento|Total_Casos|
+------------+-----------+
|      BOGOTA|    1888137|
|   ANTIOQUIA|     955271|
|       VALLE|     572724|
|CUNDINAMARCA|     331331|
|   SANTANDER|     297370|
|BARRANQUILLA|     277989|
|   CARTAGENA|     163526|
|   ATLANTICO|     141072|
|      BOYACA|     131133|
|      TOLIMA|     127764|
+------------+-----------+



- ### **3.2 Las 10 ciudades con más casos de covid en Colombia ordenados de mayor a menor.**

In [53]:
# Realizamos la query para optener las 10 ciudades (municipios) con más casos de covid en Colombia Ordenados de mayor a menor.
spark.sql('SELECT Municipio, COUNT(*) as Total_Casos FROM Covid19 GROUP BY Municipio ORDER BY Total_Casos DESC LIMIT 10').show()

+------------+-----------+
|   Municipio|Total_Casos|
+------------+-----------+
|      BOGOTA|    1888137|
|    MEDELLIN|     550790|
|        CALI|     406751|
|BARRANQUILLA|     277989|
|   CARTAGENA|     163526|
| BUCARAMANGA|     142842|
|      IBAGUE|      91598|
| SANTA MARTA|      84863|
|   MANIZALES|      84478|
|      CUCUTA|      77359|
+------------+-----------+



- ### **3.3 Los 10 días con más casos de covid en Colombia ordenados de mayor a menor.**

In [54]:
# Realizamos la query para optener los 10 días con más casos de covid en Colombia Ordenados de mayor a menor.
spark.sql('SELECT `Fecha Registro`, COUNT(*) as Total_Casos FROM Covid19 GROUP BY `Fecha Registro` ORDER BY Total_Casos DESC LIMIT 10').show()

+-------------------+-----------+
|     Fecha Registro|Total_Casos|
+-------------------+-----------+
|2022-01-15 00:00:00|      35576|
|2022-01-14 00:00:00|      34924|
|2021-06-26 00:00:00|      33593|
|2021-06-24 00:00:00|      32997|
|2021-06-25 00:00:00|      32732|
|2021-06-27 00:00:00|      32377|
|2022-01-16 00:00:00|      32318|
|2022-01-08 00:00:00|      31170|
|2022-01-21 00:00:00|      31039|
|2022-01-09 00:00:00|      30630|
+-------------------+-----------+



- ### **3.4 Distribución de casos por edades de covid en Colombia.**

In [55]:
# Realizar la query para optener la distribución de los casos pro edades de covid en Colombia.
spark.sql('SELECT Edad, COUNT(*) as Total_Casos FROM Covid19 GROUP BY Edad ORDER BY Edad').show()

+----+-----------+
|Edad|Total_Casos|
+----+-----------+
|   1|      33429|
|   2|      26207|
|   3|      24223|
|   4|      23905|
|   5|      24768|
|   6|      26380|
|   7|      26067|
|   8|      28717|
|   9|      30256|
|  10|      31768|
|  11|      34814|
|  12|      34208|
|  13|      36646|
|  14|      39774|
|  15|      43189|
|  16|      46546|
|  17|      52437|
|  18|      64310|
|  19|      80783|
|  20|      93686|
+----+-----------+
only showing top 20 rows



- ### **3.5 Realice la pregunda de negocio que quiera sobre los datos y respondala con la correspondiente programación en spark.**

**¿Cuál es el promedio de edad de los casos registrados en los 5 departamentos con más casos?**

In [56]:
# Realizar query para optener el promedio de eddes de los casos registados en los 5 departamentos con más casos.
query = """
  SELECT Departamento, Promedio_Edad
    FROM (SELECT cd.Departamento, COUNT(*) AS total_casos, AVG(cd.Edad) AS Promedio_Edad
    FROM Covid19 cd
    GROUP BY cd.Departamento
    ORDER BY total_casos DESC
    LIMIT 5
  ) subquery
"""
result = spark.sql(query)
result.show()

+------------+-----------------+
|Departamento|    Promedio_Edad|
+------------+-----------------+
|      BOGOTA|39.22756664373401|
|   ANTIOQUIA|39.44484654092922|
|       VALLE| 41.5677219742843|
|CUNDINAMARCA|39.05846117628595|
|   SANTANDER|41.30062548340451|
+------------+-----------------+



# **4. Salve los datos del numeral 3, en el bucket público de cada estudiante**

In [57]:
#current working directory
!pwd

/content/gdrive/MyDrive/Semestre_2024.2/04._Tópicos_Espec_en_Telemática/Labs/st0263-242/bigdata/datasets


In [60]:
#target directory
write_uri='/content/gdrive/MyDrive/Semestre_2024.2/04._Tópicos_Espec_en_Telemática/Labs/st0263-242/bigdata/datasets/df.csv'

In [61]:
#save the dataframe as single csv
df_con_rango.coalesce(1).write.format("csv").option("header","true").save(write_uri)

In [63]:
%ls

airlines.csv  Covid19-Colombia.csv  [0m[01;34mgutenberg[0m/        [01;34motros[0m/           [01;34mspark[0m/
[01;34mall-news[0m/     [01;34mdf.csv[0m/               [01;34mgutenberg-small[0m/  [01;34mretail_logs[0m/     [01;34mspark-3.5.3-bin-hadoop3[0m/
[01;34mcovid19[0m/      [01;34mflights[0m/              [01;34monu[0m/              sample_data.csv  spark-3.5.3-bin-hadoop3.tgz
