
###*Pontificia Universidad Javeriana*

**Fecha**: 4 de marzo 2024

**Profesor**: John Corredor, PhD

**Materia**: Procesamiento de Alto Volumen de Datos

**Objetivo**: Primer Parcial **Modelo A**

###**Nombre Estudiante**: Alberto Luis Vigna Arroyo

###**ID Estudiante**: C.C 1193215807

**Contexto**
- Se presenta un conjunto de datos (dataset) los cuales representan las ventas de productos en el año 2019
- Cada dataset tiene los siguientes campos
     
      - ID Orden: identificador de orden de compra
     
      - Producto: Descripción de producto
     
      - Cantidad Ordenada: cantidad de productos del mismo tipo ordenados/pedidos/comprados
     
      - Precio Unitarios: valor comercial del producto
     
      - Fecha: fecha del producto vendido, formato: mes/día/año hora
     
      - Dirección de compra: dirección de venta del producto, formato: dirección, ciudad, iniciales del departamento

- El conjunto de datos se ubica en la carpeta del enlace <https://github.com/corredor-john/ExploratoryDataAnalisys/tree/main/Ventas>
- A continuación de se presenta los pasos a seguir a para el desarrollo del parcial

##1. Cargar las bibliotecas necesarias y la sesión PYSPARK

In [49]:
# Importar las bibliotecas necesarias:

# PySpark
import pyspark

from pyspark import SparkContext
from pyspark.sql import SQLContext, Row
from pyspark.sql.types import IntegerType, DoubleType, DateType, FloatType
from pyspark.sql.functions import col, concat, lit, to_date, month, from_unixtime, unix_timestamp, date_format, split, count, when, desc, asc, avg


# MatPlotLib
import matplotlib.pyplot as plt



# Pandas
import pandas as pd

ModuleNotFoundError: No module named 'pyspark'

##2. DataFrame PySpark (10 pts)
####2.1.- Crear un dataframe PySpark con los conjuntos de datos de la carpeta dada en el enlace

In [ ]:
# Se levanta la sesión de PySpart, para hacer uso de los métodos y herramientas que dispone.

sc = SparkContext.getOrCreate()
sql_sc = SQLContext(sc)

sc

In [ ]:
# Se carga el dataset de ventas:

headerVentas = [
    "IdOrden", 
    "Producto",
    "CantidadOrdenada",
    "PrecioUnitario",
    "Fecha",
    "DirecciónDeCompra"
]

print("Header de los datos: \n", headerVentas)

# Se cargan los datos del dataset de "Ventas Enero":
pathVentasJanuary = "https://raw.githubusercontent.com/corredor-john/ExploratoryDataAnalisys/main/Ventas/Ventas_January_2019.csv"

# Se cargan los datos del dataset de "Ventas Febrero":
pathVentasFebrary = "https://raw.githubusercontent.com/corredor-john/ExploratoryDataAnalisys/main/Ventas/Ventas_February_2019.csv"

# Se cargan los datos del dataset de "Ventas Marzo": 
pathVentasMarch = "https://raw.githubusercontent.com/corredor-john/ExploratoryDataAnalisys/main/Ventas/Ventas_March_2019.csv"

# Se cargan los datos del dataset de "Ventas Abril":
pathVentasAbril = "https://raw.githubusercontent.com/corredor-john/ExploratoryDataAnalisys/main/Ventas/Ventas_April_2019.csv"

# Se cargan los datos del dataset de "Ventas Mayo":
pathVentasMayo = "https://raw.githubusercontent.com/corredor-john/ExploratoryDataAnalisys/main/Ventas/Ventas_May_2019.csv"

# Se cargan los datos del dataset de "Ventas Junio":
pathVentasJunio = "https://raw.githubusercontent.com/corredor-john/ExploratoryDataAnalisys/main/Ventas/Ventas_June_2019.csv"

# Se cargan los datos del dataset de "Ventas Julio":
pathVentasJulio = "https://raw.githubusercontent.com/corredor-john/ExploratoryDataAnalisys/main/Ventas/Ventas_July_2019.csv"

# Se cargan los datos del dataset de "Ventas Agosto":
pathVentasAgosto = "https://raw.githubusercontent.com/corredor-john/ExploratoryDataAnalisys/main/Ventas/Ventas_August_2019.csv"

# Se cargan los datos del dataset de "Ventas Septiembre":
pathVentasSeptiembre = "https://raw.githubusercontent.com/corredor-john/ExploratoryDataAnalisys/main/Ventas/Ventas_September_2019.csv"

# Se cargan los datos del dataset de "Ventas Octubre":
pathVentasOctubre = "https://raw.githubusercontent.com/corredor-john/ExploratoryDataAnalisys/main/Ventas/Ventas_October_2019.csv"

# Se cargan los datos del dataset de "Ventas Noviembre":
pathVentasNoviembre = "https://raw.githubusercontent.com/corredor-john/ExploratoryDataAnalisys/main/Ventas/Ventas_November_2019.csv"

# Se cargan los datos del dataset de "Ventas Diciembre":
pathVentasDiciembre = "https://raw.githubusercontent.com/corredor-john/ExploratoryDataAnalisys/main/Ventas/Ventas_December_2019.csv"

####2.2.- Presentar el tipo de datos del dataframe spark (5 pts)

In [ ]:
# Cargar los DataFrames de los demás meses
DF_Ventas_january = pd.read_csv(pathVentasJanuary, sep = ',', names = headerVentas)
DF_Ventas_febrary = pd.read_csv(pathVentasFebrary, sep = ',', names = headerVentas)
DF_Ventas_march = pd.read_csv(pathVentasMarch, sep = ',', names = headerVentas)
DF_Ventas_april = pd.read_csv(pathVentasAbril, sep = ',', names = headerVentas)
DF_Ventas_may = pd.read_csv(pathVentasMayo, sep = ',', names = headerVentas)
DF_Ventas_june = pd.read_csv(pathVentasJunio, sep = ',', names = headerVentas)
DF_Ventas_july = pd.read_csv(pathVentasJulio, sep = ',', names = headerVentas)
DF_Ventas_august = pd.read_csv(pathVentasAgosto, sep = ',', names = headerVentas)
DF_Ventas_september = pd.read_csv(pathVentasSeptiembre, sep = ',', names = headerVentas)
DF_Ventas_october = pd.read_csv(pathVentasOctubre, sep = ',', names = headerVentas)
DF_Ventas_november = pd.read_csv(pathVentasNoviembre, sep = ',', names = headerVentas)
DF_Ventas_december = pd.read_csv(pathVentasDiciembre, sep = ',', names = headerVentas)

# Unificar los DataFrames
DF_Ventas_unificado = pd.concat([DF_Ventas_january, DF_Ventas_febrary, DF_Ventas_march,
                                DF_Ventas_april, DF_Ventas_may, DF_Ventas_june,
                                DF_Ventas_july, DF_Ventas_august, DF_Ventas_september,
                                DF_Ventas_october, DF_Ventas_november, DF_Ventas_december])


# Se cargan los datos a un dataframe de PySpark y visualizarlos con Spark directamente:
DFS_Ventas_Unificadas = sql_sc.createDataFrame(DF_Ventas_unificado)
DFS_Ventas_Unificadas.show(10)


In [ ]:
print("La cantidad de registros en el Data Frame de Spark es: " + str(DFS_Ventas_Unificadas.count()))

####2.3.-Se requiere cambiar los nombres de las columnas: (3 pts)
  - 'Producto '->'Producto'
  - ' Cantidad Ordenada'->'Cantidad'
  - 'Precio Unitario '->'Precio_Unitario'

In [ ]:
# Mostrar las columnas iniciales:
DFS_Ventas_Unificadas.columns

In [ ]:
# Cambiar nombres de las columnas en PySpark DataFrame
DFS_Ventas_Unificadas = DFS_Ventas_Unificadas.withColumnRenamed("Producto ", "Producto") \
                                             .withColumnRenamed("CantidadOrdenada", "Cantidad") \
                                             .withColumnRenamed("PrecioUnitario", "Precio_Unitario")

# Mostrar el DataFrame con los nombres de las columnas modificados
DFS_Ventas_Unificadas.show(10)


####2.4.- Convertir las columnas requeridas a los tipos de datos correspondientes (2 pts)

In [ ]:
# Se presentan los tipos de datos del dataset, y si pueden o no existir datos imposibles/nulos/etc.
DFS_Ventas_Unificadas.printSchema()

In [ ]:
# Convertir columnas a tipos de datos correspondientes
DFS_Ventas_Unificadas = DFS_Ventas_Unificadas \
    .withColumn("IdOrden", col("IdOrden").cast(IntegerType())) \
    .withColumn("Cantidad", col("Cantidad").cast(IntegerType())) \
    .withColumn("Precio_Unitario", col("Precio_Unitario").cast(DoubleType())) \
    .withColumn("Fecha", to_date(from_unixtime(unix_timestamp("Fecha", "MM/dd/yy HH:mm"))))

# Mostrar el DataFrame con los tipos de datos modificados
DFS_Ventas_Unificadas.printSchema()


##3.- Creación de variables: derivación de variables *(20pts)*

####3.1.-Se requiere Crear nueva columna **Mes** a partir de la columna *Fecha* (5 pts)

In [ ]:
# Crear nueva columna 'Mes' con el nombre del mes
DFS_Ventas_Unificadas = DFS_Ventas_Unificadas.withColumn("Mes", date_format("Fecha", "MMMM"))

# Mostrar el DataFrame con la nueva columna 'Mes'
DFS_Ventas_Unificadas.show(5)

####3.2.-Se requiere Crear 3 nuevas columnas (**Dirección**, **Ciudad**, **Departamento**) a partir de la columna *Dirección de Compra* (5 pts)

In [ ]:
# Crear nuevas columnas 'Dirección', 'Ciudad', 'Departamento' a partir de 'DirecciónDeCompra'
DFS_Ventas_Unificadas = DFS_Ventas_Unificadas \
    .withColumn("Dirección", split(col("DirecciónDeCompra"), ',')[0]) \
    .withColumn("Ciudad", split(col("DirecciónDeCompra"), ',')[1]) \
    .withColumn("Departamento", split(col("DirecciónDeCompra"), ',')[2])

# Mostrar el DataFrame con las nuevas columnas
DFS_Ventas_Unificadas.show(40)

In [ ]:
DFS_Ventas_Unificadas.limit(4).toPandas()

####3.3.-Se requiere crear una nueva columna 'Ciudad(Departamento)', a partir de las columnas Ciudad y Departamento (5 pts)

In [ ]:
from pyspark.sql.functions import col, concat, lit

# Crear nueva columna 'Ciudad(Departamento)'
DFS_Ventas_Unificadas = DFS_Ventas_Unificadas.withColumn("Ciudad(Departamento)", concat(col("Ciudad"), lit("("), col("Departamento"), lit(")")))

# Mostrar el DataFrame con la nueva columna 'Ciudad(Departamento)'
DFS_Ventas_Unificadas.show(5)

In [ ]:
DFS_Ventas_Unificadas.limit(6).toPandas()

####3.4.- Eliminar las columnas: 'Dirección de Compra', 'Ciudad', 'Departamento' (5 pts)

In [ ]:
# Eliminar las columnas 'DirecciónDeCompra', 'Ciudad', 'Departamento'
DFS_Ventas_Unificadas = DFS_Ventas_Unificadas.drop("DirecciónDeCompra", "Ciudad", "Departamento")

# Mostrar el DataFrame con las columnas eliminadas
DFS_Ventas_Unificadas.show(5)

##4.- Limpieza de Datos y Análisis Exploratorio de Datos (40 pts)

####4.1.- Se requiere una tabla que presente la cantidad de datos nulos por variable (1pts)

In [ ]:
# Calcular la cantidad de datos nulos por variable
nulos_por_variable = DFS_Ventas_Unificadas.select(*[count(when(col(c).isNull(), c)).alias(f'Nulos_{c}') for c in DFS_Ventas_Unificadas.columns])

# Mostrar la tabla con la cantidad de datos nulos por variable
nulos_por_variable.show()

####4.2.- Se requiere que los valores nulos encontrados de la variable Producto, sean cambiados por el producto más vendido (8 pts)

In [ ]:
# Calcular el producto más vendido
producto_mas_vendido = DFS_Ventas_Unificadas.groupBy("Producto").count().orderBy(desc("count")).first()["Producto"]
print("El producto más vendido ha sido: " + producto_mas_vendido)

# Rellenar los valores nulos en 'Producto' con el producto más vendido
DFS_Ventas_Unificadas = DFS_Ventas_Unificadas.withColumn("Producto", when(col("Producto").isNull(), producto_mas_vendido).otherwise(col("Producto")))

# Mostrar el DataFrame
DFS_Ventas_Unificadas.show(5)

In [ ]:
# Se vuelve a hacer lo que se hizo en el punto de arriba para poder ver cuantos productos nulos hay 
# Calcular la cantidad de datos nulos por variable
nulos_por_variable = DFS_Ventas_Unificadas.select(*[count(when(col(c).isNull(), c)).alias(f'Nulos_{c}') for c in DFS_Ventas_Unificadas.columns])

# Mostrar la tabla con la cantidad de datos nulos por variable
nulos_por_variable.show()

####4.3.-Se requiere saber el promedio de precios de cada Producto (1 pts)

In [ ]:
# Calcular el promedio de precios por producto
promedio_precios = DFS_Ventas_Unificadas.groupBy("Producto").agg(avg("Precio_Unitario").alias("Promedio_Precio"))

# Mostrar el DataFrame con el promedio de precios por producto
promedio_precios.show()


####4.4.- Se requiere que se sustituya los valores Nulos de la variable 'Precio_Unitario', cuando la variable Producto sea:
          - Cable de Carga USB-C P/O
          - Cable de Carga Lightning
####por el precio promedio de los dos productos anteriores (8 pts).

In [ ]:
# Calcular el promedio de precios para los productos específicos
productos_especificos = ["Cable de Carga USB-C P/O", "Cable de Carga Lightning"]
promedio_precios_especificos = DFS_Ventas_Unificadas.filter(col("Producto").isin(productos_especificos)).groupBy().agg(avg("Precio_Unitario").alias("Promedio_Precio_Especifico")).collect()[0]["Promedio_Precio_Especifico"]

# Sustituir los valores nulos en 'Precio_Unitario' con el promedio calculado
DFS_Ventas_Unificadas = DFS_Ventas_Unificadas.withColumn("Precio_Unitario", when((col("Producto").isin(productos_especificos)) & col("Precio_Unitario").isNull(), promedio_precios_especificos).otherwise(col("Precio_Unitario")))

# Mostrar el DataFrame con los valores nulos en 'Precio_Unitario' actualizados
DFS_Ventas_Unificadas.show(5)

####4.5.- ¿Cúantos valores nulos quedaron de la variable Precio_Unitario? (1pts)

In [ ]:
# Contar la cantidad de valores nulos en 'Precio_Unitario'
valores_nulos_precio = DFS_Ventas_Unificadas.select(count(when(col("Precio_Unitario").isNull(), "Precio_Unitario")))

# Mostrar la cantidad de valores nulos en 'Precio_Unitario'
valores_nulos_precio.show()

####4.6.- Elimine los valores nulos restantes del Dataframe (verifique) (2pts)

In [ ]:
# Eliminar las filas con valores nulos restantes
DFS_Ventas_Unificadas = DFS_Ventas_Unificadas.na.drop()

# Verificar el DataFrame después de eliminar los valores nulos
DFS_Ventas_Unificadas.show(5)

In [ ]:
# Se vuelve a hacer lo que se hizo en el punto de arriba para poder ver cuantos productos nulos hay 
# Calcular la cantidad de datos nulos por variable
nulos_por_variable = DFS_Ventas_Unificadas.select(*[count(when(col(c).isNull(), c)).alias(f'Nulos_{c}') for c in DFS_Ventas_Unificadas.columns])

# Mostrar la tabla con la cantidad de datos nulos por variable
nulos_por_variable.show()

####4.7.- Haga una tabla y un gráfico histograma de cantidad de ventas por mes (8pts)

In [ ]:
# Convertir la columna 'Fecha' a tipo de dato de fecha
DFS_Ventas_Unificadas = DFS_Ventas_Unificadas.withColumn("Fecha", col("Fecha").cast("date"))

# Extraer el mes de la columna 'Fecha'
DFS_Ventas_Unificadas = DFS_Ventas_Unificadas.withColumn("Mes", month("Fecha"))

# Crear tabla de cantidad de ventas por mes
ventas_por_mes = DFS_Ventas_Unificadas.groupBy("Mes").count().orderBy("Mes")

# Mostrar la tabla
ventas_por_mes.show()

# Convertir a Pandas para el gráfico de histograma
ventas_por_mes_pd = ventas_por_mes.toPandas()

# Crear gráfico de histograma
plt.bar(ventas_por_mes_pd["Mes"], ventas_por_mes_pd["count"])
plt.xlabel('Mes')
plt.ylabel('Cantidad de Ventas')
plt.title('Cantidad de Ventas por Mes')
plt.show()


####4.8.- Presente un resumen estadístico del dataframe (1pts)

In [ ]:
# Obtener el resumen estadístico del DataFrame
resumen_estadistico = DFS_Ventas_Unificadas.describe()

# Mostrar el resumen estadístico
resumen_estadistico.show()

####4.9.- Se requiere presentar la cantidad de ventas por Ciudad(Departamento) y hacer un histograma (8pts).

In [ ]:
# Agrupar por 'Ciudad(Departamento)' y contar la cantidad de ventas
ventas_por_ciudad = DFS_Ventas_Unificadas.groupBy("Ciudad(Departamento)").count().orderBy("count", ascending=False)

# Mostrar la tabla
ventas_por_ciudad.show()

# Convertir a Pandas para el gráfico de histograma
ventas_por_ciudad_pd = ventas_por_ciudad.toPandas()

# Crear gráfico de histograma
plt.bar(ventas_por_ciudad_pd["Ciudad(Departamento)"], ventas_por_ciudad_pd["count"])
plt.xlabel('Ciudad(Departamento)')
plt.ylabel('Cantidad de Ventas')
plt.title('Cantidad de Ventas por Ciudad(Departamento)')
plt.xticks(rotation=45, ha='right')  # Rotar las etiquetas del eje x para mayor legibilidad
plt.show()

##5.-Responda justificando las siguientes preguntas (30 pts):
#### 5.1.- Escriba 5 observaciones de la gráfica *4.7* (10 pts)

In [ ]:
# Crear gráfico de histograma
plt.bar(ventas_por_mes_pd["Mes"], ventas_por_mes_pd["count"])
plt.xlabel('Mes')
plt.ylabel('Cantidad de Ventas')
plt.title('Cantidad de Ventas por Mes')
plt.show()

Visualizando la gráfica es posible observar los siguiente: 
1. El mes donde más se venden productos es el mes 12 (o diciembre), esto es algo bastante "predecible" debido a que es la época de dar y recibir (en teoría) regalos.
2. El mes donde menos se venden productos es el mes 9 (o septiembre), esto podría verse presentado gracias a que septiembre es un mes bastante tranquilo, sin ninguna festividad en especial y con la gente ahorrando para las navidades.
3. En el mes de agosto se puede evidenciar un pico que incluso situa a este mes como el segundo mes con más ventas, esto puede verse presentado por el regreso a clases, donde estudiantes buscan adquirir todo tipo de productos para sus semestres o años escolares.
4. En el mes de junio es posible ver que tambien hay un pico (aunque no tan alto), puede verse por el ingreso de las vacaciones y que la gente suele comprar más cosas para disfrutar de estas.
5. Octubre y noviembre tienen ventas muy simulares, puede verse presentado por festividades como halloween (para el caso de octubre) y el black friday (para noviembre).

#### 5.2.-¿Cúal fue la ciudad que más productos vendió? (5 pts)

In [ ]:
# Ordenar la tabla por cantidad de ventas de manera descendente
ciudad_mas_productos = ventas_por_ciudad.orderBy("count", ascending=False).first()["Ciudad(Departamento)"]

# Mostrar la ciudad que más productos vendió
print("La ciudad que más productos vendió es:", ciudad_mas_productos)

In [ ]:
La ciduad con más ventas es Medellín, esto debido a su gran población y a su gran cantidad de comercios.

#### 5.3.-¿Cúal es el producto más vendido? (5 pts)

In [ ]:
# Agrupar por 'Producto' y contar la cantidad de ventas
ventas_por_producto = DFS_Ventas_Unificadas.groupBy("Producto").count()

# Ordenar la tabla por cantidad de ventas de manera descendente
producto_mas_vendido = ventas_por_producto.orderBy(desc("count")).first()["Producto"]

# Mostrar el producto más vendido
print("El producto más vendido es:", producto_mas_vendido)

In [ ]:
El producto más vendido es el Cable de Carga USB-C P/O. Esto es debido a que es algo que casi todos necesitamos para cargar nuestros dispositivos.

#### 5.4.-¿Cúal es el producto menos vendido? (5 pts)

In [ ]:
# Agrupar por 'Producto' y contar la cantidad de ventas
ventas_por_producto = DFS_Ventas_Unificadas.groupBy("Producto").count()

# Ordenar la tabla por cantidad de ventas de manera ascendente
producto_menos_vendido = ventas_por_producto.orderBy(asc("count")).first()["Producto"]

# Mostrar el producto menos vendido
print("El producto menos vendido es:", producto_menos_vendido)


El producto menos vendido es la lavadora LG de 19Kg Inv WT19. Esto es de esperar debido a que uno no compra una lavadora todos los días y además, el producto es de un costo elevado.

#### 5.5.-¿Cúal es la proporción de ventas de la ciudad que más vendió productos? (5 pts)

In [ ]:
# Obtener el total de ventas en todas las ciudades
total_ventas = DFS_Ventas_Unificadas.count()

# Obtener la cantidad de ventas en la ciudad que más productos vendió
ventas_ciudad_mas_productos = ventas_por_ciudad.where(col("Ciudad(Departamento)") == ciudad_mas_productos).first()["count"]

# Calcular la proporción
proporcion_ventas_ciudad_mas_productos = ventas_ciudad_mas_productos / total_ventas

# Mostrar la proporción de ventas de la ciudad que más vendió productos
print("La proporción de ventas de la ciudad que más vendió productos es:", proporcion_ventas_ciudad_mas_productos)


La proporción de ventas de la ciudad que más productos vendió es del 24.01%. Esto significa que aproximadamente el 24.01% de todas las ventas registradas en el conjunto de datos provienen de esa ciudad en particular. En términos porcentuales, la ciudad en cuestión tiene una participación significativa en el total de ventas, destacándose como un contribuyente importante al volumen de transacciones.