In [2]:
pip install findspark

Collecting findspark
  Downloading findspark-2.0.1-py2.py3-none-any.whl (4.4 kB)
Installing collected packages: findspark
Successfully installed findspark-2.0.1


In [3]:
pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.1.tar.gz (317.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.0/317.0 MB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.1-py2.py3-none-any.whl size=317488491 sha256=0a7e36676e002d2747b35c5f50da3e0c3deaf337b8b1500feab30464318ef8ad
  Stored in directory: /root/.cache/pip/wheels/80/1d/60/2c256ed38dddce2fdd93be545214a63e02fbd8d74fb0b7f3a6
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.1


In [9]:
import findspark
findspark.init()
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql import SparkSession

import pandas as pd
import numpy as np

In [5]:
spark = SparkSession.builder \
    .appName("Productos") \
    .getOrCreate()


In [11]:
# Crear un rango de fechas
fechas = pd.date_range(start='2022-01-01', periods=100, freq='D')

# Formatear las fechas a 'dd-MM-yyyy'
fechas = fechas.strftime('%d-%m-%Y')

# Categorías
categorias = ['Comida para perros', 'Comida para gatos', 'Comida para aves', 'Comida para peces']

# Generar datos aleatorios para las ventas, ingresos, promociones y descuentos
np.random.seed(0)  # Para reproducibilidad
ventas = np.random.randint(1, 100, size=100)
ingresos = np.round(ventas * np.random.uniform(5, 20, size=100), 2)  # Ingresos con máximo 2 decimales
promociones = np.random.randint(0, 10, size=100)
descuentos = np.where(ventas >= 75, 0.20, np.where(ventas >= 50, 0.15, np.where(ventas >= 25, 0.10, 0.05)))
categorias_aleatorias = np.random.choice(categorias, size=100)

# Crear el DataFrame de pandas
df_pandas = pd.DataFrame({
    'Fecha': fechas,
    'Categoría': categorias_aleatorias,
    'Ventas': ventas,
    'Ingresos': ingresos,
    'Promociones': promociones,
    'Descuentos': descuentos
})

# Convertir el DataFrame de pandas a un DataFrame de Spark
df = spark.createDataFrame(df_pandas)

# Mostrar el esquema del DataFrame de Spark
df.printSchema()

# Mostrar el DataFrame de Spark
df.show()


root
 |-- Fecha: string (nullable = true)
 |-- Categoría: string (nullable = true)
 |-- Ventas: long (nullable = true)
 |-- Ingresos: double (nullable = true)
 |-- Promociones: long (nullable = true)
 |-- Descuentos: double (nullable = true)

+----------+------------------+------+--------+-----------+----------+
|     Fecha|         Categoría|Ventas|Ingresos|Promociones|Descuentos|
+----------+------------------+------+--------+-----------+----------+
|01-01-2022|Comida para perros|    45|  865.96|          9|       0.1|
|02-01-2022| Comida para gatos|    48|  717.02|          7|       0.1|
|03-01-2022|  Comida para aves|    65|  338.23|          7|      0.15|
|04-01-2022|  Comida para aves|    68|   975.3|          5|      0.15|
|05-01-2022|Comida para perros|    68| 1027.13|          1|      0.15|
|06-01-2022|  Comida para aves|    10|  195.79|          2|      0.05|
|07-01-2022| Comida para gatos|    84| 1526.52|          2|       0.2|
|08-01-2022| Comida para peces|    22|  278.18|

In [12]:
df.show(10)

+----------+------------------+------+--------+-----------+----------+
|     Fecha|         Categoría|Ventas|Ingresos|Promociones|Descuentos|
+----------+------------------+------+--------+-----------+----------+
|01-01-2022|Comida para perros|    45|  865.96|          9|       0.1|
|02-01-2022| Comida para gatos|    48|  717.02|          7|       0.1|
|03-01-2022|  Comida para aves|    65|  338.23|          7|      0.15|
|04-01-2022|  Comida para aves|    68|   975.3|          5|      0.15|
|05-01-2022|Comida para perros|    68| 1027.13|          1|      0.15|
|06-01-2022|  Comida para aves|    10|  195.79|          2|      0.05|
|07-01-2022| Comida para gatos|    84| 1526.52|          2|       0.2|
|08-01-2022| Comida para peces|    22|  278.18|          8|      0.05|
|09-01-2022| Comida para peces|    37|  215.92|          1|       0.1|
|10-01-2022| Comida para peces|    88| 1035.53|          5|       0.2|
+----------+------------------+------+--------+-----------+----------+
only s

In [13]:
df.printSchema()

root
 |-- Fecha: string (nullable = true)
 |-- Categoría: string (nullable = true)
 |-- Ventas: long (nullable = true)
 |-- Ingresos: double (nullable = true)
 |-- Promociones: long (nullable = true)
 |-- Descuentos: double (nullable = true)



In [14]:
df.count()

100

In [15]:
df.describe().show()

+-------+----------+------------------+-----------------+-----------------+-----------------+-------------------+
|summary|     Fecha|         Categoría|           Ventas|         Ingresos|      Promociones|         Descuentos|
+-------+----------+------------------+-----------------+-----------------+-----------------+-------------------+
|  count|       100|               100|              100|              100|              100|                100|
|   mean|      NULL|              NULL|            47.85|         616.2039|             4.39|              0.122|
| stddev|      NULL|              NULL|27.01566137624544|452.4415962396347|2.912512192717358|0.05565042405022353|
|    min|01-01-2022|  Comida para aves|                1|              9.7|                0|               0.05|
|    max|31-03-2022|Comida para perros|               92|          1797.17|                9|                0.2|
+-------+----------+------------------+-----------------+-----------------+-------------