<a href="https://colab.research.google.com/github/EderLara/Fundamentos-Big-Data/blob/main/Implementaci%C3%B3n_de_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
"""
    1. Creación del Dataset
    Generamos un DataFrame con datos aleatorios de ventas,
    incluyendo fechas, productos, categorías, cantidades, precios y descuentos.
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Generar datos aleatorios
np.random.seed(42)            # Para reproducibilidad
fechas = pd.date_range(start='2023-01-01', periods=30)
productos = ['Producto A', 'Producto B', 'Producto C', 'Producto D', 'Producto E']
categorias = ['Electrónica', 'Ropa', 'Hogar', 'Deportes', 'Alimentos']
data = {
    'Fecha': fechas,
    'Producto': np.random.choice(productos, 30),
    'Categoria': np.random.choice(categorias, 30),
    'Cantidad': np.random.randint(1, 20, 30),
    'Precio': np.random.uniform(10, 200, 30).round(2),
    'Descuento': np.random.uniform(0, 0.3, 30).round(2)
}

df = pd.DataFrame(data)

# Calcular el total de ventas
df['Total_Ventas'] = df['Cantidad'] * df['Precio'] * (1 - df['Descuento'])

print(df.head())

In [None]:
"""
  2. Análisis Exploratorio de Datos (EDA):
  Calculamos estadísticas descriptivas,
  mostramos información del DataFrame,
  identificamos valores únicos y valores faltantes.
"""
# Estadísticas descriptivas
print(df.describe())

# Información del DataFrame
print(df.info())

# Valores únicos en columnas categóricas
print(df['Producto'].unique())
print(df['Categoria'].unique())

# Valores faltantes
print(df.isnull().sum())

In [None]:
"""
  3. Manipulación de Datos:
  Agrupamos y calculamos totales por categoría y producto,
  agregamos una columna con el día de la semana y filtramos ventas por categoría.
"""
# Agrupar por categoría y calcular el total de ventas
ventas_por_categoria = df.groupby('Categoria')['Total_Ventas'].sum().sort_values(ascending=False)
print(ventas_por_categoria)

# Agrupar por producto y calcular la cantidad total vendida
cantidad_por_producto = df.groupby('Producto')['Cantidad'].sum().sort_values(ascending=False)
print(cantidad_por_producto)

# Agregar una columna con el día de la semana
df['Dia_Semana'] = df['Fecha'].dt.day_name()

# Filtrar ventas de la categoría 'Electrónica'
electronica_ventas = df[df['Categoria'] == 'Electrónica']
print(electronica_ventas)

In [None]:
"""
  4. Visualización de Datos:
  Creamos gráficos de barras para ventas por categoría y cantidad por producto,
  un gráfico de líneas para ventas diarias, un histograma para la distribución de precios y
  un scatter plot para la relación entre cantidad y ventas.
"""
# Ventas totales por categoría (gráfico de barras)
plt.figure(figsize=(10, 6))
sns.barplot(x=ventas_por_categoria.index, y=ventas_por_categoria.values)
plt.title('Ventas Totales por Categoría')
plt.xlabel('Categoría')
plt.ylabel('Ventas Totales')
plt.xticks(rotation=45)
plt.show()

# Cantidad total vendida por producto (gráfico de barras)
plt.figure(figsize=(10, 6))
sns.barplot(x=cantidad_por_producto.index, y=cantidad_por_producto.values)
plt.title('Cantidad Total Vendida por Producto')
plt.xlabel('Producto')
plt.ylabel('Cantidad Total')
plt.xticks(rotation=45)
plt.show()

# Ventas a lo largo del tiempo (gráfico de líneas)
ventas_diarias = df.groupby('Fecha')['Total_Ventas'].sum()
plt.figure(figsize=(12, 6))
plt.plot(ventas_diarias.index, ventas_diarias.values)
plt.title('Ventas Diarias')
plt.xlabel('Fecha')
plt.ylabel('Ventas Totales')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Distribución de precios (histograma)
plt.figure(figsize=(8, 6))
sns.histplot(df['Precio'], bins=20, kde=True)
plt.title('Distribución de Precios')
plt.xlabel('Precio')
plt.ylabel('Frecuencia')
plt.show()

# Relación entre cantidad y total de ventas (scatter plot)
plt.figure(figsize=(8, 6))
sns.scatterplot(x='Cantidad', y='Total_Ventas', data=df)
plt.title('Relación entre Cantidad y Total de Ventas')
plt.xlabel('Cantidad')
plt.ylabel('Total de Ventas')
plt.show()