<a href="https://colab.research.google.com/github/yshungria-uniandes/Data-Science-Fundamentals-/blob/main/Ejemplo_Proyecto_1_Parte_1_(Core)_22_11_2024_SOLUCI%C3%93N.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1- Preprocesamiento Básico con numpy**

##**a) Leer y procesar los datos**

###**a.1) Leer y cargar data set desde un CSV**

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Importamos la librería numpy, que es útil para trabajar con matrices y datos numéricos
import numpy as np

# Leemos el archivo CSV utilizando la función 'genfromtxt' de numpy.
# Especificamos que el archivo está delimitado por comas, y que los datos tienen nombres de columna en la primera fila.
# 'dtype=None' permite que numpy infiera el tipo de datos automáticamente.
# 'encoding="utf-8"' asegura que se manejen correctamente los caracteres especiales (como acentos).
# 'names=True' asegura que la primera fila se utilice como los nombres de las columnas.
data_csv = np.genfromtxt('/content/retail_sales_dataset.csv', delimiter=',', dtype=None, encoding='utf-8', names=True)

# Mostramos los nombres de las columnas en el dataset utilizando 'dtype.names', que es un atributo del objeto numpy estructurado.
# Este atributo nos da los nombres de las columnas leídas en el archivo CSV.
print("Nombres de las columnas:", data_csv.dtype.names)

# Mostramos los primeros 5 registros del dataset usando 'data_csv[:5]'.
# Esto nos permite ver una muestra de los datos cargados, pero limitando la salida a las primeras 5 filas.
print("\nDatos del dataset:")
print(data_csv[:5])

Nombres de las columnas: ('Transaction_ID', 'Date', 'Customer_ID', 'Gender', 'Age', 'Product_Category', 'Quantity', 'Price_per_Unit', 'Total_Amount')

Datos del dataset:
[(1, '2023-11-24', 'CUST001', 'Male', 34, 'Beauty', 3,  50,  150)
 (2, '2023-02-27', 'CUST002', 'Female', 26, 'Clothing', 2, 500, 1000)
 (3, '2023-01-13', 'CUST003', 'Male', 50, 'Electronics', 1,  30,   30)
 (4, '2023-05-21', 'CUST004', 'Male', 37, 'Clothing', 1, 500,  500)
 (5, '2023-05-06', 'CUST005', 'Male', 30, 'Beauty', 2,  50,  100)]


###**a.2)  Leer y cargar data set desde un TXT**

In [None]:
# Importamos la librería numpy, que es útil para trabajar con arrays y manejar datos numéricos.
import numpy as np

# Ruta del archivo de texto que se va a cargar
ruta = '/content/retail_sales_dataset.txt'

# Cargamos el archivo de texto utilizando la función 'loadtxt' de numpy.
# 'delimiter' especifica que los valores están separados por tabuladores (\t).
# 'skiprows=1' indica que se debe saltar la primera fila (que normalmente contiene el encabezado).
# 'dtype=str' asegura que todos los datos se carguen como cadenas de texto (strings), independientemente del tipo de datos original.
data_txt = np.loadtxt(ruta, delimiter='\t', skiprows=1, dtype=str)

# Mostramos las primeras 5 filas del dataset cargado para inspeccionar los datos
print(data_txt[:5])

[['1' '2023-11-24' 'CUST001' 'Male' '34' 'Beauty' '3' '50' '150']
 ['2' '2023-02-27' 'CUST002' 'Female' '26' 'Clothing' '2' '500' '1000']
 ['3' '2023-01-13' 'CUST003' 'Male' '50' 'Electronics' '1' '30' '30']
 ['4' '2023-05-21' 'CUST004' 'Male' '37' 'Clothing' '1' '500' '500']
 ['5' '2023-05-06' 'CUST005' 'Male' '30' 'Beauty' '2' '50' '100']]


###**a.3) Leer y cargar data set desde un JSON**

In [None]:
# Importamos las librerías necesarias: json para manejar archivos JSON y numpy para trabajar con arrays.
import json
import numpy as np

# Ruta del archivo JSON
ruta = '/content/retail_sales_dataset.json'

# Abrimos el archivo JSON en modo lectura ('r') y lo cargamos usando json.load() para convertirlo en un objeto de Python.
with open(ruta, 'r') as file:
    data_json = json.load(file)

# Extraemos las claves (nombres de las columnas) del primer registro del archivo JSON.
# Esto asume que todos los registros tienen las mismas claves.
columns = list(data_json[0].keys())

# Convertimos los datos a un array de NumPy. Para cada entrada (registro) en el archivo JSON,
# creamos una lista de valores correspondientes a las claves (columnas) y luego la convertimos a un array.
data_json_np = np.array([[entry[col] for col in columns] for entry in data_json])

# Mostramos las primeras 5 filas del array de NumPy para inspeccionar los datos convertidos
print(data_json_np[:5])

[['1' '2023-11-24' 'CUST001' 'Male' '34' 'Beauty' '3' '50' '150']
 ['2' '2023-02-27' 'CUST002' 'Female' '26' 'Clothing' '2' '500' '1000']
 ['3' '2023-01-13' 'CUST003' 'Male' '50' 'Electronics' '1' '30' '30']
 ['4' '2023-05-21' 'CUST004' 'Male' '37' 'Clothing' '1' '500' '500']
 ['5' '2023-05-06' 'CUST005' 'Male' '30' 'Beauty' '2' '50' '100']]


## **b) Verificar si hay valores nulos y reemplazarlos**

---



### **b.1) Verifir datos nulos dentro del data set**

In [3]:
# Iteramos sobre cada nombre de columna en el dataset para verificar si hay valores nulos
for column in data_csv.dtype.names:
    # Comprobamos si la columna tiene tipo de dato 'float' (números decimales)
    if data_csv[column].dtype == 'float':
        # Si la columna es de tipo float, usamos np.isnan() para contar cuántos valores nulos (NaN) hay en esa columna
        print(f"\nValores nulos en columna {column}:", np.sum(np.isnan(data_csv[column])))
    else:
        # Si la columna no es de tipo float, asumimos que no contiene valores nulos
        # (esto puede variar dependiendo del tipo de datos, pero este es un enfoque común)
        print(f'No existen datos nulos en la columna {column}')

NameError: name 'data_csv' is not defined

\### **b.2) Cargamos un data set con datos nulos**

In [4]:
# Cargar el archivo CSV que contiene valores nulos (NaN) en los datos
# Usamos np.genfromtxt para leer el archivo, con los siguientes parámetros:
# El delimitador es la coma (archivo CSV)
# Deja que numpy infiera el tipo de dato para cada columna
# Codificación para manejar caracteres especiales
# La primera fila del archivo contiene los nombres de las columnas
data_csv_nulos = np.genfromtxt('/content/retail_sales_dataset.with-nans.csv', delimiter=',', dtype=None, encoding='utf-8', names=True)

# El archivo ahora está cargado en data_csv_nulos y se puede procesar como un array de NumPy

NameError: name 'np' is not defined

### **b.3) Verificamos datos nulos dentro del data set**

In [None]:
# Iteramos sobre cada nombre de columna en el dataset para verificar si hay valores nulos
for column in data_csv_nulos.dtype.names:
    # Comprobamos si la columna tiene tipo de dato 'float' (números decimales)
    if data_csv_nulos[column].dtype == 'float':
        # Si la columna es de tipo float, usamos np.isnan() para contar cuántos valores nulos (NaN) hay en esa columna
        print(f"\nValores nulos en columna {column}:", np.sum(np.isnan(data_csv_nulos[column])))
    else:
        # Si la columna no es de tipo float, asumimos que no contiene valores nulos
        # (esto puede variar dependiendo del tipo de datos, pero este es un enfoque común)
        print(f'No existen datos nulos en la columna {column}')

### **b.4) Reemplazar valores nulos por 0**

In [None]:
# Creamos una copia del dataset original para evitar modificar el dataset original directamente
data_zero = data_csv_nulos.copy()

# Iteramos sobre cada nombre de columna en el dataset para reemplazar valores nulos
for column in data_zero.dtype.names:
    # Comprobamos si la columna tiene tipo de dato 'float64' (números decimales)
    if data_zero[column].dtype == 'float64':  # Verificamos que el tipo de datos sea 'float64'
        # Reemplazamos los valores nulos (NaN) por 0 en las columnas de tipo float64
        data_zero[column] = np.nan_to_num(data_zero[column], nan=0)

# Mostramos el resultado después de reemplazar los valores nulos por 0
print("Datos después de reemplazar nulos por 0:")
print(data_zero[:5])  # Mostramos las primeras 5 filas para verificar el cambio

### **b.5) Eliminar filas con valores nulos**

In [None]:
import numpy as np

# Seleccionar las columnas que deseas verificar
columnas_a_verificar = ['Quantity', 'Price_per_Unit', 'Total_Amount']

# Verificar si las columnas existen en data_csv_nulos
if all(col in data_csv_nulos.dtype.names for col in columnas_a_verificar):
    # Si todas las columnas seleccionadas existen en el dataset

    # Crear una máscara booleana para identificar las filas sin valores nulos en las columnas seleccionadas
    # np.column_stack agrupa las columnas seleccionadas en una matriz 2D
    # np.isnan verifica si hay valores nulos (NaN) en las columnas seleccionadas
    # ~np.isnan invierte el resultado, marcando como True las filas sin nulos
    # np.all(axis=1) asegura que todas las columnas seleccionadas en cada fila no tengan valores nulos
    mascara_sin_nulos = np.all(~np.isnan(np.column_stack([data_csv_nulos[col] for col in columnas_a_verificar])), axis=1)

    # Aplicar la máscara al dataset para eliminar las filas con valores nulos en las columnas seleccionadas
    data_sin_nulos = data_csv_nulos[mascara_sin_nulos]

    # Mostrar las primeras filas del dataset sin nulos
    print(data_sin_nulos[:5])
else:
    # Si alguna de las columnas no existe en el dataset, mostramos un mensaje de error
    print("Algunas columnas de 'columnas_a_verificar' no existen en data_csv_nulos.")

### **b.6) Reemplazar valores nulos por la media de cada columna**

In [None]:
import numpy as np

# Reemplazar valores nulos por la media de cada columna
for column in data_csv_nulos.dtype.names:
    # Verificar si la columna es de tipo float (números decimales)
    if data_csv_nulos[column].dtype.kind == 'f':  # 'f' indica tipo float
        # Calcular la media de la columna ignorando los valores nulos (NaN)
        mean_value = np.nanmean(data_csv_nulos[column])  # np.nanmean ignora los NaN al calcular la media
        # Reemplazar los valores nulos (NaN) por la media calculada
        data_csv_nulos[column][np.isnan(data_csv_nulos[column])] = mean_value
        print(f"Valores nulos en la columna {column} reemplazados por la media: {mean_value}")
    else:
        # Si la columna no es de tipo numérico, no se realiza el reemplazo
        print(f"La columna {column} no es numérica, no se realiza reemplazo.")

# Mostrar el resultado (primeras filas)
print('')
print(data_csv_nulos[:5])

1.- **Reemplazar nulos por 0:** Este método itera sobre las columnas del DataFrame y utiliza np.nan_to_num() para reemplazar los valores NaN por 0 en columnas de tipo float64.

2.- **Eliminar filas con nulos:** Usamos el método dropna() de pandas para eliminar cualquier fila que contenga valores NaN.

3.- **Reemplazar nulos por la media:** Recorremos las columnas numéricas y calculamos la media de cada columna, luego usamos fillna() para reemplazar los valores NaN por la media correspondiente.

# **2. Exploración de Datos**

## a) Calcular el total de ventas por categoría de producto

### **a.1) Agrupación con np.unique y bucles**

> Agregar bloque entrecomillado



In [None]:
# Obtener categorías únicas e índices inversos
categories, inverse = np.unique(data_csv['Product_Category'], return_inverse=True)
# np.unique encuentra todos los valores únicos en la columna 'Product_Category'.
# La opción return_inverse=True devuelve un array de índices que mapea cada valor original
# a su posición correspondiente en el array de categorías únicas.

# Calcular el total de ventas por categoría
total_ventas_por_categoria = {
    category: np.sum(data_csv['Transaction_ID'][inverse == idx])
    for idx, category in enumerate(categories)
}
# Se crea un diccionario para almacenar el total de ventas por categoría.
# - `enumerate(categories)`: Itera sobre cada categoría y su índice correspondiente.
# - `inverse == idx`: Crea una máscara booleana que selecciona las filas de 'Transaction_ID'
#   donde la categoría coincide con la actual (índice `idx`).
# - `np.sum(...)`: Suma los valores de 'Transaction_ID' seleccionados por la máscara,
#   lo que da el total de ventas para esa categoría.

# Imprimir el total de ventas por categoría
print("\nTotal de ventas por categoría:")
print(total_ventas_por_categoria)
# Se imprime el diccionario resultante, que muestra cada categoría y su total de ventas.


Total de ventas por categoría:
{'Beauty': 150864, 'Clothing': 173725, 'Electronics': 175911}


### **a.2) Uso de np.add.at para acumulación**

In [None]:
# Obtener categorías únicas e índices inversos
categories, inverse = np.unique(data_csv['Product_Category'], return_inverse=True)
# 'categories' contiene los valores únicos en 'Product_Category'.
# 'inverse' es un array que mapea cada elemento original de 'Product_Category' al índice de su categoría única.

# Crear un array para acumular los totales, inicializado en ceros
totals = np.zeros(len(categories), dtype=data_csv['Transaction_ID'].dtype)
# 'totals' tiene una posición para cada categoría única, donde se almacenará el total de ventas.
# El tipo de dato se hereda de 'Transaction_ID' para evitar inconsistencias.

# Acumular los valores de 'Transaction_ID' en 'totals' según las categorías (usando 'inverse' como índice)
np.add.at(totals, inverse, data_csv['Transaction_ID'])
# 'np.add.at' acumula los valores de 'Transaction_ID' en 'totals' según los índices en 'inverse'.
# Por cada fila, suma el valor correspondiente al índice de su categoría única.

# Crear un diccionario que asocia cada categoría con su total acumulado
total_ventas_por_categoria_2 = dict(zip(categories, totals))
# 'zip(categories, totals)' combina las categorías con sus totales acumulados.
# 'dict' convierte esta combinación en un diccionario.

# Imprimir el resultado final
print("\nTotal de ventas por categoría:")
print(total_ventas_por_categoria_2)
# Muestra cada categoría junto con el total de ventas acumuladas.


Total de ventas por categoría:
{'Beauty': 150864, 'Clothing': 173725, 'Electronics': 175911}


###**a.3) Vectorización completa con np.bincount**

In [None]:
# Obtener categorías únicas e índices inversos
categories, inverse = np.unique(data_csv['Product_Category'], return_inverse=True)
# 'categories' contiene los valores únicos en 'Product_Category'.
# 'inverse' es un array que mapea cada elemento original de 'Product_Category' al índice de su categoría única.

# Calcular el total de ventas por categoría usando np.bincount
totals = np.bincount(inverse, weights=data_csv['Transaction_ID'])
# 'np.bincount' cuenta la frecuencia o suma los valores (con 'weights') para cada índice único en 'inverse'.
# En este caso, suma los valores de 'Transaction_ID' correspondientes a cada categoría única.

# Crear un diccionario que asocia cada categoría con su total acumulado
total_ventas_por_categoria_3 = dict(zip(categories, totals))
# 'zip(categories, totals)' combina las categorías únicas con sus totales acumulados.
# 'dict' convierte esta combinación en un diccionario.

# Imprimir el resultado final
print("\nTotal de ventas por categoría:")
print(total_ventas_por_categoria_3)
# Muestra cada categoría junto con el total de ventas acumuladas.


Total de ventas por categoría:
{'Beauty': 150864.0, 'Clothing': 173725.0, 'Electronics': 175911.0}


## b) Calcular el promedio de ventas diarias por categoría de producto

### **b.1) Agrupación con np.unique y bucles**

In [None]:
# Obtener las fechas únicas presentes en los datos
dates = np.unique(data_csv['Date'])
# 'np.unique' devuelve los valores únicos de la columna 'Date', es decir, todas las fechas representadas en el dataset.

# Calcular el total de ventas diarias por categoría
ventas_diarias = {}
# Se inicializa un diccionario vacío donde se almacenarán las ventas diarias por categoría.

# Iteramos sobre cada categoría
for category in categories:
    # Filtrar las ventas de la categoría actual
    ventas_por_categoria = data_csv['Total_Amount'][data_csv['Product_Category'] == category]
    # 'ventas_por_categoria' almacena las ventas de la categoría actual filtradas por 'Product_Category'.

    # Filtrar las fechas asociadas a la categoría actual
    fechas_categoria = data_csv['Date'][data_csv['Product_Category'] == category]
    # 'fechas_categoria' almacena las fechas correspondientes a la categoría actual.

    # Calcular el total de ventas por fecha para esta categoría
    ventas_diarias[category] = {fecha: np.sum(ventas_por_categoria[fechas_categoria == fecha]) for fecha in dates}
    # Se crea un diccionario dentro de 'ventas_diarias' donde la clave es la fecha y el valor es la suma de ventas para esa fecha
    # en la categoría actual. 'fechas_categoria == fecha' selecciona las ventas de esa fecha específica.

# Calcular el promedio de ventas diarias por categoría
promedio_ventas_diarias = {category: np.mean(list(d.values())) for category, d in ventas_diarias.items()}
# Para cada categoría, calculamos el promedio de ventas diarias usando 'np.mean' sobre los valores de ventas diarias en 'ventas_diarias'.
# 'list(d.values())' convierte los valores del diccionario en una lista de ventas diarias para calcular el promedio.

# Imprimir el resultado del promedio de ventas diarias por categoría
print("\nPromedio de ventas diarias por categoría:")
print(promedio_ventas_diarias)
# Se imprime el diccionario que contiene los promedios de ventas diarias por categoría.


Promedio de ventas diarias por categoría:
{'Beauty': 415.9855072463768, 'Clothing': 450.95652173913044, 'Electronics': 454.7971014492754}


### **b.2) Uso de np.add.at**

In [None]:
# Inicializar un diccionario vacío para almacenar las ventas diarias por categoría
ventas_diarias = {}

# Iterar sobre cada categoría
for category in categories:
    # Filtrar por categoría
    mask_categoria = data_csv['Product_Category'] == category
    ventas_por_categoria = data_csv['Total_Amount'][mask_categoria]
    fechas_categoria = data_csv['Date'][mask_categoria]

    # Obtener fechas únicas e índices inversos
    unique_dates, inverse = np.unique(fechas_categoria, return_inverse=True)
    # 'unique_dates' contiene las fechas únicas de la categoría actual.
    # 'inverse' es un array que mapea cada fecha en 'fechas_categoria' al índice de su fecha única.

    # Inicializar un acumulador para las ventas diarias, con un valor inicial de cero
    ventas = np.zeros(len(unique_dates), dtype=ventas_por_categoria.dtype)
    # 'ventas' es un array donde se acumularán las ventas diarias por cada fecha única.

    # Acumular las ventas por fecha utilizando np.add.at
    np.add.at(ventas, inverse, ventas_por_categoria)
    # 'np.add.at' acumula los valores de 'ventas_por_categoria' en el array 'ventas' según los índices de 'inverse'.

    # Guardar las ventas diarias en un diccionario, donde la clave es la fecha y el valor es el total de ventas
    ventas_diarias[category] = dict(zip(unique_dates, ventas))
    # 'zip' asocia cada fecha única con el total de ventas correspondiente, y 'dict' lo convierte en un diccionario.

# Calcular el promedio de ventas diarias por categoría
promedio_ventas_diarias = {category: np.mean(list(d.values())) for category, d in ventas_diarias.items()}
# Para cada categoría, se calcula el promedio de las ventas diarias usando 'np.mean' sobre los valores del diccionario 'ventas_diarias'.

# Imprimir el resultado de los promedios de ventas diarias por categoría
print("\nPromedio de ventas diarias por categoría:")
print(promedio_ventas_diarias)


Promedio de ventas diarias por categoría:
{'Beauty': 703.5049019607843, 'Clothing': 670.6034482758621, 'Electronics': 716.4611872146119}


###**b.3) Vectorización con np.bincount**

In [None]:
# Inicializar un diccionario vacío para almacenar las ventas diarias por categoría
ventas_diarias = {}

# Iterar sobre cada categoría
for category in categories:
    # Filtrar por categoría
    mask_categoria = data_csv['Product_Category'] == category
    ventas_por_categoria = data_csv['Total_Amount'][mask_categoria]
    fechas_categoria = data_csv['Date'][mask_categoria]

    # Mapear fechas únicas a índices para acumulación
    unique_dates, inverse = np.unique(fechas_categoria, return_inverse=True)
    # 'unique_dates' contiene las fechas únicas de la categoría actual.
    # 'inverse' mapea cada fecha en 'fechas_categoria' al índice de su fecha única.

    # Acumular ventas por fecha utilizando np.bincount
    ventas = np.bincount(inverse, weights=ventas_por_categoria)
    # 'np.bincount' suma las ventas de 'ventas_por_categoria' para cada índice en 'inverse' (que corresponde a fechas únicas).

    # Crear diccionario de ventas diarias con las fechas como claves y las ventas acumuladas como valores
    ventas_diarias[category] = dict(zip(unique_dates, ventas))
    # 'zip' empareja cada fecha única con el total de ventas correspondientes, y 'dict' convierte esto en un diccionario.

# Calcular promedio de ventas diarias por categoría
promedio_ventas_diarias = {category: np.mean(list(d.values())) for category, d in ventas_diarias.items()}
# Para cada categoría, se calcula el promedio de ventas diarias utilizando 'np.mean' sobre los valores de ventas diarias.

# Imprimir el resultado de los promedios de ventas diarias por categoría
print("\nPromedio de ventas diarias por categoría:")
print(promedio_ventas_diarias)


Promedio de ventas diarias por categoría:
{'Beauty': 703.5049019607843, 'Clothing': 670.6034482758621, 'Electronics': 716.4611872146119}


## c) Identificar las categorías con mayores y menores ventas

###**c.1) Índices de máximo y mínimo con np.argmax y np.argmin**

In [None]:
# Convertir el diccionario de categorías y ventas a arrays de numpy
categories_array = np.array(list(total_ventas_por_categoria.keys()))
# 'categories_array' almacena las categorías como un array de numpy, usando las claves del diccionario.
ventas_array = np.array(list(total_ventas_por_categoria.values()))
# 'ventas_array' almacena las ventas totales por categoría como un array de numpy, usando los valores del diccionario.

# Encontrar los índices del máximo y mínimo de ventas usando np.argmax y np.argmin
indice_max = np.argmax(ventas_array)
# 'np.argmax' devuelve el índice del valor máximo en 'ventas_array', correspondiente a la categoría con mayores ventas.
indice_min = np.argmin(ventas_array)
# 'np.argmin' devuelve el índice del valor mínimo en 'ventas_array', correspondiente a la categoría con menores ventas.

# Obtener las categorías correspondientes a los índices encontrados
categoria_max_ventas = categories_array[indice_max]
# 'categoria_max_ventas' es la categoría que tiene el valor máximo de ventas.
categoria_min_ventas = categories_array[indice_min]
# 'categoria_min_ventas' es la categoría que tiene el valor mínimo de ventas.

# Imprimir los resultados
print(f"\nCategoría con mayores ventas: {categoria_max_ventas}")
# Imprime la categoría con el valor máximo de ventas.
print(f"Categoría con menores ventas: {categoria_min_ventas}")
# Imprime la categoría con el valor mínimo de ventas.


Categoría con mayores ventas: Electronics
Categoría con menores ventas: Beauty


### **c.2) Usando ordenación con np.argsort**

In [None]:
# Convertir el diccionario de categorías y ventas a arrays de numpy
categories_array = np.array(list(total_ventas_por_categoria.keys()))
# 'categories_array' almacena las categorías como un array de numpy, usando las claves del diccionario.
ventas_array = np.array(list(total_ventas_por_categoria.values()))
# 'ventas_array' almacena las ventas totales por categoría como un array de numpy, usando los valores del diccionario.

# Ordenar las ventas de menor a mayor
sorted_indices = np.argsort(ventas_array)
# 'np.argsort' devuelve los índices que ordenarían 'ventas_array' de menor a mayor. 'sorted_indices' es un array de índices ordenados.

# Obtener los índices del menor y mayor valor de ventas
indice_min = sorted_indices[0]
# El primer índice ('sorted_indices[0]') corresponde a la categoría con el menor valor de ventas.
indice_max = sorted_indices[-1]
# El último índice ('sorted_indices[-1]') corresponde a la categoría con el mayor valor de ventas.

# Obtener las categorías correspondientes a los índices de ventas máximas y mínimas
categoria_max_ventas_2 = categories_array[indice_max]
# 'categoria_max_ventas_2' es la categoría que tiene el valor máximo de ventas.
categoria_min_ventas_2 = categories_array[indice_min]
# 'categoria_min_ventas_2' es la categoría que tiene el valor mínimo de ventas.

# Imprimir los resultados
print(f"\nCategoría con mayores ventas: {categoria_max_ventas_2}")
# Imprime la categoría con el valor máximo de ventas.
print(f"Categoría con menores ventas: {categoria_min_ventas_2}")
# Imprime la categoría con el valor mínimo de ventas.


Categoría con mayores ventas: Electronics
Categoría con menores ventas: Beauty


# **3. Manipulación de Datos**


## a) Filtrar los datos por una categoría de producto específica


### **a.1) Uso de máscaras booleanas**

In [None]:
# Crear una máscara booleana para filtrar la categoría específica
mascara = data_csv['Product_Category'] == 'Clothing'
# La 'mascara' es un array de valores booleanos (True o False) que indica si la categoría de cada fila es 'Clothing'.

# Aplicar la máscara al conjunto de datos
categoria_filtrada = data_csv[mascara]
# 'categoria_filtrada' contiene solo las filas del DataFrame 'data_csv' donde la categoría es 'Clothing', filtradas usando la 'mascara'.

# Mostrar los primeros 5 resultados filtrados
print("\nDatos filtrados para la categoría 'Clothing':")
# Imprime un mensaje que indica que se están mostrando los datos filtrados para la categoría 'Clothing'.
print(categoria_filtrada[:5])
# Muestra las primeras 5 filas de los datos filtrados de la categoría 'Clothing' en 'categoria_filtrada'.


Datos filtrados para la categoría 'Clothing':
[( 2, '2023-02-27', 'CUST002', 'Female', 26, 'Clothing', 2, 500, 1000)
 ( 4, '2023-05-21', 'CUST004', 'Male', 37, 'Clothing', 1, 500,  500)
 ( 7, '2023-03-13', 'CUST007', 'Male', 46, 'Clothing', 2,  25,   50)
 (10, '2023-10-07', 'CUST010', 'Female', 52, 'Clothing', 4,  50,  200)
 (11, '2023-02-14', 'CUST011', 'Male', 23, 'Clothing', 2,  50,  100)]


###**a.2) Uso de índices obtenidos con np.where**

In [None]:
# Obtener los índices donde la categoría coincide
indices = np.where(data_csv['Product_Category'] == 'Clothing')[0]
# 'np.where' devuelve una tupla con los índices donde la condición es True (es decir, donde la categoría es 'Clothing').
# El [0] accede al primer elemento de la tupla que contiene los índices.

# Usar los índices para filtrar los datos
categoria_filtrada = data_csv[indices]
# 'categoria_filtrada' es un DataFrame que contiene solo las filas donde la categoría es 'Clothing',
# seleccionadas usando los índices obtenidos con 'np.where'.

# Mostrar los primeros 5 resultados filtrados
print("\nDatos filtrados para la categoría 'Clothing':")
# Imprime un mensaje indicando que se mostrarán los datos filtrados para la categoría 'Clothing'.
print(categoria_filtrada[:5])
# Muestra las primeras 5 filas de 'categoria_filtrada' que contiene los datos filtrados por la categoría 'Clothing'.


Datos filtrados para la categoría 'Clothing':
[( 2, '2023-02-27', 'CUST002', 'Female', 26, 'Clothing', 2, 500, 1000)
 ( 4, '2023-05-21', 'CUST004', 'Male', 37, 'Clothing', 1, 500,  500)
 ( 7, '2023-03-13', 'CUST007', 'Male', 46, 'Clothing', 2,  25,   50)
 (10, '2023-10-07', 'CUST010', 'Female', 52, 'Clothing', 4,  50,  200)
 (11, '2023-02-14', 'CUST011', 'Male', 23, 'Clothing', 2,  50,  100)]


## b) Realizar operaciones matemáticas sobre los datos

### **b.1) Usando máscaras booleanas directamente**

In [None]:
# Filtrar ventas de cada categoría utilizando máscaras
ventas_categoria_A = np.sum(data_csv['Total_Amount'][data_csv['Product_Category'] == 'Clothing'])
# Filtra las filas del DataFrame 'data_csv' donde la categoría es 'Clothing' y suma las ventas (Total_Amount) correspondientes.

ventas_categoria_B = np.sum(data_csv['Total_Amount'][data_csv['Product_Category'] == 'Electronics'])
# Filtra las filas del DataFrame 'data_csv' donde la categoría es 'Electronics' y suma las ventas (Total_Amount) correspondientes.

# Operaciones matemáticas
suma_ventas = ventas_categoria_A + ventas_categoria_B
# Suma las ventas de las dos categorías, 'Clothing' y 'Electronics'.

resta_ventas = ventas_categoria_A - ventas_categoria_B
# Resta las ventas de 'Electronics' de las de 'Clothing'.

multiplicacion_ventas = ventas_categoria_A * 1.1  # Incremento del 10%
# Multiplica las ventas de 'Clothing' por 1.1 para simular un incremento del 10%.

division_ventas = ventas_categoria_A / ventas_categoria_B if ventas_categoria_B != 0 else 0
# Divide las ventas de 'Clothing' entre las de 'Electronics', pero si las ventas de 'Electronics' son 0, devuelve 0 para evitar división por cero.

# Mostrar resultados
print(f"\nSuma de ventas entre Clothing y Electronics: {suma_ventas}")
# Muestra el resultado de la suma de ventas entre 'Clothing' y 'Electronics'.

print(f"Resta de ventas entre Clothing y Electronics: {resta_ventas}")
# Muestra el resultado de la resta de ventas entre 'Clothing' y 'Electronics'.

print(f"Multiplicación de ventas de Clothing por 1.1: {multiplicacion_ventas}")
# Muestra el resultado de multiplicar las ventas de 'Clothing' por 1.1 (incremento del 10%).

print(f"División de ventas entre Clothing y Electronics: {division_ventas}")
# Muestra el resultado de dividir las ventas de 'Clothing' entre las de 'Electronics', o 0 si las ventas de 'Electronics' son 0.


Suma de ventas entre Clothing y Electronics: 312485
Resta de ventas entre Clothing y Electronics: -1325
Multiplicación de ventas de Clothing por 1.1: 171138.0
División de ventas entre Clothing y Electronics: 0.9915553997641885


### **b.2) Usando índices con np.where**

In [None]:
# Convertir datos a NumPy arrays
categorias = np.array(data_csv['Product_Category'])
# Convierte la columna 'Product_Category' del DataFrame 'data_csv' a un arreglo de NumPy.

ventas_totales = np.array(data_csv['Total_Amount'])
# Convierte la columna 'Total_Amount' del DataFrame 'data_csv' a un arreglo de NumPy.

# Filtrar ventas de cada categoría con máscaras booleanas
ventas_categoria_A = np.sum(ventas_totales[categorias == 'Clothing'])
# Filtra las ventas donde la categoría es 'Clothing' y suma las ventas correspondientes.

ventas_categoria_B = np.sum(ventas_totales[categorias == 'Electronics'])
# Filtra las ventas donde la categoría es 'Electronics' y suma las ventas correspondientes.

# Operaciones matemáticas
suma_ventas = np.add(ventas_categoria_A, ventas_categoria_B)  # Suma
# Suma las ventas de las categorías 'Clothing' y 'Electronics' usando la función np.add.

resta_ventas = np.subtract(ventas_categoria_A, ventas_categoria_B)  # Resta
# Resta las ventas de 'Electronics' a las de 'Clothing' usando la función np.subtract.

multiplicacion_ventas = np.multiply(ventas_categoria_A, 1.1)  # Multiplicación (incremento del 10%)
# Multiplica las ventas de 'Clothing' por 1.1 para simular un incremento del 10% usando la función np.multiply.

division_ventas = np.divide(ventas_categoria_A, ventas_categoria_B) if ventas_categoria_B != 0 else 0  # División
# Divide las ventas de 'Clothing' entre las de 'Electronics' usando np.divide, pero si las ventas de 'Electronics' son 0, devuelve 0 para evitar división por cero.

# Mostrar resultados
print(f"\nSuma de ventas entre Clothing y Electronics: {suma_ventas}")
# Muestra el resultado de la suma de ventas entre 'Clothing' y 'Electronics'.

print(f"Resta de ventas entre Clothing y Electronics: {resta_ventas}")
# Muestra el resultado de la resta de ventas entre 'Clothing' y 'Electronics'.

print(f"Multiplicación de ventas de Clothing por 1.1: {multiplicacion_ventas}")
# Muestra el resultado de multiplicar las ventas de 'Clothing' por 1.1 (incremento del 10%).

print(f"División de ventas entre Clothing y Electronics: {division_ventas}")
# Muestra el resultado de dividir las ventas de 'Clothing' entre las de 'Electronics', o 0 si las ventas de 'Electronics' son 0.


Suma de ventas entre Clothing y Electronics: 312485
Resta de ventas entre Clothing y Electronics: -1325
Multiplicación de ventas de Clothing por 1.1: 171138.0
División de ventas entre Clothing y Electronics: 0.9915553997641885

Suma de ventas entre Clothing y Electronics: 312485
Resta de ventas entre Clothing y Electronics: -1325
Multiplicación de ventas de Clothing por 1.1: 171138.0
División de ventas entre Clothing y Electronics: 0.9915553997641885
