<a href="https://colab.research.google.com/github/yshungria-uniandes/Data-Science-Fundamentals-/blob/main/Proyecto_I_An%C3%A1lisis_y_predicci%C3%B3n_de_ventas_Part_1_(Core).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Parte 1: Análisis Básico con NumPy**

In [12]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


##**2. Carga y Preprocesamiento de Datos**

###**a. Carga los datos del archivo CSV utilizando NumPy.**



In [13]:
# Importamos la librería numpy, que es útil para trabajar con matrices y datos numéricos
import numpy as np

# Leemos el archivo CSV utilizando la función 'genfromtxt' de numpy.
# Especificamos que el archivo está delimitado por comas, y que los datos tienen nombres de columna en la primera fila.
# 'dtype=None' permite que numpy infiera el tipo de datos automáticamente.
# 'encoding="utf-8"' asegura que se manejen correctamente los caracteres especiales (como acentos).
# 'names=True' asegura que la primera fila se utilice como los nombres de las columnas.
data_csv = np.genfromtxt('/content/drive/MyDrive/DataSets/retail_sales_dataset.csv', delimiter=',', dtype=None, encoding='utf-8', names=True)


# Mostramos los nombres de las columnas en el dataset utilizando 'dtype.names', que es un atributo del objeto numpy estructurado.
# Este atributo nos da los nombres de las columnas leídas en el archivo CSV.
print("Nombres de las columnas:", data_csv.dtype.names)

# Mostramos los primeros 5 registros del dataset usando 'data_csv[:5]'.
# Esto nos permite ver una muestra de los datos cargados, pero limitando la salida a las primeras 5 filas.
print("\nDatos del dataset:")
print(data_csv[:5])

Nombres de las columnas: ('Transaction_ID', 'Date', 'Customer_ID', 'Gender', 'Age', 'Product_Category', 'Quantity', 'Price_per_Unit', 'Total_Amount')

Datos del dataset:
[(1, '2023-11-24', 'CUST001', 'Male', 34, 'Beauty', 3,  50,  150)
 (2, '2023-02-27', 'CUST002', 'Female', 26, 'Clothing', 2, 500, 1000)
 (3, '2023-01-13', 'CUST003', 'Male', 50, 'Electronics', 1,  30,   30)
 (4, '2023-05-21', 'CUST004', 'Male', 37, 'Clothing', 1, 500,  500)
 (5, '2023-05-06', 'CUST005', 'Male', 30, 'Beauty', 2,  50,  100)]


## **b. Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.**

---

In [53]:
# Reemplazar valores nulos (NaN) con la media de la columna
for column in data_csv.dtype.names:
    if data_csv[column].dtype == 'float64':
        # Calcular la media de la columna, ignorando los valores NaN
        media_columna = np.nanmean(data_csv[column])

        # Reemplazar los valores NaN con la media calculada
        data_csv[column] = np.nan_to_num(data_csv[column], nan=media_columna)

# Verificar de nuevo si hay valores nulos después del reemplazo
for column in data_csv.dtype.names:
    if data_csv[column].dtype == 'float64':
        print(f"\nValores nulos en columna {column} después del reemplazo:", np.sum(np.isnan(data_csv[column])))
    else:
        print(f'No existen datos nulos en la columna {column}')

print("\nDatos del dataset después de reemplazar valores nulos:")
print(data_csv[:5])

No existen datos nulos en la columna Transaction_ID
No existen datos nulos en la columna Date
No existen datos nulos en la columna Customer_ID
No existen datos nulos en la columna Gender
No existen datos nulos en la columna Age
No existen datos nulos en la columna Product_Category
No existen datos nulos en la columna Quantity
No existen datos nulos en la columna Price_per_Unit
No existen datos nulos en la columna Total_Amount

Datos del dataset después de reemplazar valores nulos:
[(1, '2023-11-24', 'CUST001', 'Male', 34, 'Beauty', 3,  50,  150)
 (2, '2023-02-27', 'CUST002', 'Female', 26, 'Clothing', 2, 500, 1000)
 (3, '2023-01-13', 'CUST003', 'Male', 50, 'Electronics', 1,  30,   30)
 (4, '2023-05-21', 'CUST004', 'Male', 37, 'Clothing', 1, 500,  500)
 (5, '2023-05-06', 'CUST005', 'Male', 30, 'Beauty', 2,  50,  100)]


# 3. Exploración de Datos

## a. Calcular el total de ventas por categoría de producto

### **a. 1 Agrupación con np.unique y bucles**




In [26]:
# Obtener categorías únicas e índices inversos
categories, inverse = np.unique(data_csv['Product_Category'], return_inverse=True)
# np.unique encuentra todos los valores únicos en la columna 'Product_Category'.
# La opción return_inverse=True devuelve un array de índices que mapea cada valor original
# a su posición correspondiente en el array de categorías únicas.


### Ejemplo práctico:

Supongamos que la columna 'Product_Category' contiene estos valores:

python


```
['A', 'B', 'A', 'C', 'B', 'C', 'A']

```

Al ejecutar el código:




```
categories, inverse = np.unique(data_csv['Product_Category'], return_inverse=True)

```

El resultado será:

categories:



```
array(['A', 'B', 'C'])
```


inverse:




```
array([0, 1, 0, 2, 1, 2, 0])
```


Interpretación:

categories tiene los valores únicos: 'A', 'B', 'C'.

inverse te dice que el primer elemento original ('A') corresponde al índice 0 en categories, el segundo elemento ('B') al índice 1, y así sucesivamente.

Esto es útil, por ejemplo, si quieres convertir categorías a índices numéricos para análisis o modelado.

In [28]:
# Calcular el total de ventas por categoría
total_ventas_por_categoria = {
    category: np.sum(data_csv['Transaction_ID'][inverse == idx])
    for idx, category in enumerate(categories)
}

# Se crea un diccionario para almacenar el total de ventas por categoría.
# - `enumerate(categories)`: Itera sobre cada categoría y su índice correspondiente.
# - `inverse == idx`: Crea una máscara booleana que selecciona las filas de 'Transaction_ID'
#   donde la categoría coincide con la actual (índice `idx`).
# - `np.sum(...)`: Suma los valores de 'Transaction_ID' seleccionados por la máscara,
#   lo que da el total de ventas para esa categoría.

# Imprimir el total de ventas por categoría
print("\nTotal de ventas por categoría:")
print(total_ventas_por_categoria)
# Se imprime el diccionario resultante, que muestra cada categoría y su total de ventas.


Total de ventas por categoría:
{'Beauty': 150864, 'Clothing': 173725, 'Electronics': 175911}


## b. Calcular el promedio de ventas diarias por categoría de producto

In [32]:
import numpy as np

# Suponiendo que 'data_csv' ya está cargado como en el código anterior

# Convertir la columna 'Date' a objetos datetime de NumPy
# Primero verificamos que la columna 'Date' exista y tenga datos válidos.
if 'Date' in data_csv.dtype.names:
    try:
        data_csv['Date'] = np.array([np.datetime64(date) for date in data_csv['Date']])
    except ValueError as e:
        print(f"Error al convertir la columna 'Date': {e}")
        print("Verifica que la columna 'Date' tenga un formato de fecha válido.")
        # Aquí podrías manejar el error, por ejemplo, eliminando filas incorrectas o ajustando el formato.
        exit() # Salimos del script para evitar errores posteriores.

else:
    print("La columna 'Date' no se encuentra en el dataset.")
    exit()


# Obtener las categorías únicas
categories, inverse = np.unique(data_csv['Product_Category'], return_inverse=True)

# Crear un diccionario para almacenar las ventas diarias por categoría
ventas_diarias_por_categoria = {}
for category in categories:
    ventas_diarias_por_categoria[category] = {}  # Un diccionario para cada categoría

# Iterar sobre cada fila del dataset
for i in range(len(data_csv)):
  # Obtener la fecha, categoría y ventas de la fila actual
  fecha = data_csv['Date'][i]
  categoria = data_csv['Product_Category'][i]
  venta = data_csv['Transaction_ID'][i]  # Asumiendo que Transaction_ID representa la venta

  # Si la fecha no existe para la categoría, la creamos
  if fecha not in ventas_diarias_por_categoria[categoria]:
      ventas_diarias_por_categoria[categoria][fecha] = 0

  # Sumar las ventas para esa categoría y fecha
  ventas_diarias_por_categoria[categoria][fecha] += venta


# Calcular el promedio de ventas diarias por categoría
promedio_ventas_diarias = {}
for categoria, ventas_diarias in ventas_diarias_por_categoria.items():
    total_ventas = sum(ventas_diarias.values())
    num_dias = len(ventas_diarias)
    if num_dias > 0:
        promedio = round(total_ventas / num_dias, 2)
        promedio_ventas_diarias[categoria] = promedio
    else:
        promedio_ventas_diarias[categoria] = 0 # Si no hay datos, colocamos 0.

# Imprimir los resultados
print("\nPromedio de ventas diarias por categoría:")
for categoria, promedio in promedio_ventas_diarias.items():
    print(f"Categoría {categoria}: {promedio}")


Promedio de ventas diarias por categoría:
Categoría Beauty: 739.53
Categoría Clothing: 748.81
Categoría Electronics: 803.25


## c. **Identifica las categorías de productos con mayores y menores ventas.**

In [36]:
import operator

print(total_ventas_por_categoria)
# Asumiendo que 'total_ventas_por_categoria' ya está calculado como en el código anterior
# Encontrar la categoría con mayores ventas
categoria_mayor_venta = max(total_ventas_por_categoria.items(), key=operator.itemgetter(1))

# print(categoria_mayor_venta)

# Encontrar la categoría con menores ventas
categoria_menor_venta = min(total_ventas_por_categoria.items(), key=operator.itemgetter(1))

print(f"\nCategoría con mayores ventas: {categoria_mayor_venta[0]} con un total de {categoria_mayor_venta[1]} ventas.")
print(f"Categoría con menores ventas: {categoria_menor_venta[0]} con un total de {categoria_menor_venta[1]} ventas.")

{'Beauty': 150864, 'Clothing': 173725, 'Electronics': 175911}

Categoría con mayores ventas: Electronics con un total de 175911 ventas.
Categoría con menores ventas: Beauty con un total de 150864 ventas.


# 4. Manipulación de Datos

## a. **Filtra los datos para mostrar solo las ventas de una categoría de producto específica.**

In [44]:
# Filtrar datos para una categoría específica (ejemplo: 'Category_A') y mostrar los primeros 10
categoria_especifica = 'Electronics'  # Reemplaza con la categoría que desees

# Crear una máscara booleana para seleccionar las filas que coincidan con la categoría
mascara = data_csv['Product_Category'] == categoria_especifica

# Aplicar la máscara a los datos para filtrar las filas
datos_filtrados = data_csv[mascara]

# Mostrar los primeros 10 resultados
print(f"\nPrimeros 10 registros para la categoría '{categoria_especifica}':")
print(datos_filtrados[:10])


Primeros 10 registros para la categoría 'Electronics':
[( 3, '2023-01-13', 'CUST003', 'Male', 50, 'Electronics', 1,  30,   30)
 ( 8, '2023-02-22', 'CUST008', 'Male', 30, 'Electronics', 4,  25,  100)
 ( 9, '2023-12-13', 'CUST009', 'Male', 63, 'Electronics', 2, 300,  600)
 (13, '2023-08-05', 'CUST013', 'Male', 22, 'Electronics', 3, 500, 1500)
 (15, '2023-01-16', 'CUST015', 'Female', 42, 'Electronics', 4, 500, 2000)
 (18, '2023-04-30', 'CUST018', 'Female', 47, 'Electronics', 2,  25,   50)
 (26, '2023-10-07', 'CUST026', 'Female', 28, 'Electronics', 2, 500, 1000)
 (29, '2023-08-18', 'CUST029', 'Female', 42, 'Electronics', 1,  30,   30)
 (31, '2023-05-23', 'CUST031', 'Male', 44, 'Electronics', 4, 300, 1200)
 (33, '2023-03-23', 'CUST033', 'Female', 50, 'Electronics', 2,  50,  100)]


## b. **Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.**

In [49]:

# Assuming 'total_ventas_por_categoria' is already calculated as in the previous code

# Calculate sum, difference, product, and quotient of sales for each category
sum_sales = sum(total_ventas_por_categoria.values())
# Example: Difference between the highest and lowest sales
max_sales = max(total_ventas_por_categoria.values())
min_sales = min(total_ventas_por_categoria.values())
diff_sales = max_sales - min_sales

# Example: Product of the first two sales values (if there are at least two)
sales_values = list(total_ventas_por_categoria.values())
if len(sales_values) >= 2:
    product_sales = sales_values[0] * sales_values[1]
else:
    product_sales = "Not enough categories to calculate the product"

# Example: Quotient between the first two sales values (if there are at least two and the second is not zero)
if len(sales_values) >= 2 and sales_values[1] != 0 :
    quotient_sales = round(sales_values[0] / sales_values[1], 2)
else:
    quotient_sales = "Not enough categories to calculate the quotient or division by zero"

print(f"\nSuma ventas de todas las categorias: {sum_sales}")
print(f"\nDiferencia entre la maxima y la minima venta: {diff_sales}")
print(f"\nMultiplicacion de las 2 primeras categorias de ventas: {product_sales}")
print(f"\nCociente de los dos primeros valores de venta: {quotient_sales}")


Suma ventas de todas las categorias: 500500

Diferencia entre la maxima y la minima venta: 25047

Multiplicacion de las 2 primeras categorias de ventas: 26208848400

Cociente de los dos primeros valores de venta: 0.87
