<a href="https://colab.research.google.com/github/yshungria-uniandes/Data-Science-Fundamentals-/blob/main/Proyecto_I_An%C3%A1lisis_y_predicci%C3%B3n_de_ventas_Part_1_(Core).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1- Preprocesamiento Básico con numpy**

In [12]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


##**a) Leer y procesar los datos**

###**a.1) Leer y cargar data set desde un CSV**

In [13]:
# Importamos la librería numpy, que es útil para trabajar con matrices y datos numéricos
import numpy as np

# Leemos el archivo CSV utilizando la función 'genfromtxt' de numpy.
# Especificamos que el archivo está delimitado por comas, y que los datos tienen nombres de columna en la primera fila.
# 'dtype=None' permite que numpy infiera el tipo de datos automáticamente.
# 'encoding="utf-8"' asegura que se manejen correctamente los caracteres especiales (como acentos).
# 'names=True' asegura que la primera fila se utilice como los nombres de las columnas.
data_csv = np.genfromtxt('/content/drive/MyDrive/DataSets/retail_sales_dataset.csv', delimiter=',', dtype=None, encoding='utf-8', names=True)


# Mostramos los nombres de las columnas en el dataset utilizando 'dtype.names', que es un atributo del objeto numpy estructurado.
# Este atributo nos da los nombres de las columnas leídas en el archivo CSV.
print("Nombres de las columnas:", data_csv.dtype.names)

# Mostramos los primeros 5 registros del dataset usando 'data_csv[:5]'.
# Esto nos permite ver una muestra de los datos cargados, pero limitando la salida a las primeras 5 filas.
print("\nDatos del dataset:")
print(data_csv[:5])

Nombres de las columnas: ('Transaction_ID', 'Date', 'Customer_ID', 'Gender', 'Age', 'Product_Category', 'Quantity', 'Price_per_Unit', 'Total_Amount')

Datos del dataset:
[(1, '2023-11-24', 'CUST001', 'Male', 34, 'Beauty', 3,  50,  150)
 (2, '2023-02-27', 'CUST002', 'Female', 26, 'Clothing', 2, 500, 1000)
 (3, '2023-01-13', 'CUST003', 'Male', 50, 'Electronics', 1,  30,   30)
 (4, '2023-05-21', 'CUST004', 'Male', 37, 'Clothing', 1, 500,  500)
 (5, '2023-05-06', 'CUST005', 'Male', 30, 'Beauty', 2,  50,  100)]


## **b) Verificar si hay valores nulos y reemplazarlos**

---

### **b.1) Verifir datos nulos dentro del data set**

In [14]:
### **b.1) Verifir datos nulos dentro del data set**

# Iteramos sobre cada nombre de columna en el dataset para verificar si hay valores nulos
for column in data_csv.dtype.names:
    # Comprobamos si la columna tiene tipo de dato 'float' (números decimales)
    if data_csv[column].dtype == 'float':
        # Si la columna es de tipo float, usamos np.isnan() para contar cuántos valores nulos (NaN) hay en esa columna
        print(f"\nValores nulos en columna {column}:", np.sum(np.isnan(data_csv[column])))
    else:
        # Si la columna no es de tipo float, asumimos que no contiene valores nulos
        # (esto puede variar dependiendo del tipo de datos, pero este es un enfoque común)
        print(f'No existen datos nulos en la columna {column}')

No existen datos nulos en la columna Transaction_ID
No existen datos nulos en la columna Date
No existen datos nulos en la columna Customer_ID
No existen datos nulos en la columna Gender
No existen datos nulos en la columna Age
No existen datos nulos en la columna Product_Category
No existen datos nulos en la columna Quantity
No existen datos nulos en la columna Price_per_Unit
No existen datos nulos en la columna Total_Amount


## a) Calcular el total de ventas por categoría de producto

### **a.1) Agrupación con np.unique y bucles**

> Agregar bloque entrecomillado


In [15]:
# Obtener categorías únicas e índices inversos
categories, inverse = np.unique(data_csv['Product_Category'], return_inverse=True)
# np.unique encuentra todos los valores únicos en la columna 'Product_Category'.
# La opción return_inverse=True devuelve un array de índices que mapea cada valor original
# a su posición correspondiente en el array de categorías únicas.


### Ejemplo práctico:

Supongamos que la columna 'Product_Category' contiene estos valores:

python


```
['A', 'B', 'A', 'C', 'B', 'C', 'A']

```

Al ejecutar el código:




```
categories, inverse = np.unique(data_csv['Product_Category'], return_inverse=True)

```

El resultado será:

categories:



```
array(['A', 'B', 'C'])
```


inverse:




```
array([0, 1, 0, 2, 1, 2, 0])
```


Interpretación:

categories tiene los valores únicos: 'A', 'B', 'C'.

inverse te dice que el primer elemento original ('A') corresponde al índice 0 en categories, el segundo elemento ('B') al índice 1, y así sucesivamente.

Esto es útil, por ejemplo, si quieres convertir categorías a índices numéricos para análisis o modelado.

In [25]:
# Calcular el total de ventas por categoría
total_ventas_por_categoria = {
    category: np.sum(data_csv['Total_Amount'][inverse == idx])
    for idx, category in enumerate(categories)
}

# Se crea un diccionario para almacenar el total de ventas por categoría.
# - `enumerate(categories)`: Itera sobre cada categoría y su índice correspondiente.
# - `inverse == idx`: Crea una máscara booleana que selecciona las filas de 'Transaction_ID'
#   donde la categoría coincide con la actual (índice `idx`).
# - `np.sum(...)`: Suma los valores de 'Transaction_ID' seleccionados por la máscara,
#   lo que da el total de ventas para esa categoría.

# Imprimir el total de ventas por categoría
print("\nTotal de ventas por categoría:")
print(total_ventas_por_categoria)
# Se imprime el diccionario resultante, que muestra cada categoría y su total de ventas.


Total de ventas por categoría:
{'Beauty': 143515, 'Clothing': 155580, 'Electronics': 156905}


## b) Calcular el promedio de ventas diarias por categoría de producto