## **Análisis de datos de retail**

En el siguiente notebook se analiza el dataset retail-sales de Kaggle, que contiene datos de ventas por categorias de tiendas en el periodo 2023 a 2024. 

En este notebook, el objetivo fue utilzar y analizar los datos utilizando solo numpy.

In [1]:
# importacion de numpy 
import numpy as np

In [2]:
# se cargan los datos del dataset usando numpy
def cargar_datos(path):
    # se convierte a string para no perder los datos tipo texto
    data = np.genfromtxt(path, delimiter=',', skip_header=1, dtype='str')
    return (data)

if __name__ == "__main__":
    path = '../data/retail_sales.csv'
    data = cargar_datos(path)
    print(data)

[['1' '2023-11-24' 'CUST001' ... '3' '50' '150']
 ['2' '2023-02-27' 'CUST002' ... '2' '500' '1000']
 ['3' '2023-01-13' 'CUST003' ... '1' '30' '30']
 ...
 ['998' '2023-10-29' 'CUST998' ... '4' '25' '100']
 ['999' '2023-12-05' 'CUST999' ... '3' '50' '150']
 ['1000' '2023-04-12' 'CUST1000' ... '4' '30' '120']]


In [3]:
# conociendo las dimensiones del dataset
# shape del dataset
print("La forma del dataset: ", data.shape)

# size del dataset
print("El tamaño del dataset es: ", data.size)

# las dimensiones del dataset
print("Las dimensiones del dataset son: ", data.ndim)

La forma del dataset:  (1000, 9)
El tamaño del dataset es:  9000
Las dimensiones del dataset son:  2


### **Pre-procesamiento básico de datos**

En la siguiente sección se realiza un pre-procesamiento básico de los datos

In [4]:
# se realiza un slicing y se extraen los datos a ser analizados en otro array
data_filtered = data[:,3:]
print(data_filtered)

[['Male' '34' 'Beauty' '3' '50' '150']
 ['Female' '26' 'Clothing' '2' '500' '1000']
 ['Male' '50' 'Electronics' '1' '30' '30']
 ...
 ['Female' '23' 'Beauty' '4' '25' '100']
 ['Female' '36' 'Electronics' '3' '50' '150']
 ['Male' '47' 'Electronics' '4' '30' '120']]


In [5]:
# se guarda en una lista el nombre de las columnas 
titles = ['genre','age','category','quantity','price','sales']
print(titles)
print(data_filtered)

['genre', 'age', 'category', 'quantity', 'price', 'sales']
[['Male' '34' 'Beauty' '3' '50' '150']
 ['Female' '26' 'Clothing' '2' '500' '1000']
 ['Male' '50' 'Electronics' '1' '30' '30']
 ...
 ['Female' '23' 'Beauty' '4' '25' '100']
 ['Female' '36' 'Electronics' '3' '50' '150']
 ['Male' '47' 'Electronics' '4' '30' '120']]


### **Exploración de datos**

### **Ejercicio 1:** Calcular el total de ventas por categoría.

**Método 1:** Utilizando bucles

In [6]:
# se extraen las categorias en un array
categories = data_filtered[:,2]
# verificamos que es un array
print(type(categories))
# se imprime el resultado
print(categories)

<class 'numpy.ndarray'>
['Beauty' 'Clothing' 'Electronics' 'Clothing' 'Beauty' 'Beauty' 'Clothing'
 'Electronics' 'Electronics' 'Clothing' 'Clothing' 'Beauty' 'Electronics'
 'Clothing' 'Electronics' 'Clothing' 'Clothing' 'Electronics' 'Clothing'
 'Clothing' 'Beauty' 'Clothing' 'Clothing' 'Clothing' 'Beauty'
 'Electronics' 'Beauty' 'Beauty' 'Electronics' 'Beauty' 'Electronics'
 'Beauty' 'Electronics' 'Clothing' 'Beauty' 'Beauty' 'Beauty' 'Beauty'
 'Clothing' 'Beauty' 'Clothing' 'Clothing' 'Clothing' 'Clothing'
 'Electronics' 'Electronics' 'Beauty' 'Electronics' 'Electronics' 'Beauty'
 'Beauty' 'Beauty' 'Electronics' 'Electronics' 'Beauty' 'Clothing'
 'Beauty' 'Clothing' 'Clothing' 'Beauty' 'Beauty' 'Beauty' 'Electronics'
 'Clothing' 'Electronics' 'Electronics' 'Beauty' 'Electronics' 'Beauty'
 'Clothing' 'Beauty' 'Electronics' 'Electronics' 'Beauty' 'Beauty'
 'Electronics' 'Clothing' 'Clothing' 'Beauty' 'Clothing' 'Electronics'
 'Beauty' 'Electronics' 'Electronics' 'Clothing' 'Beauty' 'B

In [7]:
# se identifican las categorias del dataset
unique_categories = np.unique(categories)
print(unique_categories)

['Beauty' 'Clothing' 'Electronics']


In [8]:
# se extraen las ventas en un array
sales = data_filtered[:,5]
# se verifica que sea un array
print(type(sales))

# recordar que era tipo string y convertir a float
sales = sales.astype(float)
# se imprime el resultado
print(sales)

<class 'numpy.ndarray'>
[ 150. 1000.   30.  500.  100.   30.   50.  100.  600.  200.  100.   75.
 1500.  120. 2000. 1500.  100.   50.   50.  900.  500.  100.  120.  300.
   50. 1000.   50.  500.   30.  900. 1200.   90.  100.  150.  900.  900.
   75.  200.  120.   50.   50.  900.  300.   25.   30. 1200. 1500.  900.
 1000.   75.   75.  300.  100. 1500.  120.  900.   30. 1200.   50.  150.
  200.  100.   50.  100. 2000.   30. 1200.  300.   75.  300.  100. 2000.
   90. 2000.  200.  100.  100. 1500.  300.   60.   50.  200.  100.   90.
  150.   90.  100.  500. 2000.   30.  500.  120. 2000. 1000.   60.  600.
 1000.  100. 1200.   30.  600.   50.   25. 1000.  500.   50. 1200.   75.
 2000.  900. 1500. 1500.   50.  100. 1500.   30. 1000. 2000.  150.   50.
  200.  120.   60. 2000.  100.   90.   50.  500.  600.  500.  600.  200.
  900.   50.   50.  600. 1000.  200. 2000.   30.   50. 1200.   50. 1500.
   75.  200.  300.   60.   75.  120.   50. 2000. 1000.  900. 2000.  100.
 2000.  600.  200.  100. 10

In [9]:
# se calculan las ventas por categoria
# se inicializa las variables contadoras
sales_beauty = 0
sales_clothing = 0
sales_electronics = 0

# se itera sobre las categorias 
for i in range(len(categories)):
    if categories[i] == 'Beauty':
        sales_beauty += sales[i]
    elif categories[i] == 'Clothing':
        sales_clothing += sales[i]
    else:
        sales_electronics += sales[i]

print('Total de ventas en la sección "Beauty":', sales_beauty)
print('Total de ventas en la sección "Clothing":', sales_clothing)
print('Total de ventas en la sección "Electronics":', sales_electronics)

Total de ventas en la sección "Beauty": 143515.0
Total de ventas en la sección "Clothing": 155580.0
Total de ventas en la sección "Electronics": 156905.0


**Método 2:** Usando np.sum()

In [10]:
# funcion que calcula el total de ventas por categoria y devuelve una lista
def sales_by_category(sales,categories):
    sales_beauty = np.sum(sales[categories == 'Beauty'])
    sales_clothing = np.sum(sales[categories == 'Clothing'])
    sales_electronics = np.sum(sales[categories == 'Electronics'])
    return([sales_beauty, sales_clothing,sales_electronics])

category_totals = sales_by_category(sales,categories)

print('Total de ventas en la sección "Beauty":', category_totals[0])
print('Total de ventas en la sección "Clothing":', category_totals[1])
print('Total de ventas en la sección "Electronics":', category_totals[2])

Total de ventas en la sección "Beauty": 143515.0
Total de ventas en la sección "Clothing": 155580.0
Total de ventas en la sección "Electronics": 156905.0


### **Ejercicio 2:** Calcular el promedio de ventas por categoría.

In [11]:
# funcion que calcula el promedio de ventas por categoria
def mean_by_category(sales,categories):
    mean_beauty = np.mean(sales[categories == 'Beauty'])
    mean_clothing = np.mean(sales[categories == 'Clothing'])
    mean_electronics = np.mean(sales[categories == 'Electronics'])
    return([mean_beauty,mean_clothing,mean_electronics])

category_mean = mean_by_category(sales,categories)

print('Promedio total de ventas en la sección "Beauty":', category_mean[0])
print('Promedio total de ventas en la sección "Clothing":', category_mean[1])
print('Promedio total de ventas en la sección "Electronics":', category_mean[2])

Promedio total de ventas en la sección "Beauty": 467.4755700325733
Promedio total de ventas en la sección "Clothing": 443.2478632478632
Promedio total de ventas en la sección "Electronics": 458.7865497076023


### **Ejercicio 3:** Identificar las categorias con mayores y menores ventas

In [12]:
# funcion que identifica la categoria con mayor y menor venta 
def more_less_sales(category_totals):
        more_sales = np.argmax(category_totals)
        less_sales = np.argmin(category_totals)
        return (more_sales,less_sales)

more_sales, less_sales = more_less_sales(category_totals)

# haciendo uso del array unique_categories se nombra las categorias

print("Categoria con mayor ventas: ", unique_categories[more_sales])
print("Categoria con menores ventas: ", unique_categories[less_sales])

Categoria con mayor ventas:  Electronics
Categoria con menores ventas:  Beauty


### **Ejercicio 4:** Filtrar los datos para mostrar solo las ventas de una categoría específica.

In [13]:
# mostrar las ventas de la categoria beauty
beauty = sales[categories == 'Beauty']
print(beauty)

[ 150.  100.   30.   75.  500.   50.   50.  500.  900.   90.  900.  900.
   75.  200.   50. 1500.   75.   75.  300.  120.   30.  150.  200.  100.
 1200.   75.  100. 2000.  200.  300.  200.   90.  100. 2000. 1000. 1000.
  100.   50. 1000.   75.  100.   50.  500.  600.  600. 1000. 2000. 1500.
 1000. 1500. 1500.   50.  300.  100.  100.  120.  900.   50.   90.   25.
  100. 1500.  900. 1500.  150.   25.   50. 1500. 1500.   60.   90.  500.
  600.  100.   90.   25.   25.  600. 1000.  500.  300.  100.  200. 2000.
   60.  120.   60.   90.  120.   50.  100. 2000.  600. 1200.  900. 1200.
  600.   30. 1200.   25.   25.  100. 1500.  900.  100.  200.  120.  150.
  100.   30.   50.   75.  200.  300.   25.  500.   25. 1500.  600.   75.
   30.  300.   90.   30.   50. 1000.   30.   25.   60.  100.  500.   75.
  100. 1200.  200.  900. 1200. 2000.   60.   50.   25.  900.   50. 1000.
 1500.   75.  900.   50. 2000.  100.   50.  200.   60.   60.  100. 2000.
  150.   50. 1500.  600.  200.  100.   25.  100. 15

In [14]:
# mostrar las ventas de la categoria clothing
clothing = sales[categories == 'Clothing']
print(clothing)

[1000.  500.   50.  200.  100.  120. 1500.  100.   50.  900.  100.  120.
  300.  150.  120.   50.  900.  300.   25.  900. 1200.   50.  100.  300.
  100. 1500.   60.  150.  500.   60.  600.  600.   25.   50. 1200.  900.
 1500. 1500.   30.  150. 2000.  100.   90.   50.  500.   50.  200.   50.
   75.  200.   60.   75.   50.  100.  200.  100.   60.  150. 1200. 2000.
  150.  300.   50.  900.   60.  900.   25.  200.  100.   75.  200.   30.
  900.  200. 1200. 1000.   25.   25. 1500. 1500.  120.   25.   50.   50.
  150.   25.   25.   90.  900.   50. 2000.   30. 1000.   50.  200.   50.
  900.  900. 2000. 1000. 1000.  100.  100.  500. 1500.  200.  100.  120.
  600.   90. 1200.  120.  120.  120.   60.   50.   25.  500.   75.  500.
 1200.  200. 2000. 1000.   90.   50.  100.   25.  300.  100. 1200.   50.
  200.   25.  100. 1000.  500.   50.  600.  500.  600.  200.  300.  600.
  600. 1200.  100.   60.   90. 2000. 1500.   90.   25.  120.   30.   75.
  600.  100.  600.   90. 1500. 1000. 1200. 1000.  1

In [15]:
# mostrar las ventas de la categoria clothing
electronics = sales[categories == 'Electronics']
print(electronics)

[  30.  100.  600. 1500. 2000.   50. 1000.   30. 1200.  100.   30. 1200.
  900. 1000.  100. 1500.   50. 2000.   30.  300. 2000.   90.  100.   50.
  100.   90. 2000.   30.  500.  120. 1200.   30.  500. 2000. 1500.   50.
 1000. 2000.  200.  120.   60.  200.  900.   50.  600.   30.   50. 1200.
  300.  120. 2000. 1000.  900. 2000. 2000.  600.  120.  100.  300. 1200.
  200.   25.  200.  200.  200.  100.  200.   90.  100.   60.   50. 1000.
 1500.   75.  900.   50.   60.   50.  300.  500.   60.   30.  300.  100.
  200.  500.   25.   50.   60.   90. 1000. 1000.  200.   90.   60.   50.
   50.   90. 1200.   50.  500.  150.   50.  150.  100.   90. 1200. 1200.
  900.   50.   50.   30.   25.  600. 1000.  500.  500. 1500.   75. 1200.
   50. 1500.   60.  600. 1500.  600.   25.  100. 1000. 1000.  900.  900.
  200. 2000. 2000.  900. 1000.  120.  150.   25.  200.   50.  900. 1200.
 1000.   50. 1200.  300.   50.  200.   30.  100.   60.  100. 1200.  600.
  150.  100.  150.   25. 1200. 1200.   30.   25.  9

### **Ejercicio 5:** Filtrar los datos para mostrar solo las ventas de un genero específico.

In [16]:
# se extraen los generos en un array
genres = data_filtered[:,0]
# verificamos que es un array
print(type(genres))
# se imprime el resultado
print(genres)

<class 'numpy.ndarray'>
['Male' 'Female' 'Male' 'Male' 'Male' 'Female' 'Male' 'Male' 'Male'
 'Female' 'Male' 'Male' 'Male' 'Male' 'Female' 'Male' 'Female' 'Female'
 'Female' 'Male' 'Female' 'Male' 'Female' 'Female' 'Female' 'Female'
 'Female' 'Female' 'Female' 'Female' 'Male' 'Male' 'Female' 'Female'
 'Female' 'Male' 'Female' 'Male' 'Male' 'Male' 'Male' 'Male' 'Female'
 'Female' 'Female' 'Female' 'Female' 'Male' 'Female' 'Female' 'Male'
 'Female' 'Male' 'Female' 'Male' 'Female' 'Female' 'Male' 'Male' 'Male'
 'Male' 'Male' 'Male' 'Male' 'Male' 'Female' 'Female' 'Male' 'Female'
 'Female' 'Female' 'Female' 'Male' 'Female' 'Male' 'Female' 'Female'
 'Female' 'Male' 'Female' 'Male' 'Female' 'Male' 'Female' 'Male' 'Male'
 'Female' 'Male' 'Female' 'Female' 'Female' 'Female' 'Female' 'Female'
 'Female' 'Female' 'Female' 'Female' 'Female' 'Male' 'Male' 'Female'
 'Female' 'Female' 'Female' 'Female' 'Female' 'Female' 'Female' 'Male'
 'Female' 'Male' 'Female' 'Female' 'Male' 'Female' 'Male' 'Female

In [17]:
# mostrar las ventas por genero masculino
male = sales[genres == 'Male']
print(male)

[ 150.   30.  500.  100.   50.  100.  600.  100.   75. 1500.  120. 1500.
  900.  100. 1200.   90.  900.  200.  120.   50.   50.  900.  900.   75.
  100.  120. 1200.   50.  150.  200.  100.   50.  100. 2000.  300.   90.
  200.  300.   50.  100.  150.   90.  500.   30.  600.  900. 1500. 1500.
 1000.   50.  120. 2000.  100.  500.  200.  900.   50.   50.  600. 1000.
  200. 2000.   30. 1200.  200.  300.   60.   75.   50. 2000. 1000.  900.
 2000. 2000.  200. 1000.   60. 2000.  300. 1500.   50.  120.  100.   60.
  300.  900. 1200.  120.  200.   25.  200.   75.   50.   25.  100. 1500.
  200.   30. 1500.  150.   25. 1000.   25.   25.  200. 1500. 1500. 1500.
   60. 1500.  100.   90.  500.  600.  120.  100.   90.   25. 1500.   25.
  100.   90.   60.  900.   50.   50.  300.  500.   30. 1000. 2000.   60.
   50.   60.  900.  900. 2000.  300. 1000.  100.  500.  200.   50.  100.
  120.   60.  600. 1200.   90. 1200. 1000.  120.  600.   90.   50.  120.
  120.   60.   90.   25.  500.  500.  150.  100.   

In [18]:
# mostrar las ventas por genero femenino
female = sales[genres == 'Female']
print(female)

[1000.   30.  200. 2000.  100.   50.   50.  500.  120.  300.   50. 1000.
   50.  500.   30.  900.  100.  150.  900.   75.  300.   25.   30. 1200.
 1500. 1000.   75.  300. 1500.  900.   30.   30. 1200.   75.  300.  100.
 2000. 2000.  100.  100. 1500.   60.  200.   90.  100. 2000.   30.  500.
  120. 2000. 1000.   60.  600. 1000.  100. 1200.   50.   25. 1000.  500.
   50. 1200.   75. 2000. 1500.   50.  100.   30. 2000.  150.  200.   60.
   90.   50.  600.  500.  600.   50.   50. 1500.   75.  120.  100.  600.
  100.  150. 1500. 1200.  150.   50.  900.  300.  100.  100.  900.  100.
   90.  900.  200.  900. 1200.   25.   50.  200.  200.  200.   90.   25.
   50.  100.   50.   60.  150.   25.  600.   50. 1000.   25. 1000.  500.
  300.   75.  900.   50.  200. 2000.   50.  200.  120.   60.   90.   30.
  120.  100.   50. 1000.  100.  100. 1500. 2000.  200.  500.   25.  600.
   90.  900. 1200. 1000.  200.   60.   30.   50. 1200.   25.   25.  100.
 1500.   50. 1200.   50.  900.  150.   50.   75.  1

In [19]:
# total de ventas por genero
def sales_by_genre(sales,genres):
    sales_female = np.sum(sales[genres == 'Female'])
    sales_male = np.sum(sales[genres == 'Male'])
    return(sales_female,sales_male)

sales_female,sales_male = sales_by_genre(sales,genres)

print('Total de ventas por género femenino:', sales_female)
print('Total de ventas por género masculino:', sales_male)


Total de ventas por género femenino: 232840.0
Total de ventas por género masculino: 223160.0


### **Ejercicio 6:** Estadisticas adicionales

In [20]:
# identificar el promedio de edad de compradores
ages = data_filtered[:,1]
# recordar que era tipo string y convertir a float
ages = ages.astype(float)
print(ages)


[34. 26. 50. 37. 30. 45. 46. 30. 63. 52. 23. 35. 22. 64. 42. 19. 27. 47.
 62. 22. 50. 18. 35. 49. 64. 28. 38. 43. 42. 39. 44. 30. 50. 51. 58. 52.
 18. 38. 23. 45. 34. 22. 48. 22. 55. 20. 40. 54. 54. 27. 27. 36. 34. 38.
 31. 26. 63. 18. 62. 30. 21. 18. 57. 49. 51. 45. 48. 25. 56. 43. 51. 20.
 29. 18. 61. 22. 47. 47. 34. 64. 40. 32. 54. 38. 31. 19. 28. 56. 55. 51.
 55. 51. 35. 47. 32. 44. 51. 55. 50. 41. 32. 47. 59. 34. 22. 46. 21. 27.
 34. 27. 34. 37. 41. 22. 51. 23. 19. 30. 60. 60. 28. 64. 40. 33. 48. 28.
 33. 25. 21. 57. 21. 42. 20. 49. 20. 44. 46. 49. 36. 38. 22. 35. 45. 59.
 39. 38. 23. 18. 22. 58. 29. 43. 63. 51. 31. 43. 62. 44. 26. 43. 64. 39.
 64. 47. 60. 34. 43. 53. 18. 25. 52. 32. 64. 39. 31. 43. 45. 40. 31. 41.
 19. 62. 43. 31. 24. 20. 64. 40. 63. 60. 64. 62. 35. 55. 52. 32. 42. 54.
 45. 27. 56. 34. 56. 39. 43. 61. 42. 34. 30. 37. 42. 21. 27. 20. 58. 62.
 35. 64. 53. 64. 39. 51. 64. 25. 57. 61. 36. 59. 58. 54. 23. 43. 51. 62.
 23. 54. 50. 39. 38. 23. 23. 21. 47. 28. 47. 48. 41

In [21]:
# se calcula el promedio de edad de compradores
buyers_mean_age = np.mean(ages)
print("El promedio de edad de los compradores es: ", buyers_mean_age)

El promedio de edad de los compradores es:  41.392


In [22]:
# la desviacion estandar respecto a la edad de los compradores
st_buyers = np.std(ages)
print("La desviacion estandar respecto a la media de compradores es: ", st_buyers)

La desviacion estandar respecto a la media de compradores es:  13.674587233258633


In [23]:
# la edad minima de los compradores
min_age = np.min(ages)
print("La edad minima de los compradores es de: ", min_age)

La edad minima de los compradores es de:  18.0


In [24]:
# la edad maxima de los compradores
max_age = np.max(ages)
print("La edad maxima de los compradores es de: ", max_age)

La edad maxima de los compradores es de:  64.0
