# CASO PRÁCTICO: ANÁLISIS EXPLORATORIO DE DATOS (DATA DE VENTAS)

En este caso se verán aplicaciones de funciones básicas de Python y de la librería numpy para análisis de datos.

## 1. LIBRERÍAS

Importaremos el módulo `csv` para poder cargar archivos en formato csv.

In [1]:
import csv
import numpy as np

%precision 2

'%.2f'

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## 2. CARGANDO DATOS

Cargaremos el archivo csv mediante la sentencia `with` luego utilizamos la función `open()` para poder especificar el archivo que queremos abrir.
La función `list()` nos permitirá tener un conjunto de diccionarios dentro de una lista

Sobre la data de ventas, se tienen los siguientes campos:
* invoice_no : Número de factura
* customer_id : Código de cliente
* gender : Género del cliente
* age : Edad del cliente
* category : Categoría del producto
* quantity : Cantidad vendida
* price : Precio del producto
* payment_method : Método de pago
* inovice_date : Fecha de factura
* shopping_mall : Mall en el que se realizó la compra

In [3]:
with open("/content/drive/MyDrive/Colab Notebooks/BOOTCAMP_DSW/SESION_01/DATA_SESION_01/customer_shopping_data.csv") as archivo_csv:
    data = list(csv.DictReader(archivo_csv)) ## utilizamos list()

## Mostrando 2 primeros diccionarios de la lista
data[0:2]

[{'invoice_no': 'I138884',
  'customer_id': 'C241288',
  'gender': 'Female',
  'age': '28',
  'category': 'Clothing',
  'quantity': '5',
  'price': '1500.4',
  'payment_method': 'Credit Card',
  'invoice_date': '5/8/2022',
  'shopping_mall': 'Kanyon'},
 {'invoice_no': 'I317333',
  'customer_id': 'C111565',
  'gender': 'Male',
  'age': '21',
  'category': 'Shoes',
  'quantity': '3',
  'price': '1800.51',
  'payment_method': 'Debit Card',
  'invoice_date': '12/12/2021',
  'shopping_mall': 'Forum Istanbul'}]

## 3. ¿CUÁNTOS DATOS TENGO EN MI CSV?

Con la función `len()` podemos saber cuántos elementos tiene una lista, es por ello que veremos cuántos diccionarios tenemos en la lista.

In [4]:
len(data)

99457

Actualmente tenemos 99,457 filas en el archivo CSV.

## 4. ¿CUÁLES SON LAS VARIABLES O CAMPOS QUE HE CARGADO DE MI ARCHIVO CSV?

Bastará con solo seleccionar el primer elemento de la lista y con la función `keys()` podremos obtener los nombres de las columnas

In [5]:
list(data[0].keys())

['invoice_no',
 'customer_id',
 'gender',
 'age',
 'category',
 'quantity',
 'price',
 'payment_method',
 'invoice_date',
 'shopping_mall']

## 5. QUIERO OBTENER LOS TODOS LOS DATOS DE UN CAMPO O COLUMNA DEL ARCHIVO CSV

Para obtener todos los valores de un campo, tendremos que realizar un loop o bucle, en este caso nos apoyaremos en el loop `for`.<br>
Imaginemos que queremos extraer toda la columna `shopping_mall`

In [7]:
[diccionario["shopping_mall"] for diccionario in data]

['Kanyon',
 'Forum Istanbul',
 'Metrocity',
 'Metropol AVM',
 'Kanyon',
 'Forum Istanbul',
 'Istinye Park',
 'Mall of Istanbul',
 'Metrocity',
 'Kanyon',
 'Metrocity',
 'Emaar Square Mall',
 'Metrocity',
 'Cevahir AVM',
 'Kanyon',
 'Viaport Outlet',
 'Metrocity',
 'Zorlu Center',
 'Metropol AVM',
 'Cevahir AVM',
 'Emaar Square Mall',
 'Cevahir AVM',
 'Cevahir AVM',
 'Kanyon',
 'Metrocity',
 'Istinye Park',
 'Mall of Istanbul',
 'Emaar Square Mall',
 'Cevahir AVM',
 'Istinye Park',
 'Mall of Istanbul',
 'Emaar Square Mall',
 'Kanyon',
 'Metrocity',
 'Zorlu Center',
 'Emaar Square Mall',
 'Kanyon',
 'Metrocity',
 'Kanyon',
 'Metropol AVM',
 'Zorlu Center',
 'Metropol AVM',
 'Metrocity',
 'Metrocity',
 'Kanyon',
 'Zorlu Center',
 'Mall of Istanbul',
 'Zorlu Center',
 'Zorlu Center',
 'Forum Istanbul',
 'Emaar Square Mall',
 'Istinye Park',
 'Istinye Park',
 'Metrocity',
 'Viaport Outlet',
 'Istinye Park',
 'Kanyon',
 'Kanyon',
 'Kanyon',
 'Kanyon',
 'Mall of Istanbul',
 'Kanyon',
 'Kanyon

## 6. ESTADÍSTICOS BÁSICOS (FRECUENCIAS, PROPORCIONES, PROMEDIO, MEDIA, VARIANZA, DESVIACIÓN ESTÁNDARD, MÁXIMO, MÍNIMO Y CUARTILES)

### 6.1. Frecuencias absolutas (recuentos) y relativas (proporciones)

#### 6.1.1. Género

In [10]:
rec_genero = {}
datos_genero = [diccionario["gender"] for diccionario in data]
## Recuento de genero
for genero in datos_genero:
    if genero in rec_genero:
        rec_genero[genero] += 1
    else:
        rec_genero[genero] = 1
## Proporción
prop_genero = {}
for genero in rec_genero:
    prop_genero[genero] = f"{round(rec_genero[genero] / len(data) * 100, 2)}%"

print("La cantidad de clientes por género:")
for genero, cantidad in rec_genero.items():
    print(f"{genero} : {cantidad}")

print("\nEl % de clientes por género:")
for genero, proporcion in prop_genero.items():
    print(f"{genero} : {proporcion}")

#print(rec_genero) ## cantidad de clientes por género
#print(prop_genero) ## % de clientes por género

La cantidad de clientes por género:
Female : 59482
Male : 39975

El % de clientes por género:
Female : 59.81%
Male : 40.19%


#### 6.1.2. Categoría

In [11]:
rec_categoria = {}
datos_categoria = [diccionario["category"] for diccionario in data]
## Recuento de categorias de productos
for categoria in datos_categoria:
    if categoria in rec_categoria:
        rec_categoria[categoria] += 1
    else:
        rec_categoria[categoria] = 1
## Proporción
prop_categoria = {}
for categoria in rec_categoria:
    prop_categoria[categoria] = f"{round(rec_categoria[categoria] / len(data) * 100, 2)}%"

print("La cantidad de clientes por categoría de producto vendido:")
for categoria, cantidad in rec_categoria.items():
    print(f"{categoria} : {cantidad}")

print("\nEl % de clientes por categoría de producto vendido:")
for categoria, proporcion in prop_categoria.items():
    print(f"{categoria} : {proporcion}")

#print(rec_categoria) ## cantidad clientes según categoría de producto vendido
#print(prop_categoria) ##  % de clientes según categoría de producto vendido

La cantidad de clientes por categoría de producto vendido:
Clothing : 34487
Shoes : 10034
Books : 4981
Cosmetics : 15097
Food & Beverage : 14776
Toys : 10087
Technology : 4996
Souvenir : 4999

El % de clientes por categoría de producto vendido:
Clothing : 34.68%
Shoes : 10.09%
Books : 5.01%
Cosmetics : 15.18%
Food & Beverage : 14.86%
Toys : 10.14%
Technology : 5.02%
Souvenir : 5.03%


#### 6.1.3. Método de pago

In [12]:
rec_metodo_pago = {}
datos_metodo_pago = [diccionario["payment_method"] for diccionario in data]
## Recuento de tipos de métodos de pago
for metodo_de_pago in datos_metodo_pago:
    if metodo_de_pago in rec_metodo_pago:
        rec_metodo_pago[metodo_de_pago] += 1
    else:
        rec_metodo_pago[metodo_de_pago] = 1
## Proporción
prop_metodo_pago = {}
for metodo_pago in rec_metodo_pago:
    prop_metodo_pago[metodo_pago] = f"{round(rec_metodo_pago[metodo_pago] / len(data) * 100, 2)}%"

print("La cantidad de clientes por método de pago:")
for metodo_pago, cantidad in rec_metodo_pago.items():
    print(f"{metodo_pago} : {cantidad}")

print("\nEl % de clientes por método de pago:")
for metodo_pago, proporcion in prop_metodo_pago.items():
    print(f"{metodo_pago} : {proporcion}")

#print(rec_metodo_pago) ## cantidad de clientes según método de pago
#print(prop_metodo_pago) ##  % de clientes según método de pago

La cantidad de clientes por método de pago:
Credit Card : 34931
Debit Card : 20079
Cash : 44447

El % de clientes por método de pago:
Credit Card : 35.12%
Debit Card : 20.19%
Cash : 44.69%


#### 6.1.4. Mall de compra

In [13]:
rec_mall = {}
datos_shopping_mall = [diccionario["shopping_mall"] for diccionario in data]
## Recuento de compras por mall:
for mall in datos_shopping_mall:
    if mall in rec_mall:
        rec_mall[mall] += 1
    else:
        rec_mall[mall] = 1
## Proporción
prop_mall = {}
for mall in rec_mall:
    prop_mall[mall] = f"{round(rec_mall[mall] / len(data) * 100, 2)}%"

print("La cantidad de clientes por mall:")
for mall, cantidad in rec_mall.items():
    print(f"{mall} : {cantidad}")

print("\nEl % de clientes por mall")
for mall, proporcion in prop_mall.items():
    print(f"{mall} : {proporcion}")

#print(rec_mall) ## cantidad de clientes según mall en el que compraron
#print(prop_mall) ## % de clientes según mall en el que compraron

La cantidad de clientes por mall:
Kanyon : 19823
Forum Istanbul : 4947
Metrocity : 15011
Metropol AVM : 10161
Istinye Park : 9781
Mall of Istanbul : 19943
Emaar Square Mall : 4811
Cevahir AVM : 4991
Viaport Outlet : 4914
Zorlu Center : 5075

El % de clientes por mall
Kanyon : 19.93%
Forum Istanbul : 4.97%
Metrocity : 15.09%
Metropol AVM : 10.22%
Istinye Park : 9.83%
Mall of Istanbul : 20.05%
Emaar Square Mall : 4.84%
Cevahir AVM : 5.02%
Viaport Outlet : 4.94%
Zorlu Center : 5.1%


#### 6.1.5. Reordenamiento de valores (de mayor a menor y menor a mayor)

In [14]:
## Podemos reordenar los recuentos con la función sorted() e items()
lista_tuplas_reordenadas = sorted(rec_mall.items(), key = lambda item : item[1], reverse = True) # usar reverse = False en caso de menor a mayor

print(f"El diccionario se vuelve una lista de tuplas reordenadas y se ve así:")
for tupla in lista_tuplas_reordenadas:
    print(f"{tupla}")

## Volviendo la lista reordenada en diccionario nuevamente
rec_mall_reordenado = dict(lista_tuplas_reordenadas)

print(f"\nLuego al volverlo diccionario se observa de la siguiente manera:")
for mall, cantidad in rec_mall_reordenado.items():
    print(f"{mall} : {cantidad}")


El diccionario se vuelve una lista de tuplas reordenadas y se ve así:
('Mall of Istanbul', 19943)
('Kanyon', 19823)
('Metrocity', 15011)
('Metropol AVM', 10161)
('Istinye Park', 9781)
('Zorlu Center', 5075)
('Cevahir AVM', 4991)
('Forum Istanbul', 4947)
('Viaport Outlet', 4914)
('Emaar Square Mall', 4811)

Luego al volverlo diccionario se observa de la siguiente manera:
Mall of Istanbul : 19943
Kanyon : 19823
Metrocity : 15011
Metropol AVM : 10161
Istinye Park : 9781
Zorlu Center : 5075
Cevahir AVM : 4991
Forum Istanbul : 4947
Viaport Outlet : 4914
Emaar Square Mall : 4811


### 6.2. Estadísticos resumen (promedio, desv. estándar, varianza, máximo, mínimo y cuartiles)

Antes de obtener los promedios, debemos observar que la data que hemos leído está inicialmente como cadena de caractéres (observar que todas están encerradas entre apóstrofes `' '`). Por lo tanto, se procedera a extraer estos datos como listas y trasnformarlos a valores enteros (`int`) o con decimales (`float`).

También se asumirá que los datos que tenemos en el dataset pertenece

In [15]:
datos_edad = [int(diccionario["age"]) for diccionario in data]
datos_cantidad = [int(diccionario["quantity"]) for diccionario in data]
datos_price = [float(diccionario["price"]) for diccionario in data]

print(f"Primeros 5 datos de edad: {datos_edad[0:5]}")
print(f"Primeros 5 datos de cantidad comprada por el cliente: {datos_cantidad[0:5]}")
print(f"Primeros 5 datos de precios: {datos_price[0:5]}")

Primeros 5 datos de edad: [28, 21, 20, 66, 53]
Primeros 5 datos de cantidad comprada por el cliente: [5, 3, 1, 5, 4]
Primeros 5 datos de precios: [1500.4, 1800.51, 300.08, 3000.85, 60.6]


#### 6.2.1. Promedios

<img src=https://matematicasempresariales.files.wordpress.com/2014/09/cc3a1lculo-del-promedio-aritmc3a9tico.png>

In [16]:
promedio_edad = sum(datos_edad) / len(datos_edad)
promedio_cantidad = sum(datos_cantidad) / len(datos_cantidad)
promedio_precio = sum(datos_price) / len(datos_price)

print(f"La edad promedio de los clientes es de : {round(promedio_edad, 2)}")
print(f"La cantidad promedio de artículos comprados por el cliente es de : {round(promedio_cantidad, 2)}")
print(f"El precio por el cuál pagan los clientes es de : {round(promedio_precio, 2)}")

## Versión Numpy

promedio_edad_n = np.mean(datos_edad)
promedio_cantidad_n = np.mean(datos_cantidad)
promedio_precio_n = np.mean(datos_price)

print(f"\nCon la función de numpy tenemos los promedios de:")
print(f"Edad: {promedio_edad_n}")
print(f"Cantidad: {promedio_cantidad_n}")
print(f"Precio: {promedio_precio_n}")

La edad promedio de los clientes es de : 43.43
La cantidad promedio de artículos comprados por el cliente es de : 3.0
El precio por el cuál pagan los clientes es de : 689.26

Con la función de numpy tenemos los promedios de:
Edad: 43.42708909377922
Cantidad: 3.003428617392441
Precio: 689.2563209226097


#### 6.2.2. Varianza

<img src=https://www.sage.com/es-es/blog/wp-content/uploads/sites/8/2021/07/Varianza_1.jpg>

In [17]:
diferencias_edad_cuadrado = []

for x in datos_edad:
  diferencias_edad_cuadrado.append((x - promedio_edad)**2)

varianza_edad = sum(diferencias_edad_cuadrado) / len(diferencias_edad_cuadrado)

print(f"La varianza de la edad es de {varianza_edad}")
print(f"La varianza de la edad (con numpy) es de {np.var(datos_edad)}")

La varianza de la edad es de 224.6994533975809
La varianza de la edad (con numpy) es de 224.6994533975843


In [18]:
diferencias_cantidad_cuadrado = []

for x in datos_cantidad:
  diferencias_cantidad_cuadrado.append((x - promedio_cantidad)**2)

varianza_cantidad = sum(diferencias_cantidad_cuadrado) / len(data)

print(f"La varianza de la cantidad es de {varianza_cantidad}")
print(f"La varianza de la cantidad (con numpy) es de {np.var(datos_cantidad)}")

La varianza de la cantidad es de 1.996619954768788
La varianza de la cantidad (con numpy) es de 1.9966199547690882


In [19]:
diferencias_precio_cuadrado = []

for x in datos_price:
  diferencias_precio_cuadrado.append((x - promedio_precio)**2)

varianza_precio = sum(diferencias_precio_cuadrado) / len(data)

print(f"La varianza del precio es de {varianza_precio}")
print(f"La varianza del precio (con numpy) es de {np.var(datos_price)}")

La varianza del precio es de 885819.4829180958
La varianza del precio (con numpy) es de 885819.4829175773


#### 6.2.3. Desv. estándar

<img src=https://uedufy.com/wp-content/uploads/2022/03/image-17.png>

In [20]:
## Asumiendo que los datos son poblacionales, obtendremos la raiz cuadrada:
std_edad = varianza_edad ** 0.5
std_cantidad = varianza_cantidad ** 0.5
std_precio = varianza_precio ** 0.5

print(f"Desviación estándar de edad: {std_edad} | con numpy: {np.std(datos_edad)}")
print(f"Desviación estándar de la cantidad {std_cantidad} | con numpy: {np.std(datos_cantidad)}")
print(f"Desviación estándar del precio {std_precio} | con numpy: {np.std(datos_price)}")

Desviación estándar de edad: 14.989978432191986 | con numpy: 14.9899784321921
Desviación estándar de la cantidad 1.413018030588707 | con numpy: 1.4130180305888131
Desviación estándar del precio 941.1798355883406 | con numpy: 941.1798355880651


#### 6.2.4. Máximos y mínimos

In [21]:
maximo_edad = max(datos_edad)
maximo_cantidad = max(datos_cantidad)
maximo_precio = max(datos_price)

minimo_edad = min(datos_edad)
minimo_cantidad = min(datos_cantidad)
minimo_precio = min(datos_price)

print(f"El máximo y mínimo de la edad de clientes, respectivamente, son: {maximo_edad} y {minimo_edad} | con numpy {np.max(datos_edad)} y {np.min(datos_edad)}")
print(f"El máximo y mínimo de la cantidad comprada por clientes, respectivamente, son: {maximo_cantidad} y {minimo_cantidad} | con numpy {np.max(datos_cantidad)} y {np.min(datos_cantidad)}")
print(f"El máximo y mínimo del precio de los productos comprados por los clientes, respectivamente, son: {maximo_precio} y {minimo_precio} | con numpy {np.max(datos_price)} y {np.min(datos_price)}")

El máximo y mínimo de la edad de clientes, respectivamente, son: 69 y 18 | con numpy 69 y 18
El máximo y mínimo de la cantidad comprada por clientes, respectivamente, son: 5 y 1 | con numpy 5 y 1
El máximo y mínimo del precio de los productos comprados por los clientes, respectivamente, son: 5250.0 y 5.23 | con numpy 5250.0 y 5.23


#### 6.2.6. Cuartiles

In [22]:
Q1, Q2, Q3 = np.quantile(datos_edad, q = (0.25, 0.5, 0.75))

In [23]:
print(f"Los cuartiles son: {Q1}, {Q2}, {Q3}")

Los cuartiles son: 30.0, 43.0, 56.0
