# Assignment Final
Los datos que se incluyen en el fichero `datos_ventas_centros_comerciales.csv` representan casi 100.000 compra-ventas realizadas en un grupo de Centros Comerciales de Turquía durante un conjunto de años. 

Como analista del holding propietario de los centros comerciales, realiza un análisis respondiendo a las siguientes preguntas.  

## Notas y consejos

> **Consejo 1:** Es buena práctica, especialmente en preguntas que piden "el que más" o "el que menos" de algo,  
> considerar que puede haber **más de un valor máximo o mínimo** y decidir si devolverlo como **una colección de elementos** en lugar de un único valor.  

> **Consejo 2:** Solo es obligatorio crear una función cuando la pregunta lo indique explícitamente.  
> Sin embargo, te animo a crear funciones para organizar tu código y reutilizarlo cuando tenga sentido.  

> **Consejo 3:** Algunas preguntas se pueden resolver de manera muy similar, cambiando solo pequeños detalles del código.  
> Te invito a que, si notas que una solución se parece mucho a otra, pienses en **formas alternativas** de resolverla.

> **Consejo 4:** Antes de entregar, **reinicia el kernel y ejecuta todas las celdas** (`Restart Kernel + Run All`)  
> para asegurarte de que todo el código funciona correctamente desde cero.  
> Si alguna celda no se ejecuta correctamente, el ejercicio se calificará con un **máximo del 50%**.



### Definiciones de columnas del dataset

| Columna        | Descripción                                                                 |
|----------------|-----------------------------------------------------------------------------|
| invoice_no     | Número de factura. Una combinación de la letra 'I' y un número de 6 dígitos que identifica cada operación. |
| customer_id    | Número de cliente. Una combinación de la letra 'C' y un número de 6 dígitos que identifica a cada cliente. |
| category       | Categoría del producto comprado.                                            |
| quantity       | Cantidad de artículos comprados en la transacción.                          |
| price          | Precio unitario del producto en liras turcas (TL).                          |
| invoice_date   | Fecha en que se realizó la transacción.                                     |
| shopping_mall  | Nombre del centro comercial donde se realizó la compra.                     |

**Aclaración:** En las preguntas posteriores hay una diferencia importante entre **ingresos** y **número de ventas**.  
- **Ingresos**: se calculan multiplicando la cantidad (`quantity`) por el precio (`price`) de cada transacción.  
- **Número de ventas**: simplemente cuenta cuántas transacciones o facturas se realizaron, sin tener en cuenta el importe.









# 0. Exploración de Datos

Leer el CSV con pandas y explorar la información básica.


1. Cargar el CSV en una variable `datos`.


In [1]:
import pandas as pd

In [2]:
import numpy as np

In [3]:
datos = pd.read_csv('./datos/datos_ventas_centros_comerciales.csv')

2. Mostrar las primeras 5 filas y la información de las columnas.  


In [4]:
datos.head()

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall
0,I138884,C241288,Clothing,5,8172.24,05-08-2022,Kanyon
1,I317333,C111565,Shoes,3,8868.64,12-12-2021,Forum Istanbul
2,I127801,C266599,Clothing,1,4863.95,09-11-2021,Metrocity
3,I173702,C988172,Shoes,5,711.48,16-05-2021,Metropol AVM
4,I337046,C189076,Books,4,1110.32,24-10-2021,Kanyon


In [5]:
datos.tail()

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall
99452,I219422,C441542,Souvenir,5,6692.42,21-09-2022,Kanyon
99453,I325143,C569580,Food & Beverage,2,8397.24,22-09-2021,Forum Istanbul
99454,I824010,C103292,Food & Beverage,2,3253.27,28-03-2021,Metrocity
99455,I702964,C800631,Technology,4,6626.41,16-03-2021,Istinye Park
99456,I232867,C273973,Souvenir,3,6224.72,15-10-2022,Mall of Istanbul


3. Contar el número de filas y columnas.

In [6]:
datos.shape

print(f'hay {datos.shape[0]} filas y {datos.shape[1]} columnas') 

hay 99457 filas y 7 columnas


4. Mostrar los nombres de todas las columnas disponibles.  


In [7]:
print(datos.columns)

Index(['invoice_no', 'customer_id', 'category', 'quantity', 'price',
       'invoice_date', 'shopping_mall'],
      dtype='object')


5. ¿Hay alguna columna con datos faltantes?  Si es así, ¿cuántos datos faltan por columna?  

Borra las filas que tengan algún dato faltante y vuelve a contar cuántas filas quedan.


In [8]:
print(datos.iloc[:,:].isna().sum())

invoice_no       0
customer_id      0
category         0
quantity         0
price            0
invoice_date     0
shopping_mall    0
dtype: int64


6. Convertir `invoice_date` a tipo datetime y verificar que el cambio se realizó correctamente.


In [9]:
import datetime as dt

In [10]:
def convertToDatetime(date_mod):
    return dt.datetime(date_mod)

In [11]:
datos['invoice_date']

0        05-08-2022
1        12-12-2021
2        09-11-2021
3        16-05-2021
4        24-10-2021
            ...    
99452    21-09-2022
99453    22-09-2021
99454    28-03-2021
99455    16-03-2021
99456    15-10-2022
Name: invoice_date, Length: 99457, dtype: object

In [12]:
datos['invoice_date'] =  pd.to_datetime(datos.loc[:,'invoice_date'], format = '%d-%m-%Y')

# test_datetime = dt.datetime(datos.invoice_date)

7. Explora alguna otra característica del dataset que consideres relevante.  
   *Os dejo algunos ejemplos para que podáis inspiraros: categorías, centros comerciales o rangos de precios. Estos ejemplos no cuentan.*


In [91]:
datos.dtypes

invoice_no                  object
customer_id                 object
category                    object
quantity                     int64
price                      float64
invoice_date        datetime64[ns]
shopping_mall               object
ventas                     float64
unit_price                 float64
dia_de_la_semana            object
dtype: object

# 1. ¿Cuál es el total de ingresos generados por todas las ventas registradas?

Usa una función y opcionalmente guardar en `src/utils.py`.

Guarda el resultado en una variable llamada `total_ingresos`



In [92]:
import os
import sys  
import src.utils as utils

In [14]:
datos.head()

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall
0,I138884,C241288,Clothing,5,8172.24,2022-08-05,Kanyon
1,I317333,C111565,Shoes,3,8868.64,2021-12-12,Forum Istanbul
2,I127801,C266599,Clothing,1,4863.95,2021-11-09,Metrocity
3,I173702,C988172,Shoes,5,711.48,2021-05-16,Metropol AVM
4,I337046,C189076,Books,4,1110.32,2021-10-24,Kanyon


In [15]:
# Total de ventas
datos['ventas'] = utils.calc_ingresos(datos.quantity, datos.price)
total_ingresos = datos['ventas'].sum()

In [93]:
total_ingresos

np.float64(1490921515.71)

In [94]:
type(total_ingresos)

numpy.float64

# 2. ¿Cuál es el centro comercial que ha generado más ventas?
Usa una función y opcionalmente guardar en `src/utils.py`.

Guarda el resultado en una variable llamada `centro_comercial_mas_ventas`


In [95]:
datos.head()

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall,ventas,unit_price,dia_de_la_semana
0,I138884,C241288,Clothing,5,8172.24,2022-08-05,Kanyon,40861.2,1634.448,Viernes
1,I317333,C111565,Shoes,3,8868.64,2021-12-12,Forum Istanbul,26605.92,2956.213333,Domingo
2,I127801,C266599,Clothing,1,4863.95,2021-11-09,Metrocity,4863.95,4863.95,Martes
3,I173702,C988172,Shoes,5,711.48,2021-05-16,Metropol AVM,3557.4,142.296,Domingo
4,I337046,C189076,Books,4,1110.32,2021-10-24,Kanyon,4441.28,277.58,Domingo


In [None]:
# Centro comercial con más ventas.

# Puede haber 2 o más en las preguntas.


centro_comercial_mas_ventas = datos.groupby('shopping_mall')['invoice_no'].count().sort_values(ascending= False).idxmax()
centro_comercial_mas_ventas



'Mall of Istanbul'

In [19]:
datos.groupby('shopping_mall')['invoice_no'].count().sort_values(ascending=False)

shopping_mall
Mall of Istanbul     19943
Kanyon               19823
Metrocity            15011
Metropol AVM         10161
Istinye Park          9781
Zorlu Center          5075
Cevahir AVM           4991
Forum Istanbul        4947
Viaport Outlet        4914
Emaar Square Mall     4811
Name: invoice_no, dtype: int64

# 3. ¿Cuál es la categoría de producto que ha generado mas ventas? 
Guarda el resultado en una variable llamada `categoria_mas_vendida`


In [20]:
datos.head()

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall,ventas
0,I138884,C241288,Clothing,5,8172.24,2022-08-05,Kanyon,40861.2
1,I317333,C111565,Shoes,3,8868.64,2021-12-12,Forum Istanbul,26605.92
2,I127801,C266599,Clothing,1,4863.95,2021-11-09,Metrocity,4863.95
3,I173702,C988172,Shoes,5,711.48,2021-05-16,Metropol AVM,3557.4
4,I337046,C189076,Books,4,1110.32,2021-10-24,Kanyon,4441.28


In [21]:
categoria_mas_vendida = datos.groupby('category')['invoice_no'].count().sort_values(ascending= False).idxmax()

In [96]:
categoria_mas_vendida

'Clothing'

In [97]:
type(categoria_mas_vendida)

str

In [22]:
datos.groupby('category')['invoice_no'].count().sort_values(ascending= False)

category
Clothing           34487
Cosmetics          15097
Food & Beverage    14776
Toys               10087
Shoes              10034
Souvenir            4999
Technology          4996
Books               4981
Name: invoice_no, dtype: int64

In [23]:
datos.head()
datos.sort_values(by = 'price', ascending= False)

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall,ventas
85137,I321299,C103251,Toys,1,9999.85,2023-02-11,Kanyon,9999.85
77921,I201847,C236448,Toys,2,9999.72,2021-02-28,Mall of Istanbul,19999.44
17110,I311640,C307063,Clothing,5,9999.60,2023-01-13,Metrocity,49998.00
50477,I200047,C233536,Souvenir,5,9999.48,2021-11-30,Emaar Square Mall,49997.40
10720,I939417,C212298,Toys,2,9999.15,2023-01-11,Kanyon,19998.30
...,...,...,...,...,...,...,...,...
18786,I213195,C886430,Toys,3,1.20,2022-07-21,Kanyon,3.60
91041,I230762,C282099,Food & Beverage,4,0.91,2021-09-20,Istinye Park,3.64
86220,I151859,C211309,Technology,1,0.65,2021-07-14,Metropol AVM,0.65
53142,I255069,C339869,Toys,2,0.55,2021-03-30,Kanyon,1.10


# 4. ¿Cuál es el producto más caro vendido?
Guarda el resultado en una variable llamada `categoria_producto_mas_caro`



In [24]:
# Comparando el precio por producto individual ("unit price") en vez de el precio del producto con una cantidad más de 1. Si yo vendo un iPhone por 1.5k Euros y 5000 boligrafos que sale a 2k Euros, uno va decir que el iPhone es el producto más caro de los dos, aunque vende más los boligrafos.
datos['unit_price'] = utils.unit_price(datos.quantity, datos.price)

In [25]:
datos.head()

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall,ventas,unit_price
0,I138884,C241288,Clothing,5,8172.24,2022-08-05,Kanyon,40861.2,1634.448
1,I317333,C111565,Shoes,3,8868.64,2021-12-12,Forum Istanbul,26605.92,2956.213333
2,I127801,C266599,Clothing,1,4863.95,2021-11-09,Metrocity,4863.95,4863.95
3,I173702,C988172,Shoes,5,711.48,2021-05-16,Metropol AVM,3557.4,142.296
4,I337046,C189076,Books,4,1110.32,2021-10-24,Kanyon,4441.28,277.58


In [26]:
datos.sort_values(by = 'unit_price', ascending= False).max()

categoria_producto_mas_caro =  datos.sort_values(by = 'unit_price', ascending= False).max()['category']

In [98]:
categoria_producto_mas_caro

'Toys'

# 5. ¿Cuál es la factura más antigua registrada en el dataset?
Guarda el resultado en una variable llamada `factura_mas_antigua`.  

In [27]:
datos.head()


Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall,ventas,unit_price
0,I138884,C241288,Clothing,5,8172.24,2022-08-05,Kanyon,40861.2,1634.448
1,I317333,C111565,Shoes,3,8868.64,2021-12-12,Forum Istanbul,26605.92,2956.213333
2,I127801,C266599,Clothing,1,4863.95,2021-11-09,Metrocity,4863.95,4863.95
3,I173702,C988172,Shoes,5,711.48,2021-05-16,Metropol AVM,3557.4,142.296
4,I337046,C189076,Books,4,1110.32,2021-10-24,Kanyon,4441.28,277.58


In [28]:
# Veo que hay más de un valor que satisface esta pregunta.
datos.sort_values(by = 'invoice_date', ascending= True)
datos.groupby('invoice_date')['invoice_no'].value_counts()

datos[datos['invoice_date'] == datos['invoice_date'].min()]

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall,ventas,unit_price
4296,I301161,C844363,Cosmetics,3,50.19,2021-01-01,Mall of Istanbul,150.57,16.730000
5323,I115941,C105769,Clothing,1,3551.33,2021-01-01,Istinye Park,3551.33,3551.330000
6005,I157000,C211233,Clothing,3,8352.88,2021-01-01,Istinye Park,25058.64,2784.293333
6479,I312021,C153822,Cosmetics,3,4827.99,2021-01-01,Metrocity,14483.97,1609.330000
6989,I350619,C161382,Clothing,4,5086.12,2021-01-01,Zorlu Center,20344.48,1271.530000
...,...,...,...,...,...,...,...,...,...
95110,I373864,C244040,Clothing,3,2240.04,2021-01-01,Mall of Istanbul,6720.12,746.680000
96387,I309608,C133180,Cosmetics,1,390.11,2021-01-01,Emaar Square Mall,390.11,390.110000
98632,I321359,C169122,Shoes,1,8991.09,2021-01-01,Istinye Park,8991.09,8991.090000
98699,I246238,C993903,Shoes,5,935.69,2021-01-01,Emaar Square Mall,4678.45,187.138000


In [29]:
factura_mas_antigua = list(datos[datos['invoice_date'] == datos['invoice_date'].min()]['invoice_no'])

In [99]:
factura_mas_antigua

['I301161',
 'I115941',
 'I157000',
 'I312021',
 'I350619',
 'I225263',
 'I260437',
 'I160799',
 'I323282',
 'I172357',
 'I151379',
 'I258121',
 'I218047',
 'I804151',
 'I661328',
 'I193645',
 'I922215',
 'I181714',
 'I263494',
 'I255494',
 'I184242',
 'I256461',
 'I154522',
 'I836951',
 'I159235',
 'I234608',
 'I423363',
 'I322318',
 'I298375',
 'I223096',
 'I207939',
 'I124374',
 'I235671',
 'I312847',
 'I372925',
 'I211131',
 'I263376',
 'I192911',
 'I966320',
 'I983515',
 'I765482',
 'I811651',
 'I302939',
 'I656085',
 'I198722',
 'I246142',
 'I279736',
 'I880831',
 'I291690',
 'I371949',
 'I278066',
 'I323268',
 'I313807',
 'I104292',
 'I211587',
 'I427957',
 'I132894',
 'I220341',
 'I197007',
 'I229110',
 'I131005',
 'I211789',
 'I247897',
 'I200375',
 'I184824',
 'I224521',
 'I382797',
 'I270599',
 'I139792',
 'I162254',
 'I262633',
 'I202841',
 'I224830',
 'I983410',
 'I101088',
 'I262389',
 'I114774',
 'I310843',
 'I199546',
 'I194857',
 'I274757',
 'I239504',
 'I313757',
 'I4

In [107]:
len(factura_mas_antigua)

105

In [106]:
datos.loc[datos['invoice_date'] == '2021-01-01']

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall,ventas,unit_price,dia_de_la_semana
4296,I301161,C844363,Cosmetics,3,50.19,2021-01-01,Mall of Istanbul,150.57,16.730000,Viernes
5323,I115941,C105769,Clothing,1,3551.33,2021-01-01,Istinye Park,3551.33,3551.330000,Viernes
6005,I157000,C211233,Clothing,3,8352.88,2021-01-01,Istinye Park,25058.64,2784.293333,Viernes
6479,I312021,C153822,Cosmetics,3,4827.99,2021-01-01,Metrocity,14483.97,1609.330000,Viernes
6989,I350619,C161382,Clothing,4,5086.12,2021-01-01,Zorlu Center,20344.48,1271.530000,Viernes
...,...,...,...,...,...,...,...,...,...,...
95110,I373864,C244040,Clothing,3,2240.04,2021-01-01,Mall of Istanbul,6720.12,746.680000,Viernes
96387,I309608,C133180,Cosmetics,1,390.11,2021-01-01,Emaar Square Mall,390.11,390.110000,Viernes
98632,I321359,C169122,Shoes,1,8991.09,2021-01-01,Istinye Park,8991.09,8991.090000,Viernes
98699,I246238,C993903,Shoes,5,935.69,2021-01-01,Emaar Square Mall,4678.45,187.138000,Viernes


# 6. ¿Cuál es la cantidad promedio de productos vendidos por transacción?
Guarda el resultado en una variable llamada `cantidad_promedio_por_transaccion`



In [30]:
datos.head()

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall,ventas,unit_price
0,I138884,C241288,Clothing,5,8172.24,2022-08-05,Kanyon,40861.2,1634.448
1,I317333,C111565,Shoes,3,8868.64,2021-12-12,Forum Istanbul,26605.92,2956.213333
2,I127801,C266599,Clothing,1,4863.95,2021-11-09,Metrocity,4863.95,4863.95
3,I173702,C988172,Shoes,5,711.48,2021-05-16,Metropol AVM,3557.4,142.296
4,I337046,C189076,Books,4,1110.32,2021-10-24,Kanyon,4441.28,277.58


In [31]:
# Dos métodos que llegan al mismo resultado.

sum_quantity = datos['quantity'].agg(['sum','count']).values
print(sum_quantity[0] / sum_quantity[1])


print(datos.quantity.mean())

cantidad_promedio_por_transaccion = datos.quantity.mean()

3.003428617392441
3.003428617392441


# 7. ¿Cuál es el día con más ventas registradas?
Guarda el resultado en una variable llamada `dia_con_mas_ventas`.

In [32]:
datos.head()

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall,ventas,unit_price
0,I138884,C241288,Clothing,5,8172.24,2022-08-05,Kanyon,40861.2,1634.448
1,I317333,C111565,Shoes,3,8868.64,2021-12-12,Forum Istanbul,26605.92,2956.213333
2,I127801,C266599,Clothing,1,4863.95,2021-11-09,Metrocity,4863.95,4863.95
3,I173702,C988172,Shoes,5,711.48,2021-05-16,Metropol AVM,3557.4,142.296
4,I337046,C189076,Books,4,1110.32,2021-10-24,Kanyon,4441.28,277.58


In [33]:
dia_con_mas_ventas_datetime = datos.groupby('invoice_date')['invoice_no'].count().sort_values(ascending= False).idxmax()
type(dia_con_mas_ventas_datetime.date())
dia_con_mas_ventas = dia_con_mas_ventas_datetime.date()



In [108]:
dia_con_mas_ventas

datetime.date(2021, 11, 24)

# 8. ¿Cuál es el cliente que más ha gastado en total?
Guarda el resultado en una variable llamada `cliente_que_mas_gasto`


In [34]:
datos.head()

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall,ventas,unit_price
0,I138884,C241288,Clothing,5,8172.24,2022-08-05,Kanyon,40861.2,1634.448
1,I317333,C111565,Shoes,3,8868.64,2021-12-12,Forum Istanbul,26605.92,2956.213333
2,I127801,C266599,Clothing,1,4863.95,2021-11-09,Metrocity,4863.95,4863.95
3,I173702,C988172,Shoes,5,711.48,2021-05-16,Metropol AVM,3557.4,142.296
4,I337046,C189076,Books,4,1110.32,2021-10-24,Kanyon,4441.28,277.58


In [35]:
datos.groupby('customer_id').agg({'ventas': ['sum'], 'customer_id': ['count']})
datos.groupby('customer_id')['ventas'].sum().sort_values(ascending= False)

customer_id
C307063    49998.00
C233536    49997.40
C171531    49989.10
C290720    49986.85
C173286    49984.85
             ...   
C727616        2.18
C231695        1.32
C339869        1.10
C211309        0.65
C234095        0.54
Name: ventas, Length: 99457, dtype: float64

In [36]:
# Dos métodos que encontré para analisis. No se si hay una forma más simple de escribir la segunda solución, se siente repetitivo hacer un sum y un count en dos diferentes lineas, y despues hacer un merge. 
datos.groupby('customer_id').agg({'ventas': ['sum'], 'customer_id': ['count']})

# Curiosidad mía - a ver si el top customer es por hacer muchas compras o por una gran compra. Seguiré usando ventas_customer para mi respuesta.
ventas_customer = datos.groupby('customer_id')['ventas'].sum().sort_values(ascending= False)
ventas_num_customer = datos.groupby('customer_id')['invoice_no'].count().sort_values(ascending= False)
ventas_table = pd.merge(ventas_customer, ventas_num_customer, on= "customer_id")




In [37]:
print(ventas_customer.loc[ventas_customer.idxmax()])
print(ventas_customer.index[0])

cliente_que_mas_gasto = ventas_customer.index[0]

49998.0
C307063


In [38]:
# ventas_customer['ventas'].max()

In [39]:
ventas_table.head()

Unnamed: 0_level_0,ventas,invoice_no
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
C307063,49998.0,1
C233536,49997.4,1
C171531,49989.1,1
C290720,49986.85,1
C173286,49984.85,1


# 9. ¿Cuál es la factura con el precio total más alto?
Guarda el resultado en una variable llamada `factura_max_valor`


In [40]:
factura_max_valor = datos[datos['price'] == datos['price'].max()]['invoice_no'].values[0]
factura_max_valor

'I321299'

# 10. ¿Cuál es la distribución porcentual de ventas por categoría de producto?
Guarda el resultado en una variable llamada `distribucion_porcentual_ventas_por_categoria`. 

El tipo de `distribucion_porcentual_ventas_por_categoria` debe ser `pandas.core.series.Series` donde las etiquetas deben ser las categorias y los valores deben ser la distribucion porcentual de las ventas por categoría


In [41]:
# group by categoria, tengo que encontrar la suma de todas las facturas.
# print(datos.groupby('category')['invoice_no'].count())
print(type(datos.groupby('category')['invoice_no'].count()))
print('---------')
# numero de facturas total
# print(datos.shape[0])
print(type(datos.shape[0]))

distribucion_porcentual_ventas_por_categoria = datos.groupby('category')['invoice_no'].count().apply(lambda x: (x / datos.shape[0]) * 100)

print(f'#1: {type(datos.groupby('category')['invoice_no'].count())} es una Series que se puede aplicar la función .apply() with #2: {type(datos.shape[0])} -> #3: {type(distribucion_porcentual_ventas_por_categoria)}')

<class 'pandas.core.series.Series'>
---------
<class 'int'>
#1: <class 'pandas.core.series.Series'> es una Series que se puede aplicar la función .apply() with #2: <class 'int'> -> #3: <class 'pandas.core.series.Series'>


In [109]:
distribucion_porcentual_ventas_por_categoria

category
Books               5.008194
Clothing           34.675287
Cosmetics          15.179424
Food & Beverage    14.856672
Shoes              10.088782
Souvenir            5.026293
Technology          5.023276
Toys               10.142071
Name: invoice_no, dtype: float64

In [110]:
type(distribucion_porcentual_ventas_por_categoria)

pandas.core.series.Series

# 11. ¿Cuál es el día de la semana con más ventas registradas en cada centro comercial?
Guarda el resultado en una variable llamada `dia_semana_mas_ventas_por_centro`. 

El tipo de `dia_semana_mas_ventas_por_centro` debe ser `pandas.core.series.Series` donde las etiquetas deben ser el nombre de los centros comerciales y los valores deben ser el nombre del dia de la semana con mas ventas.

In [42]:
datos.head()

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall,ventas,unit_price
0,I138884,C241288,Clothing,5,8172.24,2022-08-05,Kanyon,40861.2,1634.448
1,I317333,C111565,Shoes,3,8868.64,2021-12-12,Forum Istanbul,26605.92,2956.213333
2,I127801,C266599,Clothing,1,4863.95,2021-11-09,Metrocity,4863.95,4863.95
3,I173702,C988172,Shoes,5,711.48,2021-05-16,Metropol AVM,3557.4,142.296
4,I337046,C189076,Books,4,1110.32,2021-10-24,Kanyon,4441.28,277.58


In [None]:
print(datos.dtypes)
type(datos['invoice_date']) 

invoice_no               object
customer_id              object
category                 object
quantity                  int64
price                   float64
invoice_date     datetime64[ns]
shopping_mall            object
ventas                  float64
unit_price              float64
dtype: object


pandas.core.series.Series

In [44]:
# 2 funciónes para sacar el día de la semana. Ambos devuelven int.
print(f'{type(datos.loc[0,'invoice_date'].day_of_week)}: {datos.loc[0,'invoice_date'].day_of_week}')
print(f'{type(datos.loc[0,'invoice_date'].weekday())}: {datos.loc[0,'invoice_date'].weekday()}')

<class 'int'>: 4
<class 'int'>: 4


In [45]:
# Crear una nueva columna con la información ya lista.
datos['dia_de_la_semana'] = datos['invoice_date'].apply(utils.dia_de_la_semana)
datos.head()

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall,ventas,unit_price,dia_de_la_semana
0,I138884,C241288,Clothing,5,8172.24,2022-08-05,Kanyon,40861.2,1634.448,Viernes
1,I317333,C111565,Shoes,3,8868.64,2021-12-12,Forum Istanbul,26605.92,2956.213333,Domingo
2,I127801,C266599,Clothing,1,4863.95,2021-11-09,Metrocity,4863.95,4863.95,Martes
3,I173702,C988172,Shoes,5,711.48,2021-05-16,Metropol AVM,3557.4,142.296,Domingo
4,I337046,C189076,Books,4,1110.32,2021-10-24,Kanyon,4441.28,277.58,Domingo


In [None]:
# Crear el groupby donde yo puedo ver las ventas por mall y día
datos_grouped_by_mall_day = datos.groupby('shopping_mall')['dia_de_la_semana'].value_counts()
datos_grouped_by_mall_day

shopping_mall  dia_de_la_semana
Cevahir AVM    Domingo             754
               Viernes             743
               Miercoles           704
               Sabado              700
               Lunes               699
                                  ... 
Zorlu Center   Viernes             731
               Domingo             728
               Jueves              719
               Lunes               714
               Miercoles           688
Name: count, Length: 70, dtype: int64

In [162]:
type(datos_grouped_by_mall_day)

pandas.core.series.Series

In [None]:
# Hay un mall que tiene dos máximos.
pd.option_context('display.multi_sparse', False)
    # print (datos_grouped_by_mall_day)

datos_grouped_by_mall_day.head(n = 50)

shopping_mall      dia_de_la_semana
Cevahir AVM        Domingo              754
                   Viernes              743
                   Miercoles            704
                   Sabado               700
                   Lunes                699
                   Martes               697
                   Jueves               694
Emaar Square Mall  Viernes              738
                   Lunes                706
                   Miercoles            685
                   Sabado               681
                   Jueves               672
                   Domingo              667
                   Martes               662
Forum Istanbul     Lunes                736
                   Sabado               736
                   Domingo              717
                   Miercoles            717
                   Martes               684
                   Jueves               682
                   Viernes              675
Istinye Park       Viernes             1

In [None]:
# Reset_index para convertir en otro dataframe.
datos_reset_index = datos_grouped_by_mall_day.reset_index()

In [84]:
datos_reset_index.head()

Unnamed: 0,shopping_mall,dia_de_la_semana,count
0,Cevahir AVM,Domingo,754
1,Cevahir AVM,Viernes,743
2,Cevahir AVM,Miercoles,704
3,Cevahir AVM,Sabado,700
4,Cevahir AVM,Lunes,699


In [50]:
print(type(datos_grouped_by_mall_day))
print(type(datos_reset_index))
print('---------')
datos_reset_index.head(n = 14)

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>
---------


Unnamed: 0,shopping_mall,dia_de_la_semana,count
0,Cevahir AVM,Domingo,754
1,Cevahir AVM,Viernes,743
2,Cevahir AVM,Miercoles,704
3,Cevahir AVM,Sabado,700
4,Cevahir AVM,Lunes,699
5,Cevahir AVM,Martes,697
6,Cevahir AVM,Jueves,694
7,Emaar Square Mall,Viernes,738
8,Emaar Square Mall,Lunes,706
9,Emaar Square Mall,Miercoles,685


In [None]:
# Sacar el index que tiene el máximo valor de 'count' por cada mall. Cuando yo intenté usar 'shopping_mall' y 'dia_de_la_semana', me devolvió todo.
datos_df = datos_reset_index.groupby('shopping_mall')['count'].idxmax()
print('-------')
print(type(datos_df))

-------
<class 'pandas.core.series.Series'>


In [88]:
print(datos_df)
print(type(datos_df))

shopping_mall
Cevahir AVM           0
Emaar Square Mall     7
Forum Istanbul       14
Istinye Park         21
Kanyon               28
Mall of Istanbul     35
Metrocity            42
Metropol AVM         49
Viaport Outlet       56
Zorlu Center         63
Name: count, dtype: int64
<class 'pandas.core.series.Series'>


In [None]:
# Usar los valores de datos_df lista para usar como la index de la fila en el original data_reset_index que tiene todas las columnas. Quitar el index del original.
dia_semana_mas_ventas_por_centro_df =  datos_reset_index.loc[datos_df,['shopping_mall','dia_de_la_semana']].reset_index(drop= 'True')

In [89]:
dia_semana_mas_ventas_por_centro_df

Unnamed: 0,shopping_mall,dia_de_la_semana
0,Cevahir AVM,Domingo
1,Emaar Square Mall,Viernes
2,Forum Istanbul,Lunes
3,Istinye Park,Viernes
4,Kanyon,Lunes
5,Mall of Istanbul,Martes
6,Metrocity,Lunes
7,Metropol AVM,Martes
8,Viaport Outlet,Viernes
9,Zorlu Center,Martes


In [None]:
print(type(dia_semana_mas_ventas_por_centro_df))

# Tengo que convertir en Series.

<class 'pandas.core.frame.DataFrame'>


In [60]:
dia_semana_mas_ventas_por_centro_set_index = dia_semana_mas_ventas_por_centro_df

In [72]:
dia_semana_mas_ventas_por_centro_set_index = dia_semana_mas_ventas_por_centro_set_index.set_index('shopping_mall')['dia_de_la_semana']

In [73]:
type(dia_semana_mas_ventas_por_centro_set_index)

pandas.core.series.Series

In [77]:
dia_semana_mas_ventas_por_centro = dia_semana_mas_ventas_por_centro_set_index

In [78]:
dia_semana_mas_ventas_por_centro

shopping_mall
Cevahir AVM          Domingo
Emaar Square Mall    Viernes
Forum Istanbul         Lunes
Istinye Park         Viernes
Kanyon                 Lunes
Mall of Istanbul      Martes
Metrocity              Lunes
Metropol AVM          Martes
Viaport Outlet       Viernes
Zorlu Center          Martes
Name: dia_de_la_semana, dtype: object

### LB: Es que hay un mall que tiene dos máximas, pero no se cómo sacarlo. Intenté sacar una lista de malls y despues hacer un .loc que hace un "match" de todas las filas de un mall que tiene un cierto valor (el máximo).

In [112]:
datos_way_2 =  datos_grouped_by_mall_day.reset_index()

In [119]:
datos_way_2['shopping_mall'].unique()

lista_de_malls = [mall for mall in datos_way_2['shopping_mall'].unique()]

In [120]:
lista_de_malls

['Cevahir AVM',
 'Emaar Square Mall',
 'Forum Istanbul',
 'Istinye Park',
 'Kanyon',
 'Mall of Istanbul',
 'Metrocity',
 'Metropol AVM',
 'Viaport Outlet',
 'Zorlu Center']

In [129]:
list_indices_de_mayor_ventas = []
for mall in lista_de_malls:
    print(datos_way_2.loc[datos_way_2['shopping_mall'] == mall].idxmin()['shopping_mall'])
    list_indices_de_mayor_ventas.append(datos_way_2.loc[datos_way_2['shopping_mall'] == mall].idxmin()['shopping_mall'])


0
7
14
21
28
35
42
49
56
63


In [155]:
lista_max_values = []
lista_max_values_0 = []
lista_max_values_1 = []


for index in list_indices_de_mayor_ventas:
    print(datos_way_2.loc[index,'count'])
    lista_max_values.append((datos_way_2.loc[index,'shopping_mall'], datos_way_2.loc[index,'count']))
    lista_max_values_0.append((datos_way_2.loc[index,'shopping_mall']))
    lista_max_values_1.append((datos_way_2.loc[index,'count']))

754
738
736
1448
2890
2942
2174
1495
742
751


In [149]:
objeto_new = {
    'mall': lista_max_values_0,
    'count': lista_max_values_1
}

In [156]:
lista_max_values

[('Cevahir AVM', np.int64(754)),
 ('Emaar Square Mall', np.int64(738)),
 ('Forum Istanbul', np.int64(736)),
 ('Istinye Park', np.int64(1448)),
 ('Kanyon', np.int64(2890)),
 ('Mall of Istanbul', np.int64(2942)),
 ('Metrocity', np.int64(2174)),
 ('Metropol AVM', np.int64(1495)),
 ('Viaport Outlet', np.int64(742)),
 ('Zorlu Center', np.int64(751))]

In [140]:
for i,j in lista_max_values:
    print(i)
    print(j)

Cevahir AVM
754
Emaar Square Mall
738
Forum Istanbul
736
Istinye Park
1448
Kanyon
2890
Mall of Istanbul
2942
Metrocity
2174
Metropol AVM
1495
Viaport Outlet
742
Zorlu Center
751


In [144]:
lista_max_values[0]

('Cevahir AVM', np.int64(754))

In [165]:
datos_way_2.loc[datos_way_2['shopping_mall'] in lista_max_values_0 & datos_way_2['count'] in lista_max_values_1]

  datos_way_2.loc[datos_way_2['shopping_mall'] in lista_max_values_0 & datos_way_2['count'] in lista_max_values_1]


ValueError: operands could not be broadcast together with shapes (10,) (70,) 