# Assignment Final
Los datos que se incluyen en el fichero `datos_ventas_centros_comerciales.csv` representan casi 100.000 compra-ventas realizadas en un grupo de Centros Comerciales de Turquía durante un conjunto de años. 

Como analista del holding propietario de los centros comerciales, realiza un análisis respondiendo a las siguientes preguntas.  

## Notas y consejos

> **Consejo 1:** Es buena práctica, especialmente en preguntas que piden "el que más" o "el que menos" de algo,  
> considerar que puede haber **más de un valor máximo o mínimo** y decidir si devolverlo como **una colección de elementos** en lugar de un único valor.  

> **Consejo 2:** Solo es obligatorio crear una función cuando la pregunta lo indique explícitamente.  
> Sin embargo, te animo a crear funciones para organizar tu código y reutilizarlo cuando tenga sentido.  

> **Consejo 3:** Algunas preguntas se pueden resolver de manera muy similar, cambiando solo pequeños detalles del código.  
> Te invito a que, si notas que una solución se parece mucho a otra, pienses en **formas alternativas** de resolverla.

> **Consejo 4:** Antes de entregar, **reinicia el kernel y ejecuta todas las celdas** (`Restart Kernel + Run All`)  
> para asegurarte de que todo el código funciona correctamente desde cero.  
> Si alguna celda no se ejecuta correctamente, el ejercicio se calificará con un **máximo del 50%**.



### Definiciones de columnas del dataset

| Columna        | Descripción                                                                 |
|----------------|-----------------------------------------------------------------------------|
| invoice_no     | Número de factura. Una combinación de la letra 'I' y un número de 6 dígitos que identifica cada operación. |
| customer_id    | Número de cliente. Una combinación de la letra 'C' y un número de 6 dígitos que identifica a cada cliente. |
| category       | Categoría del producto comprado.                                            |
| quantity       | Cantidad de artículos comprados en la transacción.                          |
| price          | Precio unitario del producto en liras turcas (TL).                          |
| invoice_date   | Fecha en que se realizó la transacción.                                     |
| shopping_mall  | Nombre del centro comercial donde se realizó la compra.                     |

**Aclaración:** En las preguntas posteriores hay una diferencia importante entre **ingresos** y **número de ventas**.  
- **Ingresos**: se calculan multiplicando la cantidad (`quantity`) por el precio (`price`) de cada transacción.  
- **Número de ventas**: simplemente cuenta cuántas transacciones o facturas se realizaron, sin tener en cuenta el importe.









# 0. Exploración de Datos

Leer el CSV con pandas y explorar la información básica.


In [1]:
import pandas as pd
import matplotlib as plt
import numpy as num
import math as m
from src import *

import os

print(os.getcwd())

c:\Users\Arnau\OneDrive\Escritorio\Máster Data Analytics\Python 101\Proyecto Final


1. Cargar el CSV en una variable `datos`.


In [2]:
df = pd.read_csv('datos/datos_ventas_centros_comerciales.csv')

In [3]:
# Explora la información básica

df.describe()

Unnamed: 0,quantity,price
count,99457.0,99457.0
mean,3.003429,4986.716785
std,1.413025,2885.556685
min,1.0,0.54
25%,2.0,2488.37
50%,3.0,4977.33
75%,4.0,7480.94
max,5.0,9999.85


2. Mostrar las primeras 5 filas y la información de las columnas.  


In [4]:
df.head()

Unnamed: 0,invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall
0,I138884,C241288,Clothing,5,8172.24,05-08-2022,Kanyon
1,I317333,C111565,Shoes,3,8868.64,12-12-2021,Forum Istanbul
2,I127801,C266599,Clothing,1,4863.95,09-11-2021,Metrocity
3,I173702,C988172,Shoes,5,711.48,16-05-2021,Metropol AVM
4,I337046,C189076,Books,4,1110.32,24-10-2021,Kanyon


In [5]:
print(df.head())

print('__________________________________________________________________________\n')

print(df.info())

  invoice_no customer_id  category  quantity    price invoice_date  \
0    I138884     C241288  Clothing         5  8172.24   05-08-2022   
1    I317333     C111565     Shoes         3  8868.64   12-12-2021   
2    I127801     C266599  Clothing         1  4863.95   09-11-2021   
3    I173702     C988172     Shoes         5   711.48   16-05-2021   
4    I337046     C189076     Books         4  1110.32   24-10-2021   

    shopping_mall  
0          Kanyon  
1  Forum Istanbul  
2       Metrocity  
3    Metropol AVM  
4          Kanyon  
__________________________________________________________________________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99457 entries, 0 to 99456
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   invoice_no     99457 non-null  object 
 1   customer_id    99457 non-null  object 
 2   category       99457 non-null  object 
 3   quantity       99457 non-null  int64  
 4   price 

3. Contar el número de filas y columnas.

In [6]:
print("Hay 99457 filas y 7 columnas")

df.shape



Hay 99457 filas y 7 columnas


(99457, 7)

4. Mostrar los nombres de todas las columnas disponibles.  


In [7]:
print(df.columns)

columnas = ','.join(df.columns)

print(f"\nLos nombres de las columnas de este dataframe son: {columnas}")

 

Index(['invoice_no', 'customer_id', 'category', 'quantity', 'price',
       'invoice_date', 'shopping_mall'],
      dtype='object')

Los nombres de las columnas de este dataframe son: invoice_no,customer_id,category,quantity,price,invoice_date,shopping_mall


5. ¿Hay alguna columna con datos faltantes?  Si es así, ¿cuántos datos faltan por columna?  

Borra las filas que tengan algún dato faltante y vuelve a contar cuántas filas quedan.


In [8]:
# Aquí definimos los datos faltantes por columna, y los sumamos.

datos_faltantes_por_columna = df.isnull().sum()

print(f"Los datos faltantes por cada columna son los siguientes:\n\n{datos_faltantes_por_columna}")

Los datos faltantes por cada columna son los siguientes:

invoice_no       0
customer_id      0
category         0
quantity         0
price            0
invoice_date     0
shopping_mall    0
dtype: int64


In [9]:
# Ahora, quitamos los valores nulos (ninguno) con .dropna(). Al no haber ninguno de dichos valores, al imprimir len(df), el número de filas sigue siendo el mismo.

df = df.dropna()

len(df)

99457

6. Convertir `invoice_date` a tipo datetime y verificar que el cambio se realizó correctamente.


In [10]:
# Accedemos solo a la columna de la fecha, para que la función .to_datetime, se aplique solo ahí. Usamos el argumento dayfirst=True para que el día vaya primero en la fecha.

df['invoice_date'] = pd.to_datetime(df['invoice_date'], dayfirst=True)

# Lo verificamos con .dtype()

print(df['invoice_date'].dtype)

datetime64[ns]


7. Explora alguna otra característica del dataset que consideres relevante.  
   *Os dejo algunos ejemplos para que podáis inspiraros: categorías, centros comerciales o rangos de precios. Estos ejemplos no cuentan.*


In [11]:
# Revisamos si hay filas duplicadas

print(f"Hay un total de {df.duplicated().sum()} filas duplicadas.")

print('_____\n')

# Revisamos cuántos valores únicos tiene cada columna

print('Valores únicos por columna\n')
print(df.nunique())





Hay un total de 0 filas duplicadas.
_____

Valores únicos por columna

invoice_no       99457
customer_id      99457
category             8
quantity             5
price            94524
invoice_date       797
shopping_mall       10
dtype: int64


# 1. ¿Cuál es el total de ingresos generados por todas las ventas registradas?

Usa una función y opcionalmente guardar en `src/utils.py`.

Guarda el resultado en una variable llamada `total_ingresos`



In [12]:
def calcular_total_ingresos():
    """Coge el total de los ingresos y lo redondea en 2"""
    total = round(df['price'].sum(), 2)
    return total

print(calcular_total_ingresos())

total_ingresos = calcular_total_ingresos()

495963891.32


# 2. ¿Cuál es el centro comercial que ha generado más ventas?
Usa una función y opcionalmente guardar en `src/utils.py`.

Guarda el resultado en una variable llamada `centro_comercial_mas_ventas`


In [13]:
# Agrupamos los centros comerciales en base a la cantidad de ventas (interpretando cada producto vendido como venta) y las sumamos. Obtenemos la lista de mayor a menor volumen de ventas.
# De todas formas, accedemos al índice con mayor volumen con .idxmax()

centro_comercial_mas_ventas = df.groupby('shopping_mall')['quantity'].sum().sort_values(ascending=False)

def nombre_cc_mas_ventas():
  """Accede a la fila con el mayor valor de ventas de CC"""
  nombre = centro_comercial_mas_ventas.idxmax()
  return nombre

nombre_cc_mas_ventas()

'Mall of Istanbul'

# 3. ¿Cuál es la categoría de producto que ha generado mas ventas? 
Guarda el resultado en una variable llamada `categoria_mas_vendida`


In [14]:
# Proceso similar al anterior. Agrupamos las categorías en base a la cantidad de ventas (interpretando cada producto vendido como venta) y las sumamos. Accederemos de forma distinta.
# Creamos la variable "maximo ventas" para conocer el valor máximo de la columna creada "Ventas por Categoría", y la ordenamos.
# Por último, definimos la variable "categoria_mas_vendida", donde comparamos que el valor de maximo_ventas sea igual que alguna
# fila de la columna "Ventas por Categoría. Nos devuelve solo un valor, por lo que accedemos a ese único valor de la columna 'category'
#con iloc"

ventas_por_categoria = df.groupby('category')['quantity'].sum().reset_index(name='Ventas por Categoría').sort_values(by='Ventas por Categoría', ascending=False)

maximo_ventas = ventas_por_categoria['Ventas por Categoría'].max()

categoria_mas_vendida = ventas_por_categoria[ventas_por_categoria['Ventas por Categoría'] == maximo_ventas].iloc[0]['category']

print(f"La categoría que ha generado más ventas es {categoria_mas_vendida}.")

La categoría que ha generado más ventas es Clothing.


# 4. ¿Cuál es el producto más caro vendido?
Guarda el resultado en una variable llamada `categoria_producto_mas_caro`



In [15]:
# Ordenamos la tabla en orden descendiente por precio y accedemos a los primeros valores, para comprobar que no se repiten.

categoria_productos_mas_caros = df.sort_values(by='price', ascending=False).iloc[:3]

print(categoria_productos_mas_caros)

print('_______\n')

# Imprimimos entonces solo el más caro

categoria_producto_mas_caro = df.sort_values(by='price', ascending=False).iloc[0]

print(f"El producto más caro es:  \n\n{categoria_producto_mas_caro}")

      invoice_no customer_id  category  quantity    price invoice_date  \
85137    I321299     C103251      Toys         1  9999.85   2023-02-11   
77921    I201847     C236448      Toys         2  9999.72   2021-02-28   
17110    I311640     C307063  Clothing         5  9999.60   2023-01-13   

          shopping_mall  
85137            Kanyon  
77921  Mall of Istanbul  
17110         Metrocity  
_______

El producto más caro es:  

invoice_no                   I321299
customer_id                  C103251
category                        Toys
quantity                           1
price                        9999.85
invoice_date     2023-02-11 00:00:00
shopping_mall                 Kanyon
Name: 85137, dtype: object


# 5. ¿Cuál es la factura más antigua registrada en el dataset?
Guarda el resultado en una variable llamada `factura_mas_antigua`.  

In [16]:
# Ordenamos la tabla en orden descendiente por precio y accedemos al primer valor, el más antiguo. Luego, accedemos al valor de la columna invoice. 
# Descubrimos que las fechas más antiguas son del 2021-01-01, pero no hay una única factura.

facturas_ordenadas = df.sort_values(by='invoice_date', ascending=True)

# Accedemos a todas las facturas quee coinciden con esa fecha.

factura_mas_antigua = df.loc[df['invoice_date'] == '2021-01-01']['invoice_no']

print(factura_mas_antigua)

4296     I301161
5323     I115941
6005     I157000
6479     I312021
6989     I350619
          ...   
95110    I373864
96387    I309608
98632    I321359
98699    I246238
99074    I120978
Name: invoice_no, Length: 105, dtype: object


# 6. ¿Cuál es la cantidad promedio de productos vendidos por transacción?
Guarda el resultado en una variable llamada `cantidad_promedio_por_transaccion`



In [17]:
cantidad_promedio_por_transaccion = round(df['quantity'].mean())

print(f"La cantidad promedio de productos vendidos por transacción es {cantidad_promedio_por_transaccion}.")

La cantidad promedio de productos vendidos por transacción es 3.


# 7. ¿Cuál es el día con más ventas registradas?
Guarda el resultado en una variable llamada `dia_con_mas_ventas`.

In [18]:
# Interpretando los productos unitarios de la columna 'quantity' como ventas. Agrupamos por ventas de producto unitario por cada día.

ventas_groupby = df.groupby('invoice_date')['quantity'].sum().reset_index(name='Ventas').sort_values(by='Ventas', ascending=False)

# Accedemos al primera valor y al valor de ventas de producto unitario. 

ventas_del_dia_de_mas_ventas = ventas_groupby.iloc[0,1]

dia_con_mas_ventas = ventas_groupby.iloc[0,0]

print(f"El día con más ventas ha sido el {dia_con_mas_ventas}, con un total de {ventas_del_dia_de_mas_ventas}.")


El día con más ventas ha sido el 2022-06-09 00:00:00, con un total de 483.


# 8. ¿Cuál es el cliente que más ha gastado en total?
Guarda el resultado en una variable llamada `cliente_que_mas_gasto`


In [19]:
# Lo hacemos diferente aquí, sin depender de la lista descendiente. Agrupamos por clientes que más gastaron.

gasto_por_cliente = df.groupby('customer_id')['price'].sum().reset_index(name='Gasto Total por Cliente').sort_values(by='Gasto Total por Cliente', ascending=False)

# Accedemos a la fila con el valor máximo de la columna de Gasto por Cliente. Dentro, accedemos al id del cliente.

cliente_que_mas_gasto = gasto_por_cliente.loc[gasto_por_cliente['Gasto Total por Cliente'].idxmax(), 'customer_id']

print(f"El cliente que más gastó es el {cliente_que_mas_gasto}.")


El cliente que más gastó es el C103251.


# 9. ¿Cuál es la factura con el precio total más alto?
Guarda el resultado en una variable llamada `factura_max_valor`


In [20]:
# Agrupamos las facturas por precio.

invoice_precio = df.groupby('invoice_no')['price'].sum().reset_index(name='Gasto por factura').sort_values(by='Gasto por factura', ascending=False)

# Accedemos a la fila con el valor máximo de Gasto por Factura, una vez ahí, al número de factura.

factura_max_valor = invoice_precio.loc[invoice_precio['Gasto por factura'].idxmax(), 'invoice_no']

print(f"La factura con un precio total más alto es la {factura_max_valor}.")



La factura con un precio total más alto es la I321299.


# 10. ¿Cuál es la distribución porcentual de ventas por categoría de producto?
Guarda el resultado en una variable llamada `distribucion_porcentual_ventas_por_categoria`. 

El tipo de `distribucion_porcentual_ventas_por_categoria` debe ser `pandas.core.series.Series` donde las etiquetas deben ser las categorias y los valores deben ser la distribucion porcentual de las ventas por categoría


In [21]:
# Tenemos que crear una nueva columna. Será hacer primero un groupby de ventas (producto unitario) por categoría.

df_categorias_quantity = df.groupby('category')['quantity'].sum().reset_index(name='% Ventas por Categoría')

# Luego dividir cada columna de ventas por el total.

distribucion_porcentual_ventas_por_categoria = pd.Series(
   (df_categorias_quantity['% Ventas por Categoría'] / df_categorias_quantity['% Ventas por Categoría'].sum()) * 100,
  )

# Asignamos el indice a la columna category

distribucion_porcentual_ventas_por_categoria.index = df_categorias_quantity['category']

distribucion_porcentual_ventas_por_categoria = round(distribucion_porcentual_ventas_por_categoria,2)

print(distribucion_porcentual_ventas_por_categoria)

category
Books               5.02
Clothing           34.67
Cosmetics          15.22
Food & Beverage    14.82
Shoes              10.12
Souvenir            4.98
Technology          5.03
Toys               10.15
Name: % Ventas por Categoría, dtype: float64


# 11. ¿Cuál es el día de la semana con más ventas registradas en cada centro comercial?
Guarda el resultado en una variable llamada `dia_semana_mas_ventas_por_centro`. 

El tipo de `dia_semana_mas_ventas_por_centro` debe ser `pandas.core.series.Series` donde las etiquetas deben ser el nombre de los centros comerciales y los valores deben ser el nombre del dia de la semana con mas ventas.

In [22]:
df1 = df.copy()

# Cambiamos la columna de fecha a formato día de la semana

df1['invoice_date'] = df['invoice_date'].dt.day_name()

df1_grouped = df1.groupby(['shopping_mall','invoice_date'])['quantity'].sum()

# Agrupamos la serie multiíndice por el nivel 0 ('shopping_mall') y obtenemos el índice del valor máximo
# (o sea, el multíndice con shopping mall e día más alto con el valor más alto). Luego, con el apply accedemos
# a x[1], el segundo elemento de la tupla, o sea, el día de la semana.

dia_semana_mas_ventas_por_centro = df1_grouped.groupby(level=0).idxmax().apply(lambda x: x[1])

df1_grouped

shopping_mall  invoice_date
Cevahir AVM    Friday          2218
               Monday          2096
               Saturday        2086
               Sunday          2212
               Thursday        2057
                               ... 
Zorlu Center   Saturday        2185
               Sunday          2171
               Thursday        2188
               Tuesday         2297
               Wednesday       2086
Name: quantity, Length: 70, dtype: int64