In [2]:
# Importación de los datos
import pandas as pd
import numpy as np
import sqlite3

## 1. CARGAR PEDIDOS (CSV)

In [3]:
# Cargar el fichero pedidos.csv
pedidos_df= pd.read_csv('data/pedidos.csv', sep="|", encoding="utf-16")
print(pedidos_df.columns.tolist())


[' Id Pedido ', ' id_cliente ', ' id_producto ', ' fecha_pedido ', ' cantidad ', ' precio_unitario ', ' total ', ' metodo_pago ', ' estado_pedido ', ' País envío ']


## 2. CARGAR CLIENTES (JSON)


In [4]:
# Cargar el fichero clientes.json
clientes_df = pd.read_json('data/clientes.json', orient='records')
print(clientes_df.columns.tolist())


['id_cliente', 'nombre', 'email', 'telefono', 'direccion', 'fecha_registro', 'genero', 'edad', 'nivel_fidelizacion']


## 3. CARGAR PRODUCTOS (SQLite)


In [5]:
# Cargar el fichero productos.db
conexion = sqlite3.connect('data/productos.db')
cursor = conexion.cursor()

productos_df = pd.read_sql_query("SELECT * FROM productos", conexion)

print(productos_df.columns.tolist())


['id_producto', 'nombre_producto', 'categoria', 'precio_base', 'descuento', 'stock', 'proveedor', 'fecha_alta']


## 4. NORMALIZAR TIPOS DE CLAVE

In [6]:
# Convertimos los valores de las columnas que actuarán de clave a str para evitar conflictos
pedidos_df.columns = pedidos_df.columns.str.strip()


pedidos_df['id_cliente'] = pedidos_df['id_cliente'].astype(str)


clientes_df['id_cliente'] = clientes_df['id_cliente'].astype(str)
productos_df['id_producto'] = productos_df['id_producto'].astype(str)
pedidos_df = pedidos_df.rename( columns ={
    'Id Pedido': 'id_pedido',
    'País envío': 'pais_envio'
})





## 5. UNIÓN DE DATASETS

In [7]:
# Unir los tres datasets en uno solo
clientes_pedidos = pd.merge(clientes_df, pedidos_df, on='id_cliente', how='left')
pedidos_completos_df = pd.merge(productos_df, clientes_pedidos, on='id_producto', how='left')

print(pedidos_completos_df.columns.tolist())

print(pedidos_completos_df.dtypes)

['id_producto', 'nombre_producto', 'categoria', 'precio_base', 'descuento', 'stock', 'proveedor', 'fecha_alta', 'id_cliente', 'nombre', 'email', 'telefono', 'direccion', 'fecha_registro', 'genero', 'edad', 'nivel_fidelizacion', 'id_pedido', 'fecha_pedido', 'cantidad', 'precio_unitario', 'total', 'metodo_pago', 'estado_pedido', 'pais_envio']
id_producto            object
nombre_producto        object
categoria              object
precio_base            object
descuento              object
stock                  object
proveedor              object
fecha_alta             object
id_cliente             object
nombre                 object
email                  object
telefono               object
direccion              object
fecha_registro         object
genero                 object
edad                  float64
nivel_fidelizacion     object
id_pedido              object
fecha_pedido           object
cantidad               object
precio_unitario        object
total                  obje

## Apartado 1: Información básica del dataset


In [8]:
# 1.1 Mostrar las primeras 5 filas del dataset global
pedidos_completos_df.head(5)

# 1.2 Mostrar las dimensiones del dataset (filas y columnas)

#pedidos_completos_df.shape

# 1.3 Mostrar los nombres de todas las columnas

print(pedidos_completos_df.columns.tolist())

# 1.4 Mostrar información sobre los tipos de datos de las columnas

print(pedidos_completos_df.dtypes)

# 1.5 Mostrar las últimas 3 filas del dataset
print(pedidos_completos_df.tail(3))


['id_producto', 'nombre_producto', 'categoria', 'precio_base', 'descuento', 'stock', 'proveedor', 'fecha_alta', 'id_cliente', 'nombre', 'email', 'telefono', 'direccion', 'fecha_registro', 'genero', 'edad', 'nivel_fidelizacion', 'id_pedido', 'fecha_pedido', 'cantidad', 'precio_unitario', 'total', 'metodo_pago', 'estado_pedido', 'pais_envio']
id_producto            object
nombre_producto        object
categoria              object
precio_base            object
descuento              object
stock                  object
proveedor              object
fecha_alta             object
id_cliente             object
nombre                 object
email                  object
telefono               object
direccion              object
fecha_registro         object
genero                 object
edad                  float64
nivel_fidelizacion     object
id_pedido              object
fecha_pedido           object
cantidad               object
precio_unitario        object
total                  obje

## Apartado 2: Tipos de datos y valores nulos


In [9]:
# 2.1 Mostrar información detallada del DataFrame (tipos, memoria, nulos)

pedidos_completos_df.info()

# 2.2 Contar valores nulos por columna

print(f'\n\nContar Valores nulos: ')
pedidos_completos_df.isnull().sum()

# 2.3 Mostrar solo las columnas que tienen valores nulos

print(pedidos_completos_df.columns[pedidos_completos_df.isnull().any()])

# 2.4 Calcular el porcentaje de valores nulos por columna

print("f'\n\nCalcular porcentaje de valores nulos")
print(((pedidos_completos_df.isnull().mean() * 100)
    .round(2)
    .loc[pedidos_completos_df.isnull().any()]))

# 2.5 Verificar si hay filas completamente vacías


if (pedidos_completos_df.isnull().all(axis=1).any()):
    print("Hay columnas nulas")

else:
    print("No hay columnas nulas")


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1218 entries, 0 to 1217
Data columns (total 25 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id_producto         1218 non-null   object 
 1   nombre_producto     1195 non-null   object 
 2   categoria           1189 non-null   object 
 3   precio_base         1200 non-null   object 
 4   descuento           1198 non-null   object 
 5   stock               1191 non-null   object 
 6   proveedor           1196 non-null   object 
 7   fecha_alta          1195 non-null   object 
 8   id_cliente          664 non-null    object 
 9   nombre              664 non-null    object 
 10  email               664 non-null    object 
 11  telefono            664 non-null    object 
 12  direccion           664 non-null    object 
 13  fecha_registro      664 non-null    object 
 14  genero              664 non-null    object 
 15  edad                664 non-null    float64
 16  nivel_

## Bonus: Normalizacion de tabla total

In [10]:
#Formateo de valores nulos y negativos

pedidos_completos_df['total'] = pd.to_numeric(pedidos_completos_df['total'], errors='coerce') # el coerce lo que hace es que cuando haya un valor NaN no reviente y lo añade como 0
pedidos_completos_df['total'] = pedidos_completos_df['total'].fillna(0)
pedidos_completos_df.loc[pedidos_completos_df['total'] < 0, 'total'] = 0

pedidos_completos_df['cantidad'] = pd.to_numeric(pedidos_completos_df['cantidad'], errors='coerce') # el coerce lo que hace es que cuando haya un valor NaN no reviente y lo añade como 0
pedidos_completos_df['cantidad'] = pedidos_completos_df['cantidad'].fillna(0)

#########
pedidos_completos_df['precio_unitario'] = pd.to_numeric(pedidos_completos_df['precio_unitario'], errors='coerce') # el coerce lo que hace es que cuando haya un valor NaN no reviente y lo añade como 0
pedidos_completos_df['precio_unitario'] = pedidos_completos_df['precio_unitario'].fillna(0)

pedidos_completos_df['total'] = pedidos_completos_df['total'].astype(float)
pedidos_completos_df['cantidad'] = pedidos_completos_df['cantidad'].astype(float)
pedidos_completos_df['total'].dtype


dtype('float64')

## Apartado 3: Estadísticas descriptivas


In [11]:
# 3.1 Estadísticas descriptivas de todas las columnas numéricas

#print(pedidos_completos_df.describe())

# 3.2 Estadísticas descriptivas de todas las columnas (numéricas y categóricas)
#print(pedidos_completos_df.describe(include='all'))

# 3.3 Calcular la media, mediana y moda de la columna 'total'

mediaProductos= pedidos_completos_df['total'].mean()
medianaProductos= pedidos_completos_df['total'].median()
modaProductos= pedidos_completos_df['total'].mode()[0]
print(f'Media: {mediaProductos}')
print(f'Mediana: {medianaProductos}')
print(f'Moda: {modaProductos}')
# 3.4 Calcular el rango (máximo - mínimo) de la columna 'cantidad'

rango = pedidos_completos_df['cantidad'].max() - pedidos_completos_df['cantidad'].min()
print(f'\nEl rango máximo de la columna cantidad es de: {rango}')
# 3.5 Calcular la desviación estándar y la varianza de la columna 'total'

desviacion= pedidos_completos_df['total'].std()
varianza = pedidos_completos_df['total'].var()
print(f'Desviacion: {desviacion}')
print(f'Varianza: {varianza}')
# 3.6 Contar valores únicos en columnas categóricas

pedidos_completos_df.select_dtypes(include='object').apply(lambda col: col.astype(str).nunique())


Media: 3014.474277504105
Mediana: 423.64
Moda: 0.0

El rango máximo de la columna cantidad es de: 100009.0
Desviacion: 4460.515561224166
Varianza: 19896199.071922936


id_producto           962
nombre_producto       858
categoria              14
precio_base           956
descuento              12
stock                 426
proveedor             945
fecha_alta            637
id_cliente             10
nombre                 10
email                  10
telefono               10
direccion              10
fecha_registro         10
genero                  3
nivel_fidelizacion      5
id_pedido             546
fecha_pedido          384
metodo_pago            10
estado_pedido          11
pais_envio            223
dtype: int64

## Apartado 4: Filtrado simple

In [12]:
# 4.1 Filtrar pedidos con cantidad mayor a 5 unidades
print('Filtrar pedidos con cantidad mayor a 5 unidades')

print((pedidos_completos_df['id_pedido'][pedidos_completos_df['cantidad'] >5].head(4)))
print("\n")

# 4.2 Filtrar pedidos con total mayor a 1000 euros
print('\nFiltrar pedidos con total mayor a 1000 euros')

print(pedidos_completos_df['id_pedido'][pedidos_completos_df['total'] >1000].head(4))

# 4.3 Filtrar pedidos con precio unitario menor a 50 euros
print(f'\nFiltrar pedidos con precio unitario menor a 50 euros')

print(
    pedidos_completos_df[
        (pedidos_completos_df['precio_unitario'] < 50) &
        (pedidos_completos_df['id_pedido'].notna())
    ]['id_pedido'].head(4)
)



# 4.4 Filtrar pedidos con cantidad igual a 1

print(f'\nFiltrar pedidos con cantidad igual a 1')

print(
    pedidos_completos_df[
        pedidos_completos_df['cantidad'] == 1
    ][['id_pedido', 'nombre_producto', 'cantidad']].head(4)
)


# 4.5 Mostrar los primeros 5 pedidos grandes (cantidad > 5)

print(f'\nMostrar los primeros 5 pedidos grandes (cantidad > 5)')
print(
    pedidos_completos_df[
        pedidos_completos_df['cantidad'] >5
        ][['id_pedido', 'nombre_producto', 'cantidad']].sort_values('cantidad', ascending=False).head(5)

)

# 4.6 Mostrar los primeros 5 pedidos caros (total > 1000€)

print(f'\nMostrar los primeros 5 pedidos caros (total > 1000€)')

filtro= pedidos_completos_df[
        pedidos_completos_df['cantidad'] * pedidos_completos_df['precio_unitario'] > 1000
    ].copy()

filtro['total'] = filtro['cantidad'] * filtro['precio_unitario']

print(
    filtro[['id_pedido', 'nombre_producto', 'cantidad', 'precio_unitario','total']].head(5)
)
#Necesite el filtro para poder evitar el error de CopyWarning y para poder ver la cantidad total de cantidad * precio


Filtrar pedidos con cantidad mayor a 5 unidades
2      4616.0
5     26654.0
7     10194.0
18     3302.0
Name: id_pedido, dtype: object



Filtrar pedidos con total mayor a 1000 euros
0    28171.0
2     4616.0
3     7941.0
4    22670.0
Name: id_pedido, dtype: object

Filtrar pedidos con precio unitario menor a 50 euros
3       7941.0
78      9539.0
86     10919.0
105    29540.0
Name: id_pedido, dtype: object

Filtrar pedidos con cantidad igual a 1
   id_pedido nombre_producto  cantidad
27    3711.0       Pull Lite       1.0
66   28137.0           Top X       1.0
67    5892.0  Challenge Lite       1.0
85   34264.0        Form Pro       1.0

Mostrar los primeros 5 pedidos grandes (cantidad > 5)
     id_pedido nombre_producto  cantidad
1214   23300.0      Degree Pro      10.0
1154   38365.0          Room X      10.0
1118    5521.0       Drug Lite      10.0
1132   21427.0       Still Max      10.0
589    29504.0       Would Pro      10.0

Mostrar los primeros 5 pedidos caros (total > 1000€)

## Apartado 5: Filtrado con múltiples condiciones

In [27]:
# 5.1 Filtrar pedidos enviados con cantidad mayor a 3
print(f'Filtrar pedidos enviados con cantidad mayor a 3')

print(
    pedidos_completos_df[
        (pedidos_completos_df['estado_pedido']=="Enviado")
        & (pedidos_completos_df['cantidad'] > 3)
    ][['id_pedido', 'nombre_producto', 'estado_pedido', 'cantidad']]
)

# 5.2 Filtrar pedidos de tarjeta o PayPal con total mayor a 500 euros
print(f'\nFiltrar pedidos de tarjeta o PayPal con total mayor a 500 euros')

print(
    pedidos_completos_df[
        (pedidos_completos_df['metodo_pago'] == "PayPal") |
        (pedidos_completos_df['metodo_pago'] == "Tarjeta" ) &
        (pedidos_completos_df['total'] > 500)
    ][['id_pedido', 'nombre_producto', 'metodo_pago', 'total']].head(5)
)



# 5.3 Filtrar pedidos pendientes o cancelados con cantidad menor a 2
print(f'\nFiltrar pedidos pendientes o cancelados con cantidad menor a 2')

print(
    pedidos_completos_df[
        (pedidos_completos_df['estado_pedido'] == "Cancelado") |
        (pedidos_completos_df['estado_pedido'] == "Pendientes") &
        (pedidos_completos_df['cantidad'] > 2)
    ][['id_pedido','nombre_producto', 'estado_pedido', 'cantidad' ]].head(4)
)


# 5.4 Filtrar pedidos enviados o devueltos con precio unitario mayor a 100
print(f'\nFiltrar pedidos enviados o devueltos con precio unitario mayor a 100')

print(
    pedidos_completos_df[
        (pedidos_completos_df['estado_pedido'] == "Enviado") |
        (pedidos_completos_df['estado_pedido'] == "Cancelado") &
        (pedidos_completos_df['cantidad'] > 100)
    ][['id_pedido', 'nombre_producto', 'estado_pedido','cantidad']].head(4)
)
# 5.5 Mostrar los primeros 5 pedidos enviados grandes

#todo No sé como hacer esto...

# 5.6 Mostrar los primeros 5 pedidos premium

#todo No sé como hacer esto...

Filtrar pedidos enviados con cantidad mayor a 3
     id_pedido nombre_producto estado_pedido  cantidad
5      26654.0        Half Max       Enviado       6.0
12      9217.0          Very X       Enviado       4.0
51      3593.0      Great Lite       Enviado       6.0
62     11589.0          Blue X       Enviado       5.0
68     12981.0       Guess Max       Enviado       5.0
...        ...             ...           ...       ...
1140   16356.0     Pattern Max       Enviado       8.0
1174   18057.0        Sort Pro       Enviado      10.0
1197   38658.0        Walk Max       Enviado       8.0
1199    8632.0   Authority Pro       Enviado       4.0
1204    6396.0       Think Pro       Enviado       8.0

[95 rows x 4 columns]

Filtrar pedidos de tarjeta o PayPal con total mayor a 500 euros
   id_pedido nombre_producto metodo_pago    total
0    28171.0          Home X     Tarjeta  6969.45
3     7941.0        Reduce X      PayPal  3410.66
6     4950.0     Control Pro      PayPal  3671.55
8   

## Apartado 6: Filtrado temporal

In [14]:

# 6.1 Convertir la columna fecha_pedido a tipo datetime


# 6.2 Filtrar pedidos del año 2024


# 6.3 Filtrar pedidos del mes de enero de 2024


# 6.4 Filtrar pedidos del primer trimestre de 2024


# 6.5 Filtrar pedidos de los lunes (día de la semana = 0)


# 6.6 Mostrar los primeros 5 pedidos de 2024



## Apartado 7: Estado del pedido

In [15]:
# 7.1 Contar el número de pedidos por cada estado


# 7.2 Calcular el porcentaje de pedidos por estado


# 7.3 Calcular el total de ventas por estado


# 7.4 Calcular el valor promedio de pedidos por estado


# 7.5 Calcular la cantidad total de productos vendidos por estado


# 7.6 Mostrar estadísticas completas por estado



## Apartado 8: Método de pago

In [16]:
# 8.1 Contar el número de pedidos por método de pago


# 8.2 Calcular el porcentaje de uso de cada método de pago


# 8.3 Calcular el valor total de ventas por método de pago


# 8.4 Calcular el valor promedio de pedidos por método de pago


# 8.5 Calcular la cantidad promedio de productos por método de pago


# 8.6 Mostrar estadísticas completas por método de pago (numero de pedidos, total de ventas, promedio de pedidos, cantidad total, promedio de la cantidad)



## Apartado 9: País de envío

In [17]:
# 9.1 Contar el número total de países únicos


# 9.2 Mostrar los top 10 países por número de pedidos


# 9.3 Mostrar los top 10 países por valor total de ventas


# 9.4 Calcular el valor promedio de pedidos por país (top 10)


# 9.5 Calcular la cantidad total de productos enviados por país (top 10)


# 9.6 Mostrar estadísticas del país con más pedidos (número de pedidos, total de ventas, promedio de pedido y total de cantidad)





## Apartado 10: Análisis demográfico

In [18]:
# 10.1 Contar el número total de clientes únicos


# 10.2 Distribución de clientes por género


# 10.3 Porcentaje de distribución por género


# 10.4 Distribución de clientes por nivel de fidelización


# 10.5 Estadísticas básicas de edad


# 10.6 Mostrar estadísticas completas de edad por género (número de clientes, edad promedio, edad mínima, edad máxima y mediana de edad)




## Apartado 11: Clientes por país

In [19]:
# 11.1 Contar el número total de países únicos donde viven los clientes


# 11.2 Mostrar los top 15 países con más clientes


# 11.3 Calcular el porcentaje de clientes por país (top 10)


# 11.4 Mostrar estadísticas (número de clientes, edad promedio, edad mínima, edad máxima y mediana de edad) de edad por país (top 5 países)


# 11.5 Mostrar distribución de género por país (top 3 países)


# 11.6 Mostrar distribución de nivel de fidelización por país (top 3 países)




## Apartado 12: Clientes por ciudad

In [20]:
# 12.1 Mostrar las top 20 ciudades con más clientes


# 12.2 Mostrar las ciudades con exactamente 1 cliente


# 12.3 Mostrar las ciudades con más de 10 clientes




## Apartado 13: Categoría de productos

In [21]:
# 13.1 Mostrar las categorías cuyo nombre tiene más de 6 caracteres y que tienen entre 50 y 160 productos


# 13.2 Mostrar las categorías que contienen la letra "o" (mayúscula o minúscula) y tienen menos de 120 productos



## Apartado 14: Precios

In [22]:
# 14.1 Mostrar estadísticas básicas de precios base (precio promedio, precio mínimo, precio máximo y mediana)


# 14.2 Calcular el precio promedio por categoría


# 14.3 Encontrar los productos más caros y más baratos


# 14.4 Mostrar los top 10 productos más caros




## Apartado 15: Productos más vendidos

In [23]:

# 15.1 Obtener el producto más vendido (cantidad vendida, total vendido, nombre del producto y categoría)



## Apartado 16: Análisis temporal


In [24]:
# 16.1 Obtener información sobre las ventas por mes (número total de ventas, número de pedidos y cantidad total)


# 16.2 Obten la misma información pero en lugar de por mes, por semana.



## Apartado 17: Duplicados

In [25]:
## 17.1 Contar filas duplicadas en cada uno de los datasets originales.



## Apartado 18: Valores faltantes

In [26]:
# 18.1 Obtener el porcentaje de valores faltantes en cada columna del dataset.


## Apartado 19: Valoración final

Tras completar este ejercicio, ¿qué conclusiones has obtenido acerca de los datos? ¿Consideras que sería necesario aplicar algún tipo de preprocesamiento o crees que los datos son adecuados tal como están? Apoya tu valoración con ejemplos concretos de columnas que ilustren tu análisis.

<!-- Responde aquí al apartado 19 -->
**Responder**

