# Ejercicios sobre **manipulación de datos** en Pandas (Parte 1)

## 🚚📦 Análisis de entregas logísticas
En este ejercicio trabajaremos con un conjunto de datos que representa **entregas de productos de una empresa de transportes** .
Analizaremos los tiempos de entrega, costes y otros aspectos usando Pandas.

In [1]:
from datetime import datetime, timedelta
import pandas as pd
import numpy as np
import random
from faker import Faker

faker = Faker()
fake = Faker('es_ES')

ciudades = ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Zaragoza', 'Bilbao', 'Málaga', 'Coruña']
transportes = ['Camión', 'Furgoneta Pequeña', 'Furgoneta Grande', 'Motocicleta']
estados = ['Entregado', 'Tránsito', 'Retrasado', 'Cancelado']
n = 95

# Estados con mayor probabilidad de 'Entregado'
estados_generados = random.choices(estados, weights=[0.6, 0.2, 0.15, 0.05], k=n)

# Inicializamos listas
fechas_entrada = []
fechas_entrega = []
dias_entrega = []

for estado in estados_generados:
    # Fecha de entrada siempre presente
    fecha_entrada = datetime.today() - timedelta(days=np.random.randint(10, 30))
    fechas_entrada.append(fecha_entrada.date().isoformat())

    if estado == 'Entregado':
        # Fecha de entrega posterior a la de entrada
        fecha_entrega = fecha_entrada + timedelta(days=np.random.randint(1, 10))
        fechas_entrega.append(fecha_entrega.date().isoformat())
        dias_entrega.append((fecha_entrega - fecha_entrada).days)
    else:
        fechas_entrega.append(None)
        dias_entrega.append(None)

# Crear DataFrame
data = {
    'ID_Entrega': [f'ENT{str(i).zfill(4)}' for i in range(1, n + 1)],
    'Destino': [random.choice(ciudades) for _ in range(n)],
    'Peso_kg': np.round(np.random.uniform(0.5, 50.0, n), 2),
    'Volumen_m3': np.round(np.random.uniform(0.01, 2.0, n), 3),
    'Costo_Envio': np.round(np.random.uniform(10.0, 500.0, n), 2),
    'Cliente': [fake.company()[:20] for _ in range(n)],
    'Medio_Entrega': [random.choice(transportes) for _ in range(n)],
    'Estado': estados_generados,
    'Fecha_Entrada': fechas_entrada,
    'Fecha_Entrega': fechas_entrega,
    'Tiempo_Entrega_Dias': dias_entrega
}

df = pd.DataFrame(data)


# Crear el DataFrame
df = pd.DataFrame(data)
df = df.set_index('ID_Entrega')

df.to_csv('datasets/entregas.csv', index=True)


df


Unnamed: 0_level_0,Destino,Peso_kg,Volumen_m3,Costo_Envio,Cliente,Medio_Entrega,Estado,Fecha_Entrada,Fecha_Entrega,Tiempo_Entrega_Dias
ID_Entrega,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
ENT0001,Valencia,38.55,0.412,448.23,Desarrollo Poza S.L.,Furgoneta Pequeña,Entregado,2025-03-22,2025-03-27,5.0
ENT0002,Barcelona,6.36,1.225,89.37,Comercial QFP S.Com.,Motocicleta,Tránsito,2025-03-27,,
ENT0003,Valencia,25.39,1.046,239.64,Inmobiliaria BWG S.A,Camión,Entregado,2025-03-28,2025-03-30,2.0
ENT0004,Zaragoza,40.78,1.198,242.50,Soluciones Iberia S.,Motocicleta,Entregado,2025-03-26,2025-03-30,4.0
ENT0005,Sevilla,24.32,0.150,381.39,Transportes Chaparro,Furgoneta Grande,Entregado,2025-03-25,2025-03-28,3.0
...,...,...,...,...,...,...,...,...,...,...
ENT0091,Coruña,25.88,0.908,79.00,Vara y asociados S.C,Furgoneta Grande,Entregado,2025-03-22,2025-03-28,6.0
ENT0092,Bilbao,39.88,0.885,217.62,Roldán Arnaiz Feijoo,Camión,Entregado,2025-04-05,2025-04-12,7.0
ENT0093,Coruña,17.73,0.146,478.73,Haro y asociados S.A,Furgoneta Pequeña,Entregado,2025-04-07,2025-04-10,3.0
ENT0094,Málaga,21.17,0.956,210.74,Nebot y Sureda S.A.,Furgoneta Grande,Entregado,2025-03-25,2025-03-27,2.0


*********************

## 🔍 Ejercicio 1: Forma (nº filas x nº columnas) del Dataframe

Descubre el número de filas y columnas de los datosMuestra los primeros y últimos 5 registros del DataFrame usando `head()` y `tail()`.

In [2]:
# Ejercicio 1. Haz el ejercicio aquí
df.shape

(95, 10)

*********************

## 🔍 Ejercicio 2. Primeros y últimos registros

Muestra los primeros 6 registros del DataFrame usando `head()`.

Muestra los últimos 11 registros del DataFrame usando `tail()`.

In [3]:
# Ejercicio 2. Primeros
df.head(6)

Unnamed: 0_level_0,Destino,Peso_kg,Volumen_m3,Costo_Envio,Cliente,Medio_Entrega,Estado,Fecha_Entrada,Fecha_Entrega,Tiempo_Entrega_Dias
ID_Entrega,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
ENT0001,Valencia,38.55,0.412,448.23,Desarrollo Poza S.L.,Furgoneta Pequeña,Entregado,2025-03-22,2025-03-27,5.0
ENT0002,Barcelona,6.36,1.225,89.37,Comercial QFP S.Com.,Motocicleta,Tránsito,2025-03-27,,
ENT0003,Valencia,25.39,1.046,239.64,Inmobiliaria BWG S.A,Camión,Entregado,2025-03-28,2025-03-30,2.0
ENT0004,Zaragoza,40.78,1.198,242.5,Soluciones Iberia S.,Motocicleta,Entregado,2025-03-26,2025-03-30,4.0
ENT0005,Sevilla,24.32,0.15,381.39,Transportes Chaparro,Furgoneta Grande,Entregado,2025-03-25,2025-03-28,3.0
ENT0006,Madrid,7.81,2.0,392.03,Barrena y asociados,Motocicleta,Entregado,2025-03-30,2025-04-04,5.0


In [4]:
# Ejercicio 2. Últimos
df.tail(11)

Unnamed: 0_level_0,Destino,Peso_kg,Volumen_m3,Costo_Envio,Cliente,Medio_Entrega,Estado,Fecha_Entrada,Fecha_Entrega,Tiempo_Entrega_Dias
ID_Entrega,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
ENT0085,Valencia,18.37,1.809,253.94,Hotel Coello y asoci,Furgoneta Pequeña,Retrasado,2025-04-08,,
ENT0086,Málaga,13.14,1.571,392.16,Pastor Somoza Lobato,Furgoneta Pequeña,Entregado,2025-03-25,2025-04-03,9.0
ENT0087,Bilbao,8.68,0.218,205.74,Inmobiliaria Interna,Furgoneta Grande,Retrasado,2025-04-05,,
ENT0088,Valencia,17.08,1.481,229.92,Comercial del Noroes,Furgoneta Grande,Tránsito,2025-04-08,,
ENT0089,Barcelona,8.33,0.502,286.5,Manufacturas Daza S.,Furgoneta Grande,Entregado,2025-04-10,2025-04-13,3.0
ENT0090,Madrid,41.01,0.374,217.6,Alimentación Ibérica,Camión,Entregado,2025-03-30,2025-04-06,7.0
ENT0091,Coruña,25.88,0.908,79.0,Vara y asociados S.C,Furgoneta Grande,Entregado,2025-03-22,2025-03-28,6.0
ENT0092,Bilbao,39.88,0.885,217.62,Roldán Arnaiz Feijoo,Camión,Entregado,2025-04-05,2025-04-12,7.0
ENT0093,Coruña,17.73,0.146,478.73,Haro y asociados S.A,Furgoneta Pequeña,Entregado,2025-04-07,2025-04-10,3.0
ENT0094,Málaga,21.17,0.956,210.74,Nebot y Sureda S.A.,Furgoneta Grande,Entregado,2025-03-25,2025-03-27,2.0


*********************

## 🔍 Ejercicio 3: Tiempo de entrega: media, mínimo y máximo

Calcula el tiempo **medio**, **máximo** y **mínimo** de días entrega.

In [5]:
# Ejercicio 3. Media
df.Tiempo_Entrega_Dias.mean()

5.233333333333333

In [6]:
# Ejercicio 3. Máximo
df.Tiempo_Entrega_Dias.max()

9.0

In [7]:
# Ejercicio 3. Mínimo
df.Tiempo_Entrega_Dias.min()

1.0

*********************

## 🔍 Ejercicio 4. Coste de entregas

Calcula el **coste total** de las entregas realizadas.

In [8]:
# Ejercicio 4. Coste total
df.Costo_Envio.sum()

25180.459999999995

*********************

## 🔍 Ejercicio 5. Entrega más rápida y más lenta

Usa `idxmin()` e `idxmax()` para encontrar las entregas con el menor y mayor tiempo.

In [9]:
# Ejercicio 5. Menor tiempo
df.Tiempo_Entrega_Dias.idxmin()

'ENT0047'

In [10]:
# Ejercicio 5. Mayor tiempo
df.Tiempo_Entrega_Dias.idxmax()

'ENT0008'

*********************

## 🔍 Ejercicio 6. Entregas por ciudad y medio de transporte

Averigua cuántas entregas se hicieron en cada ciudad con `value_counts()`. Haz lo mismo con los medios de transporte.

In [11]:
# Ejercicio 6. Ciudad
df.Destino.value_counts()

Destino
Barcelona    16
Zaragoza     16
Coruña       14
Bilbao       14
Madrid       13
Málaga        9
Valencia      8
Sevilla       5
Name: count, dtype: int64

In [12]:
# Ejercicio 6. Medio de transporte
df.Medio_Entrega.value_counts()

Medio_Entrega
Camión               27
Furgoneta Grande     27
Motocicleta          21
Furgoneta Pequeña    20
Name: count, dtype: int64

*********************

## 🔍 Ejercicio 7. Resumen estadístico

Obtén un resumen estadístico con `describe()` de todos los campos numéricos.

In [13]:
# Ejercicio 7_
df.describe()

Unnamed: 0,Peso_kg,Volumen_m3,Costo_Envio,Tiempo_Entrega_Dias
count,95.0,95.0,95.0,60.0
mean,23.954737,1.014221,265.057474,5.233333
std,14.460256,0.570364,141.174133,2.625602
min,1.82,0.051,10.03,1.0
25%,8.605,0.4885,143.92,3.0
50%,24.26,1.053,253.94,5.0
75%,36.855,1.4765,391.74,8.0
max,49.75,2.0,499.28,9.0


## 🔍 Ejercicio 8. Análisis estadístico

Viendo los resultados, responde a  estas preguntas:

**Peso** de las entregas:

1. El 25% de las entregas pesaron menos de ___ kg.
2. La mitad (50%) de las entregas pesaron menos de ____ kg.
3. El 75% de las entregas pesaron menos de ____ kg.
4. Ninguna de las entregas superó un peso de ___ kg.


**Tiempo de entrega** en días:

1. El 25% de las entregas se hicieron en un período inferior a  ____ días.
3. La mitad (50%)  de las entregas se hicieron en un período inferior a ____ días.
4. El 75% de las entregas se hicieron en un período inferior a ____ días.
5. Las entregas (100%) se hicieron en un período inferior a ____ días.


   