# 🧪 Ejercicio: Análisis de entregas industriales

### 📁 Carga de datos
Carga el archivo CSV en un DataFrame:

In [19]:
import pandas as pd
import numpy as np
import random
from faker import Faker
from datetime import datetime, timedelta

# Instanciar Faker
faker = Faker()

# Definir las listas de posibles valores
ciudades = ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Zaragoza', 'Bilbao', 'Málaga', 'A Coruña']
transportes = ['Camión', 'Avión', 'Tren', 'Barco']
estados = ['Entregado', 'Tránsito', 'Retrasado', 'Cancelado']

n = 100

# Función para generar fechas de entrega
def generar_fecha_entrega(estado, n):
    return [
        (datetime.today() - timedelta(days=np.random.randint(0, 30))).isoformat() if estado == 'Entregado' else None
        for estado in np.random.choice(estados, n)
    ]

# Crear el diccionario de datos
data = {
    'ID_Entrega': [f'ENT{str(i).zfill(4)}' for i in range(1, n + 1)],
    'Destino': [random.choice(ciudades) for _ in range(n)],
    'Peso_kg': np.round(np.random.uniform(0.5, 50.0, n), 2),
    'Volumen_m3': np.round(np.random.uniform(0.01, 2.0, n), 3),
    'Dias_Entrega': np.random.randint(1, 15, n),
    'Costo_Envio': np.round(np.random.uniform(10.0, 500.0, n), 2),
    'Cliente': [faker.company() for _ in range(n)],
    'Medio': [random.choice(transportes) for _ in range(n)],
    'Estado_Entrega': [random.choice(estados) for _ in range(n)],
    'Fecha_Entrega': generar_fecha_entrega(estados, n)
}

# Crear el DataFrame
df = pd.DataFrame(data)

# Mostrar las primeras filas del DataFrame
print(df.head(20))


   ID_Entrega    Destino  Peso_kg  Volumen_m3  Dias_Entrega  Costo_Envio  \
0     ENT0001   Zaragoza    39.11       0.673             9       469.17   
1     ENT0002  Barcelona    10.87       1.795             3       161.57   
2     ENT0003     Málaga    47.09       0.093             6        48.55   
3     ENT0004  Barcelona    32.38       1.685            14       283.95   
4     ENT0005  Barcelona    25.12       0.630             4       417.33   
5     ENT0006  Barcelona    29.69       0.677             4       466.50   
6     ENT0007   Valencia     5.18       0.072            10       490.31   
7     ENT0008  Barcelona    31.36       0.721            14        92.15   
8     ENT0009     Bilbao    38.58       0.299             4       102.80   
9     ENT0010   Zaragoza    37.11       1.042            13        12.14   
10    ENT0011   A Coruña     1.04       0.460             4       411.41   
11    ENT0012     Madrid    42.53       1.016             6       278.07   
12    ENT001

### 1. **Vista general**
- Muestra las primeras 5 y las últimas 5 filas.
- ¿Cuántas filas y columnas tiene el DataFrame?

In [None]:
df.head()
df.tail()
df.shape

### 2. **Resumen estadístico**
- Usa `describe()` para obtener un resumen de los valores numéricos.
- ¿Cuál es la media de las unidades entregadas?

In [None]:
df.describe()
df['Unidades Entregadas'].mean()

### 3. **Totales y máximos/mínimos**
- ¿Cuántas unidades se han entregado en total?
- ¿Cuál es el coste total más alto?
- ¿Y el más bajo?

In [None]:
df['Unidades Entregadas'].sum()
df['Coste Total (€)'].max()
df['Coste Total (€)'].min()

### 4. **Análisis por producto**
- ¿Cuál es el producto más entregado en total?
- ¿Qué producto tiene el mayor coste total acumulado?

In [None]:
df.groupby('Producto')['Unidades Entregadas'].sum().sort_values(ascending=False)
df.groupby('Producto')['Coste Total (€)'].sum().sort_values(ascending=False)

### 5. **Frecuencias**
- ¿Cuántas veces aparece cada cliente?
- ¿Cuál es la zona más frecuente?

In [None]:
df['Cliente'].value_counts()
df['Zona'].value_counts()

### 6. **Índices extremos**
- Muestra la fila con el coste total más alto y la fila con el más bajo.

In [None]:
df.loc[df['Coste Total (€)'].idxmax()]
df.loc[df['Coste Total (€)'].idxmin()]