# Introducción al análisis exploratorio

## **Ejercicio**: Primer EDA en dataset de ventas de e-commerce

### Carga y configuración inicial

In [31]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [32]:
# Crear dataset de ejemplo de e-commerce
np.random.seed(42)
n_orders = 1000

df = pd.DataFrame({
    'order_id': range(1, n_orders + 1),
    'customer_id': np.random.randint(1, 201, n_orders),
    'product_id': np.random.randint(1, 51, n_orders),
    'quantity': np.random.randint(1, 5, n_orders),
    'unit_price': np.round(np.random.uniform(10, 500, n_orders), 2),
    'order_date': pd.date_range('2023-01-01', periods=n_orders, freq='H')[:n_orders],
    'payment_method': np.random.choice(['Credit Card', 'Debit Card', 'PayPal', 'Cash'], n_orders),
    'customer_age': np.random.normal(35, 10, n_orders).clip(18, 80).astype(int),
    'shipping_region': np.random.choice(['North', 'South', 'East', 'West'], n_orders)
})

In [33]:
# Introducir algunos valores faltantes
mask = np.random.random(n_orders) < 0.05
df.loc[mask, 'customer_age'] = np.nan

print("Dataset cargado exitosamente")

Dataset cargado exitosamente


### Inspección inicial sistemática

In [34]:
# Dimensiones y estructura
print(f"Dataset shape: {df.shape}")
print(f"\nColumnas: {list(df.columns)}")
print(f"\nTipos de datos:\n{df.dtypes}")

Dataset shape: (1000, 9)

Columnas: ['order_id', 'customer_id', 'product_id', 'quantity', 'unit_price', 'order_date', 'payment_method', 'customer_age', 'shipping_region']

Tipos de datos:
order_id                    int64
customer_id                 int32
product_id                  int32
quantity                    int32
unit_price                float64
order_date         datetime64[ns]
payment_method             object
customer_age              float64
shipping_region            object
dtype: object


In [35]:
# Primeras y últimas filas
print("\n*** Primeras 5 filas:")
print(df.head())
print('*' * 80)
print("\n*** Últimas 5 filas:")
print(df.tail())


*** Primeras 5 filas:
   order_id  customer_id  product_id  quantity  unit_price  \
0         1          103          40         2      371.34   
1         2          180          49         2      260.99   
2         3           93          44         3      343.31   
3         4           15          19         2       30.42   
4         5          107          42         2       51.55   

           order_date payment_method  customer_age shipping_region  
0 2023-01-01 00:00:00     Debit Card          32.0            West  
1 2023-01-01 01:00:00     Debit Card          44.0            West  
2 2023-01-01 02:00:00    Credit Card          39.0            West  
3 2023-01-01 03:00:00           Cash          35.0           North  
4 2023-01-01 04:00:00         PayPal          36.0           North  
********************************************************************************

*** Últimas 5 filas:
     order_id  customer_id  product_id  quantity  unit_price  \
995       996          

### Análisis de calidad de datos

In [36]:
# Valores faltantes
print("Valores faltantes por columna:")
print(df.isnull().sum())

print(f"\nPorcentaje de completitud: {(1 - df.isnull().sum() / len(df)) * 100}")

Valores faltantes por columna:
order_id            0
customer_id         0
product_id          0
quantity            0
unit_price          0
order_date          0
payment_method      0
customer_age       46
shipping_region     0
dtype: int64

Porcentaje de completitud: order_id           100.0
customer_id        100.0
product_id         100.0
quantity           100.0
unit_price         100.0
order_date         100.0
payment_method     100.0
customer_age        95.4
shipping_region    100.0
dtype: float64


In [37]:
# Valores únicos por columna
print("\nValores únicos por columna:")
for col in df.select_dtypes(include=['object']).columns:
    print(f"{col}: {df[col].nunique()} valores únicos")



Valores únicos por columna:
payment_method: 4 valores únicos
shipping_region: 4 valores únicos


In [38]:
# Estadísticos básicos para numéricas
print("\nEstadísticos básicos de variables numéricas:")
print(df.select_dtypes(include=[np.number]).describe())


Estadísticos básicos de variables numéricas:
          order_id  customer_id   product_id     quantity   unit_price  \
count  1000.000000  1000.000000  1000.000000  1000.000000  1000.000000   
mean    500.500000   101.697000    25.680000     2.469000   253.828640   
std     288.819436    57.629249    14.180645     1.121739   141.648562   
min       1.000000     1.000000     1.000000     1.000000    10.070000   
25%     250.750000    51.750000    13.000000     1.000000   137.067500   
50%     500.500000   104.000000    26.000000     2.000000   254.675000   
75%     750.250000   150.250000    37.250000     3.000000   377.210000   
max    1000.000000   200.000000    50.000000     4.000000   499.190000   

       customer_age  
count    954.000000  
mean      34.694969  
std        9.615823  
min       18.000000  
25%       28.000000  
50%       34.000000  
75%       41.000000  
max       65.000000  


### Preguntas exploratorias iniciales

In [39]:
# Distribución por región
print("Distribución de pedidos por región:")
print(df['shipping_region'].value_counts())


Distribución de pedidos por región:
shipping_region
South    267
North    250
East     246
West     237
Name: count, dtype: int64


In [40]:
# Método de pago más popular
print(f"\nMétodo de pago más usado: {df['payment_method'].value_counts().index[0]}")


Método de pago más usado: Credit Card


In [41]:
# Rango de fechas
print(f"\nPeríodo de datos: {df['order_date'].min()} a {df['order_date'].max()}")



Período de datos: 2023-01-01 00:00:00 a 2023-02-11 15:00:00


In [42]:
# Edad promedio de clientes
edad_promedio = df['customer_age'].mean()
print(f"\nEdad promedio de clientes: {edad_promedio:.1f} años")


Edad promedio de clientes: 34.7 años
