M4. ANALÍTICA DE DATOS E-COMMERCE

Liliana Vásquez García

PARTE 1: CREACIÓN Y DESCARGA DE BASE DE DATOS


In [None]:
import pandas as pd
import numpy as np
from google.colab import files

# 1. Creación de datos usando arrays

def generar_datos_ventas(n_filas=100):
    np.random.seed(48)                                                          #Se fija un valor inicial para la creación de valores aleatorios

    ids_transaccion = np.array([f"T{i:03d}" for i in range(1, n_filas + 1)])    #se crea id de transacciion para 100 ventas

    fecha_inicio = np.datetime64('2025-01-01')                                  #se fija fecha inicial
    dias_aleatorios = np.random.randint(0, 365, size=n_filas)
    fechas = fecha_inicio + dias_aleatorios                                     #se crea fecha con valor inicial y valor aleatorio

    n_clientes = 100                                                            #se fija numero de clientes y se crea id y nombre
    pool_ids_clientes = np.array([f"C{i:04d}" for i in range(1, n_clientes + 1)])
    pool_nombres_clientes = np.array([f"Cliente_{i}" for i in range(1, n_clientes + 1)])
    indices_clientes = np.random.randint(0, n_clientes, size=n_filas)           #Se crea la base de datos con valores aleatorios de clientes
    col_ids_clientes = pool_ids_clientes[indices_clientes]
    col_nombres_clientes = pool_nombres_clientes[indices_clientes]


    regiones = ['RM', 'BioBio', 'Valparaíso', 'Coquimbo', 'Maule']              #Se genera información sobre edad y las regiónes y la base de datos aleatoria
    col_regiones = np.random.choice(regiones, size=n_filas)
    col_edades = np.random.randint(18, 75, size=n_filas)

    n_productos = 20                                                            #Se crea catalogo de productos e infromación
    pool_ids_prod = [f"P{i:03d}" for i in range(1, n_productos + 1)]
    catalogo_productos = {
        pid: {
            'nombre': f"Producto_{np.random.choice(['UE', 'GT'])}_{i}",
            'categoria': np.random.choice(['RC', 'GT', 'UE', 'LI']),
            'precio': round(np.random.uniform(10, 150), 2)
        }
        for i, pid in enumerate(pool_ids_prod, 1)
    }

    indices_productos = np.random.choice(pool_ids_prod, size=n_filas)           #se crea base de datos aleatoria de productos y sus características
    datos_productos = [catalogo_productos[pid] for pid in indices_productos]
    col_ids_prod = indices_productos
    col_nombres_prod = np.array([d['nombre'] for d in datos_productos])
    col_categorias = np.array([d['categoria'] for d in datos_productos])
    col_precios = np.array([d['precio'] for d in datos_productos])


    col_cantidades = np.random.randint(1, 10, size=n_filas)                     #se genera cantidades aleatorias de productos
    col_totales = np.round(col_precios * col_cantidades, 2)                     #se calcula valores totales por el precio y la cantidad de producto

    # 2. Creación del DataFrame final
    df = pd.DataFrame({
        'transaction_id': ids_transaccion,
        'date': fechas,
        'customer_id': col_ids_clientes,
        'name': col_nombres_clientes,
        'region': col_regiones,
        'age': col_edades,
        'product_id': col_ids_prod,
        'product_name': col_nombres_prod,
        'category': col_categorias,
        'price': col_precios,
        'quantity': col_cantidades,
        'total_amount': col_totales
    })

    return df

df_ventas2025 = generar_datos_ventas(100)                                       #Data frame con 100 datos

print(df_ventas2025.head())


#3. Guardar en CSV
df_ventas2025.to_csv('Datos_ventas2025.csv', sep=';', index=False)
files.download('Datos_ventas2025.csv')                                          #Descarga de datos

  transaction_id       date customer_id        name      region  age  \
0           T001 2025-01-01       C0049  Cliente_49    Coquimbo   71   
1           T002 2025-02-21       C0089  Cliente_89    Coquimbo   70   
2           T003 2025-12-04       C0070  Cliente_70          RM   19   
3           T004 2025-12-14       C0087  Cliente_87          RM   22   
4           T005 2025-11-17       C0056  Cliente_56  Valparaíso   74   

  product_id    product_name category   price  quantity  total_amount  
0       P010  Producto_GT_10       LI  128.22         1        128.22  
1       P014  Producto_GT_14       RC   48.66         3        145.98  
2       P019  Producto_UE_19       LI   25.81         1         25.81  
3       P005   Producto_UE_5       LI   17.84         6        107.04  
4       P006   Producto_UE_6       RC   65.64         1         65.64  


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

PARTE 2: DATAFRAME Y REVISIÓN DE DATOS

In [None]:
import pandas as pd
from google.colab import files

#1. DataFrame y revisión de archivos
df_ventas = pd.read_csv('Datos_ventas2025_incompleto.csv', sep=';')             # Cargar el archivo
print("\n\n", "****Encabezado***")                                              #Revisión de estructura de datos
print(df_ventas.head())
print("\n\n", "****Últimas filas***")
print(df_ventas.tail())
print("\n\n", "****Estadística descriptiva***")
print(df_ventas.describe())                                                     #calculo de estadística descirptiva


#2. Filtros condicionales

filtro_region = df_ventas[df_ventas['region'] == 'RM']                          #filtro por una región
total_r = len(filtro_region)
print("\n\n", "****Ventas en la Región Metropolitana***")
print(filtro_region.head())
print(f"\nNúmero total de registros: {total_r}")

mis_regiones = ['Maule', 'Coquimbo']                                            #filtro por 2 regiones
filtro_multi_region = df_ventas[df_ventas['region'].isin(mis_regiones)]
total_mr = len(filtro_multi_region)
print("\n\n", "****Ventas en Coquimbo y Maule***")
print(filtro_multi_region.head())
print(f"\nNúmero total de registros: {total_mr}")

mayores_40 = df_ventas[df_ventas['age'] > 40]                                   #filtro por edad de cliente mayor a 40 años
total_age = len(mayores_40)
print("\n\n", "****Clientes mayores de 40 años***")
print(mayores_40.head())
print(f"\nNúmero total de registros: {total_age}")

filtro_combinado = df_ventas[(df_ventas['region'] == 'RM') & (df_ventas['total_amount'] > 100)]  #filtro con condiciones
total_combinado = len(filtro_combinado)
print("\n\n", "****Ventas en la Región Metropolitana superiores a 100usd***")
print(filtro_combinado.head())
print(f"\nNúmero total de registros: {total_combinado}")



 ****Encabezado***
  transaction_id        date customer_id        name      region  age  \
0           T001  01-01-2025       C0049  Cliente_49    Coquimbo   71   
1           T002  21-02-2025       C0089  Cliente_89    Coquimbo   70   
2           T003  04-12-2025       C0070  Cliente_70          RM   19   
3           T004  14-12-2025       C0087  Cliente_87          RM   22   
4           T005  17-11-2025       C0056  Cliente_56  Valparaíso   74   

  product_id    product_name category   price  quantity  total_amount  
0       P010  Producto_GT_10       LI  128.22         1        128.22  
1       P014  Producto_GT_14       RC   48.66         3        145.98  
2       P019  Producto_UE_19       LI   25.81         1         25.81  
3       P005   Producto_UE_5       LI   17.84         6        107.04  
4       P006   Producto_UE_6       RC   65.64         1         65.64  


 ****Últimas filas***
   transaction_id        date customer_id        name      region  age  \
95        

PARTE 3: OBTENCIÓN DE DATOS DESDE ARCHIVOS

In [None]:
import pandas as pd
from google.colab import files

#1. Carga de archivos
df_ventas = pd.read_csv('Datos_ventas2025_incompleto.csv', sep=';')             #desde .csv
product_info = pd.read_excel('inventario_nutricional.xlsx')                     #desde excel

url = 'https://es.wikipedia.org/wiki/Anexo:Regiones_de_Chile_por_poblaci%C3%B3n'#desde página web
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)
tablas = pd.read_html(response.text)
infomarket = tablas[0]
market_size = infomarket.iloc[:, [1, 2]].copy()
print(market_size)

#2. Obtención de datos útiles desde pagina web y unificación de nombres de variables y clases
market_size.columns = ['region', 'poblacion']                                   #selección de columnas a utilizar

market_size['region'] = market_size['region'].astype(str).str.strip()           #limpieza de espacio para evitar posibles errores
mapeo_nombres = {                                                               #homologación de nombres de las regiones como en la tabla de ventas
    r'.*Metropolitana.*': 'RM',
    r'.*Biobío.*': 'BioBio',
}
market_size['region'] = market_size['region'].replace(mapeo_nombres, regex=True)#reemplazo de los nuevos nombres en la tabla
print("Informacíón del tamaño de mercado por región")
print(market_size)

#3. Guardar tabla de htlm a CSV
market_size.to_csv('market_size.csv', sep=';', index=False)
files.download('market_size.csv')

#4. Unificar las bases de datos usando merge

info_ventas = pd.merge(df_ventas, product_info, on='product_id', how='left')    #Unificar ventas con tabla de excel de info del producto
ventas_final = pd.merge(info_ventas, market_size, on='region', how='left')      #Unificar a la tabla la infromación de las regiones y población


# 5. Guardar, exportar y descargar la base de datos unificada
ventas_final.to_csv('ventas_totales_unificadas.csv', sep=';', index=False)      #dataset final
files.download('ventas_totales_unificadas.csv')



   Regiones de Chile por población (2024)            
                                   Región   Población
0                           Metropolitana   7 400 741
1                              Valparaíso   1 896 053
2                                  Biobío   1 613 059
3                                   Maule   1 123 008
4                               Araucanía   1 010 423
5                               O'Higgins     987 228
6                               Los Lagos     890 284
7                                Coquimbo     832 864
8                             Antofagasta     635 416
9                                   Ñuble     512 289
10                               Los Ríos     398 230
11                               Tarapacá     369 806
12                                Atacama     299 180
13                     Arica y Parinacota     244 569
14      Magallanes y la Antártica Chilena     166 537
15                                  Aysén     100 745
16                          

  tablas = pd.read_html(response.text)


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

PARTE 4: MANEJO DE VALORES PERDIDOS Y OUTLIERS

In [None]:
import pandas as pd
import numpy as np
from scipy import stats
from google.colab import files

### 1. Cargar el DataFrame consolidado
ventas = pd.read_csv('ventas_totales_unificadas.csv', sep=';')


###2.Identificación y gestión de valores nulos
print(ventas.isnull().sum())                                                    #identificación de nulos

# Relleno de datos con operaciones lógicas
ventas['price'] = ventas['price'].fillna(ventas['total_amount'] / ventas['quantity']) #el precio se rellena dividiendo el valor total por la cantidad
ventas['total_amount'] = ventas['total_amount'].fillna(ventas['price'] * ventas['quantity'])    #el monto total se rellena con el producto del precio y la cantidad

# Imputación usando la media
if 'calories' in ventas.columns:
    ventas['calories'] = ventas['calories'].fillna(ventas['calories'].mean())   #si no se conoce las calorias de un producto se usará la media los otros productos

# Eliminación de registros no válidos
ventas = ventas.dropna(subset=['transaction_id'])                               # Si una transacción no tiene ID, se considera un registro inválido y se elimina


### 3. Identificaión y eliminación de outliers

cols_analisis = ['price', 'total_amount', 'calories', 'age']                    # columnas donde buscar valores extremos


# Identificación con Rango Intercuartílico
Q1 = ventas[cols_analisis].quantile(0.25)
Q3 = ventas[cols_analisis].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR                                                #se define límites superior e inferior
limite_superior = Q3 + 1.5 * IQR
df_outliers_iqr = ventas[((ventas[cols_analisis] < limite_inferior) | (ventas[cols_analisis] > limite_superior)).any(axis=1)] ## se filtran filas que tengan al menos un valor fuera de los límites
mask_limpios = ~((ventas[cols_analisis] < limite_inferior) | (ventas[cols_analisis] > limite_superior)).any(axis=1)

ventas_final = ventas[mask_limpios].copy()                                      #Aplica filtro para crear dataframe sin outliers

# Visualización de resultados
print(f"\n\n***Detección de valores outlier con método IQR***")
print(f"Registros iniciales: {len(ventas)}")
print(f"Outliers eliminados: {len(ventas) - len(ventas_final)}")
print(f"Registros finales: {len(ventas_final)}")

if len(df_outliers_iqr) > 0:
    print("\nPrimeros registros detectados como Outliers (IQR):")
    display(df_outliers_iqr.head())
else:
    print("\n--No se detectaron valores extremos con el método IQR.--")


### 4. Guardar los datos limpios
ventas_final.to_csv('ventas_sin_outliers.csv', sep=';', index=False)
files.download('ventas_sin_outliers.csv')

transaction_id           0
date                     0
customer_id              0
name                     0
region                   0
age                      0
product_id               0
product_name             0
category                 0
price                    8
quantity                 0
total_amount             5
product_name_invented    0
calories                 0
poblacion                0
dtype: int64


***Detección de valores outlier con método IQR***
Registros iniciales: 100
Outliers eliminados: 0
Registros finales: 100

--No se detectaron valores extremos con el método IQR.--


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

PARTE 5: DATA WRANGLING

In [7]:
import pandas as pd
import numpy as np
from google.colab import files

### 1. Cargar el DataFrame limpio sin ooutliers
df = pd.read_csv('ventas_sin_outliers.csv', sep=';')

### 2. Eliminar duplicados
df = df.drop_duplicates()                                                       # Elimina filas con datos iguales

### 3. Trasformamos datos a su tipo adecuado
#print(df.columns)
df['customer_id'] = df['customer_id'].astype(str)
df['name'] = df['name'].astype(str)
df['product_id'] = df['product_id'].astype(str)
df['region'] = df['region'].astype(str)
df['age'] = df['age'].astype(int)
df['date'] = pd.to_datetime(df['date'], dayfirst=True)
df['quantity'] = df['quantity'].astype(int)
df['price'] = df['price'].astype(float)
df['poblacion'] = df['poblacion'].astype(str).str.replace(r'[\s\.,]', '', regex=True) #quitar simbolos que no permiten convertirlo en numérico
df['poblacion'] = pd.to_numeric(df['poblacion'], errors='coerce')
df['calories'] = df['calories'].astype(float)


### 4. Creación de nuevas columnas
df['calorias_totales'] = df['calories'] * df['quantity']                        #Se calcula las calorias de todos los productos de la venta


### 5. Aplicación de funciones personalizadas
df['rango_etario'] = df['age'].apply(lambda x: 'Joven' if x < 30 else ('Adulto' if x < 60 else 'Adulto mayor')) # Clasificamos a los clientes por rango etario usando una función lambda

mapeo_categorias = {'LI': 'Líquidos', 'RC': 'Recargas', 'GT': 'Golosinas', 'UE': 'Útiles'}  # uso de map para agegar nombres a las categorias
df['categoria_nombre'] = df['category'].map(mapeo_categorias)


### 6. normalicación y discretización de variables
df['venta_normalizada'] = (df['total_amount'] - df['total_amount'].min()) / (df['total_amount'].max() - df['total_amount'].min())#total de la venta normalizado para valor de 0 a 1

df['nivel_gasto'] = pd.qcut(df['total_amount'], q=3, labels=['Bajo', 'Medio', 'Alto'])# trasnformación de los montos a variables discretas


### 7.  Guardar los datos procesados
df.to_csv('ventas_procesadas.csv', sep=';', index=False)
files.download('ventas_procesadas.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

PARTE 6: AGRUPACIÓN Y PIVOTEO DE DATOS

In [17]:
import pandas as pd
import numpy as np
from google.colab import files

### 1. Cargar el DataFrame procesado
df = pd.read_csv('ventas_procesadas.csv', sep=';')

### 2. Agrupación de datos para métricas resumidas
resumen_ventas = df.groupby(['region', 'rango_etario']).agg({                   #agrupación por edad y región
    'total_amount': ['sum', 'mean', 'count']                                    # Suma, promedio y cantidad de ventas
}).reset_index()
resumen_ventas = resumen_ventas.sort_values(by=['region', 'rango_etario'], ascending=[True, True])
print("\n\n*** Resumen de ventas por región y grupo etario")
print(resumen_ventas)                                                            # Mostrar el resultado

### 3. Reestructuración con pivot y melt

df_pivot = df.pivot_table(                                                      #cambio de dirección para mostrar los resultados de rango etario por columnas
    index='region',
    columns='rango_etario',
    values='total_amount',
    aggfunc='mean').reset_index()
print("\n\n*** Resultados promedio de rango etario por regiones***")
print(df_pivot)

df_melted = df_pivot.melt(                                                      #reestrcuturación para ver rango etario en nuevamente enfilas
    id_vars=['region'],
    var_name='rango_etario',
    value_name='venta_promedio')
print("\n\n*** Promedio de rango etario en formato largo***")
print(df_melted.head())

### 4.  Dataframe final
df.to_csv('dfventas_final.csv', sep=';', index=False)
df.to_excel('dfventas_final.xlsx', index=False)
files.download('dfventas_final.csv')
files.download('dfventas_final.xlsx')



*** Resumen de ventas por región y grupo etario
        region  rango_etario total_amount                  
                                      sum        mean count
0       BioBio        Adulto      1505.55  301.110000     5
1       BioBio  Adulto mayor      2424.08  303.010000     8
2       BioBio         Joven      2107.22  421.444000     5
3     Coquimbo        Adulto      5031.81  419.317500    12
4     Coquimbo  Adulto mayor      3284.74  410.592500     8
5     Coquimbo         Joven      1680.01  280.001667     6
6        Maule        Adulto      5476.54  391.181429    14
7        Maule  Adulto mayor      1951.13  390.226000     5
8        Maule         Joven      1743.51  581.170000     3
9           RM        Adulto      4984.80  415.400000    12
10          RM  Adulto mayor      2138.61  712.870000     3
11          RM         Joven       659.88  164.970000     4
12  Valparaíso        Adulto      3036.35  433.764286     7
13  Valparaíso  Adulto mayor      2768.76  395.537

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>