Proyecto: Evaluación Módulo 4 – Preparación de datos

Nombre: Manuel Quintana

Fecha: febrero 2026

Curso: FUNDAMENTOS DE CIENCIA DE DATOS

Herramientas: Python, NumPy, PandasHola #Hola 

## Objetivo del proyecto

Desarrollar un proceso de preparación de datos que permita transformar información proveniente de múltiples fuentes en un dataset limpio, confiable y estructurado, utilizando Python y las librerías NumPy y Pandas, con el fin de facilitar su posterior análisis y uso en la toma de decisiones.

## 1. Configuración inicial

En esta sección se realiza la configuración básica del entorno de trabajo.  
Se importan las librerías que serán utilizadas a lo largo de todo el proyecto y se establecen algunas configuraciones iniciales que facilitan la exploración y visualización de los datos.  
Además, se define una semilla aleatoria con el fin de asegurar la reproducibilidad de los resultados obtenidos.


### 1.1 Importación de librerías


In [139]:
import numpy as np
import pandas as pd


Las librerías NumPy y Pandas se utilizan de forma exclusiva en este proyecto, ya que permiten realizar operaciones eficientes sobre datos numéricos y estructuras tabulares, respectivamente, cumpliendo con los requerimientos establecidos para la preparación y manipulación de datos.


### 1.2 Configuración opcional del entorno


In [140]:
# Mostrar todas las columnas del DataFrame
pd.set_option('display.max_columns', None)

# Mostrar hasta 100 filas cuando sea necesario
pd.set_option('display.max_rows', 100)

# Ajustar el ancho de las columnas para mejorar la lectura
pd.set_option('display.max_colwidth', None)


Estas configuraciones permiten visualizar de forma más clara la información contenida en los DataFrames, lo que resulta especialmente útil durante las etapas de exploración y limpieza de datos.


### 1.3 Semilla y reproducibilidad


In [141]:

# Generador aleatorio reproducible
rng = np.random.default_rng(42)


El uso de un generador aleatorio inicializado con una semilla fija permite que la generación de datos ficticios sea reproducible en cada ejecución del notebook.  
En este proyecto se utiliza el generador moderno `default_rng` de NumPy, lo que asegura un control explícito del proceso aleatorio, evita efectos colaterales y facilita la validación de los resultados obtenidos.



## 2. Lección 1 – Generación de datos con NumPy

En esta sección se inicia el trabajo con la librería NumPy, cuyo objetivo es generar un conjunto de datos ficticios que simule información realista de una empresa de e-commerce.  
Estos datos serán utilizados como insumo en las siguientes etapas del proyecto, donde se explorarán, transformarán y limpiarán mediante Pandas.  

La generación de datos sintéticos permite controlar la estructura del dataset y reproducir escenarios habituales del análisis de datos, tales como clientes con distintos niveles de actividad, variabilidad en montos de compra y distribución heterogénea de atributos.


### 2.1 Diseño de los datos ficticios

Para este proyecto se diseñan dos conjuntos de datos principales:

**1) Clientes**  
Representa información general de los clientes de la empresa e-commerce. Cada registro corresponde a un cliente único e incluye variables demográficas y de comportamiento de compra.

Variables consideradas:
- **ID**: identificador único del cliente.
- **Nombre**: nombre completo del cliente.
- **Edad**: edad del cliente (valores entre 18 y 70 años).
- **Ciudad**: ciudad de residencia del cliente.
- **Total_Compras**: cantidad total de compras realizadas por el cliente.
- **Monto_Total**: gasto total acumulado del cliente en la plataforma.

**2) Transacciones**  
Representa el historial de compras individuales realizadas por los clientes. Cada registro corresponde a una transacción y se encuentra asociado a un cliente.

Variables consideradas:
- **ID_Transaccion**: identificador único de la transacción.
- **ID_Cliente**: identificador del cliente que realizó la compra.
- **Fecha**: fecha en la que se realizó la transacción.
- **Categoria**: categoría del producto adquirido.
- **Monto**: monto monetario de la transacción.

La relación entre ambos conjuntos de datos es de tipo **uno a muchos**, donde un cliente puede tener cero o múltiples transacciones.  
Los datos se generarán utilizando arrays de NumPy y distribuciones estadísticas que permitan simular comportamientos realistas en un contexto de comercio electrónico.


### 2.2 Generación de datos con NumPy

En esta sección se generan los datos ficticios definidos previamente utilizando arrays de NumPy y distribuciones estadísticas apropiadas.  
El objetivo es simular información realista de clientes y su comportamiento de compra en un contexto de e-commerce, manteniendo coherencia interna entre las variables generadas.

Para asegurar la reproducibilidad del proceso, se utiliza un generador aleatorio inicializado con una semilla fija.


In [142]:
# Cantidad de clientes a generar
n_clientes = 500

# Identificadores únicos de clientes
ids = np.arange(1, n_clientes + 1)


Se generan identificadores únicos para cada cliente utilizando una secuencia numérica incremental.


In [143]:
# Listas base de nombres y apellidos
nombres_base = np.array([
    "Ana", "Sofía", "Camila", "Valentina", "Isidora", "Martina",
    "Mateo", "Benjamín", "Tomás", "Vicente", "Lucas", "Joaquín",
    "Daniela", "Fernanda", "Ignacio", "Gabriel", "Antonia", "Catalina"
])

apellidos_base = np.array([
    "González", "Muñoz", "Rojas", "Díaz", "Pérez", "Soto",
    "Contreras", "Silva", "Martínez", "Sepúlveda", "Torres", "Flores"
])

# Generación de nombres completos
nombres = rng.choice(nombres_base, size=n_clientes) + " " + rng.choice(apellidos_base, size=n_clientes)


Los nombres de los clientes se generan combinando aleatoriamente nombres y apellidos a partir de listas predefinidas.


In [144]:
# Ciudades disponibles
ciudades = np.array([
    "Santiago", "Valparaíso", "Concepción",
    "La Serena", "Antofagasta", "Temuco", "Rancagua"
])

# Asignación de ciudad con probabilidades diferenciadas
ciudad = rng.choice(
    ciudades,
    size=n_clientes,
    p=[0.45, 0.12, 0.14, 0.08, 0.08, 0.08, 0.05]
)


Las ciudades se asignan utilizando una distribución de probabilidad no uniforme, simulando una mayor concentración de clientes en determinadas zonas.


In [145]:
# Edad de los clientes (distribución normal recortada entre 18 y 70 años)
edad = np.clip(
    rng.normal(loc=35, scale=12, size=n_clientes),
    18,
    70
).round(0).astype(int)


La edad de los clientes se genera mediante una distribución normal, recortada a un rango razonable para usuarios de comercio electrónico.


In [146]:
# Total de compras por cliente (distribución de Poisson)
total_compras = rng.poisson(lam=4.5, size=n_clientes)
total_compras = np.clip(total_compras, 0, 35)


La cantidad total de compras se modela con una distribución de Poisson, reflejando que la mayoría de los clientes realiza pocas compras, mientras que un número reducido presenta mayor actividad.


In [147]:
# Ticket promedio por cliente (distribución lognormal)
ticket_promedio = rng.lognormal(
    mean=np.log(25000),
    sigma=0.55,
    size=n_clientes
)

# Monto total gastado por cliente
monto_total = (total_compras * ticket_promedio) + rng.normal(0, 5000, size=n_clientes)
monto_total = np.clip(monto_total, 0, None).round(0).astype(int)


El monto total gastado por cliente se calcula a partir del número de compras y un ticket promedio con sesgo positivo, incorporando una pequeña variabilidad para simular diferencias reales en el comportamiento de consumo.


In [148]:
# Construcción del DataFrame de clientes
clientes = pd.DataFrame({
    "ID": ids,
    "Nombre": nombres,
    "Edad": edad,
    "Ciudad": ciudad,
    "Total_Compras": total_compras,
    "Monto_Total": monto_total
})

clientes.head()


Unnamed: 0,ID,Nombre,Edad,Ciudad,Total_Compras,Monto_Total
0,1,Sofía Muñoz,26,La Serena,3,86427
1,2,Fernanda Silva,46,Temuco,5,114303
2,3,Joaquín Flores,35,Temuco,3,43599
3,4,Benjamín Torres,32,Valparaíso,6,101303
4,5,Benjamín Díaz,34,Valparaíso,3,144745


### 2.3 Operaciones matemáticas básicas con NumPy

Una vez generados los datos ficticios, se aplican operaciones matemáticas básicas utilizando NumPy con el objetivo de obtener métricas descriptivas iniciales.  
Estas operaciones permiten validar la coherencia de los datos generados y constituyen una etapa fundamental en la exploración preliminar de cualquier conjunto de datos.


In [149]:
# Cantidad total de clientes
total_clientes = ids.size

# Edad promedio de los clientes
edad_promedio = edad.mean()

# Edad mínima y máxima
edad_min = edad.min()
edad_max = edad.max()

# Total de compras realizadas por todos los clientes
compras_totales = total_compras.sum()

# Promedio de compras por cliente
compras_promedio = total_compras.mean()

# Gasto total generado por todos los clientes
gasto_total = monto_total.sum()

# Gasto promedio por cliente
gasto_promedio = monto_total.mean()

total_clientes, edad_promedio, compras_totales, gasto_total


(500, np.float64(35.73), np.int64(2221), np.int64(65650379))

Las métricas obtenidas permiten observar de manera general el comportamiento del conjunto de clientes, tales como la edad promedio, el volumen total de compras y el gasto acumulado.  
Este tipo de cálculos es útil para detectar posibles inconsistencias tempranas y comprender la distribución global de los datos antes de su transformación en estructuras tabulares más complejas.


In [150]:
# Conteo de clientes por rango etario
rangos_edad = np.digitize(
    edad,
    bins=[18, 25, 35, 45, 55, 65, 70],
    right=True
)

rangos_edad


array([2, 4, 2, 2, 2, 3, 3, 1, 1, 4, 2, 0, 3, 3, 0, 3, 3, 3, 3, 0, 3, 2,
       2, 3, 4, 5, 4, 2, 3, 3, 3, 3, 3, 2, 2, 2, 3, 2, 3, 3, 2, 3, 3, 1,
       4, 2, 0, 1, 1, 3, 2, 2, 3, 3, 3, 3, 3, 0, 2, 0, 2, 2, 4, 4, 3, 2,
       3, 2, 2, 4, 2, 3, 3, 1, 4, 3, 3, 2, 1, 2, 3, 1, 3, 1, 2, 3, 5, 0,
       4, 3, 3, 3, 3, 2, 4, 2, 4, 2, 2, 1, 3, 4, 2, 2, 1, 2, 0, 1, 3, 4,
       6, 2, 4, 3, 2, 3, 3, 3, 2, 0, 0, 3, 2, 2, 2, 3, 3, 2, 4, 4, 3, 4,
       4, 4, 3, 3, 3, 1, 3, 1, 1, 4, 3, 4, 2, 1, 2, 3, 3, 4, 2, 3, 1, 3,
       2, 2, 2, 2, 2, 5, 2, 2, 0, 1, 2, 2, 4, 2, 4, 3, 2, 2, 2, 5, 0, 0,
       2, 2, 3, 3, 2, 4, 4, 3, 4, 3, 2, 3, 3, 2, 4, 0, 0, 1, 2, 2, 0, 1,
       1, 5, 5, 2, 2, 1, 0, 2, 1, 2, 0, 2, 3, 3, 3, 1, 3, 1, 3, 2, 0, 2,
       3, 3, 2, 4, 4, 2, 3, 5, 5, 1, 1, 4, 1, 1, 2, 3, 2, 2, 2, 2, 1, 5,
       3, 4, 2, 2, 2, 0, 0, 0, 0, 1, 4, 2, 4, 3, 3, 1, 3, 3, 2, 3, 3, 2,
       1, 1, 3, 3, 1, 2, 3, 3, 4, 4, 1, 4, 2, 4, 3, 2, 0, 2, 0, 4, 4, 1,
       3, 2, 2, 3, 2, 5, 2, 4, 3, 3, 2, 2, 2, 1, 3,

Adicionalmente, se realiza un conteo de clientes por rangos de edad utilizando funciones de NumPy, lo que permite analizar la distribución etaria del conjunto de datos sin recurrir aún a herramientas de agrupamiento propias de Pandas.


In [151]:
# Conteo de clientes por rango
valores, conteos = np.unique(rangos_edad, return_counts=True)

dict(zip(valores, conteos))


{np.int64(0): np.int64(47),
 np.int64(1): np.int64(57),
 np.int64(2): np.int64(150),
 np.int64(3): np.int64(151),
 np.int64(4): np.int64(72),
 np.int64(5): np.int64(21),
 np.int64(6): np.int64(2)}

### 2.4 Guardado de los datos generados

Una vez generados los datos ficticios mediante arrays de NumPy, se procede a su almacenamiento para permitir su reutilización en las siguientes etapas del proyecto.  
En esta instancia, los datos se guardan en formato `.npy`, el cual es un formato binario propio de NumPy que permite conservar de forma eficiente estructuras numéricas y asegurar una carga rápida y sin pérdida de información.

Estos archivos servirán posteriormente como insumo para la conversión a estructuras de datos de Pandas.


In [152]:
# Guardado de arrays NumPy en archivos .npy
np.save("ids.npy", ids)
np.save("edad.npy", edad)
np.save("total_compras.npy", total_compras)
np.save("monto_total.npy", monto_total)



Los archivos generados almacenan los principales arrays numéricos creados en esta lección, permitiendo desacoplar la etapa de generación de datos de las fases posteriores de exploración y transformación.


In [153]:
# Ejemplo de carga de los archivos guardados (verificación)
ids_cargados = np.load("ids.npy")
edad_cargada = np.load("edad.npy")

ids_cargados[:5], edad_cargada[:5]


(array([1, 2, 3, 4, 5]), array([26, 46, 35, 32, 34]))

La correcta carga de los archivos confirma que los datos han sido almacenados adecuadamente y pueden ser reutilizados sin necesidad de regenerarlos.


### 2.5 ¿Por qué NumPy es eficiente para el manejo de datos numéricos?

NumPy es una librería fundamental para el manejo de datos numéricos en Python debido a que está diseñada para trabajar con **arrays homogéneos y contiguos en memoria**, lo que permite realizar operaciones de forma mucho más eficiente que las estructuras nativas del lenguaje, como las listas.

Las operaciones vectorizadas de NumPy se ejecutan internamente en código optimizado escrito en C, evitando el uso de bucles explícitos en Python y reduciendo significativamente los tiempos de ejecución, especialmente cuando se trabaja con grandes volúmenes de datos.

Además, NumPy ofrece una amplia variedad de funciones matemáticas y estadísticas integradas, lo que facilita la realización de cálculos complejos de manera clara, concisa y reproducible.  
Por estas razones, NumPy resulta una herramienta clave en las etapas iniciales de generación, procesamiento y análisis numérico de datos.


## 3. Lección 2 – La librería Pandas

En esta sección se trabaja con la librería Pandas para transformar los datos generados previamente con NumPy en estructuras tabulares del tipo DataFrame.  
Pandas permite organizar, explorar y manipular datos de manera eficiente, facilitando el análisis preliminar y la preparación de la información para etapas posteriores del proyecto.

A partir de los arrays almacenados en la lección anterior, se construirá un DataFrame que represente la información de los clientes, el cual será explorado y posteriormente exportado para su reutilización.


### 3.1 Carga de datos generados con NumPy y creación del DataFrame


In [154]:
# Carga de los arrays guardados en la Lección 1
ids = np.load("ids.npy")
edad = np.load("edad.npy")
total_compras = np.load("total_compras.npy")
monto_total = np.load("monto_total.npy")


Se cargan los arrays almacenados en formato `.npy`, los cuales contienen los datos numéricos generados con NumPy.  
Estos datos servirán como base para la construcción del DataFrame en Pandas.


In [155]:
# Construcción del DataFrame de clientes
df_clientes = pd.DataFrame({
    "ID": ids,
    "Edad": edad,
    "Total_Compras": total_compras,
    "Monto_Total": monto_total
})

df_clientes.head()


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total
0,1,26,3,86427
1,2,46,5,114303
2,3,35,3,43599
3,4,32,6,101303
4,5,34,3,144745


El DataFrame resultante organiza la información de los clientes en formato tabular, permitiendo una visualización clara de los datos y habilitando el uso de las herramientas de exploración y manipulación propias de Pandas.


### 3.2 Exploración inicial del DataFrame

En esta sección se realiza una exploración inicial del DataFrame con el objetivo de comprender su estructura, tipos de datos y principales estadísticas descriptivas.  
Esta etapa permite validar que los datos fueron cargados correctamente desde NumPy y obtener una primera visión general del conjunto de datos antes de continuar con su transformación.


In [156]:
# Visualización de las primeras filas del DataFrame
df_clientes.head()


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total
0,1,26,3,86427
1,2,46,5,114303
2,3,35,3,43599
3,4,32,6,101303
4,5,34,3,144745


In [157]:
# Información general del DataFrame: tipos de datos y valores no nulos
df_clientes.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype
---  ------         --------------  -----
 0   ID             500 non-null    int64
 1   Edad           500 non-null    int64
 2   Total_Compras  500 non-null    int64
 3   Monto_Total    500 non-null    int64
dtypes: int64(4)
memory usage: 15.8 KB


In [158]:
# Estadísticas descriptivas de las variables numéricas
df_clientes.describe()


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total
count,500.0,500.0,500.0,500.0
mean,250.5,35.73,4.442,131300.8
std,144.481833,11.210551,2.113663,112173.6
min,1.0,18.0,0.0,1751.0
25%,125.75,27.75,3.0,62067.5
50%,250.5,35.0,4.0,102970.0
75%,375.25,43.0,6.0,166441.8
max,500.0,69.0,13.0,1333744.0


Como parte de la exploración, se aplican filtros condicionales simples para observar subconjuntos específicos de clientes y analizar patrones de comportamiento.


In [159]:
# Clientes con más de 10 compras
df_clientes[df_clientes["Total_Compras"] > 10].head()


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total
364,365,22,12,228862
368,369,57,12,131047
405,406,40,13,379598


In [160]:
# Clientes con gasto total superior al percentil 90
p90_gasto = df_clientes["Monto_Total"].quantile(0.90)
df_clientes[df_clientes["Monto_Total"] > p90_gasto].head()


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total
9,10,48,8,1333744
12,13,40,8,436526
15,16,38,4,295672
48,49,23,5,250520
51,52,31,4,362249


### 3.3 Guardado del DataFrame preliminar en formato CSV

Una vez realizada la exploración inicial del DataFrame, se procede a guardar una versión preliminar del conjunto de datos en formato CSV.  
Este archivo servirá como insumo para las siguientes etapas del proyecto, donde se integrarán nuevas fuentes de datos y se aplicarán procesos de limpieza y transformación.

El formato CSV permite una fácil reutilización del dataset y garantiza compatibilidad con distintas herramientas de análisis.


In [161]:
# Guardado del DataFrame preliminar en formato CSV
df_clientes.to_csv(
    "clientes_preliminar.csv",
    index=False,
    encoding="utf-8"
)


El archivo generado contiene la información de los clientes en un formato estructurado y listo para ser utilizado en etapas posteriores del proyecto, tales como la integración con otras fuentes de datos y la limpieza del dataset.


In [162]:
# Verificación rápida de la creación del archivo
import os
os.path.exists("clientes_preliminar.csv")


True

## 4. Lección 3 – Obtención de datos desde archivos

En esta sección se incorporan nuevas fuentes de datos externas al flujo de trabajo, con el objetivo de simular un escenario real de análisis donde la información proviene de distintos formatos y orígenes.  

Se trabajará con archivos CSV, archivos Excel y datos extraídos desde una página web, los cuales serán integrados en un único DataFrame para su posterior limpieza y transformación.


### 4.1 Carga del archivo CSV generado en la Lección 2


In [163]:
# Carga del archivo CSV preliminar generado en la Lección 2
df_clientes_csv = pd.read_csv("clientes_preliminar.csv")

df_clientes_csv.head()


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total
0,1,26,3,86427
1,2,46,5,114303
2,3,35,3,43599
3,4,32,6,101303
4,5,34,3,144745


El archivo CSV cargado corresponde a la versión preliminar del dataset de clientes generado en la lección anterior.  
Su correcta lectura confirma que los datos exportados pueden ser reutilizados sin pérdida de información y que el formato es compatible con las herramientas de análisis de Pandas.


In [164]:
# Información general del DataFrame cargado desde CSV
df_clientes_csv.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype
---  ------         --------------  -----
 0   ID             500 non-null    int64
 1   Edad           500 non-null    int64
 2   Total_Compras  500 non-null    int64
 3   Monto_Total    500 non-null    int64
dtypes: int64(4)
memory usage: 15.8 KB


La inspección de la estructura del DataFrame permite verificar los tipos de datos y el número de registros, asegurando que el proceso de carga se realizó correctamente.


### 4.2 Carga de datos desde un archivo Excel

En esta etapa se incorpora una fuente de datos adicional en formato Excel, la cual contiene información complementaria relacionada con los clientes.  
El uso de archivos Excel es común en contextos empresariales, por lo que resulta fundamental validar su correcta lectura e integración dentro del flujo de trabajo.


In [165]:
# Intento de carga del archivo Excel con información complementaria
try:
    df_clientes_excel = pd.read_excel("clientes_ecommerce.xlsx")
    df_clientes_excel.head()
except FileNotFoundError:
    print("El archivo 'clientes_ecommerce.xlsx' no se encuentra disponible en el directorio.")


El archivo 'clientes_ecommerce.xlsx' no se encuentra disponible en el directorio.


El archivo Excel cargado aporta información adicional que podrá ser integrada posteriormente con el dataset principal de clientes.  
En caso de que el archivo no se encuentre disponible, esta situación se documenta y el flujo de trabajo puede continuar sin interrumpirse, simulando escenarios reales donde algunas fuentes pueden no estar accesibles inicialmente.


In [166]:
# Información general del DataFrame cargado desde Excel (si existe)
if 'df_clientes_excel' in locals():
    df_clientes_excel.info()


### 4.3 Obtención de datos desde una página web (SII – Tipo de cambio dólar)

En esta sección se obtienen datos desde una página web oficial del Servicio de Impuestos Internos (SII) de Chile, la cual publica diariamente el valor del dólar observado.  
Esta fuente fue seleccionada por su disponibilidad, confiabilidad y compatibilidad con la función `read_html()` de Pandas, además de su relevancia en contextos económicos y comerciales internacionales.

Los datos obtenidos serán utilizados posteriormente como referencia económica dentro del proyecto.



In [167]:
# URL del SII con valores diarios del dólar (año 2026)
url_dolar = "https://www.sii.cl/valores_y_fechas/dolar/dolar2026.htm"

try:
    tablas_dolar = pd.read_html(url_dolar)
    df_dolar = tablas_dolar[0]
    df_dolar.head()
except Exception as e:
    print("No fue posible obtener los datos del dólar desde el sitio del SII.")
    print(e)



La tabla obtenida contiene los valores diarios del dólar publicados por el SII.  
Estos datos representan una fuente externa confiable que puede ser integrada al análisis para contextualizar variables económicas del dataset principal.



In [168]:
# Revisión de la estructura del DataFrame del dólar (si existe)
if 'df_dolar' in locals():
    df_dolar.info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11 entries, 0 to 10
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       10 non-null     float64
 1   1       5 non-null      float64
 2   2       10 non-null     float64
 3   3       0 non-null      float64
 4   4       11 non-null     int64  
 5   5       0 non-null      float64
dtypes: float64(5), int64(1)
memory usage: 660.0 bytes


### 4.4 Unificación de las diferentes fuentes de datos

En esta etapa se consolidan las distintas fuentes de datos cargadas previamente.  
El dataset principal corresponde a la información de clientes obtenida desde archivos CSV y Excel, mientras que los datos provenientes de la web (valor del dólar) se mantienen como una fuente de referencia económica independiente.

Esta separación permite un análisis más realista, evitando uniones forzadas entre conjuntos de datos que no comparten una relación directa.



In [169]:
# 1) Dataset principal: base desde CSV
df_unificado = df_clientes_csv.copy()

# Verificación rápida
df_unificado.head()



Unnamed: 0,ID,Edad,Total_Compras,Monto_Total
0,1,26,3,86427
1,2,46,5,114303
2,3,35,3,43599
3,4,32,6,101303
4,5,34,3,144745


A continuación, se intenta enriquecer el dataset principal con la fuente Excel (si se encuentra disponible).  
Se utiliza una unión de tipo **left**, con el fin de conservar todos los registros del dataset base (CSV) y agregar columnas adicionales cuando exista coincidencia por `ID`.


In [170]:
# 2) Enriquecimiento con Excel (si existe)
if 'df_clientes_excel' in locals():
    if 'ID' in df_clientes_excel.columns and 'ID' in df_unificado.columns:
        df_unificado = df_unificado.merge(
            df_clientes_excel,
            on='ID',
            how='left'
        )
    else:
        print("No se puede realizar el merge: falta la columna 'ID' en CSV o Excel.")
else:
    print("No se cargó dataset desde Excel: se continúa solo con la base CSV.")



No se cargó dataset desde Excel: se continúa solo con la base CSV.


In [171]:
# Revisión del dataset principal consolidado
df_unificado.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype
---  ------         --------------  -----
 0   ID             500 non-null    int64
 1   Edad           500 non-null    int64
 2   Total_Compras  500 non-null    int64
 3   Monto_Total    500 non-null    int64
dtypes: int64(4)
memory usage: 15.8 KB


Finalmente, se mantiene el dataset obtenido desde la web (SII – dólar) como **fuente de referencia externa**.  
Este dataset puede utilizarse posteriormente para contextualizar análisis económicos (por ejemplo, variación del tipo de cambio), sin necesidad de integrarlo directamente a nivel de cliente.


In [172]:
# 3) Dataset de referencia: dólar (si existe)
if 'df_dolar' in locals():
    print("Dataset dólar (referencia):")
    df_dolar.head()
else:
    print("No se cargó el dataset del dólar desde la web.")


Dataset dólar (referencia):


Con esta unificación, se obtiene:
- **`df_unificado`**: dataset principal consolidado de clientes (CSV + Excel si está disponible).
- **`df_dolar`**: dataset externo de referencia económica (web), mantenido por separado para su uso contextual.


### 4.5 Guardado del dataset consolidado

En esta etapa se guarda el dataset principal consolidado, el cual será utilizado como base para las siguientes fases del proyecto, particularmente para los procesos de limpieza, tratamiento de valores nulos y detección de outliers.

El conjunto de datos se exporta en formatos CSV y Excel, lo que permite su reutilización tanto en entornos de análisis de datos como en herramientas externas de uso frecuente.


In [173]:
# Guardado del dataset consolidado en formato CSV
df_unificado.to_csv(
    "clientes_consolidado.csv",
    index=False,
    encoding="utf-8"
)


In [174]:
# Guardado del dataset consolidado en formato Excel
df_unificado.to_excel(
    "clientes_consolidado.xlsx",
    index=False
)


El dataset consolidado generado constituye el resultado de la integración de las distintas fuentes de datos trabajadas hasta este punto.  
A partir de este archivo, se continuará con las etapas de limpieza y transformación necesarias para preparar los datos para su análisis.


## 5. Lección 4 – Tratamiento de valores nulos y outliers

En esta sección se aborda la limpieza inicial del dataset consolidado, enfocándose en la detección y tratamiento de valores nulos y valores atípicos (outliers).  
La calidad de los datos es un aspecto fundamental en cualquier proyecto de análisis, ya que valores faltantes o extremos pueden afectar significativamente los resultados y conclusiones.

El objetivo de esta lección es identificar estos problemas y aplicar estrategias adecuadas para su manejo, preparando el conjunto de datos para análisis posteriores.


### 5.1 Identificación y tratamiento de valores nulos


In [None]:
# Revisión de valores nulos por columna
df_unificado.isnull().sum()


El conteo de valores nulos por columna permite identificar de manera rápida qué variables presentan datos faltantes y evaluar su magnitud dentro del conjunto de datos.


In [None]:
# Porcentaje de valores nulos por columna
(df_unificado.isnull().mean() * 100).round(2)


El cálculo del porcentaje de valores nulos facilita la toma de decisiones respecto a su tratamiento, permitiendo diferenciar entre columnas con pocos valores faltantes y aquellas que podrían requerir una revisión más profunda.


In [None]:
# Visualización de filas que contienen al menos un valor nulo
df_unificado[df_unificado.isnull().any(axis=1)].head()


A continuación, se observan algunos registros que contienen valores nulos, lo que permite evaluar el contexto en el que ocurren y decidir la estrategia de tratamiento más adecuada.


In [None]:
# Estrategias simples de tratamiento de valores nulos

df_limpio = df_unificado.copy()

# Ejemplo: imputación con la mediana para variables numéricas
for col in df_limpio.select_dtypes(include=["int64", "float64"]).columns:
    df_limpio[col] = df_limpio[col].fillna(df_limpio[col].median())

df_limpio.isnull().sum()


En este caso, los valores nulos de las variables numéricas se imputan utilizando la mediana, ya que esta medida es robusta frente a la presencia de valores extremos.  
El dataset resultante no presenta valores nulos en las columnas numéricas, quedando preparado para el análisis de outliers.
