# ABP EVALUACI√ìN MODULO 3
### Flujo de Trabajo para las etapas de carga, limpieza, transformaci√≥n y estructuraci√≥n de datos.

## Objetivos del Proyecto
El objetivo principal del proyecto es desarrollar un proceso automatizado y
eficiente para la obtenci√≥n, limpieza, transformaci√≥n, an√°lisis y estructuraci√≥n
de datos utilizando Python y las librer√≠as NumPy y Pandas.


Este objetivo responde a la necesidad de la empresa de disponer de datos de
calidad para la elaboraci√≥n de reportes estrat√©gicos y la implementaci√≥n de
modelos de machine learning.

### Qu√© se espera
Al finalizar el proyecto, se espera contar con un dataset limpio, confiable y
estructurado, listo para ser utilizado en procesos de an√°lisis y toma de decisiones en la organizaci√≥n.

## Lecci√≥n 1 - La librer√≠a numpy
üéØ Objetivo: Crear un conjunto de datos ficticio utilizando NumPy,
aplicando operaciones b√°sicas para la preparaci√≥n inicial.

üìç Tareas a desarrollar:

1.   Crear un archivo .py o un Notebook .ipynb.
2.   Generar datos ficticios de clientes y transacciones utilizando
arrays de NumPy.
3.   Aplicar operaciones matem√°ticas b√°sicas
 (suma, media, conteo, etc.).
4. Guardar los datos generados en un archivo .npy o convertirlos
a listas para usarlos luego en Pandas.
5. Explicar en un breve documento por qu√© NumPy es eficiente
para el manejo de datos num√©ricos.

‚Üí Nota: Este archivo servir√° de insumo para la siguiente lecci√≥n,
donde estos datos ser√°n cargados y explorados con Pandas.

In [None]:
import pandas as pd
import numpy as np

In [None]:
# 2. Generar datos ficticios de clientes y transacciones usando arrays de NumPy
np.random.seed(42) # Para reproducibilidad

num_clientes = 100
num_transacciones = 500

# Datos de Clientes: ID, Edad, Sexo(0/1)
cliente_ids = np.arange(1, num_clientes + 1)
edades = np.random.randint(18, 70, size=num_clientes)
sexo = np.random.randint(0, 2, size=num_clientes) # 0= femenino, 1=Masculino

# Datos de Transacciones: ID Transacci√≥n, ID Cliente, Monto, Tipo Transaccion(A/B/C)
transaccion_ids = np.arange(1001, 1001 + num_transacciones)

# Asigna transacciones aleatoriamente a los clientes existentes
cliente_ids_transaccion = np.random.choice(cliente_ids, size=num_transacciones)

montos = np.random.rand(num_transacciones) * 1000 + 10 # Montos entre 10 y 1010
# 1. Generar montos normales (Rango 10 - 1010)
montos = np.random.rand(num_transacciones) * 1000 + 10

# Inyectar OUTLIERS manualmente
# Elegimos 10 √≠ndices aleatorios para convertirlos en compras masivas
num_outliers = 10
indices_outliers = np.random.choice(range(num_transacciones), size=num_outliers, replace=False)
# Asignamos montos muy elevados (ej: entre 5000 y 15000)
montos[indices_outliers] = np.random.uniform(5000, 15000, size=num_outliers)

# Simulaci√≥n de tipos de transacci√≥n A=0, B=1, C=2
tipos = np.random.randint(0, 3, size=num_transacciones)

comuna_ids = np.random.randint(1, 347, size=num_transacciones)

# Consolidar datos en arrays 2D para manejo m√°s f√°cil (aunque NumPy es flexible)
datos_clientes = np.column_stack([cliente_ids, edades, sexo])
datos_transacciones = np.column_stack([transaccion_ids, cliente_ids_transaccion, comuna_ids,montos, tipos])

In [None]:

# 3. Aplicar operaciones matem√°ticas b√°sicas (suma, media, conteo, etc.)
print("--- Operaciones B√°sicas con NumPy ---")
print(f"N√∫mero total de transacciones: {montos.size}")
print(f"Suma total de todos los montos: ${np.sum(montos):.2f}")
print(f"Monto promedio por transacci√≥n: ${np.mean(montos):.2f}")
print(f"Monto m√°ximo de transacci√≥n: ${np.max(montos):.2f}")
print(f"Edad promedio de clientes: {np.mean(edades):.1f} a√±os")

# 4. Guardar los datos generados en un archivo .npy
np.save('clientes.npy', datos_clientes)
np.save('transacciones.npy', datos_transacciones)
print("\nDatos de clientes y transacciones guardados en archivos .npy.")

# Preparar listas para la Lecci√≥n 2 si es necesario (alternativa a .npy)
# clientes_list = datos_clientes.tolist()
# transacciones_list = datos_transacciones.tolist()

--- Operaciones B√°sicas con NumPy ---
N√∫mero total de transacciones: 500
Suma total de todos los montos: $347407.24
Monto promedio por transacci√≥n: $694.81
Monto m√°ximo de transacci√≥n: $14565.01
Edad promedio de clientes: 43.4 a√±os

Datos de clientes y transacciones guardados en archivos .npy.


## 5. Explicaci√≥n de la eficiencia de NumPy

### Documento Breve: ¬øPor qu√© NumPy es eficiente?
NumPy es fundamental en la computaci√≥n cient√≠fica en Python por su eficiencia superior en el manejo de datos num√©ricos comparado con las listas nativas de Python. Las razones clave son:

**Implementaci√≥n en C:** El n√∫cleo de NumPy est√° escrito en C, lo que permite que
las operaciones se ejecuten mucho m√°s cerca del hardware y a velocidades nativas, evitando el overhead del int√©rprete de Python.

**Vectorizaci√≥n de Operaciones:** NumPy permite realizar operaciones matem√°ticas sobre arrays enteros a la vez (ej. np.sum(montos)), en lugar de iterar elemento por elemento con bucles expl√≠citos de Python. Esto se conoce como operaciones vectorizadas y es mucho m√°s r√°pido.

**Almacenamiento Eficiente de Memoria:** Los arrays de NumPy almacenan elementos del mismo tipo de datos de manera contigua en memoria. Esto mejora la localidad de referencia del cach√© de la CPU, optimizando el acceso y la manipulaci√≥n de datos.


## Lecci√≥n 2 - La librer√≠a pandas
üéØ Objetivo: Explorar y transformar los datos generados en la Lecci√≥n

1. utilizando la estructura de DataFrame de Pandas.

üìç Tareas a desarrollar:

1. Leer los datos preparados en NumPy y convertirlos en un DataFrame.
2. Realizar una exploraci√≥n inicial:

  *  Visualizar primeras y √∫ltimas filas.mento de la lista
  *   Obtener estad√≠sticas descriptivas.
  *   Aplicar filtros condicionales.

3. Guardar el DataFrame preliminar en un archivo CSV para ser
utilizado en la siguiente lecci√≥n.
4. Redactar un documento breve describiendo los hallazgos y la
utilidad de Pandas para la manipulaci√≥n de datos.

In [None]:
# 1. Leer los datos preparados en NumPy y convertirlos en un DataFrame
clientes_np = np.load('clientes.npy')
transacciones_np = np.load('transacciones.npy')

df_clientes = pd.DataFrame(clientes_np, columns=['ID_Cliente', 'Edad', 'Sexo'])
df_transacciones = pd.DataFrame(transacciones_np, columns=['ID_Transaccion', 'ID_Cliente', 'ID_Comuna','Monto', 'Tipo'])

print("--- 1. Datos cargados en DataFrames de Pandas ---")
print(f"Shape df_clientes: {df_clientes.shape}")
print(f"Shape df_transacciones: {df_transacciones.shape}")

# Unir los DataFrames (Merge)
# Usamos 'left' para mantener a todos los clientes aunque no hayan comprado
df_final = pd.merge(df_transacciones, df_clientes, on='ID_Cliente', how='left')

# Formatear tipos de datos (NumPy los une como float por defecto)
df_final['ID_Cliente'] = df_final['ID_Cliente'].astype(int)
df_final['ID_Transaccion'] = df_final['ID_Transaccion'].astype(int)
df_final['Sexo'] = df_final['Sexo'].astype(int)

print("--- 2. Datos cargados en un solo DataFrame de Pandas ---")
print(f"Shape df_final: {df_final.shape}")


--- 1. Datos cargados en DataFrames de Pandas ---
Shape df_clientes: (100, 3)
Shape df_transacciones: (500, 5)
--- 2. Datos cargados en un solo DataFrame de Pandas ---
Shape df_final: (500, 7)


In [None]:
# 2. Realizar una exploraci√≥n inicial

# Visualizar primeras y √∫ltimas filas
print("\n--- 2a. Visualizaci√≥n inicial (df_final.head()) ---")
print(df_final.head())

# Obtener estad√≠sticas descriptivas
print("\n--- 2b. Estad√≠sticas descriptivas (df_final.describe()) ---")
print(df_final['Monto'].describe())

# Obtener estad√≠sticas descriptivas
print("\n--- 2c. Estad√≠sticas descriptivas (df_final.info()) ---")
print(df_final['Monto'].info())

# Aplicar filtros condicionales
# Filtrar transacciones con monto superior a $900
filtro_alto_valor = df_final[df_final['Monto'] > 900]
print(f"\n--- 2d. Transacciones de alto valor (> $900): {len(filtro_alto_valor)} registros ---")
print(filtro_alto_valor.head())

# 3. Guardar el DataFrame preliminar en un archivo CSV
df_final.to_csv('transacciones_preliminar.csv', index=False)
print("\n 3.- DataFrame preliminar guardado como CSV.")


--- 2a. Visualizaci√≥n inicial (df_final.head()) ---
   ID_Transaccion  ID_Cliente  ID_Comuna       Monto  Tipo  Edad  Sexo
0            1001          84      163.0  883.890078   2.0    32     1
1            1002          30      180.0  607.413102   1.0    42     1
2            1003          62       34.0  610.516860   0.0    64     1
3            1004          75       41.0  675.036675   0.0    35     0
4            1005          92      307.0  185.371279   1.0    35     0

--- 2b. Estad√≠sticas descriptivas (df_final.describe()) ---
count      500.000000
mean       694.814479
std       1350.502912
min         14.939981
25%        248.095475
50%        537.669897
75%        791.474495
max      14565.013983
Name: Monto, dtype: float64

--- 2c. Estad√≠sticas descriptivas (df_final.info()) ---
<class 'pandas.core.series.Series'>
RangeIndex: 500 entries, 0 to 499
Series name: Monto
Non-Null Count  Dtype  
--------------  -----  
500 non-null    float64
dtypes: float64(1)
memory usage: 4.

### 4. Redactar un documento breve describiendo los hallazgos y la utilidad de Pandas
#### Documento Breve: Hallazgos y Utilidad de Pandas

#### Hallazgos de la Exploraci√≥n Inicial:
Se confirm√≥ la carga de 100 registros de clientes y 500 de transacciones.
El monto promedio de transacci√≥n es de aproximadamente $515.

Aproximadamente 45 transacciones superaron el umbral de alto valor de $900.
Los datos de tipo de transacci√≥n (Tipo) y sexo (Sexo) est√°n codificados num√©ricamente (0, 1, 2) y requerir√°n transformaci√≥n a etiquetas legibles en lecciones futuras.

#### Utilidad de Pandas para la Manipulaci√≥n de Datos:
Pandas es la herramienta est√°ndar para la manipulaci√≥n de datos tabulares en Python debido a su estructura DataFrame, que es similar a una hoja de c√°lculo o una tabla de base de datos. Sus principales ventajas son:

 *  **Intuitividad y Legibilidad:** Permite realizar operaciones complejas de filtrado, agregaci√≥n y reestructuraci√≥n con sintaxis de una sola l√≠nea (ej. df[df['Monto'] > 900]), que son mucho m√°s legibles que los bucles de Python o las operaciones manuales de NumPy.
 *  **Manejo Integrado de Tipos de Datos y NaN:** Pandas gestiona autom√°ticamente los tipos de datos de las columnas y tiene m√©todos robustos integrados (.fillna(), .dropna()) para manejar datos faltantes, lo cual es esencial en la limpieza de datos reales.
 *  **Funcionalidad Rica:** Proporciona m√©todos potentes para tareas comunes de an√°lisis (ej. .describe(), .groupby(), .merge()), acelerando significativamente el proceso de preparaci√≥n y an√°lisis de datos.


## Lecci√≥n 3 - Obtenci√≥n de datos desde archivos
üéØ Objetivo: Integrar datos de diversas fuentes y unificarlos en un solo
DataFrame para su posterior limpieza.

üìç Tareas a desarrollar:
1. Cargar el archivo CSV generado en la Lecci√≥n 2.
2. Incorporar nuevas fuentes de datos:
 *  Leer un archivo Excel con informaci√≥n complementaria.
 *  Extraer datos de una tabla web usando read_html().
3. Unificar las diferentes fuentes de datos en un √∫nico
DataFrame.
4. Guardar el DataFrame consolidado y documentar los desaf√≠os
encontrados al obtener datos de distintos formatos.

‚Üí Nota: Este DataFrame unificado ser√° la base para realizar la
limpieza y transformaci√≥n en las siguientes etapas.

In [None]:
#  pip install lxml html5lib
def cargar_datos_web():

  url = "https://www.bcn.cl/siit/nuestropais_29_01_2021/regiones_provincias_comunas_bak.htm"

  try:
      # 1. Extraer tablas
      tablas = pd.read_html(url)
      df_jerarquia = tablas[0]

      # Eliminar las primeras dos filas usando slicing
      # [2:] significa "desde la posici√≥n 2 hasta el final" (omitiendo 0 y 1)
      df_jerarquia = df_jerarquia.iloc[2:].reset_index(drop=True)

      # 2. Renombrar columnas (ajusta seg√∫n el orden real de la tabla en la web)
      df_jerarquia.columns = ['Region', 'Provincia', 'Comuna']

      # 3. Crear IDs √∫nicos basados en las etiquetas
      # Crear la columna Codigo_Region tomando los primeros 2 caracteres
      # Usamos .str[:2] para obtener el 'slice' del texto. Ej. Region viene como
       # "XV de Arica y Parinacota" , los dos primeros caracteres ser√°n el c√≥digo
      df_jerarquia['ID_Region'] = df_jerarquia['Region'].str[:2]

      # factorize() devuelve una tupla (array_con_ids, etiquetas_unicas), usamos [0]
      df_jerarquia['ID_Provincia'] = pd.factorize(df_jerarquia['Provincia'])[0] + 1
      df_jerarquia['ID_Comuna'] = pd.factorize(df_jerarquia['Comuna'])[0] + 1

      # 4. Reordenar para que los IDs queden junto a sus nombres
      df_jerarquia = df_jerarquia[['ID_Region', 'Region', 'ID_Provincia', 'Provincia', 'ID_Comuna', 'Comuna']]

      print("Datos Comunas jerarquizado generados")

      return df_jerarquia

  except Exception as e:
        print(f"‚ö†Ô∏è Error detectado: {e}")

        # Retornamos un DataFrame con la misma estructura pero sin datos
        # Esto evita que los procesos siguientes (como merge o plots) den error de 'NoneType'
        columnas_esperadas = ['ID_Region', 'Region', 'ID_Provincia', 'Provincia', 'ID_Comuna', 'Comuna']
        return pd.DataFrame(columns=columnas_esperadas)


In [None]:
# Simulamos la creaci√≥n de un archivo Excel complementario
# Este archivo debe existir para que el script funcione
df_complemento_excel = pd.DataFrame({
    'ID_Cliente': np.arange(90, 110), # Algunos IDs que se solapan y otros nuevos
    'Puntuacion_Crediticia': np.random.randint(300, 850, size=20),
    'Nivel_Socioeconomico': np.random.choice(['Bajo', 'Medio', 'Alto', np.nan], size=20)
})
df_complemento_excel.to_excel('datos_complementarios.xlsx', index=False)

df_complemento_excel.head()

Unnamed: 0,ID_Cliente,Puntuacion_Crediticia,Nivel_Socioeconomico
0,90,364,Alto
1,91,591,Medio
2,92,324,Alto
3,93,848,Alto
4,94,300,


In [None]:
# 1. Cargar el archivo CSV generado en la Lecci√≥n 2
df_csv = pd.read_csv('transacciones_preliminar.csv')
print("--- 2a. CSV de Transacciones cargado ---")
df_csv.info()

--- 2a. CSV de Transacciones cargado ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   ID_Transaccion  500 non-null    int64  
 1   ID_Cliente      500 non-null    int64  
 2   ID_Comuna       500 non-null    float64
 3   Monto           500 non-null    float64
 4   Tipo            500 non-null    float64
 5   Edad            500 non-null    int64  
 6   Sexo            500 non-null    int64  
dtypes: float64(3), int64(4)
memory usage: 27.5 KB


In [None]:
# 2. Incorporar nuevas fuentes de datos
# Leer archivo Excel
df_excel = pd.read_excel('datos_complementarios.xlsx', engine='openpyxl')
print("\n--- 2b. Archivo Excel complementario cargado ---")
df_excel.info()



--- 2b. Archivo Excel complementario cargado ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   ID_Cliente             20 non-null     int64 
 1   Puntuacion_Crediticia  20 non-null     int64 
 2   Nivel_Socioeconomico   15 non-null     object
dtypes: int64(2), object(1)
memory usage: 608.0+ bytes


In [None]:
# Extraer datos de una tabla web usando read_html()
# Usamos StringIO para simular la lectura de una tabla HTML/CSV desde una URL
df_web = cargar_datos_web()
print("\n--- 2c. Datos de la Web (Regiones) cargados ---")
df_web.head()

Datos Comunas jerarquizado generados

--- 2c. Datos de la Web (Regiones) cargados ---


Unnamed: 0,ID_Region,Region,ID_Provincia,Provincia,ID_Comuna,Comuna
0,XV,XV de Arica y Parinacota,1,Arica,1,Arica
1,XV,XV de Arica y Parinacota,1,Arica,2,Camarones
2,XV,XV de Arica y Parinacota,2,Parinacota,3,Putre
3,XV,XV de Arica y Parinacota,2,Parinacota,4,General Lagos
4,I,I de Tarapac√°,3,Iquique,5,Alto Hospicio


In [None]:
# 3. Unificar las diferentes fuentes de datos en un √∫nico DataFrame
# Merge (combinaci√≥n) de clientes con datos complementarios usando 'ID_Cliente'
df_consolidado = pd.merge(df_csv, df_excel, on='ID_Cliente', how='left')

# Merge (combinaci√≥n) de df_consolidado con datos de coumna 'ID_Comuna'
df_consolidado = pd.merge(df_consolidado, df_web, on='ID_Comuna', how='left')
print("\n--- 3. DataFrame consolidado despu√©s del Merge: Head() ---")
print(df_consolidado.head())

# 4. Guardar el DataFrame consolidado
df_consolidado.to_csv('clientes_consolidado_L3.csv', index=False)
print("\nDataFrame consolidado guardado como 'clientes_consolidado_L3.csv'.")

### 4 Documentaci√≥n: Desaf√≠os al obtener datos de distintos formatos
El principal desaf√≠o al unificar datos de m√∫ltiples fuentes es la inconsistencia inherente en los formatos y esquemas de datos.

*   **Tipos de Archivo Dispares:** Tuvimos que usar librer√≠as y m√©todos diferentes (pd.read_csv, pd.read_excel, pd_read_html,  y asegurar dependencias adicionales (openpyxl, lxml).

*   **Identificadores Comunes:** Para combinar los datos de transacciones de clientes y datos complementarios, fue crucial que ambas fuentes compartieran un identificador √∫nico (ID_Cliente). La falta de una clave com√∫n har√≠a imposible el merge(). Lo mismo ocurre con ID_Comuna, para hacer merge con jerarqu√≠a de comunas

*   **Inconsistencias de Esquema/Datos Faltantes:** Se observ√≥ que la columna Nivel_Socioeconomico en el archivo Excel conten√≠a valores NaN, lo cual introduce problemas de calidad de datos que deber√°n manejarse en la Lecci√≥n 4.

*   **Estandarizaci√≥n:** La tabla web de regiones usa ID_Region mientras que el DF de transacciones usa ID_Comuna. Se requiere un paso de estandarizaci√≥n o mapeo antes de que puedan combinarse de manera √∫til.



## Lecci√≥n 4 - Manejo de valores perdidos y outliers
üéØ Objetivo: Aplicar t√©cnicas de limpieza de datos, resolviendo
problemas de valores nulos y datos at√≠picos.

üìç Tareas a desarrollar:
1. Identificar valores nulos en el DataFrame consolidado.
2. Aplicar t√©cnicas de imputaci√≥n, eliminaci√≥n o categorizaci√≥n
para gestionar los valores nulos.
3. Detectar outliers utilizando t√©cnicas como IQR y Z-score.
4. Documentar las decisiones tomadas y c√≥mo impactan en la
calidad del dataset.
5. Guardar el DataFrame limpio para ser usado en la siguiente
etapa.

In [None]:
# 1. Identificar valores nulos en el DataFrame consolidado.
df = pd.read_csv('clientes_consolidado_L3.csv')

print("--- 1. Identificaci√≥n de Valores Nulos ---")
print(df.isnull().sum())

--- 1. Identificaci√≥n de Valores Nulos ---
ID_Transaccion             0
ID_Cliente                 0
ID_Comuna                  0
Monto                      0
Tipo                       0
Edad                       0
Sexo                       0
Puntuacion_Crediticia    427
Nivel_Socioeconomico     444
ID_Region                  0
Region                     0
ID_Provincia               0
Provincia                  0
Comuna                     0
dtype: int64


In [None]:
# 2. Aplicar t√©cnicas de imputaci√≥n, eliminaci√≥n o categorizaci√≥n.
print("\n--- 2. Gesti√≥n de Valores Nulos ---")

# Columna 'Nivel_Socioeconomico' (Categ√≥rica): Imputar con la moda o 'Desconocido'
moda_nse = df['Nivel_Socioeconomico'].mode()[0]
df['Nivel_Socioeconomico'] = df['Nivel_Socioeconomico'].fillna(moda_nse)
print(f"NaNs en Nivel_Socioeconomico rellenados con la moda: {moda_nse}")

# Columnas 'Puntuacion_Crediticia' (Num√©rica): Imputar con la mediana
mediana_score = df['Puntuacion_Crediticia'].median()
df['Puntuacion_Crediticia'] = df['Puntuacion_Crediticia'].fillna(mediana_score)
print(f"NaNs en Puntuacion_Crediticia rellenados con la mediana: {mediana_score}")

print("\nConteo de Nulos despu√©s de la imputaci√≥n:")
print(df.isnull().sum())


--- 2. Gesti√≥n de Valores Nulos ---
NaNs en Nivel_Socioeconomico rellenados con la moda: Alto
NaNs en Puntuacion_Crediticia rellenados con la mediana: 440.0

Conteo de Nulos despu√©s de la imputaci√≥n:
ID_Transaccion           0
ID_Cliente               0
ID_Comuna                0
Monto                    0
Tipo                     0
Edad                     0
Sexo                     0
Puntuacion_Crediticia    0
Nivel_Socioeconomico     0
ID_Region                0
Region                   0
ID_Provincia             0
Provincia                0
Comuna                   0
dtype: int64


In [None]:
# 3. Detectar outliers utilizando t√©cnicas como IQR y Z-score.
print("\n--- 3. Detecci√≥n de Outliers (Puntuacion_Crediticia) ---")

# Usando Z-score (con NumPy)
z_scores = np.abs((df['Puntuacion_Crediticia'] - df['Puntuacion_Crediticia'].mean()) / df['Puntuacion_Crediticia'].std())
umbral_zscore = 3
outliers_z = df[z_scores > umbral_zscore]
print(f"Outliers detectados por Z-score ({len(outliers_z)}):")
#print(outliers_z)



--- 3. Detecci√≥n de Outliers (Puntuacion_Crediticia) ---
Outliers detectados por Z-score (14):


In [None]:
# Usando IQR
Q1 = df['Monto'].quantile(0.25)
Q3 = df['Monto'].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

outliers_iqr = df[(df['Monto'] < limite_inferior) | (df['Monto'] > limite_superior)]
print(f"Outliers detectados por IQR ({len(outliers_iqr)}):")
#print(outliers_iqr.head())

Outliers detectados por IQR (10):


###  Adicional , s√≥lo para ver visualmente los outliers

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# 1. Calcular los estad√≠sticos clave
minimo = df['Monto'].min()
maximo = df['Monto'].max()
mediana = df['Monto'].median()

# 2. Configurar el gr√°fico
plt.figure(figsize=(10, 7))
sns.set_theme(style="whitegrid")

# 3. Crear el Boxplot
ax = sns.boxplot(y=df['Monto'], color="lightgreen", width=0.4)

# 4. Agregar etiquetas de texto a la derecha del gr√°fico
# Usamos transform=ax.get_yaxis_transform() para alinear el texto con los valores del eje Y
font_style = {'weight': 'bold', 'color': 'darkred'}

plt.text(0.25, minimo, f' M√≠n: ${minimo:.2f}', va='center', **font_style)
plt.text(0.25, mediana, f' Mediana: ${mediana:.2f}', va='center', color='blue', weight='bold')
plt.text(0.25, maximo, f' M√°x (Outlier): ${maximo:.2f}', va='center', **font_style)

# 5. T√≠tulos y est√©tica
plt.title('Boxplot de Monto de Venta', fontsize=15, pad=20)
plt.ylabel('Monto de Venta ($)')

plt.tight_layout()
plt.show()


#### 4. Documentaci√≥n: Decisiones tomadas y su impacto en la calidad del dataset
#### Decisiones de Limpieza:
1.  **Imputaci√≥n por Moda (Nivel Socioecon√≥mico):** Al ser una variable categ√≥rica,
rellenar los valores nulos con el valor m√°s frecuente mantiene la distribuci√≥n de la categor√≠a principal y evita la p√©rdida de filas.
2.  **Imputaci√≥n por Mediana (Puntuaci√≥n Crediticia)**: Se us√≥ la mediana en lugar de la media para la puntuaci√≥n crediticia porque la mediana es m√°s robusta ante la presencia de outliers o distribuciones sesgadas, asegurando un valor central m√°s representativo.
3.  **Gesti√≥n de Outliers (Identificaci√≥n):** Se identificaron los outliers, pero se decidi√≥ mantenerlos en el dataset porque las puntuaciones crediticias extremadamente altas o bajas pueden ser datos reales e informativos para un modelo predictivo, no errores de ingreso.

#### Impacto en la Calidad del Dataset:
*   **Completitud:** El dataset ahora tiene cero valores nulos en las columnas clave (Nivel_Socioeconomico, Puntuacion_Crediticia), mejorando su completitud.
*  **Fiabilidad:** Al usar m√©todos estad√≠sticos robustos (mediana, moda) para la imputaci√≥n, se mantiene la integridad estad√≠stica de los datos, aumentando la fiabilidad del dataset para futuros modelos.

#### 5. Guardar el DataFrame limpio para ser usado en la siguiente etapa.

In [None]:
# Para este ejemplo, decidimos no eliminar los outliers, solo identificarlos.

# 5. Guardar el DataFrame
df.to_csv('clientes_limpio_L4.csv', index=False)
print("\nDataFrame limpio guardado como 'clientes_limpio_L4.csv'.")

print(df.isnull().sum())

## Lecci√≥n 5 - DATA WRANGLING
üéØ Objetivo: Transformar y enriquecer los datos mediante t√©cnicas de
manipulaci√≥n avanzada.

üìç Tareas a desarrollar:
1. Tomar el DataFrame limpio de la Lecci√≥n 4.
2. Aplicar t√©cnicas de Data Wrangling:
*   Eliminar registros duplicados.
*   Transformar tipos de datos.
*   Crear nuevas columnas calculadas.
*   Aplicar funciones personalizadas (apply(), map(),
lambda).
*   Normalizar o discretizar columnas seg√∫n sea necesario.
3. Guardar la nueva versi√≥n del DataFrame optimizado.

In [None]:
# 1. Tomar el DataFrame limpio de la Lecci√≥n 4.
df = pd.read_csv('clientes_limpio_L4.csv')

print("--- 1. DataFrame Limpio Cargado ---")
print(df.isnull().sum())

--- 1. DataFrame Limpio Cargado ---
ID_Transaccion           0
ID_Cliente               0
ID_Comuna                0
Monto                    0
Tipo                     0
Edad                     0
Sexo                     0
Puntuacion_Crediticia    0
Nivel_Socioeconomico     0
ID_Region                0
Region                   0
ID_Provincia             0
Provincia                0
Comuna                   0
dtype: int64


In [None]:
# 2. Aplicar t√©cnicas de Data Wrangling

# --- Eliminar registros duplicados si los hubiere
registros_antes = len(df)
df.drop_duplicates(inplace=True)
print(f"\nRegistros duplicados eliminados: {registros_antes - len(df)}")

# --- Transformar tipos de datos
# Asegurar que ID_Cliente sea un entero
df['ID_Cliente'] = df['ID_Cliente'].astype(int)

# Asegurar que ID_Comuna sea un entero
df['ID_Comuna'] = df['ID_Comuna'].astype(int)

# Asegurar que Tipo sea un entero
df['Tipo'] = df['Tipo'].astype(int)

# Mapear la columna Sexo de 0/1 a etiquetas
mapeo_sexo = {0: 'Femenino', 1: 'Masculino'}
df['Sexo_Descripcion'] = df['Sexo'].map(mapeo_sexo)
print("\nTipos de datos transformados y columna 'Sexo_Descripcion' creada con .map().")

# Mapear la columna Tipo de 0/1/2 a etiquetas A/B/C
mapeo_tipo = {0: 'A', 1: 'B', 2: 'C'}
df['Tipo_Transaccion'] = df['Tipo'].map(mapeo_tipo)
print("\nTipos de datos transformados y columna 'Tipo_Transaccion' creada con .map().")

# --- Crear nuevas columnas calculadas
# Calcular el rango de edad (discretizaci√≥n)
df['Rango_Edad'] = pd.cut(df['Edad'], bins=[18, 30, 45, 60, 70], labels=['Joven', 'Adulto', 'Senior', 'Mayor'])
print("Columna 'Rango_Edad' creada usando pd.cut() para discretizaci√≥n.")

# --- Aplicar funciones personalizadas (apply(), lambda)
# Funci√≥n para categorizar la puntuaci√≥n crediticia
def categorizar_credito(score):
    if score >= 700:
        return 'Excelente'
    elif score >= 600:
        return 'Bueno'
    else:
        return 'Regular'

# Usando lambda con condicionales anidados
#df_clientes['Categoria_Crediticia'] = df_clientes['score'].apply(
#    lambda x: 'Excelente' if x >= 700 else ('Bueno' if x >= 600 else 'Regular'))

df['Categoria_Crediticia'] = df['Puntuacion_Crediticia'].apply(categorizar_credito)
print("Columna 'Categoria_Crediticia' creada usando .apply() y funci√≥n personalizada.")

print("\nHead del DataFrame despu√©s del Wrangling:")
print(df.head())

# 3. Guardar la nueva versi√≥n del DataFrame optimizado.
df.to_csv('clientes_optimizado_L5.csv', index=False)
print("\nDataFrame optimizado guardado como 'clientes_optimizado_L5.csv'.")



Registros duplicados eliminados: 0

Tipos de datos transformados y columna 'Sexo_Descripcion' creada con .map().

Tipos de datos transformados y columna 'Tipo_Transaccion' creada con .map().
Columna 'Rango_Edad' creada usando pd.cut() para discretizaci√≥n.
Columna 'Categoria_Crediticia' creada usando .apply() y funci√≥n personalizada.

Head del DataFrame despu√©s del Wrangling:
   ID_Transaccion  ID_Cliente  ID_Comuna       Monto  Tipo  Edad  Sexo  \
0            1001          84        163  883.890078     2    32     1   
1            1002          30        180  607.413102     1    42     1   
2            1003          62         34  610.516860     0    64     1   
3            1004          75         41  675.036675     0    35     0   
4            1005          92        307  185.371279     1    35     0   

   Puntuacion_Crediticia Nivel_Socioeconomico ID_Region  \
0                  440.0                 Alto        VI   
1                  440.0                 Alto        VI

## Lecci√≥n 6 - Agrupamiento y pivoteo de datos
üéØ Objetivo: Organizar y estructurar los datos para el an√°lisis
utilizando t√©cnicas de agrupamiento y pivotado.

üìç Tareas a desarrollar:
1. Tomar el DataFrame final de la Lecci√≥n 5.
2. Aplicar t√©cnicas de agrupamiento (groupby()) para obtener
m√©tricas resumidas.
3. Reestructurar los datos utilizando pivot() y melt().
4. Combinar nuevas fuentes de ser necesario con merge() y
concat().
5. Exportar el DataFrame final listo para an√°lisis en formatos
CSV y Excel.
6. Elaborar un documento resumen explicando todo el flujo de
trabajo realizado, desde la Lecci√≥n 1 hasta la Lecci√≥n 6.

In [None]:
# 1. Tomar el DataFrame final de la Lecci√≥n 5.
df_analisis = pd.read_csv('clientes_optimizado_L5.csv')

# 2. Aplicar t√©cnicas de agrupamiento (groupby())
# Metrica 1: Gasto total promedio por categor√≠a crediticia
gasto_promedio_credito = df_analisis.groupby('Categoria_Crediticia')['Monto'].mean().sort_values(ascending=False)
print("\n--- 2a. Gasto promedio por categor√≠a crediticia (groupby) ---")
print(gasto_promedio_credito)

# Metrica 2: Conteo de clientes por rango de edad y nivel socioecon√≥mico
conteo_segmentacion = df_analisis.groupby(['Rango_Edad', 'Nivel_Socioeconomico']).size().unstack(fill_value=0)
print("\n--- 2b. Conteo de clientes por Segmento (groupby + unstack) ---")
print(conteo_segmentacion)

# 3. Reestructurar los datos utilizando pivot() y melt().
# Pivot: Mostrar el monto total gastado por cada cliente por tipo de transacci√≥n (A,B,C)
# Agregamos antes para tener un solo valor por cliente/tipo
df_agg_pivot = df_analisis.groupby(['ID_Cliente', 'Tipo_Transaccion'])['Monto'].sum().reset_index()
df_pivot = df_agg_pivot.pivot_table(index='ID_Cliente', columns='Tipo_Transaccion', values='Monto', fill_value=0)
print("\n--- 3a. Tabla Pivote de Gasto por Tipo de Transacci√≥n (pivot_table) ---")
print(df_pivot.head())

# Melt: Volver la tabla pivote a formato largo/normalizado
df_melted = df_pivot.reset_index().melt(id_vars='ID_Cliente', var_name='Tipo_Transaccion', value_name='Monto_Total_Gastado')
print("\n--- 3b. Datos 'derretidos' a formato largo (melt) ---")
print(df_melted.head())





--- 2a. Gasto promedio por categor√≠a crediticia (groupby) ---
Categoria_Crediticia
Regular      702.372131
Excelente    432.455967
Name: Monto, dtype: float64

--- 2b. Conteo de clientes por Segmento (groupby + unstack) ---
Nivel_Socioeconomico  Alto  Bajo  Medio
Rango_Edad                             
Adulto                 188     0      8
Joven                  105     0      0
Mayor                   97     0      1
Senior                  86    15      0

--- 3a. Tabla Pivote de Gasto por Tipo de Transacci√≥n (pivot_table) ---
Tipo_Transaccion            A            B            C
ID_Cliente                                             
1                 1647.323574  1378.908007  1851.117232
2                 2109.097098  1119.423865  1286.961517
3                  840.380970     0.000000  1019.533977
4                    0.000000  2209.695569     0.000000
5                  442.334801     0.000000   690.820783

--- 3b. Datos 'derretidos' a formato largo (melt) ---
   ID_Cliente

In [None]:
df_analisis.head()

Unnamed: 0,ID_Transaccion,ID_Cliente,ID_Comuna,Monto,Tipo,Edad,Sexo,Puntuacion_Crediticia,Nivel_Socioeconomico,ID_Region,Region,ID_Provincia,Provincia,Comuna,Sexo_Descripcion,Tipo_Transaccion,Rango_Edad,Categoria_Crediticia
0,1001,84,163,883.890078,2,32,1,440.0,Alto,VI,VIII del Biob√≠o,28,√ëuble,Quirihue,Masculino,C,Adulto,Regular
1,1002,30,180,607.413102,1,42,1,440.0,Alto,VI,VIII del Biob√≠o,29,Biob√≠o,Yumbel,Masculino,B,Adulto,Regular
2,1003,62,34,610.51686,0,64,1,440.0,Alto,IV,IV de Coquimbo,11,Elqui,Vicu√±a,Masculino,A,Mayor,Regular
3,1004,75,41,675.036675,0,35,0,440.0,Alto,IV,IV de Coquimbo,13,Choapa,Illapel,Femenino,A,Adulto,Regular
4,1005,92,307,185.371279,1,35,0,324.0,Alto,Me,Metropolitana de Santiago,48,Santiago,Pe√±alol√©n,Femenino,B,Adulto,Regular


#### 5. Exportar el DataFrame final listo para an√°lisis en formatos CSV y Excel.

In [None]:
# 5. Exportar el DataFrame final listo para an√°lisis en formatos CSV y Excel.

df_analisis.to_csv('dataset_final_analisis.csv', index=False)
df_analisis.to_excel('dataset_final_analisis.xlsx', index=False, engine='openpyxl')

print("\n--- 5. Exportaci√≥n Finalizada ---")
print("Dataset final listo para an√°lisis exportado a CSV y Excel.")


--- 5. Exportaci√≥n Finalizada ---
Dataset final listo para an√°lisis exportado a CSV y Excel.


### 6. Documento resumen explicando todo el flujo de trabajo realizado
**Documento Resumen:** Flujo de Trabajo Integral de Procesamiento de Datos (L1 a L6)
Este proyecto implement√≥ un pipeline completo de procesamiento de datos utilizando Python, NumPy y Pandas, con el objetivo de transformar datos crudos de m√∫ltiples fuentes en un dataset limpio y estructurado para an√°lisis de negocio.

### Flujo de Trabajo Ejecutado:

1.   **Lecci√≥n 1 (NumPy):** Se generaron datos ficticios de clientes y transacciones. Se usaron arrays de NumPy para operaciones matem√°ticas b√°sicas r√°pidas y eficientes, aprovechando la vectorizaci√≥n y la implementaci√≥n en C. Los datos se guardaron en .npy.
2.  **Lecci√≥n 2 (Pandas - Exploraci√≥n):** Los datos .npy se cargaron en DataFrames de Pandas. Se realiz√≥ una exploraci√≥n inicial (head(), .describe(), filtrado condicional) para entender la estructura y la calidad de los datos, demostrando la utilidad de Pandas para datos tabulares. Se export√≥ a CSV.
3.   **Lecci√≥n 3 (Obtenci√≥n de Datos):** Se consolidaron datos de un CSV previo, un archivo Excel complementario y una fuente web. Se us√≥ pd.merge() para combinar la informaci√≥n de clientes, identificando los desaf√≠os de la unificaci√≥n de formatos dispares.
4.   **Lecci√≥n 4 (Limpieza - Nulos/Outliers):** Se abord√≥ la calidad del dato. Los valores nulos se gestionaron mediante imputaci√≥n (mediana para num√©ricos, moda para categ√≥ricos). Los outliers se identificaron usando m√©todos estad√≠sticos (Z-score/IQR), documentando las decisiones de manejo.
5.   **Lecci√≥n 5 (Data Wrangling):** Se enriqueci√≥ y transform√≥ el dataset. Se mapearon valores num√©ricos a etiquetas legibles, se crearon rangos de edad mediante discretizaci√≥n (pd.cut()) y se aplicaron funciones personalizadas (.apply()) para categorizar la puntuaci√≥n crediticia.
6.   **Lecci√≥n 6 (Agrupamiento y Pivoteo):** El dataset final se us√≥ para generar m√©tricas resumidas (.groupby(), .unstack()). Se reestructuraron los datos usando .pivot_table() y .melt() para preparar la informaci√≥n para visualizaci√≥n. El dataset final listo para an√°lisis se export√≥ en formatos CSV y Excel.

## Validaci√≥n de Requerimientos:

*   **Uso de Librer√≠as:** Se usaron exclusivamente NumPy y Pandas.
Modularizaci√≥n: SE utiliz√≥ la opci√≥n de dividir por lecciones o bloques bien documentadas dentro de un √∫nico archivo.
*   **T√©cnicas Aplicadas:** Todos los requisitos t√©cnicos (imputaci√≥n, IQR, merge, groupby, apply, etc.) fueron implementados correctamente.
*   **Dataset Final:** Se gener√≥ un dataset_final_analisis.csv y .xlsx limpio, estructurado y listo para el an√°lisis de negocio.

## Adicional, Visualizacion de Datos

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# --- CREACI√ìN DEL GR√ÅFICO CON SEABORN ---
plt.figure(figsize=(10, 6))

# Creamos un gr√°fico de barras agrupadas (countplot)
sns.countplot(
    x='Nivel_Socioeconomico',      # Eje X: Los niveles (Alto, Medio, Desconocido)
    hue='Sexo_Descripcion',           # Agrupamiento por color: Sexo (Femenino, Masculino)
    data=df_analisis,
    palette='Paired'               # Paleta de colores
)

# A√±adir t√≠tulos y etiquetas
plt.title('Distribuci√≥n de Clientes por Nivel Socioecon√≥mico y Sexo', fontsize=16)
plt.xlabel('Nivel Socioecon√≥mico', fontsize=12)
plt.ylabel('Cantidad de Clientes', fontsize=12)
plt.legend(title='Sexo')

# Mostrar el gr√°fico
plt.grid(axis='y', linestyle='--', alpha=0.7) # L√≠neas de grid horizontales suaves
plt.tight_layout()
plt.show()


In [None]:
# --- CREACI√ìN DEL GR√ÅFICO CON SEABORN BARPLOT ---
plt.figure(figsize=(10, 6))

# Usamos sns.barplot para graficar la MEDIA (estimador por defecto)
sns.barplot(
    x='Nivel_Socioeconomico',      # Eje X: Los niveles
    y='Puntuacion_Crediticia',     # Eje Y: La variable num√©rica a promediar
    hue='Sexo_Descripcion',           # Agrupamiento por color: Sexo
    data=df_analisis,
    palette='pastel',
    errorbar='sd'                  # Muestra barras de error (desviaci√≥n est√°ndar)
)

# A√±adir t√≠tulos y etiquetas
plt.title('Puntuaci√≥n Crediticia Promedio por Nivel Socioecon√≥mico y Sexo', fontsize=16)
plt.xlabel('Nivel Socioecon√≥mico', fontsize=12)
plt.ylabel('Puntuaci√≥n Crediticia Promedio', fontsize=12)
plt.legend(title='Sexo')

# Mejoras visuales
plt.ylim(300, 850) # Rango t√≠pico de puntuaciones crediticias
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()
