# **Exploración de Datos**

**Descripción:**

Este notebook se enfoca en la carga y exploración de los datos proporcionados para entender su estructura, identificar la tabla maestra (`clientes`) y revisar todos los catálogos existentes. El objetivo es determinar si el conjunto actual de catálogos es suficiente o si se podrían crear catálogos adicionales para mejorar las capacidades de filtrado en reportes futuros.

**Autor:** ```Simón Correa Marín```

**Fecha:** ```05/07/2025```


#### **Librerías**

In [101]:
# Librerías más importantes para el proceso de análisis exploratorio de datos (EDA)
import pandas as pd
from ydata_profiling import ProfileReport
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from datetime import datetime

#### **Carga de los datos**

In [102]:
# Ruta del archivo que contiene las tablas
ruta = r"..\data\tablas_prueba_ing_datos.xlsx"

# Se cargan los datos desde el archivo Excel
hojas = pd.read_excel(ruta, sheet_name=None)

# Diccionario global para almacenar los DataFrames
dfs = globals() 

# Se muestran las primeras filas de cada DataFrame
for nombre, df in hojas.items():
    dfs[nombre] = df  # Se guarda cada DataFrame como variable global
    print(f"\n{nombre} shape: {df.shape}")
    display(df.head())


clientes shape: (50000, 8)


Unnamed: 0,id,cod_tip_doc,cod_genero,desc_genero,nombre,fecha_nacimiento,ingresos,cod_sucursal
0,1092347697,1,M,Masculino,Edgar Javier VERA VERA,19950204,30589665,202
1,22369520,1,F,Fenemino,Yolanda Franco Marquez ...,20080826,7075901,5
2,1007686547,1,M,Masculino,Jordan Steven Ramirez RODRIGUEZ ...,19860717,26600681,184
3,71494890,1,M,Masculino,Fabio De Jesus Ardila Alvarez ...,19830322,6184024,368
4,1032490466,1,F,Fenemino,Ivonne Alejandra URBINA Orozco ...,19910423,12402821,378



cat_tip_doc shape: (10, 2)


Unnamed: 0,cod_tip_doc,desc_tip_doc
0,6,Id Extranjero PN
1,7,Id Extranjero PJ
2,0,Carné Diplomático
3,8,Fideicomiso
4,4,T.I



cat_sucursal shape: (963, 4)


Unnamed: 0,cod_sucursal,desc_sucursal,cod_pais_region_zona,cod_ciudad
0,1,Buenavista Ii,1690423,169008001000
1,2,20 De Julio,1690610,169011001000
2,3,30 De Agosto,1690330,169066001000
3,4,3m,1690655,169011001000
4,5,Abrego,1690217,169054003000



cat_ciudad shape: (9403, 4)


Unnamed: 0,cod_ciudad,desc_ciudad,desc_departamento,desc_pais
0,0,Sin Informacion,Sin Informacion,Sin Informacion
1,169000000000,Sin Informacion,Sin Informacion,Colombia
2,169005000000,Sin Informacion,Antioquia,Colombia
3,169008000000,Sin Informacion,Atlantico,Colombia
4,169011000000,Sin Informacion,Cundinamarca,Colombia



cat_zona shape: (89, 4)


Unnamed: 0,cod_pais_region_zona,desc_zona,desc_region,desc_pais
0,1690000,Sin Zona,Sin Región,Colombia
1,1690100,Sin Zona,Antioquia,Colombia
2,1690200,Sin Zona,Centro,Colombia
3,1690300,Sin Zona,Sur,Colombia
4,1690400,Sin Zona,Caribe,Colombia


#### **Exploración de las tablas**

Se obtiene información general de cada tabla.

In [103]:
# clientes (Master table)
clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   id                50000 non-null  int64 
 1   cod_tip_doc       50000 non-null  int64 
 2   cod_genero        50000 non-null  object
 3   desc_genero       50000 non-null  object
 4   nombre            50000 non-null  object
 5   fecha_nacimiento  50000 non-null  int64 
 6   ingresos          50000 non-null  int64 
 7   cod_sucursal      50000 non-null  int64 
dtypes: int64(5), object(3)
memory usage: 3.1+ MB


In [104]:
# cat_tip_doc (catalog)
cat_tip_doc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   cod_tip_doc   10 non-null     int64 
 1   desc_tip_doc  10 non-null     object
dtypes: int64(1), object(1)
memory usage: 292.0+ bytes


In [105]:
# cat_sucursal (catalog)
cat_sucursal.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 963 entries, 0 to 962
Data columns (total 4 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   cod_sucursal          963 non-null    int64 
 1   desc_sucursal         963 non-null    object
 2   cod_pais_region_zona  963 non-null    int64 
 3   cod_ciudad            963 non-null    int64 
dtypes: int64(3), object(1)
memory usage: 30.2+ KB


In [106]:
# cat_ciudad (catalog)
cat_ciudad.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9403 entries, 0 to 9402
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   cod_ciudad         9403 non-null   int64 
 1   desc_ciudad        9403 non-null   object
 2   desc_departamento  9403 non-null   object
 3   desc_pais          9403 non-null   object
dtypes: int64(1), object(3)
memory usage: 294.0+ KB


In [107]:
# cat_zona (catalog)
cat_zona.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 89 entries, 0 to 88
Data columns (total 4 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   cod_pais_region_zona  89 non-null     int64 
 1   desc_zona             89 non-null     object
 2   desc_region           89 non-null     object
 3   desc_pais             89 non-null     object
dtypes: int64(1), object(3)
memory usage: 2.9+ KB


#### **EDA**

Se generan reportes de exploración de nulos, atípicos, correlaciones y anomalías o patrones en los datos.

In [108]:
# List of DataFrames to generate EDA reports
# for nombre, df in hojas.items():
#     print(f"EDA para: {nombre} ...")
    
#     try:
#         profile = ProfileReport(df, title=f"EDA - {nombre}", explorative=True)
#         profile.to_file(f"../outputs/eda_{nombre}.html")
#         print(f"Reporte guardado en: outputs/eda_{nombre}.html")
#     except Exception as e:
#         print(f"Error generando EDA para {nombre}: {e}")

#### **Hallazgos hasta ahora**

- Ningún dataset tiene nulos.
- Hay valores atípicos (outliers) en algunos datasets.
- Hay un valor mal escrito en la descripción del género "Fenemino".
- Hay personas con ids con muy pocas cifras y su fecha de nacimiento es muy reciente.
- Hay outliers en la fecha de nacimiento del cliente (2 valores de los años 1800 y uno del 2050).
- Hay fechas de nacimiento muy recientes, es algo extraño.
- Personas con CC, menores de edad. No tiene sentido. Lo mismo para otros tipos de documentos.
- Hay clientes con ingresos muy bajos, menores a 100 mil pesos.
- La distrubución de los ingresos es muy uniforme, debería tender a ser un poco más normal o sesgada.
- Podría haber un catalogo de sexo.
- En el campo desc_departamento hay paises.
- Hay un registro sin información en cat_cuidad.
- Ingresos anuales? mensuales? (supongo mensuales)
- Se debe hacer un cambio de tipos de datos.

**Otros**

- Ningún cliente tiene fideicomiso como documento (8).
- Hay más clientes hombres que mujeres en el dataset.
- El nombre que más se repite en el dataset es Jose (2837 veces).
- Las columnas fecha de id, fecha de nacimiento e ingresos parecen ser sintéticas (no son reales).
- En el catálogo zona la columna desc_pais tiene un solo valor "Colombia".


### **Tratamiento de los datos**

Luego de identificar estas anomalías, se procede a limpiar, preprocesar y tratar los datos de tal manera que queden lo más limpios y correctos posibles. Para efectos de esta prueba técnica se usaron datos sintéticos entonces la limpieza no será tan estricta para no eliminar la mayoría de registros.

In [109]:
# Cambio de valor "Fenemino" a "Femenino" en la columna 'desc_genero'
clientes['desc_genero'] = clientes['desc_genero'].replace('Fenemino', 'Femenino')

# Se verifican los valores únicos y su frecuencia
print(clientes['desc_genero'].value_counts())

desc_genero
Masculino     31148
Femenino      17288
No informa     1564
Name: count, dtype: int64


**Fecha de nacimiento**

In [110]:
# Se revisan casos anómalos: pocos dígitos en el id y fecha de nacimiento muy reciente
clientes_anomalos = clientes.copy()
clientes_anomalos['id_length'] = clientes_anomalos['id'].astype(str).str.len()
clientes_anomalos['fecha_nacimiento'] = pd.to_datetime(clientes_anomalos['fecha_nacimiento'].astype(str), format='%Y%m%d', errors='coerce')

# Revisar casos anómalos: pocos dígitos y fecha de nacimiento muy reciente
anomalias = clientes_anomalos[(clientes_anomalos['id_length'] < 6) & (clientes_anomalos['fecha_nacimiento'].dt.year > 2010)]
print("Hay", len(anomalias), "casos de clientes con pocos dígitos en el id y fecha de nacimiento muy reciente")

Hay 68 casos de clientes con pocos dígitos en el id y fecha de nacimiento muy reciente


In [111]:
# Se cambia a datetime la columna 'fecha_nacimiento' y se extrae el año
clientes['fecha_nacimiento'] = pd.to_datetime(clientes['fecha_nacimiento'].astype(str), format='%Y%m%d', errors='coerce')
clientes['anio_nacimiento'] = clientes['fecha_nacimiento'].dt.year

# Boxplot para detectar outliers en el año de nacimiento
fig = px.box(clientes, y="anio_nacimiento", title="Boxplot de Año de Nacimiento", points="all")
fig.show()

In [112]:
# Eliminar outliers: años válidos entre 1900 y 2025
clientes = clientes[(clientes['anio_nacimiento'] >= 1900) & (clientes['anio_nacimiento'] <= 2025)]

**Aclaración:** Teniendo en cuenta que los clientes pueden ser empresas y no solo personas naturales, las fechas de 1800 si podrían llegar a ser posibles, pero revisando la base de datos son personas con CC.

In [113]:
# Fecha actual
hoy = pd.to_datetime(datetime.today())

# Se calcula edad
clientes['edad'] = (hoy - clientes['fecha_nacimiento']).dt.days // 365

# Código de CC
cc_codigo = 1  # Asegúrate de que este sea el código correcto para CC

# Condición: menores de edad con CC
condicion_invalida = (clientes['edad'] < 18) & (clientes['cod_tip_doc'] == cc_codigo)

# Se muestran cuántos son
print(f"Registros con CC y < 18 años: {condicion_invalida.sum()}")

# Se eliminan esos registros
clientes = clientes[~condicion_invalida]

Registros con CC y < 18 años: 6866




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



**Ingresos**

In [115]:
# ¿Cuántos tienen ingresos menores a 800 mil?
ingresos_bajos = clientes[clientes['ingresos'] < 800000]
print(f"Clientes con ingresos < $800.000: {ingresos_bajos.shape[0]}")

# Histograma
px.histogram(clientes, x="ingresos", nbins=100, title="Distribución de Ingresos")


Clientes con ingresos < $800.000: 1030


Voy a eliminar los registros con ingresos menores a 100 mil porque aunque se distribuyan uniformemente, es realmente extraño.

In [116]:
clientes = clientes[clientes['ingresos'] >= 100000].copy()

**cat_cuidad**

In [117]:
# Ver registros donde todos los valores sean 'Sin Informacion' o 0
no_info = (
    (cat_ciudad['cod_ciudad'] == 0) &
    (cat_ciudad['desc_ciudad'] == "Sin Informacion") &
    (cat_ciudad['desc_departamento'] == "Sin Informacion") &
    (cat_ciudad['desc_pais'] == "Sin Informacion")
)

cat_ciudad[no_info]

Unnamed: 0,cod_ciudad,desc_ciudad,desc_departamento,desc_pais
0,0,Sin Informacion,Sin Informacion,Sin Informacion


In [118]:
# Eliminar registros con 'Sin Informacion' o 0
cat_ciudad = cat_ciudad[~no_info].copy()

### **Conclusiones**

- Se realizó una **exploración y análisis** de todas las tablas proporcionadas, con foco en la estructura, calidad de los datos y relaciones entre entidades.
- Se aplicó un análisis exploratorio automatizado con `ydata-profiling`, lo cual permitió detectar **anomalías, valores atípicos, errores tipográficos** y oportunidades de mejora en la calidad de los datos.
- Todas las **anomalías identificadas fueron corregidas o tratadas**, incluyendo:
  - Corrección del valor mal escrito `"Fenemino"` en la columna `desc_genero`.
  - Conversión de la columna `fecha_nacimiento` a formato datetime y eliminación de outliers en años improbables (como 1800 y 2050).
  - Eliminación de registros inconsistentes como personas **menores de edad con cédula de ciudadanía (CC)**.
  - Filtrado de clientes con **ingresos inusualmente bajos** (menores a $100.000), que podrían corresponder a datos faltantes o erróneos.
  - Limpieza de registros en catálogos como `cat_ciudad` con valores `"Sin Informacion"` o códigos `0`.
- Se identificó que campos como `desc_departamento` contienen **nombres de países**, lo que sugiere una mezcla de niveles territoriales en los catálogos.
- Se propone la creación de **nuevos catálogos** derivados de campos como `desc_genero`, `desc_departamento` y `desc_pais`, actualmente embebidos en otras tablas, para facilitar futuros análisis y reportes.
- Se plantea establecer una estructura más robusta para los catálogos, mejorando la **trazabilidad y consistencia** de los datos mediante llaves foráneas bien definidas.

---

> ⚙️ **Próximos pasos**: Se continuará con la **verificación y rediseño de los catálogos**.
