ASUM-DM

Es un enfoque para la preparacion y organizacion de datos que se enfoca en 5 etapas fundamentales:
Análisis, selección, unificación, muestreo y depuración.

Este proceso es útil para mejorar la calidad de los datos antes de usarlos en modelos de análisis y aprendizaje automático.

Contesto el problema: análisis de clientes para estrategias de marketing personalizada una empresa de servicios financieros quiere lanzar una campaña de marketing personalizada para sus clientes de varias ciudades. La idea es identificar perfiles de clientes en función de características como edad, ingresos y categoría de cliente para definir estrategias.

El equipo de marketing ha solicitado los analistas de datos e identificar:

segmentos de clientes: hola agrupar a los clientes en función de su categoría, ingresos, edad y ciudad.

Tendencias de ingresos: analizar la distribución de los ingresos mensuales y detectar patrones en diferentes ciudades y edades.

Clientes potenciales: identificar clientes con altos ingresos y en categoría de alto valor(“A”) para campañas específicas.

Sin embargo, el conjunto de datos tiene varios problemas qué dificultan el análisis directo, cómo duplicados, valores atípicos y errores tipográficos.

Antes de aplicar modelos de segmentación y análisis de tendencias, es necesario limpiar y organizar la información

1. Análisis de datos
Objetivo: examinar la calidad y característica de los datos.

 Acciones: revisar el conjunto de datos para identificar valores faltantes,  datos inconsistentes, duplicados, errores tipográficos y valores atípicos.

Este paso permite entender el tipo de problema que podrían afectar el análisis y decidir cómo resolverlos.

In [1]:
#Importar librerias necesarias
import pandas as pd 




In [None]:
#Leer el archivo CSV en un DataFrame
df = pd.read_csv(D':/Inteligencia artifical/taller1/Datos_ejercicio_IA/clientes_con_errores.csv')
df.count() #cuanta la cantidad de registros

ID_cliente         500
Edad               389
Ingreso_mensual    257
Categoría          441
Ciudad             406
País               251
dtype: int64

In [19]:
#Mostrar las primeras filas del DataFrame
print("Vista inicial de los datos")
display(df.head())


Vista inicial de los datos


Unnamed: 0,ID_cliente,Edad,Ingreso_mensual,Categoría,Ciudad,País
0,ID_001,-1.0,,b,,
1,ID_002,,,b,Ciudad_B,Pais_Y
2,ID_003,150.0,7646.28,A,Ciudad_B,
3,ID_004,30.0,-500.0,VIP,Ciudad123,Pais_X
4,ID_005,150.0,,a,ciudad_a,Pais_X


In [20]:
#1 Verificar valores nulos
print("\n Varlores nulos por columna: ")
print(df.isnull().sum())


 Varlores nulos por columna: 
ID_cliente           0
Edad               111
Ingreso_mensual    243
Categoría           59
Ciudad              94
País               249
dtype: int64


In [21]:
#Identificar edades inconsistentes
#consideremos que las edades válidas estan entre 18 y  90
edades_inconsistentes =df[(df['Edad']<18) | (df['Edad']>90) | (df['Edad'].isnull())]
print("\n edades inconsistentes: ")
print(edades_inconsistentes)


 edades inconsistentes: 
    ID_cliente   Edad  Ingreso_mensual Categoría     Ciudad    País
0       ID_001   -1.0              NaN         b        NaN     NaN
1       ID_002    NaN              NaN         b   Ciudad_B  Pais_Y
2       ID_003  150.0          7646.28         A   Ciudad_B     NaN
4       ID_005  150.0              NaN         a   ciudad_a  Pais_X
5       ID_006   -1.0         16558.77         B        NaN  Pais_Y
..         ...    ...              ...       ...        ...     ...
494     ID_495   -1.0              NaN       VIP        NaN     NaN
495     ID_496   -1.0              NaN         A   Ciudad_A     NaN
496     ID_497   -1.0              NaN         a  Ciudad123     NaN
497     ID_498    NaN              NaN         A   Ciudad-C  Pais_Y
498     ID_499  150.0         10781.73         a   Ciudad-C     NaN

[371 rows x 6 columns]


In [None]:
# 3. Identificr inconsistencias en los nombres de ciudades
#ver una lista unica de las ciudades ingresadas para detectar variaciones
ciudades_unicas =df['Ciudad'].dropna().unique() #dropna elimina datos faltantes
print("\n Ciudades únicas: ")
print(ciudades_unicas)


 Ciudades únicas: 
['Ciudad_B' 'Ciudad123' 'ciudad_a' 'Ciudad_A' 'Ciudad-C']


2. Selección de los datos

Objetivo: Elegir las variables y los registros más relevantes para el análisis. 

Acciones: Determinar que columna (atributos) y filas (registros) son útiles para el objetivo del análisis.

Eliminar variables redundantes, irrelevantes o registros que no aportan valor lo cual ayuda a mejorar la eficiencia del procesamiento.

Filtrado de filas(registros):Edades fuera del rango razonable (18 a 90), ingreson no númericos o valores negativos, categorias de clientes a "A", "B", "C" 
"A" Cliente de alto valor
"B" Cliente de valor medio
"C" Cliente de bajo valor

In [23]:
# Filtro de datos 
# 1. Seleccion de columnas útiles
# 2. Filtrado de registros con valores inconsistentes
# Filtrar edades en un rango de 18 a 90
df_filtrado=df[(df['Edad']>=18) & (df['Edad']<=90)]
df_filtrado

Unnamed: 0,ID_cliente,Edad,Ingreso_mensual,Categoría,Ciudad,País
3,ID_004,30.0,-500.0,VIP,Ciudad123,Pais_X
8,ID_009,48.0,-500.0,a,,Pais_Y
10,ID_011,33.0,,B,Ciudad_A,
12,ID_013,54.0,,,ciudad_a,
13,ID_014,81.0,,A,Ciudad_B,
...,...,...,...,...,...,...
480,ID_481,81.0,,B,Ciudad_B,
488,ID_489,66.0,,B,Ciudad123,Pais_Y
491,ID_492,62.0,,A,Ciudad_B,
492,ID_493,55.0,,,ciudad_a,Pais_Y


In [24]:
#Filtro ingresos válidos (quitar ingresos no numericos y valores negativos)
df_filtrado['Ingreso_mensual']=pd.to_numeric(df_filtrado['Ingreso_mensual'],errors='coerce') #convertir ingresos a numericos
df_filtrado=df_filtrado[df_filtrado['Ingreso_mensual']>0] #Mantener solo ingresos positivos
df_filtrado

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado['Ingreso_mensual']=pd.to_numeric(df_filtrado['Ingreso_mensual'],errors='coerce') #convertir ingresos a numericos


Unnamed: 0,ID_cliente,Edad,Ingreso_mensual,Categoría,Ciudad,País
18,ID_019,22.0,12422.06,VIP,Ciudad_B,
20,ID_021,29.0,3584.98,C,Ciudad_A,
25,ID_026,29.0,11771.21,,Ciudad_B,Pais_Y
42,ID_043,89.0,16732.84,b,Ciudad123,
51,ID_052,54.0,13878.16,B,Ciudad_A,
57,ID_116,78.0,5799.32,A,Ciudad123,
76,ID_077,26.0,6953.78,B,Ciudad123,
93,ID_094,72.0,14026.67,VIP,,Pais_X
106,ID_107,24.0,3797.23,C,Ciudad_B,Pais_X
125,ID_126,56.0,5685.07,b,Ciudad123,


In [25]:
# Cambiar en Categoria c por C
# Reemplazar en categoria a, b, c por A, B, C

df_filtrado['Categoría'] = df_filtrado['Categoría'].str.upper()

#Filtrar categorías válidas 
categorias_validas=['A','B','C','a','b']
df_filtrado=df_filtrado[df_filtrado['Categoría'].isin(categorias_validas)]
df_filtrado

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado['Categoría'] = df_filtrado['Categoría'].str.upper()


Unnamed: 0,ID_cliente,Edad,Ingreso_mensual,Categoría,Ciudad,País
20,ID_021,29.0,3584.98,C,Ciudad_A,
42,ID_043,89.0,16732.84,B,Ciudad123,
51,ID_052,54.0,13878.16,B,Ciudad_A,
57,ID_116,78.0,5799.32,A,Ciudad123,
76,ID_077,26.0,6953.78,B,Ciudad123,
106,ID_107,24.0,3797.23,C,Ciudad_B,Pais_X
125,ID_126,56.0,5685.07,B,Ciudad123,
138,ID_139,57.0,1861.35,A,,Pais_X
153,ID_154,31.0,14234.22,B,Ciudad123,Pais_X
154,ID_155,51.0,1749.9,C,,


In [None]:
# 3 Eliminar duplicados 
#Basado en el id del cliente o en todas las columnas importantes (excluyendo posibles nulos)
df_filtrado = df_filtrado.drop_duplicates(subset=['ID_cliente'])
df_filtrado

Unnamed: 0,ID_cliente,Edad,Ingreso_mensual,Categoría,Ciudad,País
20,ID_021,29.0,3584.98,C,Ciudad_A,
42,ID_043,89.0,16732.84,B,Ciudad123,
51,ID_052,54.0,13878.16,B,Ciudad_A,
57,ID_116,78.0,5799.32,A,Ciudad123,
76,ID_077,26.0,6953.78,B,Ciudad123,
106,ID_107,24.0,3797.23,C,Ciudad_B,Pais_X
125,ID_126,56.0,5685.07,B,Ciudad123,
138,ID_139,57.0,1861.35,A,,Pais_X
153,ID_154,31.0,14234.22,B,Ciudad123,Pais_X
154,ID_155,51.0,1749.9,C,,


In [None]:
# Contar los valores duplicados en la columna 'ID_cliente'

duplicated_counts = df['ID_cliente'].value_counts()

 

# Mostrar solo los que tienen más de una aparición

duplicated_counts = duplicated_counts[duplicated_counts > 1]

 

print(duplicated_counts)

ID_cliente
ID_045    4
ID_120    3
ID_184    3
ID_129    3
ID_116    3
ID_203    2
ID_105    2
ID_285    2
ID_497    2
ID_145    2
ID_362    2
ID_143    2
ID_155    2
ID_042    2
ID_107    2
ID_453    2
ID_310    2
ID_289    2
ID_212    2
ID_401    2
ID_437    2
ID_094    2
ID_206    2
ID_332    2
ID_185    2
ID_269    2
ID_188    2
ID_246    2
ID_190    2
ID_324    2
ID_281    2
ID_085    2
ID_421    2
ID_152    2
ID_015    2
ID_425    2
ID_470    2
ID_136    2
ID_133    2
ID_268    2
ID_439    2
Name: count, dtype: int64


In [28]:
#Cantidad de resgistros y columnas tras la limpieza
print("Cantidad de registros y columnas tras la limpieza:")
print(df_filtrado.shape)

Cantidad de registros y columnas tras la limpieza:
(25, 6)


3. Unificacion y normalizacion de valores (U)

Estandarizar los nombres de ciudades para tener consistencia en los datos y facilitar el análisis posterior.
pasos:
Normalización de los nombres de ciudades:Convertir todos los nombres a un formato consistente, eliminar errores tipográficos y variaciones en mayúsculas/minúsculas. También corregiremos cualquier variación que deba agruparse 
Ejemplos:
"Ciudad_a" y "ciudad_a" deben se iguales


In [29]:
# Normalización de los nombres de ciudades 
# convertir todas las ciudades en minúsculas y eliminar espacios extra
df_filtrado['Ciudad']=df_filtrado['Ciudad'].str.lower().str.strip()
df_filtrado

Unnamed: 0,ID_cliente,Edad,Ingreso_mensual,Categoría,Ciudad,País
20,ID_021,29.0,3584.98,C,ciudad_a,
42,ID_043,89.0,16732.84,B,ciudad123,
51,ID_052,54.0,13878.16,B,ciudad_a,
57,ID_116,78.0,5799.32,A,ciudad123,
76,ID_077,26.0,6953.78,B,ciudad123,
106,ID_107,24.0,3797.23,C,ciudad_b,Pais_X
125,ID_126,56.0,5685.07,B,ciudad123,
138,ID_139,57.0,1861.35,A,,Pais_X
153,ID_154,31.0,14234.22,B,ciudad123,Pais_X
154,ID_155,51.0,1749.9,C,,


In [30]:
# corregir variaciones comunes en los nombres de ciudades
# por ejemplo, si "ciudad_a" y "ciudad-a" se refieren a la misma, estandarizamos a "ciudad_a"
df_filtrado['Ciudad']=df_filtrado['Ciudad'].replace({
    'ciudad-a':'ciudad_a', 'ciudad123': 'ciudad_a',
    'ciudad-b':'ciudad_b', 'ciudad-c':'ciudad_c'
})
df_filtrado

Unnamed: 0,ID_cliente,Edad,Ingreso_mensual,Categoría,Ciudad,País
20,ID_021,29.0,3584.98,C,ciudad_a,
42,ID_043,89.0,16732.84,B,ciudad_a,
51,ID_052,54.0,13878.16,B,ciudad_a,
57,ID_116,78.0,5799.32,A,ciudad_a,
76,ID_077,26.0,6953.78,B,ciudad_a,
106,ID_107,24.0,3797.23,C,ciudad_b,Pais_X
125,ID_126,56.0,5685.07,B,ciudad_a,
138,ID_139,57.0,1861.35,A,,Pais_X
153,ID_154,31.0,14234.22,B,ciudad_a,Pais_X
154,ID_155,51.0,1749.9,C,,


In [31]:
#verificar la lista de ciudades únicas después de la normalización
ciudades_unicas=df_filtrado['Ciudad'].dropna().unique()
print("\n Ciudades únicas:")
print(ciudades_unicas)


 Ciudades únicas:
['ciudad_a' 'ciudad_b' 'ciudad_c']


4. Muestreo Representativo (M):

Si es necesario, crear un subconjunto de datos representativos para pruebas iniciales de segmntación.
Pasos:

Definir el tamaño de la muestra:

Asegurar representatividad en categorias clave:

Revisar y validar la muestra:   

In [32]:
#Definir el tamaño de la muestra
# 10% de los datos
#muestra_size=int(0.1*len(df_filtrado))
muestra_size=int(1*len(df_filtrado)) # 100% por ser un set de datos pequeño
# 2. Realizar el muestreo estratificado
# utilizaremos las columnas Categoría y Ciudad como estratos para asegurar representatividad
muestra=df_filtrado.groupby(['Categoría','Ciudad'], group_keys=False
                              ).apply(lambda x: x.sample(min(len(x),muestra_size // 
                                                             len(df_filtrado['Categoría'].unique()))))


In [34]:
# Revisar la distribución de la muestra
print("\n Distribución de la muestra por categoría:")
print(muestra['Categoría'].value_counts()) # El método devuelve el conteo absoluto de cada valor único en la columna
print("\n Distribución de la muestra por Ciudad:")
print(muestra['Ciudad'].value_counts(normalize=True)) # Devuelve proporciones (valores entre 0 y 1) que representa el %


 Distribución de la muestra por categoría:
Categoría
B    12
A     5
C     2
Name: count, dtype: int64

 Distribución de la muestra por Ciudad:
Ciudad
ciudad_a    0.736842
ciudad_b    0.210526
ciudad_c    0.052632
Name: proportion, dtype: float64


In [35]:
print("Distribución de la muestra por rangos de edad: ")
print(pd.cut(muestra['Edad'], bins=[18,30,40,50,60,90]).value_counts(normalize=True))


Distribución de la muestra por rangos de edad: 
Edad
(18, 30]    0.333333
(60, 90]    0.277778
(30, 40]    0.166667
(50, 60]    0.166667
(40, 50]    0.055556
Name: proportion, dtype: float64


5. Depuración final (D):


In [38]:
import numpy as np
# 1 Detección y tratamientos de valores atipicos en ingresos
# Calcular el rango intercuartílico (IQR) para la detección de valores atipicos
Q1=muestra['Ingreso_mensual'].quantile(0.25)
Q3=muestra['Ingreso_mensual'].quantile(0.75)
IQR=Q3-Q1
#Definir los límites para  los valores atipicos (usalmente 1.5*IQR fuera del rango [Q1,Q3])
limite_inferior=Q1-1.5*IQR
limite_superior=Q3+1.5*IQR
#Filtrar valores atipicos fuera de los límites y remplazarlos con NaN para manejarlos posteriormente
muestra['Ingreso_mensual']=muestra['Ingreso_mensual'].apply(lambda x: x if 
                             limite_inferior<=x<=limite_superior else np.nan)
muestra

Unnamed: 0,ID_cliente,Edad,Ingreso_mensual,Categoría,Ciudad,País
249,ID_250,45.0,12777.62,A,ciudad_a,
272,ID_273,36.0,5662.07,A,ciudad_a,
57,ID_116,78.0,5799.32,A,ciudad_a,
230,ID_246,70.0,11927.53,A,ciudad_a,
393,ID_394,58.0,7439.77,A,ciudad_a,
125,ID_126,56.0,5685.07,B,ciudad_a,
316,ID_317,27.0,17858.67,B,ciudad_a,Pais_X
42,ID_043,89.0,16732.84,B,ciudad_a,
51,ID_052,54.0,13878.16,B,ciudad_a,
314,ID_315,27.0,3884.64,B,ciudad_a,Pais_X
