#ASUM-DM

 Es un enfoque para la preparación y organización de datos que se enfoca en 5 etapas fundamentales:

Análisis, selección, unificación, muestreo y depuración.

Este proceso es útil para mejorar la calidad de los datos antes de usarlos en modelos de análisis y aprendizaje automático



Contesto el problema:
análisis de clientes para estrategias de marketing personalizada una empresa de servicios financieros quiere lanzar una campaña de marketing personalizada para sus clientes de varias ciudades.
 La idea es identificar perfiles de clientes en función de características como edad, ingresos y categoría de cliente para definir estrategias.

El equipo de marketing ha solicitado los analistas de datos e identificar:


segmentos de clientes:
agrupar a los clientes en función de su categoría, ingresos, edad y ciudad.

Tendencias de ingresos:
 analizar la distribución de los ingresos mensuales y detectar patrones en diferentes ciudades y edades.

Clientes potenciales:
identificar clientes con altos ingresos y en categoría de alto valor(“A”) para campañas específicas.

Sin embargo, el conjunto de datos tiene varios problemas qué dificultan el análisis directo, cómo duplicados, valores atípicos y errores tipográficos.

Antes de aplicar modelos de segmentación y análisis de tendencias, es necesario limpiar y organizar la información


# 1 Análisis de los datos (A):

Objetivo:

 examinar la calidad y característica de los datos.

 Acciones:
  revisar el conjunto de datos para identificar valores faltantes,  datos inconsistentes, duplicados, errores tipográficos y valores atípicos.

Este paso permite entender el tipo de problema que podrían afectar el análisis y decidir cómo resolverlos.


In [1]:
#importar librerias necesarias
import pandas as pd

In [None]:
#leer el archivo csv en un DataFrame
df = pd.read_csv("clientes_con_errores.csv")
#contar cantidad de registros
df.count()

In [None]:
#mostrar primeras filas del dataframe
print("======================Vista inicial del DataFrame===========================")
display(df.head()) #es como un print pero exclusivo para estos tipos de libros


In [None]:
# 1. verificar valores nulos
print("\n Valores nulos por columnas:")
df.isnull().sum()

In [None]:
# Identificar edades inconsistentes 
# consideremos que las edades válidas estan entre 18 y 90
edades_inconsistentes = df[(df["Edad"]<18)|(df['Edad']>90)|(df['Edad'].isnull())]
print(edades_inconsistentes)

In [None]:
# 3 identificar inconsistencias en los nombres de ciudad
# ver una lista única de las ciudades ingresadas para detectar variaciones 
ciudade_unicas= df['Ciudad'].dropna().unique() #.unique identifica los nombres unicos y drop borra las repetidas
print("Ciudades unicas")
print(ciudade_unicas)

Ciudades unicas
['Ciudad_B' 'Ciudad123' 'ciudad_a' 'Ciudad_A' 'Ciudad-C']


# 2 Selección  de los datos (S):

Objetivo: Elegir las variables y los registros más relevantes para el análisis.


Acciones: Determinar qué columna (atributos) y filas (registros) son útiles para el objetivo del análisis.

Eliminar variables redundantes, irrelevantes o registros que no aportan valor lo cual ayuda a mejorar la eficiencia del procesamiento.

Filtrado de flilas(registros):
Eliminar registros que tengan:
Edades fuera del rango razonable (18 a 90).
ingresos no númericos o valores negativos.
categorías de clientes a "A", "B", "C"

"A" cliente de alto valor

"B" cliente de valor medio

"C" cliente de bajo valor

In [None]:
#Filtro de los datos
# 1 seleccion de columnas utiles
# 2 filtrado de valores inconsistentes
# 3 filtrar edades en eun rango de 18 a 90 años
df_filtrado = df[(df['Edad']>= 18) & (df['Edad']<=90)]
df_filtrado

In [13]:
#Filtro de ingresos validos (quitar ingresos no numericos y valores negativos)
df_filtrado['Ingreso_mensual'] = pd.to_numeric(df_filtrado["Ingreso_mensual"], 
errors="coerce")
df_filtrado = df_filtrado[df_filtrado['Ingreso_mensual']>0]
df_filtrado

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado['Ingreso_mensual'] = pd.to_numeric(df_filtrado["Ingreso_mensual"],


Unnamed: 0,ID_cliente,Edad,Ingreso_mensual,Categoría,Ciudad,País
18,ID_019,22.0,12422.06,VIP,Ciudad_B,
20,ID_021,29.0,3584.98,C,Ciudad_A,
25,ID_026,29.0,11771.21,,Ciudad_B,Pais_Y
42,ID_043,89.0,16732.84,b,Ciudad123,
51,ID_052,54.0,13878.16,B,Ciudad_A,
57,ID_116,78.0,5799.32,A,Ciudad123,
76,ID_077,26.0,6953.78,B,Ciudad123,
93,ID_094,72.0,14026.67,VIP,,Pais_X
106,ID_107,24.0,3797.23,C,Ciudad_B,Pais_X
125,ID_126,56.0,5685.07,b,Ciudad123,


# 3 Unificación y normalización de valores(U)

Estandarizar los nombre de ciudades para tener consistencia en los datos y facilitar el análisis posterir.
pasos:
Normalización de los nombres de ciudades: Convertir todos los nombres a un formato consistente ,eliminar errores tipográficos y variaciones en mayúsculas/minúsculas también corregiremos cualquier variación que deba agruparse
Ejemplos:
"Ciudad_A" y "ciudad_a deben ser iguales


# 4 Muestreo representativo(M):


Si es necesario, crear un subconjunto de dotos representativos para pruebas iniciales de segmentación
pasos:

Definir el tamaño de la Muestra:

Asegurar representatividad en categorías clave:

Revisar y validar la muestra:


# 5 Depuración final (D):


# 6 con los datos organizados y depurados:

Aplicar técnicas de segmentación de clientes para identificar distintos perfiles dentro del conjunto de datos.
