# Data Cleaning & Structuring of User Profiles #


**Proyecto:** Limpieza y Estructuración de Perfiles de Usuario

**Autor**: Carlos Smith

**Fecha**: Junio 2025

Descripción del Proyecto:
-----------------------
Este proyecto se centra en la **limpieza, transformación y estructuración de perfiles de usuario**, abordando un desafío común en el análisis de datos: trabajar con **fuentes de datos crudas e inconsistentes**. Los datos originales presentan problemas típicos como formatos irregulares en nombres, tipos de datos incorrectos y variaciones en listas de preferencias.

🎯 Objetivos Clave:
* **Garantizar la Calidad de Datos:** Limpiar y transformar datos inconsistentes para asegurar su fiabilidad y precisión.
* **Preparación para el Análisis:** Estructurar los datos de manera que faciliten análisis posteriores y la toma de decisiones informada.
* **Comunicación Efectiva:** Generar resúmenes claros y legibles para stakeholders no técnicos, traduciendo datos complejos en insights accionables.

🛠️ Habilidades Demostradas:
* **Python:** Dominio en manipulación de cadenas y listas, así como en el manejo robusto de errores (excepciones).
* **Data Wrangling:** Experiencia en corrección de tipos de datos, formateo y ordenamiento eficiente de la información.
* **Pensamiento Crítico:** Capacidad para identificar y resolver inconsistencias, demostrando una sólida atención al detalle en la validación de datos.
* **Comunicación de Datos:** Habilidad para presentar hallazgos de manera concisa y comprensible para diversas audiencias.

Este proyecto destaca la **habilidad fundamental para limpieza y preprocesamiento de datos**, un pilar esencial en cualquier pipeline de análisis o ciencia de datos.

---

### **Contexto del Análisis:**
Como parte de las responsabilidades del equipo de análisis, la fase inicial de este proyecto implica evaluar la calidad de una muestra de datos de usuario y prepararlos meticulosamente. Una vez completada esta etapa de preprocesamiento, se procederá con un análisis exhaustivo para responder a las necesidades específicas del cliente.
"""

Estos son los datos que el cliente nos proporcionó. Tienen el formato de una lista de Python, con las siguientes columnas de datos:

- **user_id:** Identificador único para cada usuario.
- **user_name:** El nombre del usuario.
- **user_age:** La edad del usuario.
- **fav_categories:** Categorías favoritas de los artículos que compró el usuario, como 'ELECTRONICS', 'SPORT' y 'BOOKS' (ELECTRÓNICOS, DEPORTES y LIBROS), etc.
- **total_spendings:** Una lista de números enteros que indican la cantidad total gastada en cada una de las categorías favoritas.


In [1]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]


### **Paso 1: Evaluación Inicial de la Calidad de Datos**

**Contexto:**
Como parte de nuestra iniciativa para garantizar la coherencia en la recopilación de datos, realizamos una evaluación exhaustiva de la calidad de los datos de usuario. Se nos solicitó revisar una muestra de datos y proponer ajustes necesarios para su optimización.

Los datos proporcionados inicialmente tienen el siguiente formato y columnas:
- **user_id:** Identificador único para cada usuario.
- **user_name:** El nombre del usuario.
- **user_age:** La edad del usuario.
- **fav_categories:** Categorías favoritas de artículos (ej., 'ELECTRONICS', 'SPORT', 'BOOKS').
- **total_spendings:** Lista de números enteros que indican el gasto total en cada categoría favorita.


In [None]:
user_id = '32415'
user_name = ' mike_reed '
user_age = 32.0
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']

A continuación, se detalla el análisis de los problemas identificados en los datos y la justificación para las transformaciones propuestas:
"""

 *Análisis de Problemas de Datos y Justificaciones*

#### 1. **user_id:** Cambio de tipo de dato de cadena a entero.

   **Problema Identificado:** user_id puede aparecer como cadena (string).

   **Justificación para el Cambio:** Convertir `user_id` a tipo entero (`int`) es fundamental para asegurar su **consistencia** como identificador numérico único. Esto no solo optimiza las operaciones de indexación y búsqueda, sino que también facilita validaciones numéricas y previene inconsistencias que surgirían si se manejaran como cadenas alfanuméricas. Es una práctica recomendada para IDs que deben ser exclusivamente numéricos.

#### 2. **user_name:** Contiene espacios innecesarios y un guion bajo.

   **Problema Identificado:** La variable `user_name` presenta espacios iniciales/finales y un guion bajo (`_`) entre el nombre y el apellido.
   
   **Justificación para el Cambio:** Estas inconsistencias afectan la **estandarización y legibilidad** del nombre. Eliminar espacios innecesarios y reemplazar el guion bajo por un espacio regular es crucial. Esta normalización mejora la calidad de los datos, facilita la búsqueda, el ordenamiento lexicográfico, y prepara el campo para una potencial división en nombre y apellido de forma precisa.


#### 3. **user_age:** Tipo de dato incorrecto (decimal en lugar de entero).

   **Problema Identificado:** `user_age` puede estar representado como un número decimal.

   **Justificación para el Cambio:** Aunque la diferencia parezca mínima, transformar `user_age` a un **número entero** es óptimo. Para una variable como la edad, los decimales son innecesarios y su presencia podría impactar la eficiencia del almacenamiento en grandes volúmenes de datos. Asegurar que sea un entero garantiza la **precisión** y uniformidad esperada para esta variable.

#### 4. **fav_categories**: Cadenas en mayúsculas.

   **Problema Identificado:** La lista `fav_categories` contiene cadenas en mayúsculas (ej. 'ELECTRONICS').

   **Justificación para el Cambio:** Estandarizar todas las categorías a **minúsculas** es una práctica clave de limpieza de datos para evitar inconsistencias. Por ejemplo, "Electronics" y "electronics" serían tratados como entidades distintas sin esta uniformización. Convertir a minúsculas simplifica la agrupación, el conteo y la búsqueda de categorías, mejorando significativamente la **coherencia y la facilidad de análisis**.


### **Paso 2 Optimización y Normalización de la Variable user_name**

Para continuar con la mejora de la calidad de nuestros datos, nos enfocaremos en la variable user_name. Hemos identificado que esta variable contiene inconsistencias, específicamente espacios innecesarios y un guion bajo (_) como separador entre el nombre y el apellido.

**Objetivo**
- El objetivo principal en este paso es estandarizar el formato de user_name, lo que facilitará su uso y análisis posterior.

**Acciones Clave**

Para lograr la estandarización, realizaremos dos acciones clave:

- Eliminar los espacios superfluos: Aseguraremos que no haya espacios adicionales al inicio o al final del valor, ni múltiples espacios entre palabras. Esto garantiza una representación limpia y consistente.

- Reemplazar el guion bajo por un espacio: Convertiremos el guion bajo que actualmente separa el nombre del apellido en un espacio. Esto creará un formato de nombre completo más legible y convencional.

- Al implementar estos cambios, garantizaremos la consistencia y la facilidad de uso de la variable user_name en futuras operaciones, lo que es fundamental para la integridad de nuestro conjunto de datos.


In [3]:
user_name = ' mike_reed '
user_name = user_name.strip()# escribe tu código aquí
user_name = user_name.replace('_', ' ')# escribe tu código aquí

print(user_name)

mike reed


### **Paso 3: División de user_name en Nombre y Apellido**
Ahora que hemos optimizado y normalizado la variable user_name, el siguiente paso es dividir esta cadena en sus componentes individuales: el nombre y el apellido.

**Objetivo**

Transformar la cadena user_name en una lista que contenga dos elementos distintos:
- La cadena correspondiente al nombre.
- La cadena correspondiente al apellido.

**Acción Clave**

Utilizaremos una operación de división para separar user_name donde se encuentre el espacio que ahora actúa como delimitador entre el nombre y el apellido. Esto nos permitirá obtener fácilmente una lista con los dos valores que necesitamos.

Al realizar esta división, preparamos los datos para un análisis más granular y facilitamos la manipulación de los componentes del nombre de usuario de forma individual.

In [4]:
user_name = 'mike reed'
name_split = user_name.split(' ') # escribe tu código aquí

print(name_split)

['mike', 'reed']


### **Paso 4: Corrección del Tipo de Datos de user_age**
Ahora, es momento de abordar la variable user_age.

**Objetivo**

Como identificamos previamente, la variable user_age no tiene el tipo de datos correcto para su manipulación numérica. Nuestro objetivo en este paso es transformar el tipo de datos de user_age para asegurar que sea numérico, permitiendo operaciones matemáticas y análisis adecuados. Una vez hecha la transformación, mostraremos el resultado final para confirmar la corrección.

**Acción Clave**

Convertiremos el tipo de datos actual de user_age (probablemente una cadena de texto) a un formato numérico, como un entero (int) o un flotante (float), según la naturaleza de la edad. Esto es fundamental para cualquier cálculo o comparación futura que involucre la edad del usuario.

Al corregir el tipo de datos de user_age, garantizamos la integridad de nuestros datos y habilitamos su uso efectivo en cualquier análisis cuantitativo.


In [5]:
user_age = 32.0
user_age = int(user_age) # escribe tu código aquí

print(user_age)

32


### **Paso 5: Manejo de Errores en la Conversión de user_age**
Hemos aprendido que los datos rara vez son perfectos, y es crucial anticipar posibles problemas para asegurar la robustez de nuestro sistema. En este paso, abordaremos el escenario en el que el valor de user_age no pueda ser convertido a un número entero.

**Objetivo**

Nuestro objetivo es implementar un mecanismo de manejo de errores para la conversión de user_age. Intentaremos convertir user_age a un tipo de dato entero (int). Si esta conversión falla (por ejemplo, si user_age contiene texto), nuestro sistema no debe bloquearse. En su lugar, debe informar al usuario sobre el error y solicitar un valor numérico.

**Acción Clave**

Utilizaremos un bloque try-except para intentar la conversión. Si la conversión es exitosa, el valor entero se asignará a una nueva variable, user_age_int. Si ocurre un error durante la conversión (un ValueError), imprimiremos un mensaje amigable solicitando al usuario que proporcione su edad como un valor numérico.

In [6]:
user_age = 'treinta y dos'
try:
    user_age_int=int(user_age)
except:
    print("Please provide your age as a numerical value") # escribe tu código aquí

Please provide your age as a numerical value


Al implementar este manejo de errores, hacemos nuestro código más resistente y amigable para el usuario, ya que proporciona retroalimentación clara en caso de datos inválidos en la variable user_age.

### **Paso 6: Ordenamiento de Datos por ID de Usuario**
El equipo de dirección de la Tienda 1 nos ha solicitado ayuda para organizar los datos de sus clientes. Un mejor ordenamiento facilitará el análisis y la gestión de la información.

**Objetivo**

Nuestra tarea en este paso es ordenar la lista de clientes por su ID de usuario de forma ascendente. Este tipo de ordenamiento es fundamental para acceder y analizar los datos de manera más eficiente.

**Acción Clave**

Implementaremos una función de ordenamiento que tome como criterio el ID de usuario. Al ordenar los datos de forma ascendente, los registros de clientes estarán secuenciados desde el ID más bajo hasta el más alto, lo que es una práctica común para la organización de bases de datos y facilita búsquedas y referencias.

Este paso de organización es crucial para mejorar la usabilidad y el rendimiento al trabajar con los datos de los clientes de la Tienda 1.


In [7]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

users.sort()# escribe tu código aquí

print(users)

[['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]], ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]], ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]], ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]], ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]], ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]], ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]], ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]]]


### **Paso 7: Cálculo del Gasto Total por Usuario**
Con los datos de hábitos de consumo de nuestros usuarios, que incluyen la cantidad gastada en cada una de sus categorías favoritas, la dirección de la Tienda 1 está muy interesada en obtener un resumen clave: la cantidad total gastada por cada usuario.

**Objetivo**

Nuestro objetivo es calcular la suma total del dinero gastado por cada usuario en todas sus categorías de consumo. Este valor consolidado nos dará una visión clara del valor individual de cada cliente.

**Acción Clave**

Para lograr esto, iteraremos a través de los datos de consumo de cada usuario y sumaremos las cantidades gastadas en cada una de sus categorías favoritas. Una vez que tengamos este total, lo desplegaremos para su revisión.

Este cálculo es fundamental para entender el comportamiento de gasto de nuestros usuarios y será una métrica crucial para futuras estrategias de marketing y gestión de clientes.


In [1]:
fav_categories_low = ['electronics', 'sport', 'books']
spendings_per_category = [894, 213, 173]

total_amount = sum(spendings_per_category) # escribe tu código aquí

print(total_amount)


1280


### **Paso 8: Resumen de Información del Usuario**

La dirección de la empresa nos ha solicitado una manera concisa de resumir la información clave de cada usuario. Esto facilitará una visión rápida y efectiva de los perfiles de nuestros clientes.

**Objetivo**

Nuestro objetivo es crear una cadena de texto formateada que combine datos esenciales de las variables user_id, user_name, y user_age. El formato final deseado para esta cadena es: User [user_id] is [user_name] who is [user_age] years old.

**Acción Clave**

Vamos a utilizar las variables mencionadas para construir esta cadena. 


In [9]:
user_id = '32415'
user_name = ['mike', 'reed']
user_age = 32

user_info = "User {} is {} who is {} years old".format(user_id, user_name[0], user_age)# escribe tu código aquí
print(user_info)

User 32415 is mike who is 32 years old


Al crear este resumen formateado, proporcionamos una herramienta valiosa para la visualización rápida de los datos de cada usuario, mejorando la gestión y el análisis de la información de nuestros clientes.

### **Paso 9: Conteo de Clientes Registrados**

La dirección de la empresa busca una manera sencilla y rápida de conocer el volumen total de datos de clientes que hemos registrado.

**Objetivo**

Nuestro objetivo es generar una cadena formateada que indique claramente la cantidad de clientes de los que disponemos información. La cadena final deseada es: Hemos registrado datos de X clientes.

**Acción Clave**

Necesitamos contar el número total de registros de clientes disponibles en nuestros datos. Una vez obtenido este conteo, lo insertaremos en la cadena predefinida.


In [2]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]


user_info = len(users)# escribe tu código aquí
print(f'Hemos registrado datos de ', user_info, ' clientes')

Hemos registrado datos de  10  clientes


Este paso nos permite ofrecer una visión ejecutiva inmediata sobre la escala de nuestra base de datos de clientes, lo cual es fundamental para la toma de decisiones a nivel de dirección.

### **Paso 10:  Aplicación Global de Transformaciones de Datos**

Hemos definido los pasos de limpieza y normalización individualmente. Ahora, es momento de aplicar todas esas transformaciones a un conjunto de datos de clientes para ver el resultado de forma integral. Para simplificar, trabajaremos con una lista de clientes más corta.

**Objetivo**

Nuestro objetivo es procesar la lista de clientes proporcionada, aplicando las siguientes transformaciones a cada registro:

Limpiar user_name: Eliminar espacios iniciales y finales, y reemplazar los guiones bajos por espacios.
Convertir user_age: Transformar la edad del usuario a un número entero.
Dividir user_name: Separar el nombre completo en una sublista que contenga el nombre y el apellido.
Guardaremos el resultado de estas transformaciones en una nueva lista llamada users_clean y la mostraremos.

**Acciones Clave**

Vamos a iterar sobre cada cliente en la lista original y aplicaremos secuencialmente las operaciones de limpieza y transformación que hemos definido en los pasos anteriores.


In [11]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
]

users_clean = []


# Procesa al primer usuario
user_name_1 = users[0][1].strip().replace('_', ' ')# escribe tu código aquí
user_age_1 = int(users[0][2]) # escribe tu código aquí
user_name_1 = user_name_1.split() # escribe tu código aquí
users_clean.append([users[0][0], user_name_1, user_age_1, users[0][3], users[0][4]]) # escribe tu código aquí

# Procesa al segundo usuario
user_name_2 = users[1][1].strip() # escribe tu código aquí
user_age_2 = int(users[1][2]) # escribe tu código aquí
user_name_2 = user_name_2.split() # escribe tu código aquí
users_clean.append([users[1][0],user_name_2, user_age_2, users[1][3],users[1][4]]) # escribe tu código aquí

# Procesa al tercer usuario
user_name_3 = users[2][1].strip() # escribe tu código aquí
user_age_3 = int(users[2][2]) # escribe tu código aquí
user_name_3 = user_name_3.split() # escribe tu código aquí
users_clean.append([users[2][0],user_name_3, user_age_3, users[2][3],users[2][4]]) # escribe tu código aquí



print(users_clean)


[['32415', ['mike', 'reed'], 32, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['31980', ['kate', 'morgan'], 24, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ['john', 'doe'], 37, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]]]


----------
