# Data Cleaning & Structuring of User Profiles #


**Proyecto:** Limpieza y Estructuraci√≥n de Perfiles de Usuario

**Autor**: Carlos Smith

**Fecha**: Junio 2025

Descripci√≥n del Proyecto:
-----------------------
Este proyecto se centra en la **limpieza, transformaci√≥n y estructuraci√≥n de perfiles de usuario**, abordando un desaf√≠o com√∫n en el an√°lisis de datos: trabajar con **fuentes de datos crudas e inconsistentes**. Los datos originales presentan problemas t√≠picos como formatos irregulares en nombres, tipos de datos incorrectos y variaciones en listas de preferencias.

üéØ Objetivos Clave:
* **Garantizar la Calidad de Datos:** Limpiar y transformar datos inconsistentes para asegurar su fiabilidad y precisi√≥n.
* **Preparaci√≥n para el An√°lisis:** Estructurar los datos de manera que faciliten an√°lisis posteriores y la toma de decisiones informada.
* **Comunicaci√≥n Efectiva:** Generar res√∫menes claros y legibles para stakeholders no t√©cnicos, traduciendo datos complejos en insights accionables.

üõ†Ô∏è Habilidades Demostradas:
* **Python:** Dominio en manipulaci√≥n de cadenas y listas, as√≠ como en el manejo robusto de errores (excepciones).
* **Data Wrangling:** Experiencia en correcci√≥n de tipos de datos, formateo y ordenamiento eficiente de la informaci√≥n.
* **Pensamiento Cr√≠tico:** Capacidad para identificar y resolver inconsistencias, demostrando una s√≥lida atenci√≥n al detalle en la validaci√≥n de datos.
* **Comunicaci√≥n de Datos:** Habilidad para presentar hallazgos de manera concisa y comprensible para diversas audiencias.

Este proyecto destaca la **habilidad fundamental para limpieza y preprocesamiento de datos**, un pilar esencial en cualquier pipeline de an√°lisis o ciencia de datos.

---

### **Contexto del An√°lisis:**
Como parte de las responsabilidades del equipo de an√°lisis, la fase inicial de este proyecto implica evaluar la calidad de una muestra de datos de usuario y prepararlos meticulosamente. Una vez completada esta etapa de preprocesamiento, se proceder√° con un an√°lisis exhaustivo para responder a las necesidades espec√≠ficas del cliente.
"""

Estos son los datos que el cliente nos proporcion√≥. Tienen el formato de una lista de Python, con las siguientes columnas de datos:

- **user_id:** Identificador √∫nico para cada usuario.
- **user_name:** El nombre del usuario.
- **user_age:** La edad del usuario.
- **fav_categories:** Categor√≠as favoritas de los art√≠culos que compr√≥ el usuario, como 'ELECTRONICS', 'SPORT' y 'BOOKS' (ELECTR√ìNICOS, DEPORTES y LIBROS), etc.
- **total_spendings:** Una lista de n√∫meros enteros que indican la cantidad total gastada en cada una de las categor√≠as favoritas.


In [1]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]


### **Paso 1: Evaluaci√≥n Inicial de la Calidad de Datos**

**Contexto:**
Como parte de nuestra iniciativa para garantizar la coherencia en la recopilaci√≥n de datos, realizamos una evaluaci√≥n exhaustiva de la calidad de los datos de usuario. Se nos solicit√≥ revisar una muestra de datos y proponer ajustes necesarios para su optimizaci√≥n.

Los datos proporcionados inicialmente tienen el siguiente formato y columnas:
- **user_id:** Identificador √∫nico para cada usuario.
- **user_name:** El nombre del usuario.
- **user_age:** La edad del usuario.
- **fav_categories:** Categor√≠as favoritas de art√≠culos (ej., 'ELECTRONICS', 'SPORT', 'BOOKS').
- **total_spendings:** Lista de n√∫meros enteros que indican el gasto total en cada categor√≠a favorita.


In [None]:
user_id = '32415'
user_name = ' mike_reed '
user_age = 32.0
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']

A continuaci√≥n, se detalla el an√°lisis de los problemas identificados en los datos y la justificaci√≥n para las transformaciones propuestas:
"""

 *An√°lisis de Problemas de Datos y Justificaciones*

#### 1. **user_id:** Cambio de tipo de dato de cadena a entero.

   **Problema Identificado:** user_id puede aparecer como cadena (string).

   **Justificaci√≥n para el Cambio:** Convertir `user_id` a tipo entero (`int`) es fundamental para asegurar su **consistencia** como identificador num√©rico √∫nico. Esto no solo optimiza las operaciones de indexaci√≥n y b√∫squeda, sino que tambi√©n facilita validaciones num√©ricas y previene inconsistencias que surgir√≠an si se manejaran como cadenas alfanum√©ricas. Es una pr√°ctica recomendada para IDs que deben ser exclusivamente num√©ricos.

#### 2. **user_name:** Contiene espacios innecesarios y un guion bajo.

   **Problema Identificado:** La variable `user_name` presenta espacios iniciales/finales y un guion bajo (`_`) entre el nombre y el apellido.
   
   **Justificaci√≥n para el Cambio:** Estas inconsistencias afectan la **estandarizaci√≥n y legibilidad** del nombre. Eliminar espacios innecesarios y reemplazar el guion bajo por un espacio regular es crucial. Esta normalizaci√≥n mejora la calidad de los datos, facilita la b√∫squeda, el ordenamiento lexicogr√°fico, y prepara el campo para una potencial divisi√≥n en nombre y apellido de forma precisa.


#### 3. **user_age:** Tipo de dato incorrecto (decimal en lugar de entero).

   **Problema Identificado:** `user_age` puede estar representado como un n√∫mero decimal.

   **Justificaci√≥n para el Cambio:** Aunque la diferencia parezca m√≠nima, transformar `user_age` a un **n√∫mero entero** es √≥ptimo. Para una variable como la edad, los decimales son innecesarios y su presencia podr√≠a impactar la eficiencia del almacenamiento en grandes vol√∫menes de datos. Asegurar que sea un entero garantiza la **precisi√≥n** y uniformidad esperada para esta variable.

#### 4. **fav_categories**: Cadenas en may√∫sculas.

   **Problema Identificado:** La lista `fav_categories` contiene cadenas en may√∫sculas (ej. 'ELECTRONICS').

   **Justificaci√≥n para el Cambio:** Estandarizar todas las categor√≠as a **min√∫sculas** es una pr√°ctica clave de limpieza de datos para evitar inconsistencias. Por ejemplo, "Electronics" y "electronics" ser√≠an tratados como entidades distintas sin esta uniformizaci√≥n. Convertir a min√∫sculas simplifica la agrupaci√≥n, el conteo y la b√∫squeda de categor√≠as, mejorando significativamente la **coherencia y la facilidad de an√°lisis**.


### **Paso 2 Optimizaci√≥n y Normalizaci√≥n de la Variable user_name**

Para continuar con la mejora de la calidad de nuestros datos, nos enfocaremos en la variable user_name. Hemos identificado que esta variable contiene inconsistencias, espec√≠ficamente espacios innecesarios y un guion bajo (_) como separador entre el nombre y el apellido.

**Objetivo**
- El objetivo principal en este paso es estandarizar el formato de user_name, lo que facilitar√° su uso y an√°lisis posterior.

**Acciones Clave**

Para lograr la estandarizaci√≥n, realizaremos dos acciones clave:

- Eliminar los espacios superfluos: Aseguraremos que no haya espacios adicionales al inicio o al final del valor, ni m√∫ltiples espacios entre palabras. Esto garantiza una representaci√≥n limpia y consistente.

- Reemplazar el guion bajo por un espacio: Convertiremos el guion bajo que actualmente separa el nombre del apellido en un espacio. Esto crear√° un formato de nombre completo m√°s legible y convencional.

- Al implementar estos cambios, garantizaremos la consistencia y la facilidad de uso de la variable user_name en futuras operaciones, lo que es fundamental para la integridad de nuestro conjunto de datos.


In [3]:
user_name = ' mike_reed '
user_name = user_name.strip()# escribe tu c√≥digo aqu√≠
user_name = user_name.replace('_', ' ')# escribe tu c√≥digo aqu√≠

print(user_name)

mike reed


### **Paso 3: Divisi√≥n de user_name en Nombre y Apellido**
Ahora que hemos optimizado y normalizado la variable user_name, el siguiente paso es dividir esta cadena en sus componentes individuales: el nombre y el apellido.

**Objetivo**

Transformar la cadena user_name en una lista que contenga dos elementos distintos:
- La cadena correspondiente al nombre.
- La cadena correspondiente al apellido.

**Acci√≥n Clave**

Utilizaremos una operaci√≥n de divisi√≥n para separar user_name donde se encuentre el espacio que ahora act√∫a como delimitador entre el nombre y el apellido. Esto nos permitir√° obtener f√°cilmente una lista con los dos valores que necesitamos.

Al realizar esta divisi√≥n, preparamos los datos para un an√°lisis m√°s granular y facilitamos la manipulaci√≥n de los componentes del nombre de usuario de forma individual.

In [4]:
user_name = 'mike reed'
name_split = user_name.split(' ') # escribe tu c√≥digo aqu√≠

print(name_split)

['mike', 'reed']


### **Paso 4: Correcci√≥n del Tipo de Datos de user_age**
Ahora, es momento de abordar la variable user_age.

**Objetivo**

Como identificamos previamente, la variable user_age no tiene el tipo de datos correcto para su manipulaci√≥n num√©rica. Nuestro objetivo en este paso es transformar el tipo de datos de user_age para asegurar que sea num√©rico, permitiendo operaciones matem√°ticas y an√°lisis adecuados. Una vez hecha la transformaci√≥n, mostraremos el resultado final para confirmar la correcci√≥n.

**Acci√≥n Clave**

Convertiremos el tipo de datos actual de user_age (probablemente una cadena de texto) a un formato num√©rico, como un entero (int) o un flotante (float), seg√∫n la naturaleza de la edad. Esto es fundamental para cualquier c√°lculo o comparaci√≥n futura que involucre la edad del usuario.

Al corregir el tipo de datos de user_age, garantizamos la integridad de nuestros datos y habilitamos su uso efectivo en cualquier an√°lisis cuantitativo.


In [5]:
user_age = 32.0
user_age = int(user_age) # escribe tu c√≥digo aqu√≠

print(user_age)

32


### **Paso 5: Manejo de Errores en la Conversi√≥n de user_age**
Hemos aprendido que los datos rara vez son perfectos, y es crucial anticipar posibles problemas para asegurar la robustez de nuestro sistema. En este paso, abordaremos el escenario en el que el valor de user_age no pueda ser convertido a un n√∫mero entero.

**Objetivo**

Nuestro objetivo es implementar un mecanismo de manejo de errores para la conversi√≥n de user_age. Intentaremos convertir user_age a un tipo de dato entero (int). Si esta conversi√≥n falla (por ejemplo, si user_age contiene texto), nuestro sistema no debe bloquearse. En su lugar, debe informar al usuario sobre el error y solicitar un valor num√©rico.

**Acci√≥n Clave**

Utilizaremos un bloque try-except para intentar la conversi√≥n. Si la conversi√≥n es exitosa, el valor entero se asignar√° a una nueva variable, user_age_int. Si ocurre un error durante la conversi√≥n (un ValueError), imprimiremos un mensaje amigable solicitando al usuario que proporcione su edad como un valor num√©rico.

In [6]:
user_age = 'treinta y dos'
try:
    user_age_int=int(user_age)
except:
    print("Please provide your age as a numerical value") # escribe tu c√≥digo aqu√≠

Please provide your age as a numerical value


Al implementar este manejo de errores, hacemos nuestro c√≥digo m√°s resistente y amigable para el usuario, ya que proporciona retroalimentaci√≥n clara en caso de datos inv√°lidos en la variable user_age.

### **Paso 6: Ordenamiento de Datos por ID de Usuario**
El equipo de direcci√≥n de la Tienda 1 nos ha solicitado ayuda para organizar los datos de sus clientes. Un mejor ordenamiento facilitar√° el an√°lisis y la gesti√≥n de la informaci√≥n.

**Objetivo**

Nuestra tarea en este paso es ordenar la lista de clientes por su ID de usuario de forma ascendente. Este tipo de ordenamiento es fundamental para acceder y analizar los datos de manera m√°s eficiente.

**Acci√≥n Clave**

Implementaremos una funci√≥n de ordenamiento que tome como criterio el ID de usuario. Al ordenar los datos de forma ascendente, los registros de clientes estar√°n secuenciados desde el ID m√°s bajo hasta el m√°s alto, lo que es una pr√°ctica com√∫n para la organizaci√≥n de bases de datos y facilita b√∫squedas y referencias.

Este paso de organizaci√≥n es crucial para mejorar la usabilidad y el rendimiento al trabajar con los datos de los clientes de la Tienda 1.


In [7]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

users.sort()# escribe tu c√≥digo aqu√≠

print(users)

[['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]], ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]], ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]], ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]], ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]], ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]], ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]], ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]]]


### **Paso 7: C√°lculo del Gasto Total por Usuario**
Con los datos de h√°bitos de consumo de nuestros usuarios, que incluyen la cantidad gastada en cada una de sus categor√≠as favoritas, la direcci√≥n de la Tienda 1 est√° muy interesada en obtener un resumen clave: la cantidad total gastada por cada usuario.

**Objetivo**

Nuestro objetivo es calcular la suma total del dinero gastado por cada usuario en todas sus categor√≠as de consumo. Este valor consolidado nos dar√° una visi√≥n clara del valor individual de cada cliente.

**Acci√≥n Clave**

Para lograr esto, iteraremos a trav√©s de los datos de consumo de cada usuario y sumaremos las cantidades gastadas en cada una de sus categor√≠as favoritas. Una vez que tengamos este total, lo desplegaremos para su revisi√≥n.

Este c√°lculo es fundamental para entender el comportamiento de gasto de nuestros usuarios y ser√° una m√©trica crucial para futuras estrategias de marketing y gesti√≥n de clientes.


In [1]:
fav_categories_low = ['electronics', 'sport', 'books']
spendings_per_category = [894, 213, 173]

total_amount = sum(spendings_per_category) # escribe tu c√≥digo aqu√≠

print(total_amount)


1280


### **Paso 8: Resumen de Informaci√≥n del Usuario**

La direcci√≥n de la empresa nos ha solicitado una manera concisa de resumir la informaci√≥n clave de cada usuario. Esto facilitar√° una visi√≥n r√°pida y efectiva de los perfiles de nuestros clientes.

**Objetivo**

Nuestro objetivo es crear una cadena de texto formateada que combine datos esenciales de las variables user_id, user_name, y user_age. El formato final deseado para esta cadena es: User [user_id] is [user_name] who is [user_age] years old.

**Acci√≥n Clave**

Vamos a utilizar las variables mencionadas para construir esta cadena. 


In [9]:
user_id = '32415'
user_name = ['mike', 'reed']
user_age = 32

user_info = "User {} is {} who is {} years old".format(user_id, user_name[0], user_age)# escribe tu c√≥digo aqu√≠
print(user_info)

User 32415 is mike who is 32 years old


Al crear este resumen formateado, proporcionamos una herramienta valiosa para la visualizaci√≥n r√°pida de los datos de cada usuario, mejorando la gesti√≥n y el an√°lisis de la informaci√≥n de nuestros clientes.

### **Paso 9: Conteo de Clientes Registrados**

La direcci√≥n de la empresa busca una manera sencilla y r√°pida de conocer el volumen total de datos de clientes que hemos registrado.

**Objetivo**

Nuestro objetivo es generar una cadena formateada que indique claramente la cantidad de clientes de los que disponemos informaci√≥n. La cadena final deseada es: Hemos registrado datos de X clientes.

**Acci√≥n Clave**

Necesitamos contar el n√∫mero total de registros de clientes disponibles en nuestros datos. Una vez obtenido este conteo, lo insertaremos en la cadena predefinida.


In [2]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]


user_info = len(users)# escribe tu c√≥digo aqu√≠
print(f'Hemos registrado datos de ', user_info, ' clientes')

Hemos registrado datos de  10  clientes


Este paso nos permite ofrecer una visi√≥n ejecutiva inmediata sobre la escala de nuestra base de datos de clientes, lo cual es fundamental para la toma de decisiones a nivel de direcci√≥n.

### **Paso 10:  Aplicaci√≥n Global de Transformaciones de Datos**

Hemos definido los pasos de limpieza y normalizaci√≥n individualmente. Ahora, es momento de aplicar todas esas transformaciones a un conjunto de datos de clientes para ver el resultado de forma integral. Para simplificar, trabajaremos con una lista de clientes m√°s corta.

**Objetivo**

Nuestro objetivo es procesar la lista de clientes proporcionada, aplicando las siguientes transformaciones a cada registro:

Limpiar user_name: Eliminar espacios iniciales y finales, y reemplazar los guiones bajos por espacios.
Convertir user_age: Transformar la edad del usuario a un n√∫mero entero.
Dividir user_name: Separar el nombre completo en una sublista que contenga el nombre y el apellido.
Guardaremos el resultado de estas transformaciones en una nueva lista llamada users_clean y la mostraremos.

**Acciones Clave**

Vamos a iterar sobre cada cliente en la lista original y aplicaremos secuencialmente las operaciones de limpieza y transformaci√≥n que hemos definido en los pasos anteriores.


In [11]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
]

users_clean = []


# Procesa al primer usuario
user_name_1 = users[0][1].strip().replace('_', ' ')# escribe tu c√≥digo aqu√≠
user_age_1 = int(users[0][2]) # escribe tu c√≥digo aqu√≠
user_name_1 = user_name_1.split() # escribe tu c√≥digo aqu√≠
users_clean.append([users[0][0], user_name_1, user_age_1, users[0][3], users[0][4]]) # escribe tu c√≥digo aqu√≠

# Procesa al segundo usuario
user_name_2 = users[1][1].strip() # escribe tu c√≥digo aqu√≠
user_age_2 = int(users[1][2]) # escribe tu c√≥digo aqu√≠
user_name_2 = user_name_2.split() # escribe tu c√≥digo aqu√≠
users_clean.append([users[1][0],user_name_2, user_age_2, users[1][3],users[1][4]]) # escribe tu c√≥digo aqu√≠

# Procesa al tercer usuario
user_name_3 = users[2][1].strip() # escribe tu c√≥digo aqu√≠
user_age_3 = int(users[2][2]) # escribe tu c√≥digo aqu√≠
user_name_3 = user_name_3.split() # escribe tu c√≥digo aqu√≠
users_clean.append([users[2][0],user_name_3, user_age_3, users[2][3],users[2][4]]) # escribe tu c√≥digo aqu√≠



print(users_clean)


[['32415', ['mike', 'reed'], 32, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['31980', ['kate', 'morgan'], 24, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ['john', 'doe'], 37, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]]]


----------
