# Limpieza y Validaci√≥n de Datos de Usuarios

## üìä Descripci√≥n del Proyecto

Este proyecto forma parte de una iniciativa de Store 1 para garantizar la coherencia en la recopilaci√≥n de datos de usuarios. El objetivo es evaluar la calidad de los datos recopilados, identificar problemas en la estructura y formato, e implementar procesos de limpieza para preparar los datos para an√°lisis posteriores.

## üéØ Objetivo

Desarrollar un proceso sistem√°tico de limpieza de datos que:
- Identifique inconsistencias en formato de nombres de usuario
- Estandarice tipos de datos
- Prepare datasets limpios para an√°lisis de comportamiento de compra

## üìÅ Dataset

**Estructura de datos:**
- **user_id**: Identificador √∫nico para cada usuario
- **user_name**: Nombre del usuario
- **user_age**: Edad del usuario
- **fav_categories**: Categor√≠as favoritas de art√≠culos comprados
- **total_spendings**: Lista de gastos totales por categor√≠a

**Tama√±o del dataset**: 10 registros de usuarios

## üõ†Ô∏è Stack T√©cnico

- Python 3.9
- M√©todos de strings: `strip()`, `replace()`, `split()`
- Conversi√≥n de tipos de datos
- Manipulaci√≥n de listas

## 1. Carga de Datos

Importamos el dataset inicial con informaci√≥n de 10 usuarios.

In [None]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

## 2. An√°lisis de Calidad de Datos

### Evaluaci√≥n de un usuario ejemplo

In [None]:
user_id = '32415'
user_name = ' mike_reed '
user_age = 32.0
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']

### Identificaci√≥n de Problemas

**An√°lisis de calidad de datos:**

1. **`user_id`**: Se mantiene como string. No requiere conversi√≥n a entero ya que funciona como identificador √∫nico sin operaciones aritm√©ticas.

2. **`user_name`**: Presenta espacios en blanco innecesarios al inicio y final. Los guiones bajos son aceptables para nombres de usuario y no representan un problema.

3. **`user_age`**: Debe convertirse de float (32.0) a int (32), ya que la edad convencionalmente se representa con n√∫meros enteros.

4. **`fav_categories`**: Mantener las categor√≠as en may√∫sculas es adecuado para estandarizaci√≥n y distinci√≥n clara de categor√≠as.

## 3. Implementaci√≥n de Limpieza de Datos

### 3.1 Limpieza de Nombre de Usuario

In [None]:
user_name = ' mike_reed '

# Eliminar espacios y reemplazar gui√≥n bajo con espacio
user_name = user_name.strip().replace("_", " ")

print(user_name)

### 3.2 Divisi√≥n de Nombre Completo

In [None]:
user_name = 'mike reed'
name_split = user_name.split()

print(name_split)

### 3.3 Conversi√≥n de Tipo de Dato de Edad

In [None]:
user_age = 32.0

# Convertir de float a int
user_age = int(user_age)

print(user_age)
print(type(user_age))

## 4. Procesamiento Completo del Dataset

### Limpieza de m√∫ltiples usuarios

In [None]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
]

users_clean = []

# Procesar primer usuario
user_name_1 = users[0][1].strip().replace('_', ' ').split()
user_age_1 = int(users[0][2])
users_clean.append([users[0][0], user_name_1, user_age_1, users[0][3], users[0][4]])

# Procesar segundo usuario
user_name_2 = users[1][1].strip().replace('_', ' ').split()
user_age_2 = int(users[1][2])
users_clean.append([users[1][0], user_name_2, user_age_2, users[1][3], users[1][4]])

# Procesar tercer usuario
user_name_3 = users[2][1].strip().replace('_', ' ').split()
user_age_3 = int(users[2][2])
users_clean.append([users[2][0], user_name_3, user_age_3, users[2][3], users[2][4]])

print(users_clean)

## üìà Resultados

**Transformaciones aplicadas:**
- ‚úÖ Eliminaci√≥n de espacios en blanco innecesarios en nombres de usuario
- ‚úÖ Reemplazo de guiones bajos por espacios en nombres
- ‚úÖ Divisi√≥n de nombres completos en componentes separados (nombre y apellido)
- ‚úÖ Conversi√≥n de edades de float a int
- ‚úÖ Preservaci√≥n de formato de categor√≠as en may√∫sculas para estandarizaci√≥n

**Datos limpios listos para:**
- An√°lisis de comportamiento de compra
- Segmentaci√≥n de usuarios
- An√°lisis de categor√≠as favoritas
- Estudios demogr√°ficos

## üîÑ Pr√≥ximos Pasos

Este proceso de limpieza sienta las bases para:
1. An√°lisis exploratorio de datos (EDA)
2. Segmentaci√≥n de clientes por edad y preferencias
3. An√°lisis de patrones de gasto por categor√≠a
4. Desarrollo de modelos predictivos de comportamiento de compra