# 🏪 Proyecto Aurelion

Este notebook documenta el proceso de **análisis, limpieza y transformación de datos** de la tabla `CLIENTES` del proyecto *Aurelion*, utilizando la biblioteca **Pandas** en Python.

El objetivo es preparar un conjunto de datos estructurado, limpio y estandarizado para posteriores procesos de análisis estadístico, modelado o visualización.

## 📊 Descripción General

La tabla `VENTAS` contiene información detallada sobre operaciones comerciales, incluyendo campos de identificación, fechas, montos y categorías de productos.

A lo largo de este notebook se realizarán las siguientes tareas principales:

- Importación de los datos desde un archivo **Excel (.xlsx)**.  
- Creación del dataframe inicial `df_clientes_c`.  
- Procesamiento, normalización y renombrado de columnas para generar el dataframe limpio `df_clientes`.  
- Aplicación de operaciones básicas de **limpieza**, **transformación** y **estandarización** de los datos.  
- Generación de **estadísticas descriptivas** para comprender la distribución y consistencia de las variables.

## ⚙️ Limpieza y Transformación de los Datos

En esta sección se detallan las operaciones realizadas para asegurar la integridad y coherencia del dataset:

1. **Revisión de valores nulos y duplicados.**  
   - Identificación y tratamiento de valores faltantes.  
   - Eliminación o imputación según el contexto de negocio.

2. **Estandarización de tipos de datos.**  
   - Conversión de fechas, montos y categorías al formato correcto.  
   - Normalización de cadenas y eliminación de espacios o caracteres no deseados.

3. **Renombrado de columnas.**  
   - Aplicación de nombres consistentes y descriptivos conforme a las buenas prácticas de análisis de datos.

4. **Validación del dataframe final.**  
   - Verificación de dimensiones, tipos y contenido.  
   - Comparación con el dataframe original (`df_clientes_c`).

#### Importamos librerias instaladas para implementarlas en el código

In [2]:
# Importa paquetes de an?lisis (pandas/numpy) y visualizaci?n (matplotlib/seaborn) con rutas portables
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

## 📥 Carga del Archivo de Datos

En esta sección se realiza la **importación del dataset principal** utilizando una **ruta relativa** y la librería `pathlib.Path`. Esto no solo simplifica la ruta, sino que también garantiza que el código sea **portable** y funcione correctamente en diferentes sistemas operativos (Windows, macOS, Linux), siempre y cuando la estructura de directorios se mantenga consistente.

> 📂 **Ruta del archivo:**  
> El archivo se accede mediante la construcción **`Path('db') / 'clientes.xlsx'`**.

La lectura del archivo se efectúa mediante la función `pd.read_excel()` de la biblioteca **pandas**, creando el dataframe inicial `df_clientes_c`, el cual servirá como base para los procesos posteriores de limpieza y análisis.

In [3]:
# Lee el listado de clientes desde la carpeta db usando rutas relativas
path_dataset = Path('db') / 'clientes.xlsx'
df_clientes_c = pd.read_excel(path_dataset)

# Inspecciona los primeros registros para validar estructura y campos
df_clientes_c.head()

Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
0,1,Mariana Lopez,mariana.lopez@mail.com,Carlos Paz,2023-01-01
1,2,Nicolas Rojas,nicolas.rojas@mail.com,Carlos Paz,2023-01-02
2,3,Hernan Martinez,hernan.martinez@mail.com,Rio Cuarto,2023-01-03
3,4,Uma Martinez,uma.martinez@mail.com,Carlos Paz,2023-01-04
4,5,Agustina Flores,agustina.flores@mail.com,Cordoba,2023-01-05


## 🔍 Inspección Inicial del Dataset

En esta etapa se realiza una **inspección exploratoria básica** del DataFrame `df_clientes_c` recién cargado, con el objetivo de verificar que los datos se hayan importado correctamente y posean la estructura esperada.

Para ello, se utilizan las funciones:

In [4]:
# Ampl?a la vista inicial a 8 filas para detectar anomal?as tempranas
df_clientes_c.head(8)


Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
0,1,Mariana Lopez,mariana.lopez@mail.com,Carlos Paz,2023-01-01
1,2,Nicolas Rojas,nicolas.rojas@mail.com,Carlos Paz,2023-01-02
2,3,Hernan Martinez,hernan.martinez@mail.com,Rio Cuarto,2023-01-03
3,4,Uma Martinez,uma.martinez@mail.com,Carlos Paz,2023-01-04
4,5,Agustina Flores,agustina.flores@mail.com,Cordoba,2023-01-05
5,6,Uma Medina,uma.medina@mail.com,Villa Maria,2023-01-06
6,7,Emilia Castro,emilia.castro@mail.com,Rio Cuarto,2023-01-07
7,8,Bruno Castro,bruno.castro@mail.com,Carlos Paz,2023-01-08


In [5]:
# Revisa las ?ltimas 4 filas para confirmar consistencia al final del archivo
df_clientes_c.tail(4)

Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
96,97,Uma Alvarez,uma.alvarez@mail.com,Cordoba,2023-04-07
97,98,Camila Castro,camila.castro@mail.com,Cordoba,2023-04-08
98,99,Bruno Molina,bruno.molina@mail.com,Villa Maria,2023-04-09
99,100,Agustina Lopez,agustina.lopez@mail.com,Cordoba,2023-04-10


## 🧠 Exploración de Tipos de Datos y Valores Nulos

En esta etapa se realiza una **revisión estructural del DataFrame** para confirmar que los tipos de datos asignados a cada variable durante la lectura con `pd.read_excel()` sean correctos y coherentes con la naturaleza de la información (por ejemplo, fechas, números, textos, etc.).

Además, se evalúa la **presencia de valores nulos o faltantes**, los cuales podrían requerir tratamiento posterior durante el proceso de limpieza y estandarización.

### 🧩 Procedimiento

In [6]:
# Resume tipos de datos, nulos y memoria del dataframe importado
df_clientes_c.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id_cliente      100 non-null    int64         
 1   nombre_cliente  100 non-null    object        
 2   email           100 non-null    object        
 3   ciudad          100 non-null    object        
 4   fecha_alta      100 non-null    datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 4.0+ KB


> 💡 **Conclusión:**
> A partir de la ejecución de la inspección del DataFrame, se observa que la base de datos cuenta con **100 registros** distribuidos en **5 columnas**. 
> Cada columna presenta **100 valores no nulos**, lo que indica que **no existen datos faltantes (NaN)** en el dataset en esta etapa.
> Los tipos de datos se encuentran con una **estructura inicial muy limpia**: `id_cliente` es un entero (`int64`), apropiado para un identificador clave. `fecha_alta` ya se encuentra correctamente definida como temporal (`datetime64[ns]`). Los campos descriptivos `nombre_cliente`, `email` y `ciudad` son texto (`object`). Esta estructura inicial es **coherente y está lista** para los procesos de **normalización** de texto (ej. estandarización de mayúsculas/minúsculas y eliminación de espacios) antes de cualquier análisis.   

### 🕵️‍♂️ Detección de Valores Nulos

Se analiza la presencia de valores faltantes para priorizar acciones de limpieza y asegurar la consistencia del dataset.

In [7]:
# Visualiza la máscara booleana donde True marca valores faltantes por celda
df_clientes_c.isnull()

Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
...,...,...,...,...,...
95,False,False,False,False,False
96,False,False,False,False,False
97,False,False,False,False,False
98,False,False,False,False,False


In [8]:
# Resume la cantidad de nulos por columna para priorizar limpieza
df_clientes_c.isnull().sum()

id_cliente        0
nombre_cliente    0
email             0
ciudad            0
fecha_alta        0
dtype: int64

## ⚙️ Normalización y Corrección de Tipos de Datos

Antes de realizar la normalización de la base de datos, es necesario **estandarizar los campos de texto** para asegurar la unicidad de los registros descriptivos. En este caso, se normalizan las columnas `nombre_cliente`, `email` y `ciudad`. Adicionalmente, se verifica la correcta definición de la columna temporal `fecha_alta` y se optimiza el campo `ciudad` a tipo `categórico` para mejorar la eficiencia del DataFrame.

### 🧩 Fundamento

La **normalización de texto** garantiza que un mismo valor no sea interpretado como diferente debido a variaciones en el formato (ej. espacios iniciales/finales, mayúsculas). Esto es crucial en campos como `email` y `ciudad` para asegurar agrupaciones correctas y evitar errores en búsquedas.

1. **Extracción:** se importan los datos desde el archivo Excel.  
2. **Transformación estructural:** se ajustan los tipos de datos para asegurar coherencia.  
3. **Normalización:** se reorganiza la base, eliminando redundancias o columnas innecesarias.

### 🧮 Procedimiento

- Se aplican las transformaciones para:

     **Fecha:** Asegurar formato `datetime64[ns]` para `fecha_alta` (conversión necesaria).

     **Texto:** Limpiar `nombre_cliente` (eliminar espacios, formato título), `email` y `ciudad` (eliminar espacios, minúsculas).

     **Categóricas:** Convertir `ciudad` a tipo `category` para optimizar la memoria.


In [None]:
# 1. Normalización de Campos de Texto
# Aplicar limpieza de espacios y estandarización de formato.

# Normalizar 'nombre_cliente' (Formato Título para nombres propios)
df_clientes_c['nombre_cliente'] = (
    df_clientes_c['nombre_cliente']
    .str.strip()
    .str.title() 
)

# Normalizar 'email' y 'ciudad' (Minúsculas para unicidad de agrupación)
df_clientes_c['email'] = (
    df_clientes_c['email']
    .str.strip()
    .str.lower()
)
df_clientes_c['ciudad'] = (
    df_clientes_c['ciudad']
    .str.strip()
    .str.lower()
)

# 2. Optimización de Tipo Categórico
# Se convierte 'ciudad' a tipo 'category' para optimizar la memoria,
# ya que generalmente tiene un número limitado de valores únicos.
df_clientes_c['ciudad'] = df_clientes_c['ciudad'].astype('category')

#### 🕵️‍♂️ Verificación de Transformaciones

Se valida que los cambios aplicados hayan surtido efecto tanto en los tipos de datos como en los valores muestreados.

In [10]:
# Verifica los tipos de datos de las columnas normalizadas en la tabla CLIENTES
df_clientes_c[["id_cliente", "nombre_cliente", "email", "ciudad", "fecha_alta"]].dtypes

id_cliente                 int64
nombre_cliente            object
email                     object
ciudad                  category
fecha_alta        datetime64[ns]
dtype: object

In [11]:
# Realiza muestreo de las columnas transformadas para comprobar resultados
df_clientes_c[["id_cliente", "nombre_cliente", "email", "ciudad", "fecha_alta"]].head()

Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
0,1,Mariana Lopez,mariana.lopez@mail.com,carlos paz,2023-01-01
1,2,Nicolas Rojas,nicolas.rojas@mail.com,carlos paz,2023-01-02
2,3,Hernan Martinez,hernan.martinez@mail.com,rio cuarto,2023-01-03
3,4,Uma Martinez,uma.martinez@mail.com,carlos paz,2023-01-04
4,5,Agustina Flores,agustina.flores@mail.com,cordoba,2023-01-05


#### 🕵️‍♂️ Control de Calidad: Duplicados

Se evalúa la unicidad de registros, especialmente en la columna `id_cliente`, que actúa como identificador clave.

In [12]:
# Evalúa duplicados globales y por id_cliente para validar la unicidad clave de clientes
cantidad_duplicados = df_clientes_c.duplicated().sum()
duplicados_id_cliente = df_clientes_c['id_cliente'].duplicated().sum()

print()
print('--- Registros Duplicados ---')
if cantidad_duplicados > 0:
    print(f'Se encontraron {cantidad_duplicados} filas duplicadas.')
    # Si se encuentran duplicados y se necesita eliminarlos, usar:
    # df_clientes_c = df_clientes_c.drop_duplicates().copy()
else:
    print('No se encontraron filas duplicadas.')

print()
if duplicados_id_cliente > 0:
    print(f'Alerta: se detectaron {duplicados_id_cliente} valores repetidos en id_cliente (posible clave primaria).')
else:
    print('id_cliente es único en df_clientes_c.')


--- Registros Duplicados ---
No se encontraron filas duplicadas.

id_cliente es único en df_clientes_c.


> 💡 **Conclusión:**
> Luego de la verificación y **normalización optimizada** de tipos de datos, se confirma que todas las variables del *dataset* `CLIENTES` presentan formatos consistentes y adecuados:
>
> La columna **`fecha_alta`** fue convertida a **`datetime64[ns]`**, lo cual es esencial para analizar la antigüedad de los clientes.
> Las columnas **`nombre_cliente`** y **`email`** mantienen tipos coherentes con su contenido (`object`), asegurando la **normalización de texto** (eliminación de espacios y unificación de mayúsculas/minúsculas) para garantizar la unicidad de los registros.
>
> La variable **`ciudad`** fue convertida al tipo categórico (**`category`**), lo que facilita las agrupaciones geográficas y segmentaciones, generando una mejora en la eficiencia del procesamiento y el uso de memoria.
>
> De esta forma, el dataframe **`df_clientes_c`** queda estructurado de manera coherente, garantizando **integridad**, **consistencia**, y **una ligera mejora en la eficiencia del procesamiento** para las etapas posteriores de transformación y análisis.
