# üè™ Proyecto Aurelion

Este notebook documenta el proceso de **an√°lisis, limpieza y transformaci√≥n de datos** de la tabla `CLIENTES` del proyecto *Aurelion*, utilizando la biblioteca **Pandas** en Python.

El objetivo es preparar un conjunto de datos estructurado, limpio y estandarizado para posteriores procesos de an√°lisis estad√≠stico, modelado o visualizaci√≥n.

## üìä Descripci√≥n General

La tabla `VENTAS` contiene informaci√≥n detallada sobre operaciones comerciales, incluyendo campos de identificaci√≥n, fechas, montos y categor√≠as de productos.

A lo largo de este notebook se realizar√°n las siguientes tareas principales:

- Importaci√≥n de los datos desde un archivo **Excel (.xlsx)**.  
- Creaci√≥n del dataframe inicial `df_clientes_c`.  
- Procesamiento, normalizaci√≥n y renombrado de columnas para generar el dataframe limpio `df_clientes`.  
- Aplicaci√≥n de operaciones b√°sicas de **limpieza**, **transformaci√≥n** y **estandarizaci√≥n** de los datos.  
- Generaci√≥n de **estad√≠sticas descriptivas** para comprender la distribuci√≥n y consistencia de las variables.

## ‚öôÔ∏è Limpieza y Transformaci√≥n de los Datos

En esta secci√≥n se detallan las operaciones realizadas para asegurar la integridad y coherencia del dataset:

1. **Revisi√≥n de valores nulos y duplicados.**  
   - Identificaci√≥n y tratamiento de valores faltantes.  
   - Eliminaci√≥n o imputaci√≥n seg√∫n el contexto de negocio.

2. **Estandarizaci√≥n de tipos de datos.**  
   - Conversi√≥n de fechas, montos y categor√≠as al formato correcto.  
   - Normalizaci√≥n de cadenas y eliminaci√≥n de espacios o caracteres no deseados.

3. **Renombrado de columnas.**  
   - Aplicaci√≥n de nombres consistentes y descriptivos conforme a las buenas pr√°cticas de an√°lisis de datos.

4. **Validaci√≥n del dataframe final.**  
   - Verificaci√≥n de dimensiones, tipos y contenido.  
   - Comparaci√≥n con el dataframe original (`df_clientes_c`).

#### Importamos librerias instaladas para implementarlas en el c√≥digo

In [1]:
# Importa paquetes de an?lisis (pandas/numpy) y visualizaci?n (matplotlib/seaborn) con rutas portables
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

## üì• Carga del Archivo de Datos

En esta secci√≥n se realiza la **importaci√≥n del dataset principal** utilizando una **ruta relativa** y la librer√≠a `pathlib.Path`. Esto no solo simplifica la ruta, sino que tambi√©n garantiza que el c√≥digo sea **portable** y funcione correctamente en diferentes sistemas operativos (Windows, macOS, Linux), siempre y cuando la estructura de directorios se mantenga consistente.

> üìÇ **Ruta del archivo:** ¬†
> El archivo se accede mediante la construcci√≥n **`Path('db') / 'clientes.xlsx'`**.

La lectura del archivo se efect√∫a mediante la funci√≥n `pd.read_excel()` de la biblioteca **pandas**, creando el dataframe inicial `df_clientes_c`, el cual servir√° como base para los procesos posteriores de limpieza y an√°lisis.

In [2]:
# Lee el listado de clientes desde la carpeta db usando rutas relativas
path_dataset = Path('db') / 'clientes.xlsx'
df_clientes_c = pd.read_excel(path_dataset)

# Inspecciona los primeros registros para validar estructura y campos
df_clientes_c.head()

Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
0,1,Mariana Lopez,mariana.lopez@mail.com,Carlos Paz,2023-01-01
1,2,Nicolas Rojas,nicolas.rojas@mail.com,Carlos Paz,2023-01-02
2,3,Hernan Martinez,hernan.martinez@mail.com,Rio Cuarto,2023-01-03
3,4,Uma Martinez,uma.martinez@mail.com,Carlos Paz,2023-01-04
4,5,Agustina Flores,agustina.flores@mail.com,Cordoba,2023-01-05


## üîç Inspecci√≥n Inicial del Dataset

En esta etapa se realiza una **inspecci√≥n exploratoria b√°sica** del DataFrame `df_clientes_c` reci√©n cargado, con el objetivo de verificar que los datos se hayan importado correctamente y posean la estructura esperada.

Para ello, se utilizan las funciones:

In [3]:
# Ampl?a la vista inicial a 8 filas para detectar anomal?as tempranas
df_clientes_c.head(8)


Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
0,1,Mariana Lopez,mariana.lopez@mail.com,Carlos Paz,2023-01-01
1,2,Nicolas Rojas,nicolas.rojas@mail.com,Carlos Paz,2023-01-02
2,3,Hernan Martinez,hernan.martinez@mail.com,Rio Cuarto,2023-01-03
3,4,Uma Martinez,uma.martinez@mail.com,Carlos Paz,2023-01-04
4,5,Agustina Flores,agustina.flores@mail.com,Cordoba,2023-01-05
5,6,Uma Medina,uma.medina@mail.com,Villa Maria,2023-01-06
6,7,Emilia Castro,emilia.castro@mail.com,Rio Cuarto,2023-01-07
7,8,Bruno Castro,bruno.castro@mail.com,Carlos Paz,2023-01-08


In [4]:
# Revisa las ?ltimas 4 filas para confirmar consistencia al final del archivo
df_clientes_c.tail(4)

Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
96,97,Uma Alvarez,uma.alvarez@mail.com,Cordoba,2023-04-07
97,98,Camila Castro,camila.castro@mail.com,Cordoba,2023-04-08
98,99,Bruno Molina,bruno.molina@mail.com,Villa Maria,2023-04-09
99,100,Agustina Lopez,agustina.lopez@mail.com,Cordoba,2023-04-10


## üß† Exploraci√≥n de Tipos de Datos y Valores Nulos

En esta etapa se realiza una **revisi√≥n estructural del DataFrame** para confirmar que los tipos de datos asignados a cada variable durante la lectura con `pd.read_excel()` sean correctos y coherentes con la naturaleza de la informaci√≥n (por ejemplo, fechas, n√∫meros, textos, etc.).

Adem√°s, se eval√∫a la **presencia de valores nulos o faltantes**, los cuales podr√≠an requerir tratamiento posterior durante el proceso de limpieza y estandarizaci√≥n.

### üß© Procedimiento

In [5]:
# Resume tipos de datos, nulos y memoria del dataframe importado
df_clientes_c.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id_cliente      100 non-null    int64         
 1   nombre_cliente  100 non-null    object        
 2   email           100 non-null    object        
 3   ciudad          100 non-null    object        
 4   fecha_alta      100 non-null    datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 4.0+ KB


> üí° **Conclusi√≥n:**
> A partir de la ejecuci√≥n de la inspecci√≥n del DataFrame, se observa que la base de datos cuenta con **100 registros** distribuidos en **5 columnas**. 
> Cada columna presenta **100 valores no nulos**, lo que indica que **no existen datos faltantes (NaN)** en el dataset en esta etapa.
> Los tipos de datos se encuentran con una **estructura inicial muy limpia**: `id_cliente` es un entero (`int64`), apropiado para un identificador clave. `fecha_alta` ya se encuentra correctamente definida como temporal (`datetime64[ns]`). Los campos descriptivos `nombre_cliente`, `email` y `ciudad` son texto (`object`). Esta estructura inicial es **coherente y est√° lista** para los procesos de **normalizaci√≥n** de texto (ej. estandarizaci√≥n de may√∫sculas/min√∫sculas y eliminaci√≥n de espacios) antes de cualquier an√°lisis.   

### üïµÔ∏è‚Äç‚ôÇÔ∏è Detecci√≥n de Valores Nulos

Se analiza la presencia de valores faltantes para priorizar acciones de limpieza y asegurar la consistencia del dataset.

In [6]:
# Visualiza la m√°scara booleana donde True marca valores faltantes por celda
df_clientes_c.isnull()

Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
...,...,...,...,...,...
95,False,False,False,False,False
96,False,False,False,False,False
97,False,False,False,False,False
98,False,False,False,False,False


In [7]:
# Resume la cantidad de nulos por columna para priorizar limpieza
df_clientes_c.isnull().sum()

id_cliente        0
nombre_cliente    0
email             0
ciudad            0
fecha_alta        0
dtype: int64

## ‚öôÔ∏è Normalizaci√≥n y Correcci√≥n de Tipos de Datos

Antes de realizar la normalizaci√≥n de la base de datos, es necesario **estandarizar los campos de texto** para asegurar la unicidad de los registros descriptivos. En este caso, se normalizan las columnas `nombre_cliente`, `email` y `ciudad`. Adicionalmente, se verifica la correcta definici√≥n de la columna temporal `fecha_alta` y se optimiza el campo `ciudad` a tipo `categ√≥rico` para mejorar la eficiencia del DataFrame.

### üß© Fundamento

La **normalizaci√≥n de texto** garantiza que un mismo valor no sea interpretado como diferente debido a variaciones en el formato (ej. espacios iniciales/finales, may√∫sculas). Esto es crucial en campos como `email` y `ciudad` para asegurar agrupaciones correctas y evitar errores en b√∫squedas.

1. **Extracci√≥n:** se importan los datos desde el archivo Excel.  
2. **Transformaci√≥n estructural:** se ajustan los tipos de datos para asegurar coherencia.  
3. **Normalizaci√≥n:** se reorganiza la base, eliminando redundancias o columnas innecesarias.

### üßÆ Procedimiento

- Se aplican las transformaciones para:

     **Fecha:** Asegurar formato `datetime64[ns]` para `fecha_alta` (conversi√≥n necesaria).

     **Texto:** Limpiar `nombre_cliente` (eliminar espacios, formato t√≠tulo), `email` y `ciudad` (eliminar espacios, min√∫sculas).

     **Categ√≥ricas:** Convertir `ciudad` a tipo `category` para optimizar la memoria.


In [8]:
# 1. Normalizaci√≥n de Campos de Texto
# Aplicar limpieza de espacios y estandarizaci√≥n de formato.

# Normalizar 'nombre_cliente' (Formato T√≠tulo para nombres propios)
df_clientes_c['nombre_cliente'] = (
    df_clientes_c['nombre_cliente']
    .str.strip()
    .str.title() 
)

# Normalizar 'email' y 'ciudad' (Min√∫sculas para unicidad de agrupaci√≥n)
df_clientes_c['email'] = (
    df_clientes_c['email']
    .str.strip()
    .str.lower()
)
df_clientes_c['ciudad'] = (
    df_clientes_c['ciudad']
    .str.strip()
    .str.lower()
)

# 2. Optimizaci√≥n de Tipo Categ√≥rico
# Se convierte 'ciudad' a tipo 'category' para optimizar la memoria,
# ya que generalmente tiene un n√∫mero limitado de valores √∫nicos.
df_clientes_c['ciudad'] = df_clientes_c['ciudad'].astype('category')

#### üïµÔ∏è‚Äç‚ôÇÔ∏è Verificaci√≥n de Transformaciones

Se valida que los cambios aplicados hayan surtido efecto tanto en los tipos de datos como en los valores muestreados.

In [9]:
# Verifica los tipos de datos de las columnas normalizadas en la tabla CLIENTES
df_clientes_c[["id_cliente", "nombre_cliente", "email", "ciudad", "fecha_alta"]].dtypes

id_cliente                 int64
nombre_cliente            object
email                     object
ciudad                  category
fecha_alta        datetime64[ns]
dtype: object

In [10]:
# Realiza muestreo de las columnas transformadas para comprobar resultados
df_clientes_c[["id_cliente", "nombre_cliente", "email", "ciudad", "fecha_alta"]].head()

Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
0,1,Mariana Lopez,mariana.lopez@mail.com,carlos paz,2023-01-01
1,2,Nicolas Rojas,nicolas.rojas@mail.com,carlos paz,2023-01-02
2,3,Hernan Martinez,hernan.martinez@mail.com,rio cuarto,2023-01-03
3,4,Uma Martinez,uma.martinez@mail.com,carlos paz,2023-01-04
4,5,Agustina Flores,agustina.flores@mail.com,cordoba,2023-01-05


#### üïµÔ∏è‚Äç‚ôÇÔ∏è Control de Calidad: Duplicados

Se eval√∫a la unicidad de registros, especialmente en la columna `id_cliente`, que act√∫a como identificador clave.

In [None]:
# Eval√∫a duplicados globales y por id_cliente para validar la unicidad clave de clientes
cantidad_duplicados = df_clientes_c.duplicated().sum()
duplicados_id_cliente = df_clientes_c['id_cliente'].duplicated().sum()

print()
print('--- Registros Duplicados ---')
if cantidad_duplicados > 0:
    print(f'Se encontraron {cantidad_duplicados} filas duplicadas.')    
else:
    print('No se encontraron filas duplicadas.')

print()
if duplicados_id_cliente > 0:
    print(f'Alerta: se detectaron {duplicados_id_cliente} valores repetidos en id_cliente (posible clave primaria).')
else:
    print('id_cliente es √∫nico en df_clientes_c.')


--- Registros Duplicados ---
No se encontraron filas duplicadas.

id_cliente es √∫nico en df_clientes_c.


> üí° **Conclusi√≥n:**
> Luego de la verificaci√≥n y **normalizaci√≥n optimizada** de tipos de datos, se confirma que todas las variables del *dataset* `CLIENTES` presentan formatos consistentes y adecuados:
>
> La columna **`fecha_alta`** fue convertida a **`datetime64[ns]`**, lo cual es esencial para analizar la antig√ºedad de los clientes.
> Las columnas **`nombre_cliente`** y **`email`** mantienen tipos coherentes con su contenido (`object`), asegurando la **normalizaci√≥n de texto** (eliminaci√≥n de espacios y unificaci√≥n de may√∫sculas/min√∫sculas) para garantizar la unicidad de los registros.
>
> La variable **`ciudad`** fue convertida al tipo categ√≥rico (**`category`**), lo que facilita las agrupaciones geogr√°ficas y segmentaciones, generando una mejora en la eficiencia del procesamiento y el uso de memoria.
>
> De esta forma, el dataframe **`df_clientes_c`** queda estructurado de manera coherente, garantizando **integridad**, **consistencia**, y **una ligera mejora en la eficiencia del procesamiento** para las etapas posteriores de transformaci√≥n y an√°lisis.
