# INSPECCIÓN INICIAL DEL DATASET  
### Proyecto Final – Minería de Datos  
### Archivo Analizado: retail_sales_dataset.csv

En esta sección realizamos la inspección inicial del dataset principal del proyecto.  
El objetivo es conocer su estructura general, validar que se cargó correctamente  
y analizar las columnas antes de pasar a la fase de limpieza (Data Wrangling).

La metodología utilizada está basada en los notebooks de clase:

- **Pandas01.ipynb** → Inspección y exploración básica  
- **Pandas02.ipynb** → Funciones esenciales de análisis en Pandas  

La estructura del dataset contiene información correspondiente a ventas en una tienda retail:

- Identificador de transacción  
- Fecha de compra  
- Identificador del cliente  
- Características del cliente (género y edad)  
- Categoría del producto  
- Cantidad adquirida  
- Precio unitario  
- Monto total de la transacción  

Estos datos serán utilizados a lo largo del proyecto en las etapas de Wrangling, EDA y Machine Learning.


In [4]:
# Importación de librerías principales

import pandas as pd


## Lectura del Dataset

Cargamos el archivo **retail_sales_dataset.csv**, el cual contiene 1000 registros simulados  
relacionados con compras realizadas en una tienda retail.

La lectura del dataset se realiza mediante `pd.read_csv()`,  
tal como fue enseñado en **Pandas01.ipynb**.


In [5]:
# Lectura del dataset con Pandas

df = pd.read_csv('retail_sales_dataset.csv')

# Vista general del dataframe para confirmar la carga correcta
df


Unnamed: 0,ID_Transaccion,Fecha,ID_Cliente,Genero,Edad,Categoria_Producto,Cantidad,Precio_Unitario,Monto_Total
0,1,24/11/2023,CUST001,Male,34,Beauty,3,50,150
1,2,27/02/2023,CUST002,Female,26,Clothing,2,500,1000
2,3,13/01/2023,CUST003,Male,50,Electronics,1,30,30
3,4,21/05/2023,CUST004,Male,37,Clothing,1,500,500
4,5,06/05/2023,CUST005,Male,30,Beauty,2,50,100
...,...,...,...,...,...,...,...,...,...
995,996,16/05/2023,CUST996,Male,62,Clothing,1,50,50
996,997,17/11/2023,CUST997,Male,52,Beauty,3,30,90
997,998,29/10/2023,CUST998,Female,23,Beauty,4,25,100
998,999,05/12/2023,CUST999,Female,36,Electronics,3,50,150


## Exploración básica del DataFrame

Mostramos los primeros y últimos registros del dataset  
como se enseñó en la inspección básica de Pandas01.

Este paso es fundamental para verificar:
- Si las columnas aparecen correctamente
- Si hay valores inesperados
- Si la estructura coincide con la documentación del dataset

In [6]:
# Primeros 5 registros
df.head()

# Últimos 5 registros
df.tail()

Unnamed: 0,ID_Transaccion,Fecha,ID_Cliente,Genero,Edad,Categoria_Producto,Cantidad,Precio_Unitario,Monto_Total
995,996,16/05/2023,CUST996,Male,62,Clothing,1,50,50
996,997,17/11/2023,CUST997,Male,52,Beauty,3,30,90
997,998,29/10/2023,CUST998,Female,23,Beauty,4,25,100
998,999,05/12/2023,CUST999,Female,36,Electronics,3,50,150
999,1000,12/04/2023,CUST1000,Male,47,Electronics,4,30,120


## Dimensiones del Dataset

Antes de iniciar cualquier limpieza, es necesario conocer la cantidad de registros (filas)  
y la cantidad de atributos (columnas).

Esto permite verificar que el dataset cumple con el requisito del profesor  
de tener **al menos 1000 registros**.

In [7]:
# Dimensiones del dataset
df.shape

(1000, 9)

## Columnas y Tipos de Datos

Aquí identificamos:
- Los nombres exactos de las columnas
- El tipo de dato que reconoce Pandas

Esto ayuda a detectar:
- Si la columna **Fecha** está en formato incorrecto (object)
- Si alguna columna numérica fue interpretada como texto
- Posibles errores heredados del archivo CSV

In [8]:
# Lista de columnas
df.columns

# Tipos de datos detectados por Pandas
df.dtypes

ID_Transaccion         int64
Fecha                 object
ID_Cliente            object
Genero                object
Edad                   int64
Categoria_Producto    object
Cantidad               int64
Precio_Unitario        int64
Monto_Total            int64
dtype: object

## Información General del DataFrame

El método `info()` nos brinda detalles importantes:

- Cantidad de valores no nulos
- Tipo de datos por columna
- Memoria utilizada
- Posibles columnas incompletas

Este análisis se vio en **Pandas01.ipynb** como parte de la inspección inicial.

In [9]:
# Resumen completo del DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   ID_Transaccion      1000 non-null   int64 
 1   Fecha               1000 non-null   object
 2   ID_Cliente          1000 non-null   object
 3   Genero              1000 non-null   object
 4   Edad                1000 non-null   int64 
 5   Categoria_Producto  1000 non-null   object
 6   Cantidad            1000 non-null   int64 
 7   Precio_Unitario     1000 non-null   int64 
 8   Monto_Total         1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


## Estadísticas Descriptivas

El análisis estadístico inicial permite detectar:
- Rango de edades
- Variabilidad en precios y cantidades
- Rangos anómalos en el monto total

Esto ayuda a detectar outliers antes del Wrangling.

En este punto realizamos el análisis estadístico únicamente sobre las columnas numéricas del dataset. Esta práctica es fundamental para detectar valores extremos, posibles errores de captura y rangos fuera de lo esperado.

Las columnas numéricas reales en este dataset son:

- **Edad:** representa la edad del cliente.  
- **Cantidad:** número de unidades adquiridas.  
- **Precio_Unitario:** costo por unidad del producto comprado.  
- **Monto_Total:** multiplicación entre cantidad y precio, representa el total pagado.

Este análisis estadístico nos permitirá, en la siguiente fase de Wrangling, detectar outliers y validar la consistencia de los valores registrados.


In [12]:
# Estadísticas descriptivas de columnas numéricas del dataset
df[['Edad','Cantidad','Precio_Unitario','Monto_Total']].describe()


Unnamed: 0,Edad,Cantidad,Precio_Unitario,Monto_Total
count,1000.0,1000.0,1000.0,1000.0
mean,41.392,2.514,179.89,456.0
std,13.68143,1.132734,189.681356,559.997632
min,18.0,1.0,25.0,25.0
25%,29.0,1.0,30.0,60.0
50%,42.0,3.0,50.0,135.0
75%,53.0,4.0,300.0,900.0
max,64.0,4.0,500.0,2000.0


## Detección de Valores Nulos

Es importante revisar si alguna columna contiene valores faltantes  
para corregirlos en la fase 2.2 (Wrangling).  


In [11]:
# Conteo de valores nulos por columna
df.isnull().sum()


ID_Transaccion        0
Fecha                 0
ID_Cliente            0
Genero                0
Edad                  0
Categoria_Producto    0
Cantidad              0
Precio_Unitario       0
Monto_Total           0
dtype: int64

## Conclusión de la Inspección Inicial

Con esta inspección confirmamos:

- El dataset se cargó sin errores  
- Tiene 1000 registros, cumpliendo con el requisito del proyecto  
- Las columnas están completas y bien estructuradas  
- Los tipos de datos requerirán ajustes (especialmente **Fecha**)  
- No hay valores nulos significativos  
- Es posible continuar a la siguiente fase: **2.2 Data Wrangling**  

La información obtenida aquí será usada para guiar el proceso de limpieza.
