# Supermarket Sales Analysis: Exploración y Limpieza de Datos

Este notebook aborda la exploración y limpieza de los datos de ventas de un supermercado registrados en tres sucursales durante un periodo de tres meses. Este proceso es clave para garantizar la calidad de los datos y preparar un análisis más profundo. A continuación, se procederá a:
* Explorar la estructura del dataset.
* Limpiar y preparar los datos para su análisis.
* Identificar posibles patrones iniciales que pueden ser útiles en futuros análisis predictivos.

---

## 1. Exploración Inicial de los Datos

### 1.1. Cargar el Dataset
Comenzamos cargando los datos disponibles en formato CSV, los cuales contienen información relacionada con las ventas.




In [1]:
import pandas as pd
df = pd.read_csv('data/raw/supermarket_sales - Sheet1.csv')
df.head()

Unnamed: 0,Invoice ID,Branch,City,Customer type,Gender,Product line,Unit price,Quantity,Tax 5%,Total,Date,Time,Payment,cogs,gross margin percentage,gross income,Rating
0,750-67-8428,A,Yangon,Member,Female,Health and beauty,74.69,7,26.1415,548.9715,1/5/2019,13:08,Ewallet,522.83,4.761905,26.1415,9.1
1,226-31-3081,C,Naypyitaw,Normal,Female,Electronic accessories,15.28,5,3.82,80.22,3/8/2019,10:29,Cash,76.4,4.761905,3.82,9.6
2,631-41-3108,A,Yangon,Normal,Male,Home and lifestyle,46.33,7,16.2155,340.5255,3/3/2019,13:23,Credit card,324.31,4.761905,16.2155,7.4
3,123-19-1176,A,Yangon,Member,Male,Health and beauty,58.22,8,23.288,489.048,1/27/2019,20:33,Ewallet,465.76,4.761905,23.288,8.4
4,373-73-7910,A,Yangon,Normal,Male,Sports and travel,86.31,7,30.2085,634.3785,2/8/2019,10:37,Ewallet,604.17,4.761905,30.2085,5.3


### 1.2. Inspección de la Estructura de los Datos
Inspeccionamos la estructura del dataset para identificar tipos de datos, valores nulos y descripciones estadísticas clave

In [6]:
# Verificar la estructura y tipos de datos
df.info()
# Descripción estadística del dataset
df.describe()
# Verificar valores nulos
df.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   Invoice ID               1000 non-null   object        
 1   Branch                   1000 non-null   object        
 2   City                     1000 non-null   object        
 3   Customer type            1000 non-null   object        
 4   Gender                   1000 non-null   object        
 5   Product line             1000 non-null   object        
 6   Unit price               1000 non-null   float64       
 7   Quantity                 1000 non-null   int64         
 8   Tax 5%                   1000 non-null   float64       
 9   Total                    1000 non-null   float64       
 10  Date                     1000 non-null   datetime64[ns]
 11  Time                     1000 non-null   object        
 12  Payment                  1000 non-n

Invoice ID                 0
Branch                     0
City                       0
Customer type              0
Gender                     0
Product line               0
Unit price                 0
Quantity                   0
Tax 5%                     0
Total                      0
Date                       0
Time                       0
Payment                    0
cogs                       0
gross margin percentage    0
gross income               0
Rating                     0
dtype: int64

## 2. Limpieza de Datos
En esta sección, se realizarán los pasos necesarios para limpiar y preparar los datos, asegurándonos de que todas las variables estén listas para análisis posteriores.

### 2.1. Conversión de Tipos de Datos
Convertimos las columnas Date y Time a los formatos adecuados para facilitar el análisis.

In [4]:
# Convertir 'Date' a formato datetime
df['Date'] = pd.to_datetime(df['Date'], format="%m/%d/%Y")

# Convertir 'Time' a formato de hora
df['Time'] = pd.to_datetime(df['Time'], format='%H:%M').dt.time


### 2.2. Verificación de Valores Nulos y Duplicados
Nos aseguramos de que no existan valores duplicados o nulos en el dataset

In [5]:
# Verificar duplicados
duplicados = df.duplicated().sum()
print(f'Duplicados: {duplicados}')
# Eliminar duplicados si existieran
if duplicados > 0:
    df = df.drop_duplicates()
# Verificar nuevamente si hay valores nulos
df.isnull().sum()


Duplicados: 0


Invoice ID                 0
Branch                     0
City                       0
Customer type              0
Gender                     0
Product line               0
Unit price                 0
Quantity                   0
Tax 5%                     0
Total                      0
Date                       0
Time                       0
Payment                    0
cogs                       0
gross margin percentage    0
gross income               0
Rating                     0
dtype: int64