## Proceso EDA (Analisis Exploratorio de Datos)

En este reporte se llevará a cabo una exploración detallada sobre las ventas de los Supermercados. La meta principal consiste en comprender la organización de estos datos, detectar posibles patrones y recopilar información significativa que pueda servir como guía para tal vez hacer un posible dashboard a futuro.

### Importacion de bibliotecas

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

### Desactivar los warnings
warnings.filterwarnings('ignore')

### Lectura de Datos

In [4]:
# Configurar la opción de visualización para evitar notación científica
pd.set_option('display.float_format', lambda x: '%.0f' % x)

df_market = pd.read_csv('supermarket_sales.csv')

### Estructura del DataFrame

Visualizamos las primeras filas del dataframe

In [5]:
df_market.head(5)

Unnamed: 0,Invoice ID,Branch,City,Customer type,Gender,Product line,Unit price,Quantity,Tax 5%,Total,Date,Time,Payment,cogs,gross margin percentage,gross income,Rating
0,750-67-8428,A,Yangon,Member,Female,Health and beauty,75,7,26,549,1/5/2019,13:08,Ewallet,523,5,26,9
1,226-31-3081,C,Naypyitaw,Normal,Female,Electronic accessories,15,5,4,80,3/8/2019,10:29,Cash,76,5,4,10
2,631-41-3108,A,Yangon,Normal,Male,Home and lifestyle,46,7,16,341,3/3/2019,13:23,Credit card,324,5,16,7
3,123-19-1176,A,Yangon,Member,Male,Health and beauty,58,8,23,489,1/27/2019,20:33,Ewallet,466,5,23,8
4,373-73-7910,A,Yangon,Normal,Male,Sports and travel,86,7,30,634,2/8/2019,10:37,Ewallet,604,5,30,5


### Tipos de Datos

In [6]:
print("\nTipos de datos:")
df_market.dtypes ### Muestra los tipos de datos de cada columna


Tipos de datos:


Invoice ID                  object
Branch                      object
City                        object
Customer type               object
Gender                      object
Product line                object
Unit price                 float64
Quantity                     int64
Tax 5%                     float64
Total                      float64
Date                        object
Time                        object
Payment                     object
cogs                       float64
gross margin percentage    float64
gross income               float64
Rating                     float64
dtype: object

### Reemplazo de Datos

Vamos a modificar la columna 'Branch' para que cada letra signifique una marca diferente.

In [8]:
### Mostramos el DataFrame original previo a hacer los cambios
print("DataFrame original:")
print(df_market)

### Creamos un diccionario de mapeo para los cambios
mapeo = {'A': 'Adidas', 'B': 'Balenciaga', 'C': 'Cartier'}

### Reemplazo los valores en la columna 'Branch' usando el diccionario de mapeo
df_market['Branch'] = df_market['Branch'].replace(mapeo)

### Muestro el DataFrame con los valores cambiados
print("\nDataFrame con valores cambiados:")
print(df_market)


DataFrame original:
      Invoice ID Branch       City Customer type  Gender  \
0    750-67-8428      A     Yangon        Member  Female   
1    226-31-3081      C  Naypyitaw        Normal  Female   
2    631-41-3108      A     Yangon        Normal    Male   
3    123-19-1176      A     Yangon        Member    Male   
4    373-73-7910      A     Yangon        Normal    Male   
..           ...    ...        ...           ...     ...   
995  233-67-5758      C  Naypyitaw        Normal    Male   
996  303-96-2227      B   Mandalay        Normal  Female   
997  727-02-1313      A     Yangon        Member    Male   
998  347-56-2442      A     Yangon        Normal    Male   
999  849-09-3807      A     Yangon        Member  Female   

               Product line  Unit price  Quantity  Tax 5%  Total       Date  \
0         Health and beauty          75         7      26    549   1/5/2019   
1    Electronic accessories          15         5       4     80   3/8/2019   
2        Home and life

### Valores Nulos

In [12]:
print("\nPorcentaje de valores nulos en 'df_market':")
porcentaje_nulos_market = (df_market.isnull().sum() / df_market.shape[0]) * 100
print(round(porcentaje_nulos_market, 2).astype(str) + ' %') ### Muestro la cantidad de valores nulos por columna


Porcentaje de valores nulos en 'df_market':
Invoice ID                 0.0 %
Branch                     0.0 %
City                       0.0 %
Customer type              0.0 %
Gender                     0.0 %
Product line               0.0 %
Unit price                 0.0 %
Quantity                   0.0 %
Tax 5%                     0.0 %
Total                      0.0 %
Date                       0.0 %
Time                       0.0 %
Payment                    0.0 %
cogs                       0.0 %
gross margin percentage    0.0 %
gross income               0.0 %
Rating                     0.0 %
dtype: object


### Cantidad de Filas y Columnas

In [13]:
### Cantidad de filas y columnas en el dataframe 'df_market'
print("Cantidad de filas y columnas en el dataframe 'df_market':", df_market.shape)

Cantidad de filas y columnas en el dataframe 'df_market': (1000, 17)


### Filas Duplicadas

In [14]:
# Verifico y muestro la cantidad de duplicados en el dataframe 'df_market'
duplicados_market = df_market.duplicated().sum()
print("Cantidad de duplicados en el dataframe 'df_market':", duplicados_market)

Cantidad de duplicados en el dataframe 'df_market': 0
