<a href="https://colab.research.google.com/github/NandoGi/Supermarket_Sales_Analysis/blob/main/TP1/Supermarket_Sales_Analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**PROBLEMA DE NEGOCIO**


---




##Una cadena de Supermercados Online que opera en Brasil quiere obtener insights sobre la venta de sus productos. Para hacer esto, usted, como científico de datos, deberá analizar los pedidos de sus clientes y mostrar gráficamente las respuestas de las siguientes preguntas de negocio:

### **Preguntas**

1. ¿Cuáles son las ventas totales por año? ¿Y qué año tuvo mejor desempeño?

2. ¿Cuáles son los 7 productos que más ganancias mostraron durante todo el período?

3. Si separamos las ventas totales por año y por regiones ¿Qué insight podemos obtener de nuestras ventas?

4. ¿Cuál es el método de envío más utilizado por los clientes del Supermercado? ¿Es proporcional para B2B y B2C?

5. ¿Cuáles son las ventas totales por trimestre en el estado de São Paulo?

6. ¿Existe otro insight que puedas proporcionar?

#**1. Configuración del Ambiente**


---




In [3]:
# Este comando muestra la versión de python en el que se desarrolla el proyecto.
!python -V
print('------------')
# Este comondad muestra el nombre y la version de la librería pandas.
!pip show pandas | grep 'Name\|Version'
print('------------')
# Este comondad muestra el nombre y la version de la librería matplotlib.
!pip show matplotlib | grep 'Name\|Version'

Python 3.10.12
------------
Name: pandas
Version: 1.5.3
------------
Name: matplotlib
Version: 3.7.1


In [4]:
# Se procede a importar la librerias que se aplicarán en el proyecto.
import pandas as pd
pd.set_option('display.max_rows', 20)
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
# Se importa el modulo datetime para el tratamiento de variables tipo fecha
from datetime import datetime
# Se establecen las variables globales.
global df_ventas, df_ventas_limpio

#**2. Obtención y Tratamiento de Datos**


---




In [None]:
df_ventas = pd.read_csv('reporte_ventas.csv', sep = ',')
df_ventas

In [6]:
df_ventas_v1 = df_ventas.copy()

In [7]:
df_ventas_v1.head(10)

Unnamed: 0,fecha_pedido,fecha_envio,modo_envio,nombre_cliente,segmento_cliente,ciudad,estado,region,departamento_producto,tipo_producto,precio_base,precio_unit_sin_desc,descuento,precio_unit_venta,cantidad_pedido,total_venta,total_ganancia
0,2021-11-09,2021-11-12,Económico,Thiago Silveira,B2C,Ribeirão Preto,São Paulo,Sureste,Ropa,Camisetas,409.7,445.33,0.0,445.33,2,890.66,71.26
1,2021-11-09,2021-11-12,Económico,Thiago Silveira,B2C,Ribeirão Preto,São Paulo,Sureste,Ropa,Jeans,705.1,829.53,0.0,829.53,3,2488.59,373.29
2,2021-06-13,2021-06-17,Económico,Giovanna Lima,B2B,Rio de Janeiro,Rio de Janeiro,Sureste,Productos de Limpieza,Toallitas desinfectantes,19.02,24.86,0.0,24.86,2,49.72,11.68
3,2020-10-12,2020-10-19,Entrega estándar,Ana Júlia da Cruz,B2C,Foz do Iguaçu,Paraná,Sur,Ropa,Zapatillas,781.38,840.19,0.225,651.15,5,3255.75,-651.15
4,2020-10-12,2020-10-19,Entrega estándar,Ana Júlia da Cruz,B2C,Foz do Iguaçu,Paraná,Sur,Productos de Limpieza,Papel higiénico,35.88,42.24,0.1,38.02,2,76.04,4.28
5,2019-06-10,2019-06-15,Entrega estándar,Sophia Dias,B2C,Rio de Janeiro,Rio de Janeiro,Sureste,Ropa,Vestidos,20.29,23.73,0.0,23.73,7,166.11,24.08
6,2019-06-10,2019-06-15,Entrega estándar,Sophia Dias,B2C,Rio de Janeiro,Rio de Janeiro,Sureste,Productos de Limpieza,Limpiador de inodoros,5.35,6.19,0.0,6.19,4,24.76,3.36
7,2019-06-10,2019-06-15,Entrega estándar,Sophia Dias,B2C,Rio de Janeiro,Rio de Janeiro,Sureste,Electrónicos,Cámaras digitales,488.35,571.17,0.1,514.05,6,3084.3,154.2
8,2019-06-10,2019-06-15,Entrega estándar,Sophia Dias,B2C,Rio de Janeiro,Rio de Janeiro,Sureste,Electrónicos,Lámparas LED,17.69,23.3,0.1,20.97,3,62.91,9.84
9,2019-06-10,2019-06-15,Entrega estándar,Sophia Dias,B2C,Rio de Janeiro,Rio de Janeiro,Sureste,Productos de Limpieza,Ambientador en spray,66.41,78.13,0.0,78.13,5,390.65,58.6


In [23]:
df_ventas_v1['fecha_pedido'] = pd.to_datetime(df_ventas_v1['fecha_pedido'], format = '%Y-%m-%d')
df_ventas_v1['fecha_envio'] = pd.to_datetime(df_ventas_v1['fecha_envio'], format = '%Y-%m-%d')

In [20]:
df_ventas_v1.dtypes

fecha_pedido             datetime64[ns]
fecha_envio              datetime64[ns]
modo_envio                       object
nombre_cliente                   object
segmento_cliente                 object
ciudad                           object
estado                           object
region                           object
departamento_producto            object
tipo_producto                    object
precio_base                     float64
precio_unit_sin_desc            float64
descuento                       float64
precio_unit_venta               float64
cantidad_pedido                   int64
total_venta                     float64
total_ganancia                  float64
dtype: object

In [11]:
f_ventas = pd.read_csv("reporte_ventas.csv", sep = ';')
print('Información:')
print(df_ventas.info())
print('------------')
print('Duplicados:')
print(df_ventas.duplicated().sum())
print('------------')
print('Registros de prueba:')
print((df_ventas['nombre_cliente'] == 'prueba').sum())
print('------------')
print('Registros con ganancia<=0:')
print((df_ventas['total_ganancia'] <= 0).sum())

Información:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8954 entries, 0 to 8953
Data columns (total 1 columns):
 #   Column                                                                                                                                                                                                                                Non-Null Count  Dtype 
---  ------                                                                                                                                                                                                                                --------------  ----- 
 0   fecha_pedido,fecha_envio,modo_envio,nombre_cliente,segmento_cliente,ciudad,estado,region,departamento_producto,tipo_producto,precio_base,precio_unit_sin_desc,descuento,precio_unit_venta,cantidad_pedido,total_venta,total_ganancia  8954 non-null   object
dtypes: object(1)
memory usage: 70.1+ KB
None
------------
Duplicados:
15
------------
Registros de prueba:

KeyError: ignored

In [None]:
#Ejecutando limpieza
obtencion_datos()
print('Información:')
print(df_ventas_limpio.info())
print('------------')
print('Duplicados:')
print(df_ventas_limpio.duplicated().sum())
print('------------')
print('Registros de prueba:')
print((df_ventas_limpio['nombre_cliente'] == 'prueba').sum())
print('------------')
print('Registros con ganancia<=0:')
print((df_ventas_limpio['total_ganancia'] <= 0).sum())

#**3. Preguntas y respuestas**


---




##**Pregunta 1: ¿Cuáles son las ventas totales por año? ¿Y qué año tuvo mejor desempeño?**

##**Pregunta 2: ¿Cuáles son los 7 productos que más ganancias mostraron durante todo el período?**

##**Pregunta 3: Si separamos las ventas totales por año y por regiones ¿Qué insight podemos obtener de nuestras ventas?**

##**Pregunta 4: ¿Cuál es el método de envío más utilizado por los clientes del Supermercado? ¿Es proporcional para B2B y B2C?**

##**Pregunta 5: ¿Cuáles son las ventas totales por trimestre en el estado de São Paulo?**