<a href="https://colab.research.google.com/github/Lemian5/DataSet/blob/main/Ventas_Supermercado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Planteamiento del problema:
Tenemos una base de datos con información de ventas de una empresa de supermercado que contiene más de 1000 registros. Dicho archivo contiene información de cada venta realizada, incluyendo el id del cliente, el tipo de producto vendido, la fecha del pedido, el precio unitario del producto y el canal de venta utilizado.

El objetivo de este ejercicio es hacer una limpieza de datos de este archivo utilizando la librería Pandas y mostrar algunas estadísticas básicas que permitan tomar decisiones en la empresa.

Solución:

En primer lugar, importamos la librería Pandas y leemos el archivo csv que contiene los datos de ventas. Luego visualizamos los primeros 5 registros del archivo para tener una idea de cómo están organizados los datos:

In [None]:
import pandas as pd
url = 'https://raw.githubusercontent.com/Solis25/Data/main/1000-Registros-de-ventas.csv'
df = pd.read_csv(url)
df.head()

Unnamed: 0,ID Cliente,Zona,País,Tipo de producto,Canal de venta,Prioridad,Fecha pedido,ID Pedido,Fecha envío,Unidades,Precio Unitario,Coste unitario,Importe venta total,Importe Coste total
0,C2421,Europa,United Kingdom,Snacks,Offline,Crítica,10/12/2020,242113196,11/30/2020,5530,152.58 €,97.44 €,"843,767.40 €","538,843.20 €"
1,C1908,Europa,Malta,Cárnicos,Online,Alta,1/26/2020,190800607,1/28/2020,994,421.89 €,364.69 €,"419,358.66 €","362,501.86 €"
2,C7652,Australia y Oceanía,Marshall Islands,Cereales,Online,Crítica,11/9/2020,765228068,11/21/2020,6845,205.70 €,117.11 €,"1,408,016.50 €","801,617.95 €"
3,C2326,África,Iran,Frutas,Offline,Baja,8/21/2021,232631909,10/2/2021,9806,9.33 €,6.92 €,"91,489.98 €","67,857.52 €"
4,C5305,Centroamérica y Caribe,Guatemala,Alimento infantil,Offline,Media,9/30/2022,530560958,11/12/2022,3633,255.28 €,159.42 €,"927,432.24 €","579,172.86 €"


A partir de aquí, se pueden realizar diversas operaciones de limpieza de datos, como eliminar columnas innecesarias, renombrar columnas, eliminar registros con datos faltantes, etc. En este caso, vamos a eliminar la columna 'Prioridad' ya que no es relevante para el análisis que se quiere hacer:

In [None]:
df = df.drop(columns=['Prioridad'])

In [None]:
df.head()

Unnamed: 0,ID Cliente,Zona,País,Tipo de producto,Canal de venta,Fecha pedido,ID Pedido,Fecha envío,Unidades,Precio Unitario,Coste unitario,Importe venta total,Importe Coste total
0,C2421,Europa,United Kingdom,Snacks,Offline,10/12/2020,242113196,11/30/2020,5530,152.58 €,97.44 €,"843,767.40 €","538,843.20 €"
1,C1908,Europa,Malta,Cárnicos,Online,1/26/2020,190800607,1/28/2020,994,421.89 €,364.69 €,"419,358.66 €","362,501.86 €"
2,C7652,Australia y Oceanía,Marshall Islands,Cereales,Online,11/9/2020,765228068,11/21/2020,6845,205.70 €,117.11 €,"1,408,016.50 €","801,617.95 €"
3,C2326,África,Iran,Frutas,Offline,8/21/2021,232631909,10/2/2021,9806,9.33 €,6.92 €,"91,489.98 €","67,857.52 €"
4,C5305,Centroamérica y Caribe,Guatemala,Alimento infantil,Offline,9/30/2022,530560958,11/12/2022,3633,255.28 €,159.42 €,"927,432.24 €","579,172.86 €"


También vamos a renombrar la columna 'Unidades' por 'Cantidad':

In [None]:
df = df.rename(columns={'Unidades':'Cantidad'})

A continuación, podemos calcular algunas estadísticas básicas para analizar el comportamiento de las ventas. Por ejemplo, podemos calcular la cantidad total de ventas realizadas:

In [None]:
total_ventas = len(df)
print("La cantidad total de ventas realizadas es:", total_ventas)

La cantidad total de ventas realizadas es: 1000


También podemos calcular el promedio de unidades vendidas:

In [None]:
precio_promedio = df['Cantidad'].mean()
print("El número de unidades que se venden en promedio por cada pedido es de:", precio_promedio)

El número de unidades que se venden en promedio por cada pedido es de: 5024.481


También podemos calcular las ventas totales por país y canal de venta, así como la cantidad de ventas realizadas en cada uno:

In [None]:
ventas_por_pais_y_canal = df.groupby(['País', 'Canal de venta']).agg({'Cantidad':['sum', 'count']})
ventas_por_pais_y_canal.columns = ['total_ventas', 'cantidad_ventas']
print(ventas_por_pais_y_canal)

                            total_ventas  cantidad_ventas
País        Canal de venta                               
Afghanistan Offline                18130                3
            Online                 14654                2
Albania     Offline                12526                3
            Online                 25319                5
Algeria     Offline                 1670                1
...                                  ...              ...
Yemen       Online                 18933                3
Zambia      Offline                12395                3
            Online                  7696                2
Zimbabwe    Offline                 3343                1
            Online                 10901                3

[352 rows x 2 columns]


Y finalmente, podemos guardar los resultados obtenidos en un archivo csv:

In [None]:
ventas_por_pais_y_canal.to_csv('estadisticas_ventas.csv')