# <center>Analizador de Ventas<center>

Crear un programa que permita analizar un conjunto de datos de ventas en una tienda. El programa debe realizar varias operaciones de Data Science para proporcionar información valiosa sobre las ventas de la tienda

1. Lectura de datos
2. Fusión de datos
3. Tratamiento de datos (Limpieza de datos, filtrado y transformaciones básicas)
4. Análisis de ventas (¿Cuál es el producto más vendido? ¿Cuál es el mes con más ventas? ¿Cuáles son los productos menos vendidos? ...)
5. Guardar resultados (Guardar el DataFrame en un archivos .csv)

In [1]:
import pandas as pd

### Lectura de datos

In [3]:
df1 = pd.read_csv('../Python para Data Science/Datasets/Datos_Ventas_Tienda.csv')
df2 = pd.read_csv('../Python para Data Science/Datasets/Datos_Ventas_Tienda2.csv')

In [4]:
df1

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,1/17/2023,Electrónic,7,200,1400
1,9/1/2023,Electrónic,8,200,1600
2,7/29/2023,Juguetes,3,30,90
3,10/4/2023,Alimentos,4,10,40
4,2/28/2023,Electrónic,6,200,1200
...,...,...,...,...,...
995,4/27/2023,Alimentos,2,10,20
996,6/9/2023,Ropa,10,50,500
997,8/21/2023,Alimentos,8,10,80
998,3/28/2023,Electrónic,6,200,1200


In [8]:
df2.head()

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,8/25/2023,Electrónic,5,200,1000
1,8/14/2023,Alimentos,9,10,90
2,8/30/2023,Ropa,6,50,300
3,11/9/2023,Alimentos,2,10,20
4,10/26/2023,Ropa,8,50,400


### Fusión de datos

In [22]:
df = pd.concat([df1, df2], axis=0, ignore_index=True) # Ignora los índices de los dataframes originales
df

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,1/17/2023,Electrónic,7,200,1400
1,9/1/2023,Electrónic,8,200,1600
2,7/29/2023,Juguetes,3,30,90
3,10/4/2023,Alimentos,4,10,40
4,2/28/2023,Electrónic,6,200,1200
...,...,...,...,...,...
1045,9/11/2023,Juguetes,10,30,300
1046,1/3/2023,Juguetes,10,30,300
1047,11/7/2023,Alimentos,3,10,30
1048,8/20/2023,Electrónic,6,200,1200


### Tratamiento de datos

In [23]:
# Verficar tipología de datos
df.dtypes

Fecha              object
Producto           object
Cantidad            int64
Precio Unitario     int64
Total Venta         int64
dtype: object

In [None]:
# Verf¡ificar si hay duplicados (En este caso no se eliminan porque al ser ventas pueden ser iguales)
df.duplicated().sum()

np.int64(29)

In [25]:
# Verificación de valores nulos
df.isnull().sum()

Fecha              0
Producto           0
Cantidad           0
Precio Unitario    0
Total Venta        0
dtype: int64

In [26]:
# Modificar tipología de Fecha
df["Fecha"] = pd.to_datetime(df["Fecha"])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1050 entries, 0 to 1049
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Fecha            1050 non-null   datetime64[ns]
 1   Producto         1050 non-null   object        
 2   Cantidad         1050 non-null   int64         
 3   Precio Unitario  1050 non-null   int64         
 4   Total Venta      1050 non-null   int64         
dtypes: datetime64[ns](1), int64(3), object(1)
memory usage: 41.1+ KB


### Análisis de Ventas

In [28]:
# Productos más vendidos
df_productos_mas_vendidos = df.groupby("Producto")["Cantidad"].sum().sort_values(ascending=False)
df_productos_mas_vendidos

Producto
Alimentos     1262
Electrónic    1220
Ropa          1128
Juguetes      1113
Libros        1042
Name: Cantidad, dtype: int64

In [34]:
# Producto más vendido
print(f'El producto más vendido es {df_productos_mas_vendidos.index[0]} con {df_productos_mas_vendidos[0]} unidades vendidas')

El producto más vendido es Alimentos con 1262 unidades vendidas


  print(f'El producto más vendido es {df_productos_mas_vendidos.index[0]} con {df_productos_mas_vendidos[0]} unidades vendidas')


In [32]:
# Total recaudado por producto
df_total_recaudado = df.groupby("Producto")["Total Venta"].sum().sort_values(ascending=False)
df_total_recaudado

Producto
Electrónic    244000
Ropa           56400
Juguetes       33390
Libros         20840
Alimentos      12620
Name: Total Venta, dtype: int64

In [None]:
# Ventas por mes
df_ventas_por_mes = df.groupby(df["Fecha"].dt.month)["Total Venta"].sum().sort_values(ascending=False)
df_ventas_por_mes

Fecha
8     45090
1     43030
5     39380
12    33560
6     30520
2     28410
9     27870
7     26350
10    25610
4     23210
3     23200
11    21020
Name: Total Venta, dtype: int64

### Guardar resultados

In [36]:
df.to_csv('../Python para Data Science/Datasets/Datos_Ventas_Tienda_Final.csv', index=False)