# Proyecto del Día 7 - Analizador de Ventas

### Objetivo
Crear un programa en Python que analice un conjunto de **datos de ventas de una tienda**. El programa debe realizar varias operaciones de Data Science para proporcionar información valiosa sobre las ventas de la tienda.

### Consigna

1. **Lectura de Datos**: Crea un DataFrame que contenga los datos provistos en el archivo **Datos_Ventas_Tienda.csv** provisto en esta lección. El archivo incluirá información como *fecha de venta*, *categoría de producto*, *cantidad vendida* y *precio*.
2. **Fusión de Datos**: Crea un segundo DataFrame que contenga los datos del archivo **Datos_Ventas_Tienda2.csv** (también provisto en esta lección), y concaténalos para tener un solo dataFrame con toda la información.

3. **Tratamiento de Datos**: Utiliza Pandas para manipular estos datos. Deberás realizar tareas como limpieza de datos, filtrado y  transformaciones básicas.
4. **Análisis de Ventas**: Realiza análisis para responder preguntas como:
- ¿Cuál es el producto más vendido?
- ¿Cuál es el mes con más ventas?
5. **Datos Agrupados**: Agrupa los datos por categoría de producto y analiza las ventas por categoría.
6. **Guardar Resultados**: Al final, guarda el DataFrame completo (incluyendo la columna de meses) en un archivo .csv en tu ordenador.

In [1]:
import pandas as pd 

In [3]:
df_ventas1 = pd.read_csv('Datos_Ventas_Tienda.csv')
df_ventas1

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,1/17/2023,Electrónic,7,200,1400
1,9/1/2023,Electrónic,8,200,1600
2,7/29/2023,Juguetes,3,30,90
3,10/4/2023,Alimentos,4,10,40
4,2/28/2023,Electrónic,6,200,1200
...,...,...,...,...,...
995,4/27/2023,Alimentos,2,10,20
996,6/9/2023,Ropa,10,50,500
997,8/21/2023,Alimentos,8,10,80
998,3/28/2023,Electrónic,6,200,1200


In [5]:
df_ventas2 = pd.read_csv('Datos_Ventas_Tienda2.csv')
df_ventas2

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,8/25/2023,Electrónic,5,200,1000
1,8/14/2023,Alimentos,9,10,90
2,8/30/2023,Ropa,6,50,300
3,11/9/2023,Alimentos,2,10,20
4,10/26/2023,Ropa,8,50,400
5,12/1/2023,Juguetes,2,30,60
6,5/16/2023,Electrónic,4,200,800
7,2/9/2023,Libros,1,20,20
8,1/9/2023,Electrónic,2,200,400
9,5/3/2023,Electrónic,6,200,1200


FUSION DE LOS DATAFRAMES

In [9]:
df_ventas_totales = pd.concat([df_ventas1, df_ventas2], ignore_index=True)
df_ventas_totales

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,1/17/2023,Electrónic,7,200,1400
1,9/1/2023,Electrónic,8,200,1600
2,7/29/2023,Juguetes,3,30,90
3,10/4/2023,Alimentos,4,10,40
4,2/28/2023,Electrónic,6,200,1200
...,...,...,...,...,...
1045,9/11/2023,Juguetes,10,30,300
1046,1/3/2023,Juguetes,10,30,300
1047,11/7/2023,Alimentos,3,10,30
1048,8/20/2023,Electrónic,6,200,1200


TRATAMIENTO DE DATOS

In [10]:
df_ventas_totales.shape

(1050, 5)

In [11]:
df_ventas_totales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1050 entries, 0 to 1049
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Fecha            1050 non-null   object
 1   Producto         1050 non-null   object
 2   Cantidad         1050 non-null   int64 
 3   Precio Unitario  1050 non-null   int64 
 4   Total Venta      1050 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 41.1+ KB


In [12]:
df_ventas_totales.describe()

Unnamed: 0,Cantidad,Precio Unitario,Total Venta
count,1050.0,1050.0,1050.0
mean,5.490476,64.428571,349.761905
std,2.882577,72.437522,473.870983
min,1.0,10.0,10.0
25%,3.0,20.0,70.0
50%,5.0,30.0,150.0
75%,8.0,50.0,400.0
max,10.0,200.0,2000.0


In [13]:
# Verificamos el tipo de dato de la columna 'Fecha'
df_ventas_totales['Fecha'][0]

'1/17/2023'

In [14]:
type(df_ventas_totales['Fecha'][0])

str

In [15]:
df_ventas_totales['Fecha'] = pd.to_datetime(df_ventas_totales['Fecha'], format='%m/%d/%Y')
df_ventas_totales

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,2023-01-17,Electrónic,7,200,1400
1,2023-09-01,Electrónic,8,200,1600
2,2023-07-29,Juguetes,3,30,90
3,2023-10-04,Alimentos,4,10,40
4,2023-02-28,Electrónic,6,200,1200
...,...,...,...,...,...
1045,2023-09-11,Juguetes,10,30,300
1046,2023-01-03,Juguetes,10,30,300
1047,2023-11-07,Alimentos,3,10,30
1048,2023-08-20,Electrónic,6,200,1200


In [17]:
df_ventas_totales.duplicated().sum()

29

In [19]:
df_ventas_totales[df_ventas_totales.duplicated()]

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
261,2023-10-26,Ropa,3,50,150
319,2023-04-11,Alimentos,6,10,60
326,2023-01-06,Libros,1,20,20
361,2023-06-29,Alimentos,10,10,100
363,2023-11-11,Alimentos,1,10,10
383,2023-10-12,Juguetes,1,30,30
408,2023-01-09,Ropa,9,50,450
454,2023-09-18,Ropa,10,50,500
492,2023-12-14,Juguetes,6,30,180
552,2023-02-28,Electrónic,6,200,1200


In [22]:
# Elimino las filas duplicadas

df_ventas_totales = df_ventas_totales.drop_duplicates()


In [23]:
# Verifico si hay duplicados nuevamente
df_ventas_totales.duplicated().sum()

0

In [27]:
df_ventas_totales

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,2023-01-17,Electrónic,7,200,1400
1,2023-09-01,Electrónic,8,200,1600
2,2023-07-29,Juguetes,3,30,90
3,2023-10-04,Alimentos,4,10,40
4,2023-02-28,Electrónic,6,200,1200
...,...,...,...,...,...
1045,2023-09-11,Juguetes,10,30,300
1046,2023-01-03,Juguetes,10,30,300
1047,2023-11-07,Alimentos,3,10,30
1048,2023-08-20,Electrónic,6,200,1200


In [28]:
df_ventas_totales.sort_values(by= 'Fecha')

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
374,2023-01-01,Alimentos,3,10,30
932,2023-01-01,Alimentos,2,10,20
717,2023-01-01,Libros,8,20,160
222,2023-01-02,Libros,6,20,120
97,2023-01-02,Electrónic,5,200,1000
...,...,...,...,...,...
696,2023-12-30,Ropa,7,50,350
817,2023-12-30,Electrónic,4,200,800
426,2023-12-30,Electrónic,3,200,600
548,2023-12-31,Electrónic,8,200,1600


In [33]:
df_ventas_totales = df_ventas_totales.groupby(['Fecha', 'Producto'])[['Cantidad', 'Total Venta']].sum().reset_index()
df_ventas_totales

Unnamed: 0,Fecha,Producto,Cantidad,Total Venta
0,2023-01-01,Alimentos,5,50
1,2023-01-01,Libros,8,160
2,2023-01-02,Electrónic,5,1000
3,2023-01-02,Libros,16,320
4,2023-01-03,Alimentos,8,80
...,...,...,...,...
799,2023-12-29,Juguetes,9,270
800,2023-12-30,Electrónic,7,1400
801,2023-12-30,Ropa,7,350
802,2023-12-31,Electrónic,8,1600


Análisis de Ventas: Realiza análisis para responder preguntas como:
- ¿Cuál es el producto más vendido?
- ¿Cuál es el mes con más ventas?

In [40]:
df_agrupado_producto_cant = df_ventas_totales.groupby('Producto')['Cantidad'].sum().reset_index()
df_agrupado_producto_cant

Unnamed: 0,Producto,Cantidad
0,Alimentos,1223
1,Electrónic,1203
2,Juguetes,1095
3,Libros,1023
4,Ropa,1098


In [45]:
indice_producto_mas_vendido =df_agrupado_producto_cant['Cantidad'].idxmax()
indice_producto_mas_vendido

0

In [46]:
producto_mas_vendido = df_agrupado_producto_cant.iloc[indice_producto_mas_vendido]
producto_mas_vendido 

Producto    Alimentos
Cantidad         1223
Name: 0, dtype: object

In [47]:
df_ventas_totales

Unnamed: 0,Fecha,Producto,Cantidad,Total Venta
0,2023-01-01,Alimentos,5,50
1,2023-01-01,Libros,8,160
2,2023-01-02,Electrónic,5,1000
3,2023-01-02,Libros,16,320
4,2023-01-03,Alimentos,8,80
...,...,...,...,...
799,2023-12-29,Juguetes,9,270
800,2023-12-30,Electrónic,7,1400
801,2023-12-30,Ropa,7,350
802,2023-12-31,Electrónic,8,1600


In [48]:
df_ventas_totales['Mes'] = df_ventas_totales['Fecha'].dt.month
df_ventas_totales

Unnamed: 0,Fecha,Producto,Cantidad,Total Venta,Mes
0,2023-01-01,Alimentos,5,50,1
1,2023-01-01,Libros,8,160,1
2,2023-01-02,Electrónic,5,1000,1
3,2023-01-02,Libros,16,320,1
4,2023-01-03,Alimentos,8,80,1
...,...,...,...,...,...
799,2023-12-29,Juguetes,9,270,12
800,2023-12-30,Electrónic,7,1400,12
801,2023-12-30,Ropa,7,350,12
802,2023-12-31,Electrónic,8,1600,12


In [56]:
df_agrupado_por_mes = df_ventas_totales.groupby('Mes')['Cantidad'].sum().reset_index()
df_agrupado_por_mes

Unnamed: 0,Mes,Cantidad
0,1,548
1,2,341
2,3,483
3,4,454
4,5,528
5,6,447
6,7,432
7,8,657
8,9,416
9,10,479


In [58]:
index_mes_con_mas_vtas = df_agrupado_por_mes['Cantidad'].idxmax()
index_mes_con_mas_vtas

7

In [59]:
mes_con_mas_ventas = df_agrupado_por_mes.iloc[7]
mes_con_mas_ventas

Mes           8
Cantidad    657
Name: 7, dtype: int64

Agrupar por categoria de productos

In [64]:
ventas_por_categoria = df_ventas_totales.groupby('Producto')['Total Venta'].sum()
ventas_por_categoria

Producto
Alimentos      12230
Electrónic    240600
Juguetes       32850
Libros         20460
Ropa           54900
Name: Total Venta, dtype: int64

Guardar el DataFrame completo (incluyendo la columna de meses) en un archivo .csv en tu ordenador.

In [63]:
df_ventas_totales.to_csv('C:/Users/Trini/Udemy-DataScience/Mi Aprendizaje/Dia 7 - PANDAS/Proyecto Dia 7/ DataFrame_Ventas_Limpio.csv', index=False)