# Proyecto del Día 7 - Sales Analyzer

### Objetivo
Crear un programa en Python que analice un conjunto de **datos de ventas de una tienda**. El programa debe realizar varias operaciones de Data Science para proporcionar información valiosa sobre las ventas de la tienda.

### Consigna

1. **Data Reading**: Crea un DataFrame que contenga los datos provistos en el archivo **Datos_Ventas_Tienda.csv** provisto en esta lección. El archivo incluirá información como *fecha de venta*, *categoría de producto*, *cantidad vendida* y *precio*.
2. **Fusión de Datos**: Crea un segundo DataFrame que contenga los datos del archivo **Datos_Ventas_Tienda2.csv** (también provisto en esta lección), y concaténalos para tener un solo dataFrame con toda la información.

3. **Tratamiento de Datos**: Utiliza Pandas para manipular estos datos. Deberás realizar tareas como limpieza de datos, filtrado y  transformaciones básicas.
4. **Análisis de Ventas**: Realiza análisis para responder preguntas como:
- ¿Cuál es el producto más vendido?
- ¿Cuál es el mes con más ventas?
5. **Datos Agrupados**: Agrupa los datos por categoría de producto y analiza las ventas por categoría.
6. **Guardar Resultados**: Al final, guarda el DataFrame completo (incluyendo la columna de meses) en un archivo .csv en tu ordenador.

In [1]:
import pandas as pd

In [3]:
#1. Data Reading
df_ventas = pd.read_csv('/kaggle/input/ventas-tienda/Datos_Ventas_Tienda.csv')
df_ventas

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,1/17/2023,Electrónic,7,200,1400
1,9/1/2023,Electrónic,8,200,1600
2,7/29/2023,Juguetes,3,30,90
3,10/4/2023,Alimentos,4,10,40
4,2/28/2023,Electrónic,6,200,1200
...,...,...,...,...,...
995,4/27/2023,Alimentos,2,10,20
996,6/9/2023,Ropa,10,50,500
997,8/21/2023,Alimentos,8,10,80
998,3/28/2023,Electrónic,6,200,1200


In [5]:
df_ventas2 = pd.read_csv('/kaggle/input/ventas-tienda/Datos_Ventas_Tienda2.csv')
df_ventas2

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,8/25/2023,Electrónic,5,200,1000
1,8/14/2023,Alimentos,9,10,90
2,8/30/2023,Ropa,6,50,300
3,11/9/2023,Alimentos,2,10,20
4,10/26/2023,Ropa,8,50,400
5,12/1/2023,Juguetes,2,30,60
6,5/16/2023,Electrónic,4,200,800
7,2/9/2023,Libros,1,20,20
8,1/9/2023,Electrónic,2,200,400
9,5/3/2023,Electrónic,6,200,1200


In [39]:
#Concatenar Dataframes
df = pd.concat([df_ventas,df_ventas2],ignore_index=True)
df

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,1/17/2023,Electrónic,7,200,1400
1,9/1/2023,Electrónic,8,200,1600
2,7/29/2023,Juguetes,3,30,90
3,10/4/2023,Alimentos,4,10,40
4,2/28/2023,Electrónic,6,200,1200
...,...,...,...,...,...
1045,9/11/2023,Juguetes,10,30,300
1046,1/3/2023,Juguetes,10,30,300
1047,11/7/2023,Alimentos,3,10,30
1048,8/20/2023,Electrónic,6,200,1200


In [40]:
#Tratamiento de datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1050 entries, 0 to 1049
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Fecha            1050 non-null   object
 1   Producto         1050 non-null   object
 2   Cantidad         1050 non-null   int64 
 3   Precio Unitario  1050 non-null   int64 
 4   Total Venta      1050 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 41.1+ KB


In [41]:
df.describe()

Unnamed: 0,Cantidad,Precio Unitario,Total Venta
count,1050.0,1050.0,1050.0
mean,5.490476,64.428571,349.761905
std,2.882577,72.437522,473.870983
min,1.0,10.0,10.0
25%,3.0,20.0,70.0
50%,5.0,30.0,150.0
75%,8.0,50.0,400.0
max,10.0,200.0,2000.0


In [42]:
#Pasamos la fecha de un tipo str a un tipo date_time.
df['Fecha'] = pd.to_datetime(df['Fecha'])
df

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,2023-01-17,Electrónic,7,200,1400
1,2023-09-01,Electrónic,8,200,1600
2,2023-07-29,Juguetes,3,30,90
3,2023-10-04,Alimentos,4,10,40
4,2023-02-28,Electrónic,6,200,1200
...,...,...,...,...,...
1045,2023-09-11,Juguetes,10,30,300
1046,2023-01-03,Juguetes,10,30,300
1047,2023-11-07,Alimentos,3,10,30
1048,2023-08-20,Electrónic,6,200,1200


In [43]:
print(type(df['Fecha'][0]))
print()
df.info()

<class 'pandas._libs.tslibs.timestamps.Timestamp'>

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1050 entries, 0 to 1049
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Fecha            1050 non-null   datetime64[ns]
 1   Producto         1050 non-null   object        
 2   Cantidad         1050 non-null   int64         
 3   Precio Unitario  1050 non-null   int64         
 4   Total Venta      1050 non-null   int64         
dtypes: datetime64[ns](1), int64(3), object(1)
memory usage: 41.1+ KB


**Análisis de Ventas**

In [52]:
#¿Cuál es el producto más vendido?
producto_mas_vendido = df.groupby(by='Producto')['Cantidad'].sum()
#De aquí se deduce que el producti más vendido son los Alimentos 
producto_mas_vendido=producto_mas_vendido.sort_values(ascending=False)
producto_mas_vendido.head(1)

Producto
Alimentos    1262
Name: Cantidad, dtype: int64

In [57]:
#Cuál es el mes con más ventas?
meses = []
for fecha in df['Fecha']:
    meses.append(fecha.month)
    
meses

[1,
 9,
 7,
 10,
 2,
 3,
 11,
 11,
 3,
 9,
 9,
 1,
 11,
 5,
 1,
 12,
 6,
 5,
 1,
 6,
 11,
 5,
 2,
 7,
 9,
 9,
 12,
 7,
 1,
 5,
 5,
 2,
 6,
 4,
 8,
 9,
 2,
 11,
 6,
 3,
 6,
 11,
 10,
 4,
 10,
 11,
 5,
 8,
 1,
 12,
 3,
 6,
 5,
 8,
 6,
 12,
 11,
 9,
 8,
 2,
 8,
 10,
 11,
 8,
 10,
 7,
 8,
 10,
 8,
 9,
 10,
 11,
 3,
 7,
 6,
 1,
 9,
 12,
 6,
 12,
 5,
 7,
 12,
 8,
 6,
 8,
 8,
 1,
 6,
 6,
 4,
 7,
 7,
 10,
 11,
 11,
 7,
 1,
 5,
 1,
 1,
 12,
 2,
 8,
 1,
 1,
 7,
 7,
 3,
 8,
 12,
 5,
 7,
 6,
 9,
 8,
 7,
 10,
 5,
 9,
 1,
 1,
 9,
 2,
 10,
 4,
 3,
 12,
 9,
 10,
 7,
 7,
 5,
 10,
 11,
 6,
 3,
 6,
 2,
 1,
 10,
 10,
 6,
 4,
 3,
 1,
 5,
 8,
 8,
 12,
 9,
 2,
 10,
 10,
 12,
 11,
 7,
 1,
 7,
 8,
 10,
 10,
 7,
 1,
 3,
 6,
 3,
 1,
 11,
 12,
 5,
 2,
 6,
 1,
 10,
 4,
 10,
 7,
 12,
 10,
 1,
 2,
 9,
 5,
 8,
 11,
 12,
 12,
 6,
 6,
 11,
 6,
 5,
 7,
 8,
 5,
 7,
 3,
 10,
 4,
 1,
 12,
 1,
 7,
 10,
 8,
 7,
 8,
 8,
 4,
 7,
 8,
 2,
 11,
 1,
 5,
 7,
 6,
 12,
 4,
 12,
 5,
 1,
 4,
 9,
 8,
 3,
 7,
 9,
 9,
 11,
 7,
 9,
 7,
 11

In [60]:
#Añadimos la columna de Mes al DataFrame
df['Mes']=meses
df.head()

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta,Mes
0,2023-01-17,Electrónic,7,200,1400,1
1,2023-09-01,Electrónic,8,200,1600,9
2,2023-07-29,Juguetes,3,30,90,7
3,2023-10-04,Alimentos,4,10,40,10
4,2023-02-28,Electrónic,6,200,1200,2


In [61]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1050 entries, 0 to 1049
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Fecha            1050 non-null   datetime64[ns]
 1   Producto         1050 non-null   object        
 2   Cantidad         1050 non-null   int64         
 3   Precio Unitario  1050 non-null   int64         
 4   Total Venta      1050 non-null   int64         
 5   Mes              1050 non-null   int64         
dtypes: datetime64[ns](1), int64(4), object(1)
memory usage: 49.3+ KB


In [65]:
#¿Cuál es el mes con más ventas?
mes_con_mas_ventas = df.groupby('Mes')['Total Venta'].sum()
mes_con_mas_ventas = mes_con_mas_ventas.sort_values(ascending=False)
mes_con_mas_ventas.head(1)
#Descubrimos que el mes de agosto es el mes con más ventas

Mes
8    45090
Name: Total Venta, dtype: int64

In [66]:
#Datos Agrupados: Agrupa los datos por categoría de producto y analiza las ventas por categoría.
venta_por_categoria = df.groupby(by='Producto')['Total Venta'].sum()
venta_por_categoria

Producto
Alimentos      12620
Electrónic    244000
Juguetes       33390
Libros         20840
Ropa           56400
Name: Total Venta, dtype: int64

In [70]:
#Guardamos el df con los cambios como un archivo CSV
df.to_csv('/kaggle/working/ventas.csv')