# Proyecto del Día 7 - Analizador de Ventas

### Objetivo
Crear un programa en Python que analice un conjunto de **datos de ventas de una tienda**. El programa debe realizar varias operaciones de Data Science para proporcionar información valiosa sobre las ventas de la tienda.

### Consigna

1. **Lectura de Datos**: Crea un DataFrame que contenga los datos provistos en el archivo **Datos_Ventas_Tienda.csv** provisto en esta lección. El archivo incluirá información como *fecha de venta*, *categoría de producto*, *cantidad vendida* y *precio*.
2. **Fusión de Datos**: Crea un segundo DataFrame que contenga los datos del archivo **Datos_Ventas_Tienda2.csv** (también provisto en esta lección), y concaténalos para tener un solo dataFrame con toda la información.

3. **Tratamiento de Datos**: Utiliza Pandas para manipular estos datos. Deberás realizar tareas como limpieza de datos, filtrado y  transformaciones básicas.
4. **Análisis de Ventas**: Realiza análisis para responder preguntas como:
- ¿Cuál es el producto más vendido?
- ¿Cuál es el mes con más ventas?
5. **Datos Agrupados**: Agrupa los datos por categoría de producto y analiza las ventas por categoría.
6. **Guardar Resultados**: Al final, guarda el DataFrame completo (incluyendo la columna de meses) en un archivo .csv en tu ordenador.

## LECTURA DE DATOS 

In [1]:
import pandas as pd
#data reading 
data1=pd.read_csv(r'C:\Users\migue\OneDrive\Desktop\curso de data science\Día+7\Día 7\Datos_Ventas_Tienda.csv')
data2=pd.read_csv(r'C:\Users\migue\OneDrive\Desktop\curso de data science\Día+7\Día 7\Datos_Ventas_Tienda2.csv')

## FUSION DE DATOS

In [20]:
#join the data
df=pd.concat([data1,data2], ignore_index = True)
df

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,1/17/2023,Electrónic,7,200,1400
1,9/1/2023,Electrónic,8,200,1600
2,7/29/2023,Juguetes,3,30,90
3,10/4/2023,Alimentos,4,10,40
4,2/28/2023,Electrónic,6,200,1200
...,...,...,...,...,...
1045,9/11/2023,Juguetes,10,30,300
1046,1/3/2023,Juguetes,10,30,300
1047,11/7/2023,Alimentos,3,10,30
1048,8/20/2023,Electrónic,6,200,1200


## LIMPIEZA Y TRANSFORMACIÓN DE DATOS 

In [24]:
#check data
df.info() #we find no missing values. We just need to correctly change the ype of variable for Fecha column

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1050 entries, 0 to 1049
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Fecha            1050 non-null   object
 1   Producto         1050 non-null   object
 2   Cantidad         1050 non-null   int64 
 3   Precio Unitario  1050 non-null   int64 
 4   Total Venta      1050 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 41.1+ KB


In [32]:
#get Fecha to date format 
df.Fecha=pd.to_datetime(df.Fecha, format = "%m/%d/%Y")
df.Fecha

0      2023-01-17
1      2023-09-01
2      2023-07-29
3      2023-10-04
4      2023-02-28
          ...    
1045   2023-09-11
1046   2023-01-03
1047   2023-11-07
1048   2023-08-20
1049   2023-07-21
Name: Fecha, Length: 1050, dtype: datetime64[ns]

In [38]:
#some basic stats about data 
df.describe()

Unnamed: 0,Fecha,Cantidad,Precio Unitario,Total Venta
count,1050,1050.0,1050.0,1050.0
mean,2023-06-30 17:48:20.571428608,5.490476,64.428571,349.761905
min,2023-01-01 00:00:00,1.0,10.0,10.0
25%,2023-04-02 00:00:00,3.0,20.0,70.0
50%,2023-07-04 00:00:00,5.0,30.0,150.0
75%,2023-09-27 00:00:00,8.0,50.0,400.0
max,2023-12-31 00:00:00,10.0,200.0,2000.0
std,,2.882577,72.437522,473.870983


## ¿CUÁL ES EL PRODUCTO MÁS VENDIDO?

In [50]:
#whats the most sold product?
byproduct=df.iloc[:,1:5].groupby('Producto').sum()

byproduct

Unnamed: 0_level_0,Cantidad,Precio Unitario,Total Venta
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alimentos,1262,2240,12620
Electrónic,1220,45400,244000
Juguetes,1113,6180,33390
Libros,1042,3880,20840
Ropa,1128,9950,56400


In [52]:
#most sold product is alimentos

## ¿CUÁL ES EL MES CON MÁS VENTAS?

In [58]:
#what's the month with the most sales?
#first we create a new column 
df['Mes']=df.Fecha.dt.month
df

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta,Mes
0,2023-01-17,Electrónic,7,200,1400,1
1,2023-09-01,Electrónic,8,200,1600,9
2,2023-07-29,Juguetes,3,30,90,7
3,2023-10-04,Alimentos,4,10,40,10
4,2023-02-28,Electrónic,6,200,1200,2
...,...,...,...,...,...,...
1045,2023-09-11,Juguetes,10,30,300,9
1046,2023-01-03,Juguetes,10,30,300,1
1047,2023-11-07,Alimentos,3,10,30,11
1048,2023-08-20,Electrónic,6,200,1200,8


In [68]:
bymonth=df.iloc[:,[2,5]].groupby('Mes').sum()

bymonth

Unnamed: 0_level_0,Cantidad
Mes,Unnamed: 1_level_1
1,564
2,351
3,483
4,476
5,533
6,460
7,434
8,669
9,441
10,486


In [70]:
#month number 8 is the one, so its august

In [None]:
#saving results
df.to_csv('route')