# Analizador de ventas

## Objetivo

Crear un programa que analice un conjunto de datos de ventas en una tienda, el programa debe realizar varias operaciones de Data Science para proporcionar informacioón valiosa sobre las ventas de la tienda.

## Consigna
1. **Lectura de Datos**: Crea un DataFrame que contenga los datos provistos en el archivo **Datos_Ventas_Tienda.csv** .El archivo incluirá información como _fecha de venta, categoria de producto, cantidad vendida y precio_.
2. **Fusion de Datos**: Crear un segundo DataFrame que contenga los datos del archivo **Datos_Ventas_Tienda2.csv** y concatenarlo con el anterior para tener un solo DataFrame con toda la información.
3. **Tratamiento de Datos**: Se deberán realizar tareas como _limpieza de datos, filtrado y transformaciones básicas_.
4. **Análisis de Ventas**: Realiza análisis para responder preguntas como:
    * ¿Cuál es el producto más vendido?
    * ¿Cuál es el mes con más ventas?
5. **Datos Agrupados**: Agrupa los datos por Categoria de Producto y analiza las ventas por categoria.
6. **Guardar Resultados**: Al final guarda el DataFrame completo (incluyendo la columna de meses) en un archivo csv en tu ordenador.

## Lectura de Datos

In [1]:
import pandas as pd
import xml.etree.ElementTree as ET

ruta_csv1 = '/_DATA/Datos_Ventas_Tienda.csv'
ruta_csv2 = '/_DATA/Datos_Ventas_Tienda2.csv'

In [35]:
df1 = pd.read_csv(ruta_csv1)
df1

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,1/17/2023,Electrónic,7,200,1400
1,9/1/2023,Electrónic,8,200,1600
2,7/29/2023,Juguetes,3,30,90
3,10/4/2023,Alimentos,4,10,40
4,2/28/2023,Electrónic,6,200,1200
...,...,...,...,...,...
995,4/27/2023,Alimentos,2,10,20
996,6/9/2023,Ropa,10,50,500
997,8/21/2023,Alimentos,8,10,80
998,3/28/2023,Electrónic,6,200,1200


In [36]:
df2 = pd.read_csv(ruta_csv2)
df2

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,8/25/2023,Electrónic,5,200,1000
1,8/14/2023,Alimentos,9,10,90
2,8/30/2023,Ropa,6,50,300
3,11/9/2023,Alimentos,2,10,20
4,10/26/2023,Ropa,8,50,400
5,12/1/2023,Juguetes,2,30,60
6,5/16/2023,Electrónic,4,200,800
7,2/9/2023,Libros,1,20,20
8,1/9/2023,Electrónic,2,200,400
9,5/3/2023,Electrónic,6,200,1200


## Fusion de Datos

In [49]:
df3 = pd.concat([df1, df2], ignore_index=True)
df3

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,1/17/2023,Electrónic,7,200,1400
1,9/1/2023,Electrónic,8,200,1600
2,7/29/2023,Juguetes,3,30,90
3,10/4/2023,Alimentos,4,10,40
4,2/28/2023,Electrónic,6,200,1200
...,...,...,...,...,...
1045,9/11/2023,Juguetes,10,30,300
1046,1/3/2023,Juguetes,10,30,300
1047,11/7/2023,Alimentos,3,10,30
1048,8/20/2023,Electrónic,6,200,1200


## Tratamiento de Datos

In [38]:
df3.shape

(1050, 5)

In [39]:
df3.columns

Index(['Fecha', 'Producto', 'Cantidad', 'Precio Unitario', 'Total Venta'], dtype='object')

In [40]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1050 entries, 0 to 1049
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Fecha            1050 non-null   object
 1   Producto         1050 non-null   object
 2   Cantidad         1050 non-null   int64 
 3   Precio Unitario  1050 non-null   int64 
 4   Total Venta      1050 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 41.1+ KB


In [41]:
df3.describe()

Unnamed: 0,Cantidad,Precio Unitario,Total Venta
count,1050.0,1050.0,1050.0
mean,5.490476,64.428571,349.761905
std,2.882577,72.437522,473.870983
min,1.0,10.0,10.0
25%,3.0,20.0,70.0
50%,5.0,30.0,150.0
75%,8.0,50.0,400.0
max,10.0,200.0,2000.0


In [50]:
type(df3['Fecha'][0])

str

In [51]:
# Pasamos la columna Fecha a formato datetime
df3['Fecha'] = pd.to_datetime(df3['Fecha'].astype(str).str.strip()
, format='%m/%d/%Y')
df3['Fecha']


0      2023-01-17
1      2023-09-01
2      2023-07-29
3      2023-10-04
4      2023-02-28
          ...    
1045   2023-09-11
1046   2023-01-03
1047   2023-11-07
1048   2023-08-20
1049   2023-07-21
Name: Fecha, Length: 1050, dtype: datetime64[ns]

In [52]:
# Validamos que ya se haya modificado el tipo de dato de Fecha
type(df3['Fecha'][0])

pandas._libs.tslibs.timestamps.Timestamp

In [72]:
# Revisamos que ya se vean bien los datos por si nos lta mas limpieza
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1050 entries, 0 to 1049
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Fecha            1050 non-null   datetime64[ns]
 1   Producto         1050 non-null   object        
 2   Cantidad         1050 non-null   int64         
 3   Precio Unitario  1050 non-null   int64         
 4   Total Venta      1050 non-null   int64         
dtypes: datetime64[ns](1), int64(3), object(1)
memory usage: 41.1+ KB


## Cual es el producto mas Vendido?

In [70]:
# Ordenamos para ver los productos mas vendidos y vemos que deberemos hacer una agrupacion
df3.sort_values(by='Cantidad', ascending=False)

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
8,2023-03-22,Ropa,10,50,500
1046,2023-01-03,Juguetes,10,30,300
1045,2023-09-11,Juguetes,10,30,300
14,2023-01-19,Juguetes,10,30,300
17,2023-05-19,Libros,10,20,200
...,...,...,...,...,...
712,2023-08-15,Electrónic,1,200,200
1036,2023-07-30,Juguetes,1,30,30
708,2023-10-22,Juguetes,1,30,30
704,2023-02-19,Libros,1,20,20


In [71]:
# Metodo1: con esta agrupacion vemos cual es el producto mas vendido
# prod_mas_vendido = df3.groupby('Producto')['Cantidad'].sum().idxmax() # Esto directamente nos dice el producto mas vendido
# prod_mas_vendido

# Metodo2: con esta agrupacion vemos cual es el producto mas vendido y la cantidad
prod_mas_vendido = df3.groupby('Producto')['Cantidad'].sum()
prod_mas_vendido = prod_mas_vendido.sort_values(ascending=False)
prod_mas_vendido.head(1)

Producto
Alimentos    1262
Name: Cantidad, dtype: int64

## Cual es el mes con mas ventas?

In [73]:
# Metodo para extraer solo el mes de la columna Fecha
meses = []
for f in df3['Fecha']:
    meses.append(f.month)

# Metodo para agregar la columna de meses al DataFrame
df3['Meses'] = meses
df3

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta,Meses
0,2023-01-17,Electrónic,7,200,1400,1
1,2023-09-01,Electrónic,8,200,1600,9
2,2023-07-29,Juguetes,3,30,90,7
3,2023-10-04,Alimentos,4,10,40,10
4,2023-02-28,Electrónic,6,200,1200,2
...,...,...,...,...,...,...
1045,2023-09-11,Juguetes,10,30,300,9
1046,2023-01-03,Juguetes,10,30,300,1
1047,2023-11-07,Alimentos,3,10,30,11
1048,2023-08-20,Electrónic,6,200,1200,8


In [74]:
ventas_por_mes = df3.groupby('Meses')['Total Venta'].sum().sort_values(ascending=False)
ventas_por_mes.head(1)

Meses
8    45090
Name: Total Venta, dtype: int64

## Analisis de ventas por categoria

In [75]:
ventas_por_categoria = df3.groupby('Producto')['Total Venta'].sum()
ventas_por_categoria

Producto
Alimentos      12620
Electrónic    244000
Juguetes       33390
Libros         20840
Ropa           56400
Name: Total Venta, dtype: int64

## Guardar DataFrame como csv en nuestro ordenador

In [76]:
df3.to_csv('/_DATA/Resumen_Ventas.csv', index=False) # Si no se le indica ruta, toma por default la misma donde esta guardado el cuaderno