# Analizador de Ventas

### Objetivo
Crear un programa en Python que analice un conjunto de **datos de ventas de una tienda**. El programa debe realizar varias operaciones de Data Science para proporcionar información valiosa sobre las ventas de la tienda.

### Consigna

1. **Lectura de Datos**: Crea un DataFrame que contenga los datos provistos en el archivo **Datos_Ventas_Tienda.csv** provisto en esta lección. El archivo incluirá información como *fecha de venta*, *categoría de producto*, *cantidad vendida* y *precio*.
2. **Fusión de Datos**: Crea un segundo DataFrame que contenga los datos del archivo **Datos_Ventas_Tienda2.csv** (también provisto en esta lección), y concaténalos para tener un solo dataFrame con toda la información.

3. **Tratamiento de Datos**: Utiliza Pandas para manipular estos datos. Deberás realizar tareas como limpieza de datos, filtrado y  transformaciones básicas.
4. **Análisis de Ventas**: Realiza análisis para responder preguntas como:
- ¿Cuál es el producto más vendido?
- ¿Cuál es el mes con más ventas?
5. **Datos Agrupados**: Agrupa los datos por categoría de producto y analiza las ventas por categoría.
6. **Guardar Resultados**: Al final, guarda el DataFrame completo (incluyendo la columna de meses) en un archivo .csv en tu ordenador.

In [2]:
import pandas as pd

## Lectura y fusión de datos

In [3]:
df1 = pd.read_csv("Datos_Ventas_Tienda.csv")
df2 = pd.read_csv("Datos_Ventas_Tienda2.csv")

df = pd.concat([df1, df2], ignore_index=True)
df

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,1/17/2023,Electrónic,7,200,1400
1,9/1/2023,Electrónic,8,200,1600
2,7/29/2023,Juguetes,3,30,90
3,10/4/2023,Alimentos,4,10,40
4,2/28/2023,Electrónic,6,200,1200
...,...,...,...,...,...
1045,9/11/2023,Juguetes,10,30,300
1046,1/3/2023,Juguetes,10,30,300
1047,11/7/2023,Alimentos,3,10,30
1048,8/20/2023,Electrónic,6,200,1200


## Tratamiendo de datos
**Revisar si hay valores nulos o tipos de datos que no correspondan con su columna**

In [4]:
print(df.isnull().sum())
print(type(df["Fecha"][0])) #Debe ser un TimeStamp
print(type(df["Producto"][0])) #Debe ser un str
print(type(df["Cantidad"][0])) #Debe ser un int
print(type(df["Precio Unitario"][0])) #Debe ser un int
print(type(df["Total Venta"][0])) #Debe ser un int
df.info()

Fecha              0
Producto           0
Cantidad           0
Precio Unitario    0
Total Venta        0
dtype: int64
<class 'str'>
<class 'str'>
<class 'numpy.int64'>
<class 'numpy.int64'>
<class 'numpy.int64'>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1050 entries, 0 to 1049
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Fecha            1050 non-null   object
 1   Producto         1050 non-null   object
 2   Cantidad         1050 non-null   int64 
 3   Precio Unitario  1050 non-null   int64 
 4   Total Venta      1050 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 41.1+ KB


**Convertir la columna fecha de str a TimeStamp**

In [5]:
df["Fecha"] = pd.to_datetime(df["Fecha"])
df

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,2023-01-17,Electrónic,7,200,1400
1,2023-09-01,Electrónic,8,200,1600
2,2023-07-29,Juguetes,3,30,90
3,2023-10-04,Alimentos,4,10,40
4,2023-02-28,Electrónic,6,200,1200
...,...,...,...,...,...
1045,2023-09-11,Juguetes,10,30,300
1046,2023-01-03,Juguetes,10,30,300
1047,2023-11-07,Alimentos,3,10,30
1048,2023-08-20,Electrónic,6,200,1200


**Reemplazar valores en la columna de "Producto" mal escrito**

In [6]:
df["Producto"] = df["Producto"].replace("Electrónic","Electrónicos")
df

Unnamed: 0,Fecha,Producto,Cantidad,Precio Unitario,Total Venta
0,2023-01-17,Electrónicos,7,200,1400
1,2023-09-01,Electrónicos,8,200,1600
2,2023-07-29,Juguetes,3,30,90
3,2023-10-04,Alimentos,4,10,40
4,2023-02-28,Electrónicos,6,200,1200
...,...,...,...,...,...
1045,2023-09-11,Juguetes,10,30,300
1046,2023-01-03,Juguetes,10,30,300
1047,2023-11-07,Alimentos,3,10,30
1048,2023-08-20,Electrónicos,6,200,1200


**Revisar si tenemos registros en el DataFrame duplicados**

In [7]:
df.duplicated().sum()

np.int64(29)

**Eliminar los registros duplicados**

In [None]:
df.drop_duplicates(inplace=True) #Elimina los registros duplicados
df.duplicated().sum() #Revisa si los duplicados fueron eliminados, este es verdadero si es valor resultante es 0

np.int64(0)

## Análisis de ventas

**¿Cuál es el producto más vendido?**

In [9]:
producto_mas_vendido = df.groupby("Producto")["Cantidad"].sum()
producto_mas_vendido = producto_mas_vendido.sort_values(ascending=False).head(1)
producto_mas_vendido

Producto
Alimentos    1223
Name: Cantidad, dtype: int64

**¿Cuál es el mes con más ventas?**

In [10]:
meses = []
for m in df["Fecha"]:
    meses.append(m.month)

df["Mes"] = meses
df

mes_mayor_venta = df.groupby("Mes")["Total Venta"].sum().sort_values(ascending=False).head(1)
mes_mayor_venta

Mes
8    44810
Name: Total Venta, dtype: int64

## Datos Agrupados

**Agrupar las categorías de producto y analizar las ventas**

In [11]:
agrupar_productos = df.groupby("Producto")["Total Venta"].sum().sort_values(ascending=False)
agrupar_productos

Producto
Electrónicos    240600
Ropa             54900
Juguetes         32850
Libros           20460
Alimentos        12230
Name: Total Venta, dtype: int64

## Guardar el DataFrame en tu equipo

In [22]:
df.to_csv("C:\Data_Science\Analizador_de_ventas\Venta_Tiendas.csv")

  df.to_csv("C:\Data_Science\Analizador_de_ventas\Venta_Tiendas.csv")
