# Proyecto del Día - Analizador de Ventas

## Objetivo

Crear un programa en Python que analice un conjunto de datos de ventas de una tienda. El programa debe realizar varias operaciones de Data Science para proporcionar información valiosa sobre las ventas de la tienda.

# Consigna

1. **Lectura de datos:** Crea un DataFrame que contenga los datos provistos en el archivo `Datos_Ventas_Tienda.csv` provisto en esta lección. El archivo incluye información como fecha de venta, categoría de producto, cantidad vendida y precio.

2. **Fusión de datos:** Crea un segundo DataFrame que contenga los datos del archivo `Datos_Ventas_Tienda2.csv` (también provisto) y concaténalos para tener un solo DataFrame con toda la información.

3. **Tratamiento de datos:** Utiliza Pandas para manipular estos datos. Deberás realizar tareas como limpieza de datos, filtrado y transformaciones básicas.

4. **Análisis de ventas:** Realiza análisis para responder preguntas como:

    - ¿Cuál es el producto más vendido?
    - ¿Cuál es el mes con más ventas?

5. **Datos agrupados:** Agrupa los datos por categoría de producto y analiza las ventas por categoría.

6. **Guardar resultados:** Al final, guarda el DataFrame completo (incluyendo la columna de meses) en un archivo CSV en tu ordenador.

In [2]:
import pandas as pd

### Lectura de datos

In [3]:
# Cargar los datos de Datos_Ventas_Tienda.csv
datos_ventas_tienda_1_path: str = './data/Datos_Ventas_Tienda.csv'
datos_ventas_tienda_1: pd.DataFrame = pd.read_csv(datos_ventas_tienda_1_path)
print(datos_ventas_tienda_1)

         Fecha    Producto  Cantidad  Precio Unitario  Total Venta
0    1/17/2023  Electrónic         7              200         1400
1     9/1/2023  Electrónic         8              200         1600
2    7/29/2023    Juguetes         3               30           90
3    10/4/2023   Alimentos         4               10           40
4    2/28/2023  Electrónic         6              200         1200
..         ...         ...       ...              ...          ...
995  4/27/2023   Alimentos         2               10           20
996   6/9/2023        Ropa        10               50          500
997  8/21/2023   Alimentos         8               10           80
998  3/28/2023  Electrónic         6              200         1200
999   3/7/2023  Electrónic         4              200          800

[1000 rows x 5 columns]


In [4]:
# Obtener información preliminar del DataFrame
print(datos_ventas_tienda_1.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Fecha            1000 non-null   object
 1   Producto         1000 non-null   object
 2   Cantidad         1000 non-null   int64 
 3   Precio Unitario  1000 non-null   int64 
 4   Total Venta      1000 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 39.2+ KB
None


In [5]:
# Cargar los datos de Datos_Ventas_Tienda2.csv
datos_ventas_tienda_2_path: str = './data/Datos_Ventas_Tienda2.csv'
datos_ventas_tienda_2: pd.DataFrame = pd.read_csv(datos_ventas_tienda_2_path)
print(datos_ventas_tienda_2)

         Fecha    Producto  Cantidad  Precio Unitario  Total Venta
0    8/25/2023  Electrónic         5              200         1000
1    8/14/2023   Alimentos         9               10           90
2    8/30/2023        Ropa         6               50          300
3    11/9/2023   Alimentos         2               10           20
4   10/26/2023        Ropa         8               50          400
5    12/1/2023    Juguetes         2               30           60
6    5/16/2023  Electrónic         4              200          800
7     2/9/2023      Libros         1               20           20
8     1/9/2023  Electrónic         2              200          400
9     5/3/2023  Electrónic         6              200         1200
10  11/30/2023  Electrónic         5              200         1000
11  10/26/2023  Electrónic         1              200          200
12   8/22/2023    Juguetes         3               30           90
13    6/5/2023  Electrónic         1              200         

In [6]:
# Obtener información preliminar del DataFrame
print(datos_ventas_tienda_2.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Fecha            50 non-null     object
 1   Producto         50 non-null     object
 2   Cantidad         50 non-null     int64 
 3   Precio Unitario  50 non-null     int64 
 4   Total Venta      50 non-null     int64 
dtypes: int64(3), object(2)
memory usage: 2.1+ KB
None


### Fusión de datos

In [7]:
# Concatenar los dos DataFrames
concat_df: pd.DataFrame = pd.concat(
    [datos_ventas_tienda_1, datos_ventas_tienda_2],
    axis=0
)
print(concat_df)

        Fecha    Producto  Cantidad  Precio Unitario  Total Venta
0   1/17/2023  Electrónic         7              200         1400
1    9/1/2023  Electrónic         8              200         1600
2   7/29/2023    Juguetes         3               30           90
3   10/4/2023   Alimentos         4               10           40
4   2/28/2023  Electrónic         6              200         1200
..        ...         ...       ...              ...          ...
45  9/11/2023    Juguetes        10               30          300
46   1/3/2023    Juguetes        10               30          300
47  11/7/2023   Alimentos         3               10           30
48  8/20/2023  Electrónic         6              200         1200
49  7/21/2023    Juguetes         3               30           90

[1050 rows x 5 columns]


### Tratamiento de datos

In [8]:
# Calcular los registros nulos
print(concat_df.isnull().sum())

Fecha              0
Producto           0
Cantidad           0
Precio Unitario    0
Total Venta        0
dtype: int64


In [9]:
# Chequear si hay duplicados
print(concat_df.duplicated().sum())

29


In [10]:
# Ver cuáles son los registros duplicados
duplicated: pd.DataFrame = concat_df[concat_df.duplicated(keep=False)]
print(duplicated)

          Fecha    Producto  Cantidad  Precio Unitario  Total Venta
4     2/28/2023  Electrónic         6              200         1200
15    12/5/2023      Libros         4               20           80
43    4/11/2023   Alimentos         6               10           60
56   11/11/2023   Alimentos         1               10           10
57    9/28/2023      Libros         8               20          160
106   7/30/2023    Juguetes         1               30           30
124  10/26/2023        Ropa         3               50          150
129  10/12/2023    Juguetes         1               30           30
173    1/7/2023      Libros         2               20           40
188   6/29/2023   Alimentos        10               10          100
209    4/3/2023   Alimentos         1               10           10
214    1/6/2023      Libros         1               20           20
261  10/26/2023        Ropa         3               50          150
268    1/9/2023        Ropa         9           

In [11]:
# Eliminar los registros duplicados
drop_duplicates: pd.DataFrame = concat_df.drop_duplicates()
print(drop_duplicates)

        Fecha    Producto  Cantidad  Precio Unitario  Total Venta
0   1/17/2023  Electrónic         7              200         1400
1    9/1/2023  Electrónic         8              200         1600
2   7/29/2023    Juguetes         3               30           90
3   10/4/2023   Alimentos         4               10           40
4   2/28/2023  Electrónic         6              200         1200
..        ...         ...       ...              ...          ...
45  9/11/2023    Juguetes        10               30          300
46   1/3/2023    Juguetes        10               30          300
47  11/7/2023   Alimentos         3               10           30
48  8/20/2023  Electrónic         6              200         1200
49  7/21/2023    Juguetes         3               30           90

[1021 rows x 5 columns]


In [12]:
# Ver info del dataframe drop_duplicates
print(drop_duplicates.info())

<class 'pandas.core.frame.DataFrame'>
Index: 1021 entries, 0 to 49
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Fecha            1021 non-null   object
 1   Producto         1021 non-null   object
 2   Cantidad         1021 non-null   int64 
 3   Precio Unitario  1021 non-null   int64 
 4   Total Venta      1021 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 47.9+ KB
None


In [13]:
# Resetear los índices
df_concat_reset: pd.DataFrame = drop_duplicates.reset_index(drop=True)
print(df_concat_reset)

          Fecha    Producto  Cantidad  Precio Unitario  Total Venta
0     1/17/2023  Electrónic         7              200         1400
1      9/1/2023  Electrónic         8              200         1600
2     7/29/2023    Juguetes         3               30           90
3     10/4/2023   Alimentos         4               10           40
4     2/28/2023  Electrónic         6              200         1200
...         ...         ...       ...              ...          ...
1016  9/11/2023    Juguetes        10               30          300
1017   1/3/2023    Juguetes        10               30          300
1018  11/7/2023   Alimentos         3               10           30
1019  8/20/2023  Electrónic         6              200         1200
1020  7/21/2023    Juguetes         3               30           90

[1021 rows x 5 columns]


In [14]:
# Verificar el tipo de dato de un elemento de la columna 'Fecha'
print(type(df_concat_reset['Fecha'][0]))

<class 'str'>


In [15]:
# Cambiar el tipo de dato de la columna 'Fecha' al tipo correcto
df_concat_reset['Fecha'] = pd.to_datetime(
    df_concat_reset['Fecha'],
    format='%m/%d/%Y'
)
print(df_concat_reset['Fecha'][0])
print(type(df_concat_reset['Fecha'][0]))

2023-01-17 00:00:00
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [16]:
# Ver el DataFrame
print(df_concat_reset)

          Fecha    Producto  Cantidad  Precio Unitario  Total Venta
0    2023-01-17  Electrónic         7              200         1400
1    2023-09-01  Electrónic         8              200         1600
2    2023-07-29    Juguetes         3               30           90
3    2023-10-04   Alimentos         4               10           40
4    2023-02-28  Electrónic         6              200         1200
...         ...         ...       ...              ...          ...
1016 2023-09-11    Juguetes        10               30          300
1017 2023-01-03    Juguetes        10               30          300
1018 2023-11-07   Alimentos         3               10           30
1019 2023-08-20  Electrónic         6              200         1200
1020 2023-07-21    Juguetes         3               30           90

[1021 rows x 5 columns]


In [17]:
# Reordenar las filas por la columna 'Fecha'
df_concat_reset.sort_values(by='Fecha', inplace=True)
print(df_concat_reset)

         Fecha    Producto  Cantidad  Precio Unitario  Total Venta
369 2023-01-01   Alimentos         3               10           30
911 2023-01-01   Alimentos         2               10           20
703 2023-01-01      Libros         8               20          160
222 2023-01-02      Libros         6               20          120
97  2023-01-02  Electrónic         5              200         1000
..         ...         ...       ...              ...          ...
683 2023-12-30        Ropa         7               50          350
801 2023-12-30  Electrónic         4              200          800
419 2023-12-30  Electrónic         3              200          600
539 2023-12-31  Electrónic         8              200         1600
876 2023-12-31      Libros         8               20          160

[1021 rows x 5 columns]


In [18]:
# Volver a resetear los índices, según el nuevo orden
df_concat_reset = df_concat_reset.reset_index(drop=True)
print(df_concat_reset)

          Fecha    Producto  Cantidad  Precio Unitario  Total Venta
0    2023-01-01   Alimentos         3               10           30
1    2023-01-01   Alimentos         2               10           20
2    2023-01-01      Libros         8               20          160
3    2023-01-02      Libros         6               20          120
4    2023-01-02  Electrónic         5              200         1000
...         ...         ...       ...              ...          ...
1016 2023-12-30        Ropa         7               50          350
1017 2023-12-30  Electrónic         4              200          800
1018 2023-12-30  Electrónic         3              200          600
1019 2023-12-31  Electrónic         8              200         1600
1020 2023-12-31      Libros         8               20          160

[1021 rows x 5 columns]


### Análisis de ventas

In [22]:
"""
1. Obtener el producto más vendido (en general), contando la cantidad de
productos vendidos por tipo.
"""
grouped_by_product: pd.Series = df_concat_reset.groupby('Producto')['Cantidad'].sum()
print(grouped_by_product.sort_values(ascending=False))

Producto
Alimentos     1223
Electrónic    1203
Ropa          1098
Juguetes      1095
Libros        1023
Name: Cantidad, dtype: int64


**Respuesta:** Los productos de tipo "Alimentos" han sido los más vendidos según los registros, con un total de 1223 unidades vendidas. Adicionalmente, respondiendo a la pregunta contraria, la menor cantidad de ventas se registra en la categoría "Libros", con 1023.

In [28]:
"""
2. Obtener el mes con más ventas en general, sin importar el tipo de
producto que se haya vendido.
"""
grouped_by_month: pd.Series = df_concat_reset.groupby(
    df_concat_reset['Fecha'].dt.to_period('M')
    )['Cantidad'].sum()
print(grouped_by_month.sort_values(ascending=False))

Fecha
2023-08    657
2023-01    548
2023-05    528
2023-03    483
2023-12    480
2023-10    479
2023-04    454
2023-06    447
2023-07    432
2023-09    416
2023-11    377
2023-02    341
Freq: M, Name: Cantidad, dtype: int64


**Respuesta:** El mes que registró más ventas en general fue Agosto, con 657. Por contraprte, el peor mes fue Febrero, con 341.