#Análisis y Predicción de Ventas en una Tienda de Retail (Core)

#1-Configuración Inicial del Proyecto:

**1- Crea un repositorio en GitHub para tu proyecto.**

**2- Configura dos ramas en tu repositorio: main y development.**

**3- Agrega un archivo README.md con una descripción del proyecto, instrucciones de instalación y uso.**

In [None]:
"""
1- Configuración Inicial del Proyecto en GitHub
* Crear un Repositorio en GitHub:
* Ve a GitHub y crea un nuevo repositorio.
* Nombra el repositorio, por ejemplo, retail-sales-analysis

2- Clonar el Repositorio a tu Máquina Local:
* Abre tu terminal y clona el repositorio:
git clone https://github.com/Miguel-Sanabria/retail_sales_analysis.git
cd retail-sales-analysis

3- Crear Ramas main y development:
* Asegúrate de estar en la rama main:
git checkout main

* Crea y cambia a la rama development:
git checkout -b development

4- Agregar un Archivo README.md
* Crea un archivo README.md con la siguiente estructura:
# Retail Sales Analysis

Este proyecto analiza y predice las ventas de una tienda de retail utilizando técnicas de ciencia de datos.

## Estructura del Proyecto

- `data/`: Contiene los archivos de datos.
- `notebooks/`: Contiene los notebooks de Jupyter para el análisis.
- `src/`: Contiene el código fuente del proyecto.
- `README.md`: Este archivo.

## Instrucciones de Instalación

1. Clona el repositorio: `git clone https://github.com/Miguel-Sanabria/retail_sales_analysis.git`
2. Instala las dependencias: `pip install -r requirements.txt`

## Uso

Ejecuta los notebooks de Jupyter en la carpeta `notebooks` para realizar el análisis de los datos.

5- Hacer un Commit y Push de los Cambios:
* Agrega y comitea los cambios:
git add README.md
git commit -m "Add README.md"
"""

'\n1- Configuración Inicial del Proyecto en GitHub\n* Crear un Repositorio en GitHub:\n* Ve a GitHub y crea un nuevo repositorio.\n* Nombra el repositorio, por ejemplo, retail-sales-analysis\n\n2- Clonar el Repositorio a tu Máquina Local:\n* Abre tu terminal y clona el repositorio:\ngit clone https://github.com/Miguel-Sanabria/retail_sales_analysis.git\ncd retail-sales-analysis\n\n3- Crear Ramas main y development:\n* Asegúrate de estar en la rama main:\ngit checkout main\n\n* Crea y cambia a la rama development:\ngit checkout -b development\n\n4- Agregar un Archivo README.md\n* Crea un archivo README.md con la siguiente estructura:\n# Retail Sales Analysis\n\nEste proyecto analiza y predice las ventas de una tienda de retail utilizando técnicas de ciencia de datos.\n\n## Estructura del Proyecto\n\n- `data/`: Contiene los archivos de datos.\n- `notebooks/`: Contiene los notebooks de Jupyter para el análisis.\n- `src/`: Contiene el código fuente del proyecto.\n- `README.md`: Este archiv

#2-Carga y Preprocesamiento de Datos:

**1- Carga los datos del archivo CSV utilizando NumPy.**

**2- Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.**

In [3]:
# Montar Google Drive en Colab:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
# Encontrar la ruta del archivo:
!ls "https://drive.google.com/drive/u/0/folders/1-pusNhL__KwpzqKlXykW8M7uwYU5Dhug"

ls: cannot access 'https://drive.google.com/drive/u/0/folders/1-pusNhL__KwpzqKlXykW8M7uwYU5Dhug': No such file or directory


In [5]:
!pip install gdown
import gdown

# ID del archivo de Google Drive
file_id = '193-BpwDE90U1Y2IY4HASqAhrJ_wa76kI'

# Descarga el archivo desde Google Drive
gdown.download(f'https://drive.google.com/uc?id={file_id}', 'Datos_tienda.csv', quiet=False)



Downloading...
From: https://drive.google.com/uc?id=193-BpwDE90U1Y2IY4HASqAhrJ_wa76kI
To: /content/Datos_tienda.csv
100%|██████████| 121k/121k [00:00<00:00, 29.1MB/s]


'Datos_tienda.csv'

#2- Numpy

In [None]:
"""1- Carga los datos del archivo CSV utilizando NumPy."""
import numpy as np

# Cargar el archivo CSV que acabas de descargar
data = np.genfromtxt('Datos_tienda.csv', delimiter=',', skip_header=1)
print(data)

[[      nan 1.900e+01 8.936e+03 1.000e+00]
 [      nan 4.300e+01 8.765e+03 1.000e+00]
 [      nan 3.000e+01 8.235e+03 1.000e+00]
 ...
 [      nan 4.200e+01 5.384e+03 5.000e+00]
 [      nan 2.400e+01 9.925e+03 5.000e+00]
 [      nan 2.400e+01 7.461e+03 5.000e+00]]


In [None]:
"""2- Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis."""
# Convertir a array de NumPy
data_array = df.to_numpy()
# Verificar tipos de datos
print(data_array.dtype)
# Reemplazar valores nulos con ceros (si hay valores nulos)
data_array = np.nan_to_num(data_array, nan=0)  # Cambia nan por 0
# Asegurarse de que los tipos de datos son los correctos
# Aquí asumimos que las columnas son: [Fecha, Producto, Ingreso, Tienda]
data_array[:, 1] = data_array[:, 1].astype(int)    # Convertir Producto a int
data_array[:, 2] = data_array[:, 2].astype(int)    # Convertir Ingreso a int
data_array[:, 3] = data_array[:, 3].astype(int)    # Convertir Tienda a int
# Filtrar datos erróneos, como ingresos negativos
data_array = data_array[data_array[:, 2] >= 0]  # Filtrar filas con ingreso negativo
print(data_array)

object
[[Timestamp('2019-01-01 00:00:00') 19 8936 1]
 [Timestamp('2019-01-02 00:00:00') 43 8765 1]
 [Timestamp('2019-01-03 00:00:00') 30 8235 1]
 ...
 [Timestamp('2021-12-29 00:00:00') 42 5384 5]
 [Timestamp('2021-12-30 00:00:00') 24 9925 5]
 [Timestamp('2021-12-31 00:00:00') 24 7461 5]]


# 2- Pandas

In [6]:
"""1- Carga los datos del archivo CSV utilizando Pandas."""
import pandas as pd

# Cargar el archivo CSV usando Pandas
df = pd.read_csv('Datos_tienda.csv')

# Mostrar las primeras filas del DataFrame
print(df.head())

        Fecha  Productos  Ingreso  Tienda
0  01/01/2019         19     8936       1
1  02/01/2019         43     8765       1
2  03/01/2019         30     8235       1
3  04/01/2019         33     8556       1
4  05/01/2019         23     7511       1


In [10]:
"""2- Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis."""
# Mostrar las primeras filas del DataFrame
print(df.head())

# Comprobar tipos de datos
print(df.dtypes)

# Verificar si hay valores nulos
print(df.isnull().sum())

# Reemplazar valores nulos con ceros
df.fillna(0, inplace=True)

# Convertir columnas a tipos correctos, omitiendo la columna de numeración
df['Fecha'] = pd.to_datetime(df['Fecha'], format='%d/%m/%Y')     # Convertir Fecha a tipo datetime
df['Productos'] = df['Productos'].astype(int)                    # Convertir Productos a int
df['Ingreso'] = df['Ingreso'].astype(int)                        # Convertir Ingreso a int
df['Tienda'] = df['Tienda'].astype(int)                          # Convertir Tienda a int

df = df[df['Ingreso'] >= 0]  # Mantener solo filas con ingreso no negativo

print(df.head())  # Mostrar el DataFrame limpio
print(df.info())  # Resumen de la información del DataFrame

       Fecha  Productos  Ingreso  Tienda
0 2019-01-01         19     8936       1
1 2019-01-02         43     8765       1
2 2019-01-03         30     8235       1
3 2019-01-04         33     8556       1
4 2019-01-05         23     7511       1
Fecha        datetime64[ns]
Productos             int64
Ingreso               int64
Tienda                int64
dtype: object
Fecha        0
Productos    0
Ingreso      0
Tienda       0
dtype: int64
       Fecha  Productos  Ingreso  Tienda
0 2019-01-01         19     8936       1
1 2019-01-02         43     8765       1
2 2019-01-03         30     8235       1
3 2019-01-04         33     8556       1
4 2019-01-05         23     7511       1
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5480 entries, 0 to 5479
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Fecha      5480 non-null   datetime64[ns]
 1   Productos  5480 non-null   int64         
 2   Ingreso   

#3-Exploración de Datos:

**1- Calcula el total de ventas por producto y por tienda.**

**2- Calcula el promedio de ventas diarias por producto y por tienda.**

**3- Identifica los productos y tiendas con mayores y menores ventas.**

# 3- NumPy

In [None]:
"""1-Calcula el total de ventas por producto y por tienda."""
# Convertir columnas a arrays de NumPy
productos = df['Productos'].to_numpy()
tiendas = df['Tienda'].to_numpy()
ingresos = df['Ingreso'].to_numpy()

# Obtener los índices únicos y sus conteos
productos_unicos, idx_productos = np.unique(productos, return_inverse=True)
tiendas_unicas, idx_tiendas = np.unique(tiendas, return_inverse=True)

# Inicializar un array para almacenar el total de ventas
total_ventas = np.zeros((len(tiendas_unicas), len(productos_unicos)))

# Sumar los ingresos en el array total_ventas
for i in range(len(ingresos)):
    total_ventas[idx_tiendas[i], idx_productos[i]] += ingresos[i]

# Mostrar el total de ventas por tienda y por producto
print("Total de ventas por tienda y por producto (NumPy):")
print(total_ventas)

Total de ventas por tienda y por producto (NumPy):
[[184021. 233455. 205109. 150657. 181704. 229855. 177114. 136485. 243197.
  271102. 306890. 185301. 224339. 287781. 289784. 230033. 210514. 248832.
  326855. 184070. 174761. 249589. 251117. 201324. 300628. 245144. 294416.
  214318. 196107. 243323. 271786. 226495. 223146. 204586. 167202. 236869.]
 [257536. 238245. 234834. 150886. 205959. 240966. 222582. 235626. 212660.
  201378. 223521. 184614. 258888. 283259. 270441. 151903. 278665. 283479.
  228119. 192929. 267025. 305478. 119194. 254337. 279477. 218411. 285713.
  199607. 297435. 159622. 256351. 229391. 270113. 219589. 140767. 219138.]
 [182782. 213360. 297287. 217435. 227037. 237230. 231842. 180537. 266133.
  277122. 241052. 182351. 203378. 270294. 243739. 220926. 246556. 251026.
  167508. 186097. 266924. 214379. 292283. 194942. 231103. 246330. 197111.
  174552. 255007. 254441. 230303. 185327. 268629. 263329. 160292. 238827.]
 [179020. 181220. 285197. 296018. 238536. 205372. 280044. 

In [None]:
"""2-Calcula el promedio de ventas diarias por producto y por tienda."""
# Convertir columnas a arrays de NumPy
productos = df['Productos'].to_numpy()
tiendas = df['Tienda'].to_numpy()
ingresos = df['Ingreso'].to_numpy()
fechas = df['Fecha'].to_numpy()

# Obtener los índices únicos y sus conteos
productos_unicos, idx_productos = np.unique(productos, return_inverse=True)
tiendas_unicas, idx_tiendas = np.unique(tiendas, return_inverse=True)
fechas_unicas, idx_fechas = np.unique(fechas, return_inverse=True)

# Inicializar un array para almacenar el total de ventas
total_ventas = np.zeros((len(tiendas_unicas), len(productos_unicos)))

# Inicializar un array para contar las fechas únicas
contador_dias = np.zeros((len(tiendas_unicas), len(productos_unicos)))

# Sumar los ingresos en el array total_ventas y contar días
for i in range(len(ingresos)):
    total_ventas[idx_tiendas[i], idx_productos[i]] += ingresos[i]
    contador_dias[idx_tiendas[i], idx_productos[i]] += 1

# Calcular el promedio de ventas diarias
promedio_ventas_diarias = np.divide(total_ventas, contador_dias, out=np.zeros_like(total_ventas), where=contador_dias != 0)

# Mostrar el promedio de ventas diarias por tienda y por producto
print("Promedio de ventas diarias por tienda y por producto (NumPy):")
print(promedio_ventas_diarias)

Promedio de ventas diarias por tienda y por producto (NumPy):
[[7667.54166667 7781.83333333 7596.62962963 7532.85       7571.
  7414.67741935 7084.56       7582.5        7369.60606061 7134.26315789
  7485.12195122 7126.96153846 7236.74193548 7573.18421053 7832.
  7420.41935484 7518.35714286 7540.36363636 7601.27906977 8003.04347826
  6990.44       7563.3030303  7385.79411765 7456.44444444 7911.26315789
  7660.75       7360.4        7143.93333333 6762.31034483 7603.84375
  7765.31428571 7306.29032258 7969.5        7306.64285714 7600.09090909
  7640.93548387]
 [7574.58823529 7445.15625    7827.8        7544.3        7628.11111111
  7302.         7675.24137931 7140.18181818 7333.10344828 7745.30769231
  7210.35483871 7692.25       7614.35294118 7655.64864865 7726.88571429
  7595.15       7961.85714286 7661.59459459 7603.96666667 7420.34615385
  7853.67647059 7636.95       7449.625      7480.5        7553.43243243
  7531.4137931  7518.76315789 7392.85185185 7626.53846154 7601.04761905
  77

In [None]:
"""3-Identifica los productos y tiendas con mayores y menores ventas."""
# Convertir columnas a arrays de NumPy
productos = df['Productos'].to_numpy()
tiendas = df['Tienda'].to_numpy()
ingresos = df['Ingreso'].to_numpy()

# Obtener los índices únicos y sus conteos
productos_unicos, idx_productos = np.unique(productos, return_inverse=True)
tiendas_unicas, idx_tiendas = np.unique(tiendas, return_inverse=True)

# Inicializar un array para almacenar el total de ventas
total_ventas = np.zeros((len(tiendas_unicas), len(productos_unicos)))

# Sumar los ingresos en el array total_ventas
for i in range(len(ingresos)):
    total_ventas[idx_tiendas[i], idx_productos[i]] += ingresos[i]

# Encontrar el índice del producto y tienda con mayores y menores ventas
max_ventas_idx = np.unravel_index(np.argmax(total_ventas, axis=None), total_ventas.shape)
min_ventas_idx = np.unravel_index(np.argmin(total_ventas, axis=None), total_ventas.shape)

# Obtener los valores máximos y mínimos
max_ventas = total_ventas[max_ventas_idx]
min_ventas = total_ventas[min_ventas_idx]

# Mostrar resultados
print("Producto y tienda con mayores ventas (NumPy):")
print(f"Producto: {productos_unicos[max_ventas_idx[1]]}, Tienda: {tiendas_unicas[max_ventas_idx[0]]}, Ventas: {max_ventas}")

print("Producto y tienda con menores ventas (NumPy):")
print(f"Producto: {productos_unicos[min_ventas_idx[1]]}, Tienda: {tiendas_unicas[min_ventas_idx[0]]}, Ventas: {min_ventas}")

Producto y tienda con mayores ventas (NumPy):
Producto: 27, Tienda: 4, Ventas: 329306.0
Producto y tienda con menores ventas (NumPy):
Producto: 37, Tienda: 2, Ventas: 119194.0


# 3- Panda

In [None]:
"""1-Calcula el total de ventas por producto y por tienda."""
# Calcular el total de ventas por producto y por tienda usando groupby
total_ventas_pandas = df.groupby(['Tienda', 'Productos'])['Ingreso'].sum().reset_index()

# Mostrar el total de ventas por tienda y por producto
print("Total de ventas por tienda y por producto (Pandas):")
print(total_ventas_pandas)

Total de ventas por tienda y por producto (Pandas):
     Tienda  Productos  Ingreso
0         1         15   184021
1         1         16   233455
2         1         17   205109
3         1         18   150657
4         1         19   181704
..      ...        ...      ...
175       5         46   283801
176       5         47   174234
177       5         48   192457
178       5         49   155869
179       5         50   209134

[180 rows x 3 columns]


In [None]:
"""2-Calcula el promedio de ventas diarias por producto y por tienda."""
# Calcular el promedio de ventas diarias por producto y por tienda usando groupby
promedio_ventas_diarias_pandas = df.groupby(['Tienda', 'Productos'])['Ingreso'].mean().reset_index()

# Mostrar el promedio de ventas diarias por tienda y por producto
print("Promedio de ventas diarias por tienda y por producto (Pandas):")
print(promedio_ventas_diarias_pandas)

Promedio de ventas diarias por tienda y por producto (Pandas):
     Tienda  Productos      Ingreso
0         1         15  7667.541667
1         1         16  7781.833333
2         1         17  7596.629630
3         1         18  7532.850000
4         1         19  7571.000000
..      ...        ...          ...
175       5         46  7670.297297
176       5         47  7259.750000
177       5         48  7402.192308
178       5         49  7793.450000
179       5         50  6971.133333

[180 rows x 3 columns]


In [None]:
"""3-Identifica los productos y tiendas con mayores y menores ventas."""
# Calcular el total de ventas por producto y por tienda
total_ventas_pandas = df.groupby(['Tienda', 'Productos'])['Ingreso'].sum().reset_index()

# Encontrar el producto y tienda con mayores ventas
mayores_ventas = total_ventas_pandas.loc[total_ventas_pandas['Ingreso'].idxmax()]

# Encontrar el producto y tienda con menores ventas
menores_ventas = total_ventas_pandas.loc[total_ventas_pandas['Ingreso'].idxmin()]

# Mostrar resultados
print("Producto y tienda con mayores ventas (Pandas):")
print(f"Tienda: {mayores_ventas['Tienda']}, Producto: {mayores_ventas['Productos']}, Ventas: {mayores_ventas['Ingreso']}")

print("Producto y tienda con menores ventas (Pandas):")
print(f"Tienda: {menores_ventas['Tienda']}, Producto: {menores_ventas['Productos']}, Ventas: {menores_ventas['Ingreso']}")

Producto y tienda con mayores ventas (Pandas):
Tienda: 4, Producto: 27, Ventas: 329306
Producto y tienda con menores ventas (Pandas):
Tienda: 2, Producto: 37, Ventas: 119194


#4-Manipulación de Datos:

**1-Filtra los datos para mostrar solo las ventas de un producto específico.**

**2- Filtra los datos para mostrar solo las ventas de una tienda específica.**

**3- Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.**

# 4- NumPy

In [None]:
"""1-Filtra los datos para mostrar solo las ventas de un producto específico."""
# Convertir columnas relevantes a arrays de NumPy
productos = df['Productos'].to_numpy()
ingresos = df['Ingreso'].to_numpy()
fechas = df['Fecha'].to_numpy()
tiendas = df['Tienda'].to_numpy()

# Especifica el ID del producto que deseas filtrar
producto_especifico = 19  # Cambia este valor al producto que desees filtrar

# Aplicar el filtro para obtener solo las filas correspondientes a este producto
filtro = productos == producto_especifico

# Filtrar los datos
fechas_filtradas = fechas[filtro].astype('str')  # Convertir fechas a formato cadena
productos_filtrados = productos[filtro]
ingresos_filtrados = ingresos[filtro]
tiendas_filtradas = tiendas[filtro]

# Combinar los datos filtrados y convertir a formato legible
ventas_filtradas = np.column_stack((fechas_filtradas, productos_filtrados, ingresos_filtrados, tiendas_filtradas))

# Crear cabecera para la tabla
cabecera = np.array([["Fecha", "Producto", "Ingreso", "Tienda"]])

# Unir la cabecera con los datos
tabla_con_cabecera = np.vstack([cabecera, ventas_filtradas])

# Mostrar el resultado
for fila in tabla_con_cabecera:
    print(fila)

['Fecha' 'Producto' 'Ingreso' 'Tienda']
['2019-01-01T00:00:00.000000000' '19' '8936' '1']
['2019-02-15T00:00:00.000000000' '19' '5931' '1']
['2019-04-13T00:00:00.000000000' '19' '5079' '1']
['2019-05-19T00:00:00.000000000' '19' '8496' '1']
['2019-06-30T00:00:00.000000000' '19' '8973' '1']
['2019-11-10T00:00:00.000000000' '19' '7491' '1']
['2019-11-26T00:00:00.000000000' '19' '6074' '1']
['2020-02-25T00:00:00.000000000' '19' '5901' '1']
['2020-04-10T00:00:00.000000000' '19' '5963' '1']
['2020-06-10T00:00:00.000000000' '19' '8460' '1']
['2020-07-04T00:00:00.000000000' '19' '6515' '1']
['2020-07-08T00:00:00.000000000' '19' '7305' '1']
['2020-08-22T00:00:00.000000000' '19' '7974' '1']
['2020-09-08T00:00:00.000000000' '19' '6158' '1']
['2021-01-23T00:00:00.000000000' '19' '9670' '1']
['2021-03-06T00:00:00.000000000' '19' '6964' '1']
['2021-04-16T00:00:00.000000000' '19' '9442' '1']
['2021-04-24T00:00:00.000000000' '19' '6909' '1']
['2021-05-13T00:00:00.000000000' '19' '9954' '1']
['2021-05-

In [None]:
"""2- Filtra los datos para mostrar solo las ventas de una tienda específica."""
# Especificar la tienda que deseas filtrar
tienda_especifica = 2

# Filtrar los datos de la tienda específica
filtro_tienda = tiendas == tienda_especifica

# Aplicar el filtro a cada array
fechas_filtradas = fechas[filtro_tienda].astype('object')  # Convertir las fechas a object
productos_filtrados = productos[filtro_tienda]
ingresos_filtrados = ingresos[filtro_tienda]
tiendas_filtradas = tiendas[filtro_tienda]

# Combinar los datos filtrados en una sola estructura
ventas_filtradas = np.column_stack((fechas_filtradas, productos_filtrados, ingresos_filtrados, tiendas_filtradas))

# Mostrar el resultado
print(ventas_filtradas)

[[1546300800000000000 25 5172 2]
 [1546387200000000000 22 9399 2]
 [1546473600000000000 42 7850 2]
 ...
 [1640736000000000000 21 6005 2]
 [1640822400000000000 28 9616 2]
 [1640908800000000000 20 8810 2]]


In [None]:
"""3- Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales."""
# Datos de ejemplo con fechas válidas
fechas = np.array(['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01'], dtype='datetime64')
productos = np.array([100, 150, 200, 250], dtype=int)
ingresos = np.array([5000, 7500, 10000, 12500], dtype=int)
tiendas = np.array([1, 2, 3, 1], dtype=int)

# 1. Suma total de ingresos
suma_ingresos = np.sum(ingresos)
print("Suma total de ingresos:", suma_ingresos)

# 2. Resta entre productos vendidos e ingresos (como ejemplo)
resta_productos_ingresos = productos - ingresos
print("Resta entre productos y ingresos:", resta_productos_ingresos)

# 3. Multiplicación de ingresos por tasa de impuestos (0.15)
tasa_impuestos = 0.15
ingresos_con_impuestos = ingresos * tasa_impuestos
print("Ingresos multiplicados por tasa de impuestos (15%):", ingresos_con_impuestos)

# 4. División de ingresos entre productos (ingreso promedio por producto)
ingreso_por_producto = ingresos / productos
print("Ingreso promedio por producto:", ingreso_por_producto)

Suma total de ingresos: 35000
Resta entre productos y ingresos: [ -4900  -7350  -9800 -12250]
Ingresos multiplicados por tasa de impuestos (15%): [ 750. 1125. 1500. 1875.]
Ingreso promedio por producto: [50. 50. 50. 50.]


#4- Pandas

In [None]:
"""1-Filtra los datos para mostrar solo las ventas de un producto específico."""
# Especifica el ID del producto que deseas filtrar
producto_especifico = 19

# Filtrar las filas correspondientes a ese producto
ventas_filtradas = df[df['Productos'] == producto_especifico]

# Mostrar el resultado
print(ventas_filtradas)

          Fecha  Productos  Ingreso  Tienda
0    2019-01-01         19     8936       1
45   2019-02-15         19     5931       1
102  2019-04-13         19     5079       1
138  2019-05-19         19     8496       1
180  2019-06-30         19     8973       1
...         ...        ...      ...     ...
5406 2021-10-19         19     6389       5
5420 2021-11-02         19     7290       5
5440 2021-11-22         19     8049       5
5443 2021-11-25         19     9549       5
5453 2021-12-05         19     9487       5

[155 rows x 4 columns]


In [None]:
"""2- Filtra los datos para mostrar solo las ventas de una tienda específica."""
# Especifica la tienda que deseas filtrar
tienda_especifica = 2  # Cambia este valor por la tienda que desees filtrar

# Filtrar las filas correspondientes a esa tienda
ventas_filtradas = df[df['Tienda'] == tienda_especifica]

# Mostrar el resultado
print(ventas_filtradas)

          Fecha  Productos  Ingreso  Tienda
1096 2019-01-01         25     5172       2
1097 2019-01-02         22     9399       2
1098 2019-01-03         42     7850       2
1099 2019-01-04         39     8706       2
1100 2019-01-05         28     8592       2
...         ...        ...      ...     ...
2187 2021-12-27         18     7186       2
2188 2021-12-28         48     6351       2
2189 2021-12-29         21     6005       2
2190 2021-12-30         28     9616       2
2191 2021-12-31         20     8810       2

[1096 rows x 4 columns]


In [None]:
"""3- Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales."""
# Crear un DataFrame con datos válidos
df = pd.DataFrame({
    'Fecha': pd.to_datetime(['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01']),
    'Producto': [100, 150, 200, 250],
    'Ingreso': [5000, 7500, 10000, 12500],
    'Tienda': [1, 2, 3, 1]
})

# 1. Suma total de ingresos
suma_ingresos = df['Ingreso'].sum()
print("Suma total de ingresos:", suma_ingresos)

# 2. Resta entre productos vendidos e ingresos (como ejemplo)
df['Resta_productos_ingresos'] = df['Producto'] - df['Ingreso']
print("Resta entre productos y ingresos:", df['Resta_productos_ingresos'])

# 3. Multiplicación de ingresos por tasa de impuestos (0.15)
tasa_impuestos = 0.15
df['Ingreso_con_impuestos'] = df['Ingreso'] * tasa_impuestos
print("Ingresos con impuestos:", df['Ingreso_con_impuestos'])

# 4. División de ingresos entre productos (ingreso promedio por producto)
df['Ingreso_por_producto'] = df['Ingreso'] / df['Producto']
print("Ingreso promedio por producto:", df['Ingreso_por_producto'])

# Mostrar el DataFrame
print(df)

Suma total de ingresos: 35000
Resta entre productos y ingresos: 0    -4900
1    -7350
2    -9800
3   -12250
Name: Resta_productos_ingresos, dtype: int64
Ingresos con impuestos: 0     750.0
1    1125.0
2    1500.0
3    1875.0
Name: Ingreso_con_impuestos, dtype: float64
Ingreso promedio por producto: 0    50.0
1    50.0
2    50.0
3    50.0
Name: Ingreso_por_producto, dtype: float64
       Fecha  Producto  Ingreso  Tienda  Resta_productos_ingresos  \
0 2021-01-01       100     5000       1                     -4900   
1 2021-02-01       150     7500       2                     -7350   
2 2021-03-01       200    10000       3                     -9800   
3 2021-04-01       250    12500       1                    -12250   

   Ingreso_con_impuestos  Ingreso_por_producto  
0                  750.0                  50.0  
1                 1125.0                  50.0  
2                 1500.0                  50.0  
3                 1875.0                  50.0  
