#Análisis y Predicción de Ventas en una Tienda de Retail (Core)

**1-Configuración Inicial del Proyecto:**
* Crea un repositorio en GitHub para tu proyecto.
* Configura dos ramas en tu repositorio: main y development.
* Agrega un archivo README.md con una descripción del proyecto, instrucciones de instalación y uso.

In [None]:
"""
1- Configuración Inicial del Proyecto en GitHub
* Crear un Repositorio en GitHub:
* Ve a GitHub y crea un nuevo repositorio.
* Nombra el repositorio, por ejemplo, retail-sales-analysis

2- Clonar el Repositorio a tu Máquina Local:
* Abre tu terminal y clona el repositorio:
git clone https://github.com/Miguel-Sanabria/retail_sales_analysis.git
cd retail-sales-analysis

3- Crear Ramas main y development:
* Asegúrate de estar en la rama main:
git checkout main

* Crea y cambia a la rama development:
git checkout -b development

4- Agregar un Archivo README.md
* Crea un archivo README.md con la siguiente estructura:
# Retail Sales Analysis

Este proyecto analiza y predice las ventas de una tienda de retail utilizando técnicas de ciencia de datos.

## Estructura del Proyecto

- `data/`: Contiene los archivos de datos.
- `notebooks/`: Contiene los notebooks de Jupyter para el análisis.
- `src/`: Contiene el código fuente del proyecto.
- `README.md`: Este archivo.

## Instrucciones de Instalación

1. Clona el repositorio: `git clone https://github.com/Miguel-Sanabria/retail_sales_analysis.git`
2. Instala las dependencias: `pip install -r requirements.txt`

## Uso

Ejecuta los notebooks de Jupyter en la carpeta `notebooks` para realizar el análisis de los datos.

5- Hacer un Commit y Push de los Cambios:
* Agrega y comitea los cambios:
git add README.md
git commit -m "Add README.md"
"""

'\n1- Configuración Inicial del Proyecto en GitHub\n* Crear un Repositorio en GitHub:\n* Ve a GitHub y crea un nuevo repositorio.\n* Nombra el repositorio, por ejemplo, retail-sales-analysis\n\n2- Clonar el Repositorio a tu Máquina Local:\n* Abre tu terminal y clona el repositorio:\ngit clone https://github.com/Miguel-Sanabria/retail_sales_analysis.git\ncd retail-sales-analysis\n\n3- Crear Ramas main y development:\n* Asegúrate de estar en la rama main:\ngit checkout main\n\n* Crea y cambia a la rama development:\ngit checkout -b development\n\n4- Agregar un Archivo README.md\n* Crea un archivo README.md con la siguiente estructura:\n# Retail Sales Analysis\n\nEste proyecto analiza y predice las ventas de una tienda de retail utilizando técnicas de ciencia de datos.\n\n## Estructura del Proyecto\n\n- `data/`: Contiene los archivos de datos.\n- `notebooks/`: Contiene los notebooks de Jupyter para el análisis.\n- `src/`: Contiene el código fuente del proyecto.\n- `README.md`: Este archiv

**2- Carga y Preprocesamiento de Datos:**
* Carga los datos del archivo CSV utilizando NumPy.
* Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.

**3- Exploración de Datos:**
* Calcula el total de ventas por producto y por tienda.
* Calcula el promedio de ventas diarias por producto y por tienda.
* Identifica los productos y tiendas con mayores y menores ventas.

**4- Manipulación de Datos:**
* Filtra los datos para mostrar solo las ventas de un producto específico.
* Filtra los datos para mostrar solo las ventas de una tienda específica.
* Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.

In [None]:
def cargar_datos(ruta_archivo):
    # Carga los datos del archivo CSV utilizando NumPy
    data = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=1)
    return data

def ventas_por_productos_tiendas(data):
    # Extraer las columnas necesarias
    productos = data[:, 1]  # Columna de productos
    tiendas = data[:,3]  # Columna de tiendas
    ventas = data[:,4]  # Columna de ventas

    # Obtener productos y tiendas únicos
    productos_unicos, idx_productos = np.unique(productos, return_inverse=True)
    tiendas_unicas, idx_tiendas = np.unique(tiendas, return_inverse=True)

    # Crear una matriz para almacenar las sumas de ingresos por producto y tienda
    total_ventas = np.zeros((len(productos_unicos), len(tiendas_unicas)))

    # Sumar los ingresos por producto y tienda
    for i in range(len(ventas)):
        total_ventas[idx_productos[i], idx_tiendas[i]] += ventas[i]

    return productos_unicos, tiendas_unicas, total_ventas

def promedio_ventas_por_productos_tiendas(data):
    # Extraer las columnas necesarias
    productos = data[:, 1]  # Columna de productos
    tiendas = data[:,3]  # Columna de tiendas
    ventas = data[:,4]  # Columna de ventas
    fechas = data[:,0]  # Columna de fechas

    # Obtener productos y tiendas únicos
    productos_unicos, idx_productos = np.unique(productos, return_inverse=True)
    tiendas_unicas, idx_tiendas = np.unique(tiendas, return_inverse=True)

    # Crear una matriz para almacenar las ventas por día y tienda
    suma_ventas = np.zeros((len(productos_unicos), len(tiendas_unicas)))
    conteo_dias = np.zeros((len(productos_unicos), len(tiendas_unicas)))

    # Usamos un array de tipo object para almacenar fechas
    fechas_unicas = np.empty_like(suma_ventas, dtype=object)  # Cambiaamos a dtype=object porque no acepta string

    # Sumar ventas y contar días únicos
    for i in range(len(ventas)):
        prod_idx = idx_productos[i]
        tienda_idx = idx_tiendas[i]

        # Evitar contar la misma fecha más de una vez
        fecha_actual = fechas[i]
        if fechas_unicas[prod_idx, tienda_idx] != fecha_actual:
            conteo_dias[prod_idx, tienda_idx] += 1
            fechas_unicas[prod_idx, tienda_idx] = fecha_actual

        suma_ventas[prod_idx, tienda_idx] += ventas[i]

    # Calcular el promedio dividiendo el total de ventas entre los días
    promedio_ventas = np.divide(suma_ventas, conteo_dias, out=np.zeros_like(suma_ventas), where=conteo_dias!=0)

    return productos_unicos, tiendas_unicas, promedio_ventas

def productos_mayores_menores_ventas(productos_unicos, tiendas_unicas, total_ventas):
    # Encontrar la venta máxima y mínima
    max_ventas = np.max(total_ventas)
    min_ventas = np.min(total_ventas)

    # Encontrar los índices de los valores máximos y mínimos
    max_indices = np.where(total_ventas == max_ventas)
    min_indices = np.where(total_ventas == min_ventas)

    # Obtener los productos y tiendas correspondientes
    productos_max = productos_unicos[max_indices[0]]
    tiendas_max = tiendas_unicas[max_indices[1]]

    productos_min = productos_unicos[min_indices[0]]
    tiendas_min = tiendas_unicas[min_indices[1]]

    return (productos_max, tiendas_max, max_ventas), (productos_min, tiendas_min, min_ventas)

def filtrar_por_producto(data, producto_especifico):
    # Filtrar los datos para obtener solo las filas que corresponden al producto específico
    filtro_producto = data[:, 1] == producto_especifico

    # Extraer las ventas y otras columnas correspondientes al producto específico
    ventas_producto_especifico = data[:,4][filtro_producto]
    tiendas_producto_especifico = data[:, 3][filtro_producto]

    # Crear listas para almacenar los resultados
    tiendas_resultados = []
    ventas_resultados = []

    # Llenar las listas con los datos filtrados
    for i in range(len(ventas_producto_especifico)):
        tiendas_resultados.append(tiendas_producto_especifico[i])
        ventas_resultados.append(ventas_producto_especifico[i])

    # Convertir las listas a una matriz de NumPy
    resultados = np.array(list(zip(tiendas_resultados, ventas_resultados)),
        dtype=object)

    return resultados

def filtrar_por_tienda(data, tienda_especifico):
    # Filtrar los datos para obtener solo las filas que corresponden al producto específico
    filtro_tienda = data[:, 3] == tienda_especifico

    # Extraer las ventas y otras columnas correspondientes al producto específico
    ventas_tienda_especifico = data[:,4][filtro_tienda]
    producto_tienda_especifico = data[:, 1][filtro_tienda]

    # Crear listas para almacenar los resultados
    productos_resultados = []
    ventas_resultados = []

    # Llenar las listas con los datos filtrados
    for i in range(len(ventas_tienda_especifico)):
        productos_resultados.append(producto_tienda_especifico[i])
        ventas_resultados.append(ventas_tienda_especifico[i])

    # Convertir las listas a una matriz de NumPy
    resultados = np.array(list(zip(productos_resultados, ventas_resultados)),
        dtype=object)

    return resultados

def describe(data):
    # Extraer la columna de ventas
    ventas = data[:, 4]  # Columna de ventas
    # Calcular estadísticas adicionales
    total_ventas = np.sum(ventas)           # Suma total de ventas
    promedio_ventas = np.mean(ventas)       # Promedio de ventas
    ventas_max = np.max(ventas)             # Venta máxima
    ventas_min = np.min(ventas)             # Venta mínima
    desviacion_estandar = np.std(ventas)    #desviación estándar de las ventas
    return total_ventas, promedio_ventas, ventas_max, ventas_min, desviacion_estandar

if __name__ == "__main__":

    # Carga los datos del archivo CSV utilizando NumPy.
    import numpy as np
    # Ruta del archivo CSV
    ruta_archivo = '/content/Datos_tienda.csv'
    data = cargar_datos(ruta_archivo)
    print(f"\nDatos del archivo\n{data}")

    # Calcula el total de ventas por producto y por tienda.
    productos, tiendas, total_ventas = ventas_por_productos_tiendas(data)
    print(f"\nTotal de ventas por producto y por tienda\n{total_ventas}")

    # Calcula el promedio de ventas diarias por producto y por tienda.
    productos, tiendas, promedio_ventas = promedio_ventas_por_productos_tiendas(data)
    print(f"\nPromedio de ventas diarias por producto y por tienda\n{promedio_ventas}")

    # Identifica los productos y tiendas con mayores y menores ventas
    (productos_max, tiendas_max, max_ventas), (productos_min, tiendas_min, min_ventas) = productos_mayores_menores_ventas(productos, tiendas, total_ventas)
    print(f"\nMayor venta: Producto(s) {productos_max} en Tienda(s) {tiendas_max} con {max_ventas}")
    print(f"Menor venta: Producto(s) {productos_min} en Tienda(s) {tiendas_min} con {min_ventas}")

    # Filtrar por un producto específico y obtener la matriz
    producto_especifico = 31
    matriz_resultados = filtrar_por_producto(data, producto_especifico)

    # Mostrar los resultados
    print(f"\nVentas del producto {producto_especifico}:")
    for row in matriz_resultados:
        print(f"Tienda: {row[0]}, Venta: {row[1]}")

    # Filtrar por una tienda específica y obtener la matriz
    tienda_especifico = 3
    matriz_resultados = filtrar_por_tienda(data, tienda_especifico)

    # Mostrar los resultados
    print(f"\nVentas por tienda {tienda_especifico}:")
    for row in matriz_resultados:
        print(f"Producto: {row[0]}, Venta: {row[1]}")

    # Calcular estadísticas adicionales
    (total_ventas, promedio_ventas, ventas_max, ventas_min, desviacion_estandar) = describe(data)
    print(f"\nTotal de ventas: {total_ventas}")
    print(f"Promedio de ventas: {promedio_ventas:.2f}")
    print(f"Venta máxima: {ventas_max}")
    print(f"Venta mínima: {ventas_min}")
    print(f"Desviación estándar de las ventas: {desviacion_estandar:.2f}")


Datos del archivo
[[      nan 1.900e+01 8.936e+03 1.000e+00 6.000e+00]
 [      nan 4.300e+01 8.765e+03 1.000e+00 4.600e+01]
 [      nan 3.000e+01 8.235e+03 1.000e+00 7.600e+01]
 ...
 [      nan 4.200e+01 5.384e+03 5.000e+00 8.700e+01]
 [      nan 2.400e+01 9.925e+03 5.000e+00 5.500e+01]
 [      nan 2.400e+01 7.461e+03 5.000e+00 3.600e+01]]

Total de ventas por producto y por tienda
[[1451. 1664. 1376. 1299. 1636.]
 [1463. 1683. 1400. 1309. 1480.]
 [1506. 1493. 1898. 1875. 1690.]
 [1028. 1132. 1567. 2101. 2023.]
 [1322. 1432. 1545. 1842. 1875.]
 [1472. 1915. 1568. 1179. 1705.]
 [1284. 1727. 1420. 1706. 1715.]
 [ 880. 1723. 1684. 1652.  855.]
 [1616. 1322. 1827.  894. 1751.]
 [1896. 1515. 2100. 1581. 1896.]
 [1979. 1804. 1574. 1311. 1762.]
 [1129. 1333. 1327. 1761. 1514.]
 [1620. 1862. 1298. 2118. 1655.]
 [2066. 2045. 1942. 1156. 1545.]
 [2030. 1890. 1680. 1345. 1424.]
 [1606.  924. 1101. 1238. 1065.]
 [1192. 1856. 1801. 1831. 1426.]
 [1524. 1863. 1614. 1662. 1344.]
 [2460. 1335. 1223. 