# Índice del Notebook

## 1. [Introducción](#Introduccion)
   - Objetivo del proyecto
   - Descripción de los datos

## 2. [Carga de Datos](#carga-de-datos)
   - Importación de librerías necesarias
   - Carga de datos desde archivos (CSV, Excel, bases de datos, etc.)
   - Visión general de los datos (primeras filas, dimensiones, etc.)

## 3. [Exploración Inicial de los Datos (EDA)](#exploración-inicial-de-los-datos-eda)
   - Resumen estadístico de las variables
   - Distribución de variables numéricas y categóricas
   - Detección y manejo de valores faltantes
   - Identificación de outliers
   - Visualización inicial (histogramas, gráficos de barras, box plots)

## 4. [Limpieza de Datos](#limpieza-de-datos)
   - Tratamiento de valores faltantes
   - Eliminación o corrección de outliers
   - Conversión de tipos de datos (si es necesario)
   - Normalización/Estandarización de variables (si es aplicable)

## 5. [Transformación de Datos (ETL)](#transformación-de-datos-etl)
   - Creación de nuevas variables (si es necesario)
   - Agrupación y agregación de datos
   - Integración de datos de diferentes fuentes (si es aplicable)
   - Filtrado de datos irrelevantes

## 6. [Análisis Avanzado](#análisis-avanzado)
   - Análisis de correlación entre variables
   - Segmentación de clientes (si aplica)
   - Análisis de series temporales (si aplica)
   - Visualización avanzada (mapas de calor, gráficos de dispersión, etc.)

## 7. [Modelado Predictivo (si aplica)](#modelado-predictivo-si-aplica)
   - Definición del problema de modelado
   - División de datos en conjuntos de entrenamiento y prueba
   - Selección y entrenamiento de modelos
   - Evaluación de modelos

## 8. [Conclusiones](#conclusiones)
   - Resumen de hallazgos importantes
   - Recomendaciones basadas en el análisis
   - Pasos siguientes y posibles mejoras

## 9. [Anexos](#anexos)
   - Cualquier código adicional
   - Documentación adicional
   - Referencias

## 1. Introducción

### Objetivo del proyecto

El objetivo de este proyecto es realizar un análisis exploratorio de un conjunto de datos para identificar patrones, tendencias y relaciones entre las variables. A partir de este análisis, se busca obtener información relevante que permita tomar decisiones informadas y plantear hipótesis para futuros análisis.

### Descripción de los datos

El conjunto de datos contiene información sobre las transacciones de ventas en las tiendas Seven Eleven en Mexico. Cada fila representa una transacción individual y contiene información sobre el numero de ticket, la fecha, tienda, producto, cantidad, precio y otros detalles relevantes. El objetivo es analizar estos datos para identificar patrones de compra, tendencias estacionales, productos más populares, entre otros aspectos relevantes para el negocio.

## 2. Carga de Datos

En esta sección, se realizará la carga de los datos desde un archivo CSV y se mostrará una visión general de los datos.

### Importación de librerías necesarias y crear conexión con las bases de datos

In [None]:
# Import python packages
import streamlit as st
import pandas as pd

# We can also use Snowpark for our analyses!
from snowflake.snowpark.context import get_active_session
session = get_active_session()

### Carga de datos desde archivos (La base de datos)

In [None]:
SELECT T.*,A.ARTICULO_DESC,A.CATEGORIA_ID,A.CATEGORIA_DESC,A.SUBCATEGORIA_ID,A.SUBCATEGORIA_DESC, A.Fabricante_id,f.fabricante_desc,
a.proveedor_id,p.proveedor_desc
FROM DB_LND_RODS_P.SCH_7E.RODS_DAT_TRANSACCIONES T
JOIN DB_LND_RODS_P.SCH_7E.CAT_ARTICULO A ON T.ID_ARTICULO = A.ARTICULO_ID
JOIN DB_LND_RODS_P.SCH_7E.CAT_FABRICANTE F ON A.FABRICANTE_ID = F.FABRICANTE_ID
JOIN DB_LND_RODS_P.SCH_7E.CAT_PROVEEDOR P ON A.PROVEEDOR_ID = P.PROVEEDOR_ID
WHERE ID_FECHA >= 20230000


### Visión general de los datos

A continuación, se mostrará una visión general de los datos, incluyendo las primeras filas, dimensiones del conjunto de datos y tipos de variables.


In [None]:
# Cargardo los dato de la tabla de snowflake
df = dataframe_inicial.to_pandas()
df.head()

In [None]:
# Filtrar solo los elementos con CATEGORIA_ID = 7 y 14
df = df[(df['CATEGORIA_ID'] == 7) | (df['CATEGORIA_ID'] == 18)]
df.head()