## **Descripción del flujo de proyecto y las operaciones realizadas en el mismo**

-----
### 📊 **Informe de Análisis de la Tabla ‘Tabla_Detallecompras’** (Rubén Hernán Pared)

#### 1. **Introducción** 📝
Este informe detalla el análisis de la tabla **"Tabla_Detallecompras"**. Se utilizaron herramientas como **Python, Excel, Google Sheets y Power BI** para limpiar, explorar y analizar los datos. El objetivo fue asegurar la calidad y utilidad de la información.

#### 2. **Herramientas Utilizadas** 🛠️
- **Python**: Manipulación de datos, detección de outliers, y visualización.
  - Bibliotecas: `pandas`, `numpy`, `matplotlib`, `seaborn`, `scikit-learn`.
- **Excel**: Inspección inicial y reportes preliminares.
- **Google Sheets**: Colaboración en tiempo real y análisis ligeros en la nube.
- **Power BI**: Visualización avanzada y dashboards interactivos.

#### 3. **Variables Analizadas** 📈
- **PurchasePrice**: Distribución, tendencia central y outliers.
- **Quantity**: Relación con otras variables y distribución.
- **Dollars**: Análisis de distribución, outliers y correlación.
- **Fechas (PODate, ReceivingDate, InvoiceDate, PayDate)**: Análisis de tiempos de entrega y eficiencia en la cadena de suministro.

#### 4. **Técnicas de Limpieza de Datos** 🧹
- **Manejo de Valores Nulos**: Reemplazo de valores en la columna `Size`.
- **Corrección de Tipos de Datos**: Conversión de fechas y revisión de formatos numéricos.
- **Cambio de Nombres de Columnas**: Renombrado para mayor claridad.
- **Detección de Outliers**: Identificación con el método IQR y análisis de impacto.
- **Eliminación de Duplicados**: Revisión y eliminación de registros duplicados.

#### 5. **Exploración de Datos y EDA** 🔍
- **Tendencia Central**: Cálculo de media, mediana y moda.
- **Dispersión**: Rango, desviación estándar, varianza e IQR.
- **Outliers**: Identificación y análisis con IQR.
- **Correlación**: Análisis entre variables clave.
- **Visualización**: Gráficos de distribución y dashboards en Power BI.

#### 6. **Resultados y Conclusiones** 🏁
- **Outliers**: Identificación de outliers significativos en `PurchasePrice`, `Quantity`, y `Dollars`.
- **Relaciones**: Correlaciones entre `PurchasePrice` y `Quantity`, indicando posibles descuentos por volumen.
- **Optimización de la Cadena de Suministro**: Áreas de mejora identificadas en tiempos de entrega.
- **Visualización**: Dashboards que facilitan la toma de decisiones.
---
### 📊 **Informe de Análisis de la Tabla ‘Productos’** (Daniela Forti Ruiz)

#### 1. **Colaboraciones** 🤝
- **GitHub**: Desarrollo en equipo del README y aportación de logos.
- **Trello**: Gestión de Sprints 1 y 2, asegurando un seguimiento exhaustivo del proyecto.

#### 2. **Análisis de Datos y Gestión de Bases de Datos** 💾
- **Python**: Limpieza y preparación de datos, tratamiento de valores nulos y EDA.
- **SQL Management Studio**: Definición de claves primarias (PK) y foráneas (FK) para crear un robusto diagrama de entidad-relación.
- **Visualización**: Creación de distribuciones y análisis de relaciones entre variables.

#### 3. **Desarrollo Actual** 🚧
- **Plantilla de PowerPoint**: En desarrollo para la presentación final al cliente, asegurando una comunicación clara y profesional de los resultados obtenidos.
--- 
### 📊 **Colaboraciones e Informe de Análisis de las Tablas ‘Tabla_InventarioInicial’ y ‘Tabla_InventarioFinal’** (Carlos Fernando Dussan Rivera)

#### 1. **Preparación del Entorno** ⚙️
1. **Instalación y carga de librerías**:
   - Instalé **seaborn** para visualización de datos.
   - Importé las librerías: `pandas`, `numpy`, `matplotlib.pyplot`, `seaborn`, y `os`.
   - Verifiqué las versiones para asegurar la compatibilidad del entorno.
2. **Establecimiento del estado de dependencia**:
   - Guardé el estado actual de las dependencias en un archivo `requirementscfdr.txt` usando `pip freeze`, garantizando la replicación futura del entorno.

#### 2. **Carga y Exploración Inicial de los Datos** 📂
1. **Carga de archivos CSV**:
   - Cargué los archivos `BegInvFinal12312016.csv` y `EndInvFinal12312016.csv` en DataFrames (`df_BegInvFINAL` y `df_EndInvFINAL`).
   - Verifiqué que los datos se cargaron correctamente.
2. **Verificación de la estructura de los DataFrames**:
   - Utilicé `shape` e `info` para revisar la estructura de los DataFrames.
   - Identifiqué que `df_BegInvFINAL` no contenía valores nulos, mientras que `df_EndInvFINAL` tenía valores nulos en la columna **City**.

#### 3. **Análisis y Limpieza de Datos** 🧹
1. **Integridad de la relación Store-City**:
   - Agrupé por **Store** y **City** en `df_BegInvFINAL` para verificar que cada tienda estaba asociada a una única ciudad.
2. **Manejo de valores nulos en City**:
   - Identifiqué que la tienda **46** tenía valores nulos en `df_EndInvFINAL`.
   - Reemplacé el valor nulo usando la información de `StoreAndCity`, ubicando la tienda 46 en **TYWARDREATH**.
3. **Conversión de columnas de fecha**:
   - Convertí las columnas **startDate** y **endDate** a formato `datetime` en ambos DataFrames.
4. **Verificación de unicidad en identificadores**:
   - Confirmé que la columna **InventoryId** contenía valores únicos en ambos DataFrames.
5. **Análisis de variabilidad en Brand y Store**:
   - Identifiqué menos variedad de productos (Brand) en el inventario inicial comparado con el final.
   - Detecté la presencia de una tienda adicional (**tienda 81**) en el inventario final, sugiriendo expansión o inclusión tardía de inventario.

#### 4. **Transformación y Análisis Avanzado** 🔍
1. **Determinación de nuevas tiendas y ciudades**:
   - Comparé los valores únicos de **Store** y **City** entre ambos DataFrames.
   - Detecté que **PEMBROKE** y la **tienda 81** aparecieron en el inventario final, indicando una posible expansión.
2. **Creación de la columna TotalValue**:
   - Añadí **TotalValue** (producto de `onHand` y `Price`) en ambos DataFrames para cuantificar el valor total del inventario.
3. **Análisis comparativo de valor de inventario por ciudad**:
   - Agrupé por **City** y sumé **TotalValue** para identificar las 10 ciudades principales en términos de valor de inventario.
   - Generé gráficos de barras para comparar visualmente estas ciudades entre los periodos inicial y final.
4. **Análisis comparativo de valor de inventario por producto (Description)**:
   - Realicé un análisis similar para **Description**, comparando el valor total de los productos entre ambos inventarios.
   - Filtré y grafiqué las 10 descripciones de productos con mayor valor en el inventario final.

#### 5. **Renombrado de Columnas y Almacenamiento de Resultados** 💾
1. **Renombrado de columnas**:
   - Renombré las columnas de ambos DataFrames a nombres más descriptivos y en español para facilitar su manejo.
2. **Almacenamiento de resultados**:
   - Guardé los DataFrames transformados en archivos CSV (`Tabla_InventarioInicial.csv` y `Tabla_InventarioFinal.csv`), asegurando la disponibilidad de los datos para futuros análisis.

### **Conclusión** 🏁
Este proceso de **EDA** y **ETL** no solo limpió y preparó los datos, sino que también identificó cambios importantes en las operaciones de las tiendas y la distribución de productos. La creación de visualizaciones y la cuantificación del valor del inventario proporcionaron una visión clara del estado inicial y final del inventario, apoyando decisiones informadas para la gestión futura. Los resultados fueron documentados y almacenados para facilitar su reutilización en análisis posteriores.

---
### 📊 **Colaboraciones e Informe de Análisis de la Tabla ‘Tabla_Compras’** (Hernán Rufino Román)

#### 1. **Creación de la Cuenta de GitHub y Organización del Repositorio** 👨‍💻
   - **GitHub**: Se creó una cuenta para la empresa y se configuró el proyecto en el repositorio.
   - **Accesos**: Se otorgó acceso a los miembros del equipo y se organizaron las carpetas para las tareas.
#### 2. **Análisis ETL y EDA** 📊
   - **Carga del CSV**: Se realizó la carga inicial del archivo en Python.
   - **Limpieza y análisis**: 
     - **Histograma** de la columna **Dollars**.
     - **Gráfico de dispersión** entre **Quantity** y **Dollars**.
     - **Gráfico de barras** para montos por proveedor.
     - **Gráfico de tendencia temporal** de compras.
   - **Subida al repositorio**: Todo el proceso de limpieza y análisis fue documentado y subido a GitHub.
#### 3. **Creación del Stack Tecnológico** 🛠️
   - **Documentación**: Se definió y documentó el stack tecnológico del proyecto, disponible en el repositorio.
#### 4. **Configuración del Entorno de Desarrollo** 💻
   - **Máquina virtual**: Se creó una VM para alojar el servidor SQL.
   - **Base de datos**: Creación de la base de datos, configuración de PK y FK, y renombrado de tablas/columnas.
   - **Python**: Todo fue realizado en Python y subido al repositorio.
#### 5. **Gestión de Tareas** 📅
   - **Trello**: Creación de cuenta para gestionar tareas.
   - **Google Drive**: Se creó una carpeta para compartir la documentación.
   - **Power BI**: Conexión de la base de datos SQL a Power BI y establecimiento de un grupo de trabajo en Power BI Fabric.
---
### 📊 **Colaboraciones e Informe de Análisis de la Tabla ‘Tabla_Compras’** (Marcelo Fabián López)

#### 1. **Creación de Cuenta de Gmail para la Consultora** 📧
   - **Gmail**: Se creó una cuenta de Gmail para la consultora, accesible por los analistas del equipo.
#### 2. **Configuración en Visual Studio Code y Conexión a SQL Server** 🖥️
   - **Librerías**: Se importaron `pandas`, `sqlalchemy`, y `pyodbc`.
   - **Conexión**: Configuración de parámetros de conexión a SQL Server usando `pyodbc` y `sqlalchemy`.
   - **Carga de CSV**: Se cargó el archivo `SalesFINAL12312016.csv` en un DataFrame.
   - **Verificación**: Se creó la tabla en SQL Server Management Studio y se corroboró la importación con los primeros 5 registros.
#### 3. **Exploratory Data Analysis (EDA) y Extract, Transform, Load (ETL)** 🔍
   - **Librerías adicionales**: Se instalaron `pandas`, `numpy`, `matplotlib`, `seaborn`, `sqlalchemy`, y `pyodbc`.
   - **Inspección inicial**: 
     - Visualización de las primeras 5 filas.
     - Estadísticas descriptivas y verificación de tipos de datos.
   - **Conversión**: Se optimizó el formato de columnas clave, como `SalesDate` y `Volume`.
   - **Detección de nulos y duplicados**: Se buscaron nulos y duplicados, sin encontrar ninguno.
   - **Visualización**: 
     - `histplot` de distribución de ventas por precio de producto.
     - `scatterplot` para relacionar `SalesPrice` y `SalesQuantity`.
   - **Función estadística**: Creación de función para calcular mediana, varianza, rango, y moda.
   - **Verificación final**: Se revisaron los tipos de datos después de la formateación.
#### 4. **ETL desde Visual Studio Code y a través de Python** ⚙️
   - **Renombrado de tabla y columnas**: 
     - Renombramiento de la tabla como `Tabla_VentasFinal`.
     - Ajustes en formatos de columnas para establecer FK.
   - **Creación de PK**: Se creó la columna `VentasID` como PK de la tabla.
   - **Limpieza de datos**: Establecimiento de valores `NULL` para FK sin correspondencia en tablas relacionadas.
   - **Resolución de problemas**: Gestión de FK con nombres diferentes debido a problemas en la creación.

-----
### **Conclusión Final** 🏁

Estos informes reflejan un proceso exhaustivo de análisis y transformación de datos, centrado en la preparación de los entornos de desarrollo, la configuración de conexiones a bases de datos, y la ejecución de procesos ETL y EDA. La colaboración y la gestión de tareas fueron fundamentales para el éxito de estos proyectos, asegurando una documentación precisa y accesible en repositorios compartidos. La creación de gráficos y la implementación de soluciones para problemas de integridad en los datos destacan la capacidad de los equipos para adaptarse y resolver desafíos técnicos.

El trabajo meticuloso en la limpieza, estructuración y análisis de datos proporcionó una base sólida para la toma de decisiones, permitiendo identificar patrones, tendencias y posibles áreas de expansión o mejora en las operaciones. La integración de herramientas como GitHub, Power BI, y SQL Server consolidó el enfoque colaborativo y tecnológico, alineado con los objetivos del análisis de inventarios y ventas.
Este conjunto de procesos y documentaciones subraya la importancia de la organización, la atención al detalle y la capacidad de adaptación en proyectos de análisis de datos complejos, contribuyendo a un entorno de desarrollo eficiente y a resultados analíticos robustos.

