### Tarea: Consolidación y Limpieza de Archivos de Inventario de Joyería

**Descripción:**

#### Objetivo:
Consolidar y limpiar los archivos de inventario de plata y acero para obtener un solo dataframe con información consistente y sin valores perdidos en las columnas clave.

#### Pasos a seguir:

1. **Importación de Archivos:**
   - Importar los archivos limpios de plata y acero que se encuentran en la carpeta `data_migration/data/clean_files` en este notebook de Jupyter.
   - Verificar que los tipos de columna sean los apropiados y realizar las correcciones necesarias.

2. **Añadir Columna de Categoría:**
   - Añadir una nueva columna llamada `category` a cada dataframe importado:
     - Para el archivo de plata, la columna `category` debe contener el texto "plata".
     - Para el archivo de acero, la columna `category` debe contener el texto "acero".

3. **Concatenar Dataframes:**
   - Utilizar el método `pd.concat` de pandas para concatenar los dos dataframes y obtener un solo dataframe con todos los inventarios de la joyería.

4. **Análisis de Datos Perdidos:**
   - Realizar un análisis sobre los datos perdidos en cada columna del dataframe consolidado.
   - Identificar si hay valores perdidos en columnas clave como `código`, `proveedor` y `source`.

5. **Verificación de Uniformidad de Proveedores:**
   - Utilizar el método `value_counts` sobre la columna `proveedor` para verificar que los nombres de los proveedores sean uniformes.
   - Si es necesario, utilizar el método `replace` para renombrar los proveedores y tener una lista única.

6. **Unificación del Nombre del Tipo de Joya:**
   - Crear una nueva columna llamada `tipo` para unificar los nombres de los tipos de joya.
   - Partir de la columna `source` que contiene el nombre de la hoja original de la fuente de datos.
   - Crear la columna `tipo` a partir de `source`, utilizando el método `copy()`.
   - Renombrar los valores únicos en la columna `tipo` utilizando el método `replace` para tener nombres unificados, como por ejemplo "anillos" en lugar de "anillos" y "anillos_acero".

7. **Guardar el Dataframe Limpio:**
   - Almacenar el dataframe limpio en la carpeta `clean_files` con el nombre `acero_and_plata_consolidated.xlsx`.

**Prioridad:** Alta

**Responsable:** [Nombre del Responsable]

**Fecha de Entrega:** Viernes 2 de agosto de 2024


1. **Importación de Archivos:**
   - Importar los archivos limpios de plata y acero que se encuentran en la carpeta `data_migration/data/clean_files` en este notebook de Jupyter.
   - Verificar que los tipos de columna sean los apropiados y realizar las correcciones necesarias.



In [4]:
import pandas as pd

filepath_plata = "data/clean_files/all_plata_melted.xlsx"
filepath_acero = "data/clean_files/all_acero_melted.xlsx"

all_plata = pd.read_excel(filepath_plata)

all_acero = pd.read_excel(filepath_acero)


In [6]:
all_plata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2883 entries, 0 to 2882
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   fecha_compra   2883 non-null   datetime64[ns]
 1   codigo         2883 non-null   object        
 2   talla          582 non-null    object        
 3   peso           2874 non-null   float64       
 4   costo_gramo    2874 non-null   float64       
 5   costo          2883 non-null   float64       
 6   pvp            2883 non-null   float64       
 7   detalle        2883 non-null   object        
 8   proveedor      2883 non-null   object        
 9   nota           610 non-null    object        
 10  source         2883 non-null   object        
 11  fecha_ingreso  2883 non-null   datetime64[ns]
 12  count_items    2883 non-null   int64         
dtypes: datetime64[ns](2), float64(4), int64(1), object(6)
memory usage: 292.9+ KB


In [7]:
all_acero.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 935 entries, 0 to 934
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   fecha_compra   935 non-null    datetime64[ns]
 1   codigo         935 non-null    object        
 2   costo          935 non-null    float64       
 3   pvp            935 non-null    float64       
 4   detalle        935 non-null    object        
 5   proveedor      935 non-null    object        
 6   nota           71 non-null     object        
 7   source         935 non-null    object        
 8   fecha_ingreso  935 non-null    object        
 9   count_items    935 non-null    int64         
dtypes: datetime64[ns](1), float64(2), int64(1), object(6)
memory usage: 73.2+ KB


2. **Añadir Columna de Categoría:**
   - Añadir una nueva columna llamada `category` a cada dataframe importado:
     - Para el archivo de plata, la columna `category` debe contener el texto "plata".
     - Para el archivo de acero, la columna `category` debe contener el texto "acero".

In [26]:
all_acero["CATEGORY"]= "acero"

all_acero.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 935 entries, 0 to 934
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   fecha_compra   935 non-null    datetime64[ns]
 1   codigo         935 non-null    object        
 2   costo          935 non-null    float64       
 3   pvp            935 non-null    float64       
 4   detalle        935 non-null    object        
 5   proveedor      935 non-null    object        
 6   nota           71 non-null     object        
 7   source         935 non-null    object        
 8   fecha_ingreso  935 non-null    object        
 9   count_items    935 non-null    int64         
 10  category       935 non-null    object        
 11  CATEGORY       935 non-null    object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(8)
memory usage: 87.8+ KB


In [15]:
all_plata["CATEGORY"] = "plata".astype(str)
all_plata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2883 entries, 0 to 2882
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   fecha_compra   2883 non-null   datetime64[ns]
 1   codigo         2883 non-null   object        
 2   talla          582 non-null    object        
 3   peso           2874 non-null   float64       
 4   costo_gramo    2874 non-null   float64       
 5   costo          2883 non-null   float64       
 6   pvp            2883 non-null   float64       
 7   detalle        2883 non-null   object        
 8   proveedor      2883 non-null   object        
 9   nota           610 non-null    object        
 10  source         2883 non-null   object        
 11  fecha_ingreso  2883 non-null   datetime64[ns]
 12  count_items    2883 non-null   int64         
 13  CATEGORY       2883 non-null   object        
dtypes: datetime64[ns](2), float64(4), int64(1), object(7)
memory usage: 315.

3. **Concatenar Dataframes:**
   - Utilizar el método `pd.concat` de pandas para concatenar los dos dataframes y obtener un solo dataframe con todos los inventarios de la joyería.

In [24]:
all_clean_inventory = pd.concat([all_plata,all_acero])



In [25]:
all_clean_inventory.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3818 entries, 0 to 934
Data columns (total 15 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   fecha_compra   3818 non-null   datetime64[ns]
 1   codigo         3818 non-null   object        
 2   talla          582 non-null    object        
 3   peso           2874 non-null   float64       
 4   costo_gramo    2874 non-null   float64       
 5   costo          3818 non-null   float64       
 6   pvp            3818 non-null   float64       
 7   detalle        3818 non-null   object        
 8   proveedor      3818 non-null   object        
 9   nota           681 non-null    object        
 10  source         3818 non-null   object        
 11  fecha_ingreso  3818 non-null   object        
 12  count_items    3818 non-null   int64         
 13  CATEGORY       3818 non-null   object        
 14  category       935 non-null    object        
dtypes: datetime64[ns](1), float