### Tarea: Consolidación y Limpieza de Archivos de Inventario de Joyería

**Descripción:**

#### Objetivo:
Consolidar y limpiar los archivos de inventario de plata y acero para obtener un solo dataframe con información consistente y sin valores perdidos en las columnas clave.

#### Pasos a seguir:

1. **Importación de Archivos:**
   - Importar los archivos limpios de plata y acero que se encuentran en la carpeta `data_migration/data/clean_files` en este notebook de Jupyter.
   - Verificar que los tipos de columna sean los apropiados y realizar las correcciones necesarias.

2. **Añadir Columna de Categoría:**
   - Añadir una nueva columna llamada `category` a cada dataframe importado:
     - Para el archivo de plata, la columna `category` debe contener el texto "plata".
     - Para el archivo de acero, la columna `category` debe contener el texto "acero".

3. **Concatenar Dataframes:**
   - Utilizar el método `pd.concat` de pandas para concatenar los dos dataframes y obtener un solo dataframe con todos los inventarios de la joyería.

4. **Análisis de Datos Perdidos:**
   - Realizar un análisis sobre los datos perdidos en cada columna del dataframe consolidado.
   - Identificar si hay valores perdidos en columnas clave como `código`, `proveedor` y `source`.

5. **Verificación de Uniformidad de Proveedores:**
   - Utilizar el método `value_counts` sobre la columna `proveedor` para verificar que los nombres de los proveedores sean uniformes.
   - Si es necesario, utilizar el método `replace` para renombrar los proveedores y tener una lista única.

6. **Unificación del Nombre del Tipo de Joya:**
   - Crear una nueva columna llamada `tipo` para unificar los nombres de los tipos de joya.
   - Partir de la columna `source` que contiene el nombre de la hoja original de la fuente de datos.
   - Crear la columna `tipo` a partir de `source`, utilizando el método `copy()`.
   - Renombrar los valores únicos en la columna `tipo` utilizando el método `replace` para tener nombres unificados, como por ejemplo "anillos" en lugar de "anillos" y "anillos_acero".

7. **Guardar el Dataframe Limpio:**
   - Almacenar el dataframe limpio en la carpeta `clean_files` con el nombre `acero_and_plata_consolidated.xlsx`.

**Prioridad:** Alta

**Responsable:** [Nombre del Responsable]

**Fecha de Entrega:** Viernes 2 de agosto de 2024


1. **Importación de Archivos:**
   - Importar los archivos limpios de plata y acero que se encuentran en la carpeta `data_migration/data/clean_files` en este notebook de Jupyter.
   - Verificar que los tipos de columna sean los apropiados y realizar las correcciones necesarias.



In [3]:
import pandas as pd

filepath_plata = "data/clean_files/all_plata_melted.xlsx"
filepath_acero = "data/clean_files/all_acero_melted.xlsx"

all_plata = pd.read_excel(filepath_plata)

all_acero = pd.read_excel(filepath_acero)


In [4]:
all_plata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2883 entries, 0 to 2882
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   fecha_compra   2883 non-null   datetime64[ns]
 1   codigo         2883 non-null   object        
 2   talla          582 non-null    object        
 3   peso           2874 non-null   float64       
 4   costo_gramo    2874 non-null   float64       
 5   costo          2883 non-null   float64       
 6   pvp            2883 non-null   float64       
 7   detalle        2883 non-null   object        
 8   proveedor      2883 non-null   object        
 9   nota           610 non-null    object        
 10  source         2883 non-null   object        
 11  fecha_ingreso  2883 non-null   datetime64[ns]
 12  count_items    2883 non-null   int64         
dtypes: datetime64[ns](2), float64(4), int64(1), object(6)
memory usage: 292.9+ KB


In [5]:
all_acero.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 935 entries, 0 to 934
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   fecha_compra   935 non-null    datetime64[ns]
 1   codigo         935 non-null    object        
 2   costo          935 non-null    float64       
 3   pvp            935 non-null    float64       
 4   detalle        935 non-null    object        
 5   proveedor      935 non-null    object        
 6   nota           71 non-null     object        
 7   source         935 non-null    object        
 8   fecha_ingreso  935 non-null    object        
 9   count_items    935 non-null    int64         
dtypes: datetime64[ns](1), float64(2), int64(1), object(6)
memory usage: 73.2+ KB


2. **Añadir Columna de Categoría:**
   - Añadir una nueva columna llamada `category` a cada dataframe importado:
     - Para el archivo de plata, la columna `category` debe contener el texto "plata".
     - Para el archivo de acero, la columna `category` debe contener el texto "acero".

In [6]:
all_acero["CATEGORY"]= "acero"

all_acero.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 935 entries, 0 to 934
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   fecha_compra   935 non-null    datetime64[ns]
 1   codigo         935 non-null    object        
 2   costo          935 non-null    float64       
 3   pvp            935 non-null    float64       
 4   detalle        935 non-null    object        
 5   proveedor      935 non-null    object        
 6   nota           71 non-null     object        
 7   source         935 non-null    object        
 8   fecha_ingreso  935 non-null    object        
 9   count_items    935 non-null    int64         
 10  CATEGORY       935 non-null    object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(7)
memory usage: 80.5+ KB


In [7]:
all_plata["CATEGORY"] = "plata"
all_plata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2883 entries, 0 to 2882
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   fecha_compra   2883 non-null   datetime64[ns]
 1   codigo         2883 non-null   object        
 2   talla          582 non-null    object        
 3   peso           2874 non-null   float64       
 4   costo_gramo    2874 non-null   float64       
 5   costo          2883 non-null   float64       
 6   pvp            2883 non-null   float64       
 7   detalle        2883 non-null   object        
 8   proveedor      2883 non-null   object        
 9   nota           610 non-null    object        
 10  source         2883 non-null   object        
 11  fecha_ingreso  2883 non-null   datetime64[ns]
 12  count_items    2883 non-null   int64         
 13  CATEGORY       2883 non-null   object        
dtypes: datetime64[ns](2), float64(4), int64(1), object(7)
memory usage: 315.

3. **Concatenar Dataframes:**
   - Utilizar el método `pd.concat` de pandas para concatenar los dos dataframes y obtener un solo dataframe con todos los inventarios de la joyería.

In [8]:
lista_de_dataframe = [all_plata, all_acero]

all_clean_inventory = pd.concat(lista_de_dataframe)



In [9]:
all_clean_inventory.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3818 entries, 0 to 934
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   fecha_compra   3818 non-null   datetime64[ns]
 1   codigo         3818 non-null   object        
 2   talla          582 non-null    object        
 3   peso           2874 non-null   float64       
 4   costo_gramo    2874 non-null   float64       
 5   costo          3818 non-null   float64       
 6   pvp            3818 non-null   float64       
 7   detalle        3818 non-null   object        
 8   proveedor      3818 non-null   object        
 9   nota           681 non-null    object        
 10  source         3818 non-null   object        
 11  fecha_ingreso  3818 non-null   object        
 12  count_items    3818 non-null   int64         
 13  CATEGORY       3818 non-null   object        
dtypes: datetime64[ns](1), float64(4), int64(1), object(8)
memory usage: 447.4+ KB



4. **Análisis de Datos Perdidos:**
   - Realizar un análisis sobre los datos perdidos en cada columna del dataframe consolidado.
   - Identificar si hay valores perdidos en columnas clave como `código`, `proveedor` y `source`.

In [10]:
print(all_clean_inventory.isnull().sum())

fecha_compra        0
codigo              0
talla            3236
peso              944
costo_gramo       944
costo               0
pvp                 0
detalle             0
proveedor           0
nota             3137
source              0
fecha_ingreso       0
count_items         0
CATEGORY            0
dtype: int64


In [11]:
all_clean_inventory[all_clean_inventory.peso.isnull()].CATEGORY.value_counts()


CATEGORY
acero    935
plata      9
Name: count, dtype: int64

5. **Verificación de Uniformidad de Proveedores:**
   - Utilizar el método `value_counts` sobre la columna `proveedor` para verificar que los nombres de los proveedores sean uniformes.
   - Si es necesario, utilizar el método `replace` para renombrar los proveedores y tener una lista única.

In [12]:
all_clean_inventory["proveedor"] = all_clean_inventory["proveedor"].str.strip()


all_clean_inventory["proveedor"].value_counts()

proveedor
SOLEDAD SAENZ              986
CIRKON                     877
VOGA                       466
ALPHA TRADING              211
FABIAN CARVAJAL            171
ANDRES CADAVID             167
XAVIER GUILLEN             141
FABIAN GUZMAN              108
LX USA                      89
ALINA PAZ                   77
FLAVIO JARA                 67
P&K                         47
CHINA                       43
USA                         42
ALEX CASTRO                 38
MILANUS USA                 38
FREDY VARGAS                32
ANGELICA ANRANGO            27
ZULENIS                     26
JUAN CHALCO                 25
IMPORTADORA MALES           21
BODY JEWELZ                 19
FERNANDO JARA               15
IMPORTADORA PADILLA         14
CECILIA CACHIMUEL           13
MIAMI                        8
RIOBAMBA                     7
SEMPERTEGUI                  7
CASA DEL INSUMO              7
ZAFIRO CHORDELEG             5
PALACIO JOYAS                4
IMPORTADORA NUÑEZ            

6. **Unificación del Nombre del Tipo de Joya:**
   - Crear una nueva columna llamada `tipo` para unificar los nombres de los tipos de joya.
   - Partir de la columna `source` que contiene el nombre de la hoja original de la fuente de datos.
   - Crear la columna `tipo` a partir de `source`, utilizando el método `copy()`.
   - Renombrar los valores únicos en la columna `tipo` utilizando el método `replace` para tener nombres unificados, como por ejemplo "anillos" en lugar de "anillos" y "anillos_acero".

In [13]:
all_clean_inventory["tipo"] = all_clean_inventory["source"].copy()



In [14]:
all_clean_inventory["tipo"].value_counts()

tipo
dijes_plata              816
aretes_plata             735
anillos_plata            583
aretes                   451
juegos_plata             238
pulseras_plata           225
cadena_plata             180
juegos                   109
collares_plata            87
pulseras                  81
pulseras_varios           72
collares                  63
dijes                     55
anillos                   48
cadenas acero             48
varios_plata              10
juegos_piedras_perlas      9
Varios acero               4
aretes_pistola             3
collares_varios            1
Name: count, dtype: int64

In [15]:
all_clean_inventory["tipo"] = all_clean_inventory["tipo"].replace(["dijes_plata", "dijes"], "dijes")

all_clean_inventory["tipo"] = all_clean_inventory["tipo"].replace(["aretes_plata", "aretes", "aretes_pistola"], "aretes")

all_clean_inventory["tipo"] = all_clean_inventory["tipo"].replace(["anillos_plata", "anillos"], "anillos")

all_clean_inventory["tipo"] = all_clean_inventory["tipo"].replace(["juegos_plata", "juegos", "juegos_piedras_perlas"], "juegos")

all_clean_inventory["tipo"] = all_clean_inventory["tipo"].replace(["pulseras_plata", "pulseras", "pulseras_varios"], "pulseras")

all_clean_inventory["tipo"] = all_clean_inventory["tipo"].replace(["cadena_plata", "cadenas acero"], "cadenas")

all_clean_inventory["tipo"] = all_clean_inventory["tipo"].replace(["collares_plata", "collares", "collares_varios"], "collares")

all_clean_inventory["tipo"] = all_clean_inventory["tipo"].replace(["varios_plata", "Varios acero"], "varios")





In [16]:
all_clean_inventory["tipo"].value_counts()

tipo
aretes      1189
dijes        871
anillos      631
pulseras     378
juegos       356
cadenas      228
collares     151
varios        14
Name: count, dtype: int64

In [17]:
all_clean_inventory

Unnamed: 0,fecha_compra,codigo,talla,peso,costo_gramo,costo,pvp,detalle,proveedor,nota,source,fecha_ingreso,count_items,CATEGORY,tipo
0,2021-11-22,AP001,T6,2.3,2.4,5.52,18.7,llano 2 máscaras,VOGA,,anillos_plata,2023-03-14 00:00:00,2,plata,anillos
1,2021-11-22,AP001,T7,2.3,2.4,5.52,18.7,llano 2 máscaras,VOGA,,anillos_plata,2023-03-14 00:00:00,1,plata,anillos
2,2021-11-22,AP001,T9,2.3,2.4,5.52,18.7,llano 2 máscaras,VOGA,,anillos_plata,2023-03-14 00:00:00,1,plata,anillos
3,2021-11-22,AP002,T4,1.4,2.4,3.36,17.8,llano circulo figura grabada,VOGA,,anillos_plata,2023-03-14 00:00:00,2,plata,anillos
4,2021-11-22,AP002,T5,1.4,2.4,3.36,17.8,llano circulo figura grabada,VOGA,,anillos_plata,2023-03-14 00:00:00,1,plata,anillos
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
930,2024-06-15,SSJ118,,,,3.00,10.5,"collar aretes disco manchas leopardo, 3 col",FREDY VARGAS,oferta entrego 25/06/24,juegos,05/06/24,6,acero,juegos
931,2023-11-19,SSV001,,,,6.00,16.5,prendedor dor perlas,SOLEDAD SAENZ,entrego 5 junio,Varios acero,25/06/24,3,acero,varios
932,2024-06-15,SSV002,,,,3.00,12.0,"pearcing para ombligo, varios",FREDY VARGAS,,Varios acero,25/06/24,9,acero,varios
933,2024-06-15,SSV003,,,,3.00,14.0,pearcing para nariz media argoll grde circon,FREDY VARGAS,,Varios acero,25/06/24,5,acero,varios


In [18]:

all_clean_inventory.to_excel("data/clean_files/all_clean_inventory.xlsx", index = False)