## Extracción de datos

Se importan las librerías generales que se utilizarían, además de los documentos CSV y XLSX.

In [1]:
import pandas as pd
import numpy as np
import re #Para quitar y solo mantener caracteres letras

#Excels importaciones
df_Calendar = pd.read_excel("DIM_CALENDAR.xlsx") # Importacion de la base de datos
df_Product = pd.read_excel("DIM_PRODUCT.xlsx")
df_Segment = pd.read_excel("DIM_SEGMENT.xlsx")

#Csv importaciones
df_Category = pd.read_csv("DIM_CATEGORY.csv")
df_Sales = pd.read_csv("FACT_SALES.csv")

# Verificacion de duplicados
def duplicadoData (ArregloAanalizar, nombre):
    duplicados = False 
    for x in ArregloAanalizar.duplicated():
        if x == True: duplicados = True
    print("¿Hay lineas duplicadas en "+nombre+"? " + str(duplicados))

In [2]:
duplicadoData (df_Calendar,"df_Calendar")
duplicadoData (df_Product,"df_Product")
duplicadoData (df_Segment,"df_Segment")
duplicadoData (df_Category,"df_Category")
duplicadoData (df_Sales,"df_Sales")

¿Hay lineas duplicadas en df_Calendar? False
¿Hay lineas duplicadas en df_Product? False
¿Hay lineas duplicadas en df_Segment? False
¿Hay lineas duplicadas en df_Category? False
¿Hay lineas duplicadas en df_Sales? False


## Limpieza/Correccion de datos

### Categoria

In [3]:
df_Category.head()

Unnamed: 0,ID_CATEGORY,CATEGORY
0,1,FABRIC TREATMENT and SANIT\r\n
1,2,AIR CARE
2,3,LAVAVAJILLAS
3,4,MEGA SUPERFICIES
4,5,LAVATORY CARE & BRC


In [4]:
#Tiene Caracteres CATEGORY como /r y /n, asi que se ocupan remover
for posicionCateg in range(len(df_Category["CATEGORY"])): # For para revisar cada posicion
    df_Category.at[posicionCateg,"CATEGORY"]= re.split('[^a-zA-Z ]',df_Category["CATEGORY"][posicionCateg])[0] #Reescribe la posicion con el contenido
             #del split (division de texto) antes de cualquier caracter que no sea letra (Mayuscula o minuscula) o especio
    df_Category.at[posicionCateg,"CATEGORY"]= df_Category["CATEGORY"][posicionCateg].upper() #Hace que todo sea mayusculas (no se hizo antes para NO
             # confundir que hace cada linea)

In [5]:
df_Category.head()

Unnamed: 0,ID_CATEGORY,CATEGORY
0,1,FABRIC TREATMENT AND SANIT
1,2,AIR CARE
2,3,LAVAVAJILLAS
3,4,MEGA SUPERFICIES
4,5,LAVATORY CARE


### Productos

In [6]:
df_Product.head(5)

Unnamed: 0,MANUFACTURER,BRAND,ITEM,ITEM_DESCRIPTION,CATEGORY,FORMAT,ATTR1,ATTR2,ATTR3
0,INDS. ALEN,CLORALEX,75000592,CLORALEX EL RENDIDOR BOT.PLAST. 250ML NAL. 000...,1,LIQUIDO,CLORO,CLORO,NO DEFINIDO
1,INDS. ALEN,CLORALEX,75000608,CLORALEX EL RENDIDOR BOT.PLAST. 500ML NAL. 000...,1,LIQUIDO,CLORO,CLORO,NO DEFINIDO
2,INDS. ALEN,CLORALEX,75000615,CLORALEX EL RENDIDOR BOT.PLAST. 950ML NAL. 000...,1,LIQUIDO,CLORO,CLORO,NO DEFINIDO
3,INDS. ALEN,CLORALEX,75000622,CLORALEX EL RENDIDOR BOT.PLAST. 2000ML NAL 000...,1,LIQUIDO,CLORO,CLORO,NO DEFINIDO
4,INDS. ALEN,CLORALEX,75000639,CLORALEX EL RENDIDOR BOT.PLAST. 3750ML NAL 000...,1,LIQUIDO,CLORO,CLORO,NO DEFINIDO


In [7]:
#Remover cualquier codigo de producto invalido en PRODUCTOS
ValoresNAN_Products = df_Product["ITEM"].isna() # Array booleano para eliminar los NaN
df_Product_N = df_Product[~ValoresNAN_Products] # Crear un array sin los Nan
df_Product_N=df_Product_N.reset_index(drop=True) #Borrar index previo y eliminar la columna del index

### Sales

In [8]:
df_Sales.head()

Unnamed: 0,WEEK,ITEM_CODE,TOTAL_UNIT_SALES,TOTAL_VALUE_SALES,TOTAL_UNIT_AVG_WEEKLY_SALES,REGION
0,34-22,7501058792808BP2,0.006,0.139,1.0,TOTAL AUTOS AREA 5
1,34-22,7501058715883,0.487,116.519,2.916,TOTAL AUTOS AREA 5
2,34-22,7702626213774,1.391,68.453,5.171,TOTAL AUTOS AREA 5
3,34-22,7501058716422,0.022,1.481,1.833,TOTAL AUTOS AREA 5
4,34-22,7501058784353,2.037,182.839,5.375,TOTAL AUTOS AREA 5


In [10]:
#Remover cualquier codigo de producto invalido en SALES
ValoresNAN_Sales = df_Sales["ITEM_CODE"].isna() # Array booleano para eliminar los NaN
df_Sales_N = df_Sales[~ValoresNAN_Sales] # Crear un array sin los Nan
df_Sales_N=df_Sales_N.reset_index(drop=True) #Borrar index previo y eliminar la columna del index

### Calendar

In [11]:
df_Calendar.head()

Unnamed: 0,WEEK,YEAR,MONTH,WEEK_NUMBER,DATE
0,01-21,2021,1,1,2021-01-10
1,02-21,2021,1,2,2021-01-17
2,03-21,2021,1,3,2021-01-24
3,04-21,2021,1,4,2021-01-31
4,05-21,2021,2,5,2021-02-07


### Segment

In [12]:
df_Segment.head()

Unnamed: 0,CATEGORY,ATTR1,ATTR2,ATTR3,FORMAT,SEGMENT
0,1,CLORO,CLORO,BAMBINO,LIQUIDO,BLEACH
1,1,CLORO,CLORO,GERMICIDA,LIQUIDO,BLEACH
2,1,CLORO,CLORO,MASCOTAS,LIQUIDO,BLEACH
3,1,CLORO,CLORO,MULTIUSOS,GEL,BLEACH
4,1,CLORO,CLORO,MULTIUSOS,LIQUIDO,BLEACH


### Guardado de nuevos Data Frame

In [13]:
df_Segment.to_csv('df_Segment.csv')
df_Category.to_csv('df_Category.csv')
df_Product_N.to_csv('df_Product.csv')
df_Sales_N.to_csv('df_Sales.csv')
df_Calendar.to_csv('df_Calendar.csv')