# Projeto 2 - Ordenamento

## Autor: Sandro Saorin da Silva

## 

## Descrição do Projeto

O objetivo deste projeto será desenvolver um algoritmo para que seja feito o ordenamento do conjunto de dados `ordenamiento.csv`, onde a ideia é separar produtos por um _score_ de relevância mas que também equilibre entre as categorias disponíveis no _dataset_.

As regras a serem seguidas para o ordenamento do conjunto de dados são:

- 1. O `domain_id` não pode repetir em 4 posições consecutivas (entende-se que pode aparece até 4 vezes um dado elemento, o original e mais 3 consecutivos);
- 2. O `vertical` não pode repetir em 1 posição consecutiva;
- 3. Se existir o id `641416750` na lista, ele deve aparecer na posição 3 sendo essa regra mais forte que as demais;
- 4. Se existir o id `22351223` na lista, ele deve aparecer na posição 6 sendo essa regra mais forte que as demais;
- 5. Nas posições 9, 10 e 11 devem conter os elementos da categoria `HOME&DECOR` sendo está regra mais forte que as regras 1 e 2;
- 6. Complementar a essas condições, a tabela deve respeitar a ordenação do maior para o menor _score_.

## 

## Estratégia para o Desenvolvimento

O ponto principal e mais complexo é justamente desenvolver o algoritmo que faça o ordenamento intercalando registros de acordo com as variáveis `vertical` e `domain`. Então a estratégia é separar em vários _datasets_ de acordo com as verticais, no caso serão 9 verticais. Em seguida, o algoritmo vai verificar a primeira linha de cada tabela e escolher a linha que tiver o maior _score_, agregando a uma tabela final.

Para os passos seguintes, seria justamente aplicando a mesma lógica levando consideração agora os condições de casos consecutivos. Por fim, aplica-se as regras a parte para finalizar o ordenamento do _dataset_.

O desenvolvimento do algoritmo comentado encontra-se a seguir:


In [1]:
# Carrega as principais bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Alterar o número de linhas e colunas a serem mostradas
pd.set_option('display.max_columns', None)
pd.set_option("display.max_rows", None)

In [3]:
# Carrega o conjunto de dados
orders = pd.read_csv('ordenamiento.csv')

In [4]:
# Ordena o conjunto de dados
orders = orders.sort_values(by=['vertical', 'score'], ascending = [True, False])

In [5]:
# Salva os valores de verticais disponíveis
vertical = ['CE',
            'HOME & INDUSTRY',
            'APP & SPORTS',
            'BEAUTY & HEALTH',
            'ACC',
            'T & B',
            'CPG',
            'OTHERS',
            'ENTERTAINMENT']

In [6]:
# Separa o conjunto de dados para cada uma das verticais
df1 = orders[orders['vertical'] == vertical[0]]
df2 = orders[orders['vertical'] == vertical[1]]
df3 = orders[orders['vertical'] == vertical[2]]
df4 = orders[orders['vertical'] == vertical[3]]
df5 = orders[orders['vertical'] == vertical[4]]
df6 = orders[orders['vertical'] == vertical[5]]
df7 = orders[orders['vertical'] == vertical[6]]
df8 = orders[orders['vertical'] == vertical[7]]
df9 = orders[orders['vertical'] == vertical[8]]

In [7]:
# Ordena cada um dos dataframes criados
df1 = df1.sort_values(by=['vertical', 'score'], ascending = [True, False])
df2 = df2.sort_values(by=['vertical', 'score'], ascending = [True, False])
df3 = df3.sort_values(by=['vertical', 'score'], ascending = [True, False])
df4 = df4.sort_values(by=['vertical', 'score'], ascending = [True, False])
df5 = df5.sort_values(by=['vertical', 'score'], ascending = [True, False])
df6 = df6.sort_values(by=['vertical', 'score'], ascending = [True, False])
df7 = df7.sort_values(by=['vertical', 'score'], ascending = [True, False])
df8 = df8.sort_values(by=['vertical', 'score'], ascending = [True, False])
df9 = df9.sort_values(by=['vertical', 'score'], ascending = [True, False])

Algoritmo de ordenamento dos valores consecutivos:

In [8]:
# Cria um dicionario para os dataframes das verticais
data = {'df1' : df1,
        'df2' : df2,
        'df3' : df3,
        'df4' : df4,
        'df5' : df5,
        'df6' : df6,
        'df7' : df7,
        'df8' : df8,
        'df9' : df9}

# cria um dataset final
df_final = pd.DataFrame(columns = orders.columns)

# Inicializa as variaveis
vertical = ''
domain = ''
cnt_domain = 0

# Loop com as regras de consecutivos 
for i in range(orders.shape[0]):
    # Variavel para checar os scores (os scores são positivos, então inicializa com negativo)
    maximo = -1
    # Passa por todos os dataframes no dicionario
    for df in data:
        # Verifica se ainda tem dados no dataframe
        if data[df].shape[0] > 0:
            # Verifica se a vertical da linha em questão é diferente a anterior
            if data[df].iloc[0].vertical != vertical:
                # Verifica se o score é maior que o maximo
                if data[df].loc[data[df].iloc[0].name, 'score'] > maximo:
                    # Salva o nome do dataframe
                    name_df = df
                    # Atualiza o valor de maximo
                    maximo = data[df].loc[data[df].iloc[0].name, 'score']
                    # Atualiza o nome da vertical
                    vertical = data[df].iloc[0].vertical
                    # Atualiza o nome do domain
                    domain = data[df].iloc[0].domain
                else:
                    pass 
            else:
                # Verifica se o domain é igual ao do registro anterior
                if data[df].iloc[0].domain == domain:
                    # Caso seja igual, verifica se não passou de 4 vezes
                    if cnt_domain < 4:
                        # Verifica se o score é maior que o maximo
                        if data[df].loc[data[df].iloc[0].name, 'score'] > maximo:
                            # Salva o nome do dataframe
                            name_df = df
                            # Atualiza o valor de maximo
                            maximo = data[df].loc[data[df].iloc[0].name, 'score']
                            # Adiciona 1 no cnt_domain
                            cnt_domain += 1
                        else:
                            pass
                    else:
                        # Reseta o cnt_domain
                        cnt_domain = 0
                else:
                    pass
        else:
            pass
    # Agrega no final da tabela a linha escolhida    
    df_final = pd.concat([df_final, data[name_df].iloc[[0]]])
    # Reduz o tamanho do dataset onde retirou os dados
    data[name_df] = data[name_df][1:]

# Mostra os 20 primeiros registros
df_final.head(20)

Unnamed: 0,item_id,vertical,category,domain,score
2284,590602034,CE,ELECTRONICS,MLC-GAME_CONSOLES,0.9998
4793,609438042,CE,ELECTRONICS,MLC-GAME_CONSOLES,0.9996
4374,523534468,BEAUTY & HEALTH,PHARMACEUTICS,MLC-SURGICAL_AND_INDUSTRIAL_MASKS,0.9976
2898,634352041,CE,MOBILE,MLC-CELLPHONES,0.9994
661,615879515,CE,MOBILE,MLC-CELLPHONES,0.9992
2725,631654974,CE,MOBILE,MLC-CELLPHONES,0.999
100,908510601,CE,MOBILE,MLC-CELLPHONES,0.9988
1426,541283090,HOME & INDUSTRY,TOOLS AND CONSTRUCTION,MLC-ELECTRIC_DRILLS,0.9968
1617,641416750,CE,MOBILE,MLC-CELLPHONES,0.9986
3030,610865341,HOME & INDUSTRY,INDUSTRY,MLC-POINTS_OF_SALE_KITS,0.996


Aplicando as regras específicas que condições especiais:

In [9]:
# Aplicando as regras especiais

# Primeira condição especial
# Id que deve verificar
cond1_id = 641416750
# Posição que deve ser colocado
cond1_pos = 3
# Identifica e separa a linha do id indicado
cond1_row = df_final.loc[df_final.item_id == cond1_id]
# Remove o registro do dataframe
df_final.drop(df_final.loc[df_final.item_id == cond1_id].index, inplace = True)
# Separa todos os dados antes da posição indicada
df_before = df_final[:cond1_pos - 1]
# Separa todos os dados depois da posição indicada
df_after = df_final[cond1_pos - 1:]
# Junta as partes com as partes a linha separada
df_final = pd.concat([df_before, cond1_row, df_after])

# Segunda condição especial
# Id que deve verificar
cond2_id = 22351223
cond2_pos = 6
# Identifica e separa a linha do id indicado
cond2_row = df_final.loc[df_final.item_id == cond2_id]
# Remove o registro do dataframe
df_final.drop(df_final.loc[df_final.item_id == cond2_id].index, inplace = True)
# Separa todos os dados antes da posição indicada
df_before = df_final[:cond2_pos - 1]
# Separa todos os dados depois da posição indicada
df_after = df_final[cond2_pos - 1:]
# Junta as partes com as partes a linha separada
df_final = pd.concat([df_before, cond2_row, df_after])

# Terceira condição especial
# OBS.: NEste caso serão 3 linhas consecutivas
# Define as posições extremas
cond3_pos1 = 9
cond3_pos2 = 11
# Separa todos os dados antes da posição inferior
df_before = df_final[:cond3_pos1 - 1]
# Separa todos os dados antes da posição superior
df_after = df_final[cond3_pos2 - 1:]
# Identifica e salva 3 linhas de acordo com o condicional
cond3_row = df_final[df_final.category == 'HOME&DECOR'][:3]
# Remove os registros
df_final.drop(cond3_row.index, inplace = True)
# Junta todas as bases 
df_final = pd.concat([df_before, cond3_row, df_after])

# dataset finalizado e ordenado segundo as regras
df_final.head(20)

Unnamed: 0,item_id,vertical,category,domain,score
2284,590602034,CE,ELECTRONICS,MLC-GAME_CONSOLES,0.9998
4793,609438042,CE,ELECTRONICS,MLC-GAME_CONSOLES,0.9996
1617,641416750,CE,MOBILE,MLC-CELLPHONES,0.9986
4374,523534468,BEAUTY & HEALTH,PHARMACEUTICS,MLC-SURGICAL_AND_INDUSTRIAL_MASKS,0.9976
2898,634352041,CE,MOBILE,MLC-CELLPHONES,0.9994
661,615879515,CE,MOBILE,MLC-CELLPHONES,0.9992
2725,631654974,CE,MOBILE,MLC-CELLPHONES,0.999
100,908510601,CE,MOBILE,MLC-CELLPHONES,0.9988
772,582188629,HOME & INDUSTRY,HOME&DECOR,MLC-INDOOR_CURTAINS_AND_BLINDS,0.9822
4448,538407191,HOME & INDUSTRY,HOME&DECOR,MLC-HOME_LIGHTING_SUPPLIES,0.9804


## 