# Desafio 

# Limpando e obtendo os dados necessários do arquivo `entregas_tab.txt`

O arquivo acima contém as datas do pedido e as datas das entregas, sendo assim, devemos obter estes dados.

In [62]:
import csv

#Usamos csv.reader com o delimitador "|" para obter os dados principais
with open("entregas_tab.txt", "r") as file_read:
    reader = csv.reader(file_read, delimiter="|")
    data_list = list(reader)

data_list = data_list[5:] #Retirando apenas a parte necessária
del(data_list[1]) #Deletando listas que não importam
del(data_list[10])

def column_to_list(data, index):
    """
        Função para criar uma lista a partir de uma coluna.
        Argumentos:
            data: Arquivo que será lido.
            index: Índice do cabecalho que deseja-se criar uma lista (Ex.: 2 -> DT.Compra).
         Retorna:
            Uma lista de strings.

    """
    column_list = []
    for lines in data:
        column_list.append(lines[index])
    return column_list


#Chamamos a função acima para o índice 2 (DT.Compra) e para o índice 3 (DT.Entrega)
data_compra = column_to_list(data_list, 2)
data_entrega = column_to_list(data_list, 3)

#Retirando o título das colunas
data_compra = data_compra[1:]
data_entrega = data_entrega[1:]

print(data_compra)
print(data_entrega)


['20171202 ', '20171202 ', '20171205 ', '20171205 ', '20171210 ', '20171202 ', '20171202 ', '20171204 ', '20171207 ']
['20180105  ', '20180105  ', '20180104  ', '20180107  ', '20180105  ', '20180112  ', '20180110  ', '20180104  ', '20180105  ']


## Transformando as datas contidas nas listas acima em objeto datetime

Para isso, devemos:
* Formatar as strings obtidas acima como YYYY-MM-DD e armazená-las nas listas `dt_compra_format` e `dt_entrega_format`;
* Transformar essas strings em objeto datetime e obter o tempo de espera em dias.

In [68]:
#Formatando as strings como YYYY-MM-DD
my_date = lambda d: "{}-{}-{}".format(d[:4], d[4:6], d[6:8])

#Criamos duas listas para agrupar as datas no formato desejado
#Dentro do loop chamamos a função my_date para cada string de data
dt_compra_format = []
dt_entrega_format = []
for dt_compra, dt_entrega in zip(data_compra, data_entrega):
    dtc = my_date(dt_compra)
    dt_compra_format.append(dtc)
    
    dte = my_date(dt_entrega)
    dt_entrega_format.append(dte)
    
print("Lista com as datas de compras formatadas:\n{}\n".format(dt_compra_format))
print("Lista com as datas de entregas formatadas:\n{}\n".format(dt_entrega_format))

Lista com as datas de compras formatadas:
['2017-12-02', '2017-12-02', '2017-12-05', '2017-12-05', '2017-12-10', '2017-12-02', '2017-12-02', '2017-12-04', '2017-12-07']

Lista com as datas de entregas formatadas:
['2018-01-05', '2018-01-05', '2018-01-04', '2018-01-07', '2018-01-05', '2018-01-12', '2018-01-10', '2018-01-04', '2018-01-05']



In [71]:
#Para melhor manuseio, é melhor transformar as strings de datas em objetos datetime
from datetime import datetime

lst_subtracao = []
for dt_compra, dt_entrega in zip(dt_compra_format,dt_entrega_format):
    d2 = datetime.strptime(dt_entrega, '%Y-%m-%d')
    d1 = datetime.strptime(dt_compra, '%Y-%m-%d')
    #Subtraindo as datas para encontrar a diferença em dias
    quantidade_dias = abs((d2 - d1).days)
    lst_subtracao.append(quantidade_dias)
    
print("Lista com a espera entre a compra e chegada em dias:\n{}".format(lst_subtracao))

Lista com a espera entre a compra e chegada em dias:
[34, 34, 30, 33, 26, 41, 39, 31, 29]


**Obtemos o tempo de espera de um produto em dias, agora devemos obter os ID's de cada fornecedor.**

# Limpando e obtendo os dados do arquivo `prods_tab.csv`

A biblioteca Pandas é uma ferramenta poderosa, porém as vezes os dados do dataset não estão bem normalizados. 
O dataset `prods_tab.csv` possui um formato na linha 10 em que os dados se encontram entre aspas, por esse motivo a leitura no pandas estava inconsistente, armazenando todos os dados da linha em uma única coluna (a inicial). Por esse motivo, abri o dataset principal e retirei as aspas, dessa forma consegui criar um dataframe correto.

In [81]:
import pandas as pd

df = pd.read_csv("prods_tab.csv", encoding='latin-1', sep=',')
df

Unnamed: 0,ID. Forn.,Prod. DESC.,SKU.,GRP. MERC. 3,COD. MARC.
0,,,,,
1,302100012,GELADEIRA FROST FREE INVERTER IB53X ELECTROLUX...,100312-,996,302
2,302100012,GELADEIRA FROST FREE DB84 ELECTROLUX 598 LITRO...,89 721 ?,,
3,302100012,Frigobar Electrolux RE80 79 Litros Classe A 11...,?1920-- 63,996,302
4,,,,,
5,ID. Forn.,Prod. DESC.,SKU.,GRP. MERC. 3,COD. MARC.
6,302100012,Geladeira Electrolux SS72X Side by Side Frost ...,18228 5,996,302
7,,,,,
8,ID. Forn.,Prod. DESC.,SKU.,GRP. MERC. 3,COD. MARC.
9,,,,,


In [82]:
#Verificando linhas duplicadas
sum(df.duplicated())

5

In [83]:
#Retirando linhas duplicadas
df = df.drop_duplicates()
df

Unnamed: 0,ID. Forn.,Prod. DESC.,SKU.,GRP. MERC. 3,COD. MARC.
0,,,,,
1,302100012,GELADEIRA FROST FREE INVERTER IB53X ELECTROLUX...,100312-,996,302
2,302100012,GELADEIRA FROST FREE DB84 ELECTROLUX 598 LITRO...,89 721 ?,,
3,302100012,Frigobar Electrolux RE80 79 Litros Classe A 11...,?1920-- 63,996,302
5,ID. Forn.,Prod. DESC.,SKU.,GRP. MERC. 3,COD. MARC.
6,302100012,Geladeira Electrolux SS72X Side by Side Frost ...,18228 5,996,302
10,9009101002,Smartphone Apple iPhone XS 256GB 4G Tela 5.8 C...,32 934,102,401
11,9030121093,SMARTPHONE SAMSUNG GALAXY NOTE 8 N950F 64GB 2C...,4??349 5,102,607
12,320621093,BONECA MULTIKIDS BUSH BABY WORLD SHIMMIES BR106,4342I,766,481
13,320621093,Brinquedo Kit de Voley Disney Princesas Líder ...,3 1---24-,766,481


In [84]:
#Retirando as linhas que não queremos
df = df.drop([0, 5])
df

Unnamed: 0,ID. Forn.,Prod. DESC.,SKU.,GRP. MERC. 3,COD. MARC.
1,302100012,GELADEIRA FROST FREE INVERTER IB53X ELECTROLUX...,100312-,996.0,302.0
2,302100012,GELADEIRA FROST FREE DB84 ELECTROLUX 598 LITRO...,89 721 ?,,
3,302100012,Frigobar Electrolux RE80 79 Litros Classe A 11...,?1920-- 63,996.0,302.0
6,302100012,Geladeira Electrolux SS72X Side by Side Frost ...,18228 5,996.0,302.0
10,9009101002,Smartphone Apple iPhone XS 256GB 4G Tela 5.8 C...,32 934,102.0,401.0
11,9030121093,SMARTPHONE SAMSUNG GALAXY NOTE 8 N950F 64GB 2C...,4??349 5,102.0,607.0
12,320621093,BONECA MULTIKIDS BUSH BABY WORLD SHIMMIES BR106,4342I,766.0,481.0
13,320621093,Brinquedo Kit de Voley Disney Princesas Líder ...,3 1---24-,766.0,481.0
14,9030121093,SMARTPHONE SAMSUNG GALAXY A8+ A730 64GB 2CHIPS...,1 92501,,607.0


## Armazenando os dados da coluna ID. Forn.

Já que só estamos interessados em obter os ID dos fornecedores, iremos armazenas esta coluna na variável `id_forn`

In [85]:
id_forn = df["ID. Forn."]
id_forn = list(id_forn)
id_forn

['302100012',
 '302100012',
 '302100012',
 '302100012',
 '9009101002',
 '9030121093',
 '320621093',
 '320621093',
 '9030121093']

Como já possuimos a variação de tempo entre o pedido e a entrega armazenados em forma de lista na variável `lst_subtracao`, podemos criar um dataframe com essas duas informações.

In [86]:
data_final = { "Fornecedor": id_forn,"lt": lst_subtracao}

df_final = pd.DataFrame(data_final)
df_final

Unnamed: 0,Fornecedor,lt
0,302100012,34
1,302100012,34
2,302100012,30
3,302100012,33
4,9009101002,26
5,9030121093,41
6,320621093,39
7,320621093,31
8,9030121093,29


Agora, podemos obter a média para cada ID usando `groupby`:

In [87]:
media_tempo = df_final.groupby("Fornecedor").mean()
media_tempo

Unnamed: 0_level_0,lt
Fornecedor,Unnamed: 1_level_1
302100012,32.75
320621093,35.0
9009101002,26.0
9030121093,35.0
