In [1]:
import pandas as pd
import numpy as np
import os.path
from datetime import datetime, date
from datetime import timedelta

In [2]:
path = './artem-pyanykh-cmc-prac-task3-seed17/out/input'

file_list = []

for f in os.listdir(path):
    file_list.append(os.path.join(path, f))
    
file_list.sort()


In [3]:
def read_scv_shop_info(file_list, i):
    
    invent = pd.read_csv(file_list[i]) # inventory
    sell = pd.read_csv(file_list[i+1]) # sellings
    supp = pd.read_csv(file_list[i+2]) # arrivals
     
    return invent, sell, supp

In [4]:
def better_date(invent, sell, supp):
    
    supp['date'] = pd.to_datetime(supp['date'])
    invent['date'] = pd.to_datetime(invent['date'])
    sell['date'] = pd.to_datetime(sell['date'])
    
    return invent, sell, supp

In [5]:
def proper_sell(sell):
    
    sell['actual'] = pd.Series(x[6:8] for x in sell['sku_num'])
    sell = sell.drop(['sku_num'], axis = 1)
    sell = sell.groupby('date')['actual'].value_counts()
    
    new_sell = pd.DataFrame()

    new_sell['actual'] = sell.index.get_level_values(1)
    new_sell['date'] = sell.index.get_level_values(0)
    new_sell['count'] = sell.reset_index(drop=True)
    sell = new_sell
    
    # разворачиваем таблицу sell в широкую таблицу, что бы появились колонки для яблок и ручек, 
    # так же убираем из индекса дату в отдельный столбец
    sell = sell.pivot_table(columns='actual', index='date', values='count').reset_index()
    
    return sell

In [6]:
#print(invent.head(20))
#print(supp.head(20))
#print(sell.head(100))

In [7]:
def apple_pen_raw_table(sell, supply):
    # объединяем таблицы закупок и продаж по дате используем метод left join
    sell_supply = sell.merge(supp.reset_index(), right_on='date', left_on='date', how='left')

    # так как у нас закпки два раза в месяц то заполняем 
    # все пустые значения предудущим "forward fill"
    sell_supply.fillna(method='ffill', inplace =True)

    return sell_supply

In [8]:
def differential_apple_table(sell_supply):
    
    # выделяем нужные данные по яблокам
    apple = sell_supply[['date', 'ap', 'apple', 'index']]
    # группируем по индексу закупок
    apple = apple.groupby(['index', 'apple']).sum()
    # убираем индекс
    apple.reset_index(inplace=True)
    # считаем разницу для каждой закупки, с продажами к тому моменту времени
    apple['diff'] = apple['apple'] - apple['ap']

    # объединяем таблицу яблок с таблицей закупок, что бы можно было вытащить дату
    q = supp.reset_index()[['index', 'date']].merge(apple, on='index')
    q['month'] = q['date'].dt.month
    q['year'] = q['date'].dt.year
    #  у нас две закупки в месяц, поэтому грпируем по году и месяцу и складываем разницу
    apple_diff = q[['month', 'year', 'diff']].groupby(['year','month']).sum()

    return apple_diff

In [9]:
def inventory_date_split(invent):
    
    invent['month'] = invent['date'].dt.month
    invent['year'] = invent['date'].dt.year
    
    return invent

In [10]:
def stolen_apples(invent, apple_diff):
    
    # на складе делаем тоже самое, выводим в индекс год и месяц
    apple_invent = invent[['month', 'year', 'apple']].groupby(['year','month']).sum()
    
    # объединяем таблицу яблок на складе и таблицу с разницей в закупке - продаже
    apple_vals = apple_invent.merge(apple_diff, on=['year', 'month'])
    # смотрим сколько в первый день было на складе
    zero_day = apple_vals['apple'].values[0]
    # считаем разницу следующего с предыдущим, что бы посмотреть сколько появлялось на складе за месяц
    # заполняем начальное значение тес, что бы заполмнили  раньше 
    apple_vals['apple'] = apple_vals['apple'].diff(1).fillna(zero_day)
    
    # считаем разницу
    stolen_apples = apple_vals['diff'] - apple_vals['apple'] 
    
    return stolen_apples

In [11]:
#делаем идентино для ручек

In [12]:
def differential_pen_table(sell_supply):
    
    # выделяем нужные данные по ручкам
    pen = sell_supply[['date', 'pe', 'pen', 'index']]
    # группируем по индексу закупок
    pen = pen.groupby(['index', 'pen']).sum()
    # убираем индекс
    pen.reset_index(inplace=True)
    # считаем разницу для каждой закупки, с продажами к тому моменту времени
    pen['diff'] = pen['pen'] - pen['pe']
    
    # объединяем таблицу ручек с таблицей закупок, что бы можно было вытащить дату
    k = supp.reset_index()[['index', 'date']].merge(pen, on='index')
    k['month'] = k['date'].dt.month
    k['year'] = k['date'].dt.year
    #  у нас две закпки в месяц, поэтому грпируем по году и месяцу и складываем разницу
    pen_diff = k[['month', 'year', 'diff']].groupby(['year','month']).sum()

    return pen_diff

In [13]:
def stolen_pen(invent, pen_diff):

    # на складе делаем тоже самое, выводим в индекс год и месяц
    pen_invent = invent[['month', 'year', 'pen']].groupby(['year','month']).sum()

    # объединяем таблицу ручек на складе и таблицу с разницей в закупке - продаже
    pen_vals = pen_invent.merge(pen_diff, on=['year', 'month'])
    # смотрим сколько в первый день было на складе
    zero_day = pen_vals['pen'].values[0]
    # считаем разницу следующего с предыдущим, что бы посмотреть сколько появлялось на складе за месяц
    # заполняем начальное значение так, что бы заполмнили  раньше 
    pen_vals['pen'] = pen_vals['pen'].diff(1).fillna(zero_day)
    
    # считаем разницу
    stolen_pen = pen_vals['diff'] - pen_vals['pen']
    
    return stolen_pen

In [14]:
def count_daily_invent(invent, sell, supp):
    
    sell_invent = sell.merge(invent, on = 'date', how = 'left')
    sell_invent_supp = sell_invent.merge(supp, on = 'date',suffixes=('_invent', '_supply'), how = 'left')
    sell_invent_supp.fillna(0, inplace = True)
    
    #daily_invent = pd.DataFrame()
    
    #daily_invent['date'] = sell_invent_supp['date']
    #daily_invent['apple'] = 
    print(sell_invent_supp.head(100))

In [19]:
def sold_stolen(stolen_apples_table, stolen_pen_table, sell):
    
    sell = sell.rename(columns = {'actual' : 'year', 'ap' : 'apple_sold', 'pe' : 'pen_sold'})
    sell['year'] = sell['date'].dt.year
    sell = sell.groupby('year').sum()
    
    stolen_apples_table.name = 'apple_stolen'
    stolen_pen_table.name = 'pen_stolen'
    stolen_apples_table = stolen_apples_table.groupby('year').sum()
    
    stolen_pen_table = stolen_pen_table.groupby('year').sum()
    sell_stolen_ap = sell.merge(stolen_apples_table, on = 'year', how = 'inner')
    sell_stolen_ap_pe = sell_stolen_ap.merge(stolen_pen_table, on = 'year', how = 'inner')
    
    return sell_stolen_ap_pe

In [20]:
def stolen(stolen_apples_table, stolen_pen_table):
    stolen_product = pd.DataFrame()
    print(stolen_apples_table)
    #stolen_product['date'] = datetime.date(stolen_apples_table['year'], stolen_apples_table['month'], 1)
    print(stolen_product)                                                                                        

In [27]:
def print_shop_number(i):
    print('--------------------')
    print( 'Shop', int((i+3)/3))
    print('--------------------')    

In [31]:
pd.set_option('display.max_rows', 100)

for i in range(0, len(file_list), 3):
    
    invent, sell, supp = read_scv_shop_info(file_list, i)
    invent, sell, supp = better_date(invent, sell, supp)
    
    sell = proper_sell(sell)
    #daily_invent = count_daily_invent(invent, sell, supp)   #ex1
    sell_supply = apple_pen_raw_table(sell, supp)
    
    invent = inventory_date_split(invent)
    
    apple_diff = differential_apple_table(sell_supply)    
    stolen_apples_table = stolen_apples(invent, apple_diff)
    
    pen_diff = differential_pen_table(sell_supply) 
    stolen_pen_table = stolen_pen(invent, pen_diff)
    
    #stolen(stolen_apples_table, stolen_pen_table)   # ex2
    sell_stolen_ap_pe = sold_stolen(stolen_apples_table, stolen_pen_table, sell)  #ex3
    
    print_shop_number(i)  
    print('\nЗадание 3\n\n', sell_stolen_ap_pe)
    #print(stolen_pen_table, stolen_apples_table)

--------------------
Shop 1
--------------------

Задание 3

       apple_sold  pen_sold  apple_stolen  pen_stolen
year                                                
2006      681341     52555          78.0        91.0
2007      681281     51939          68.0        76.0
2008      685110     52032          78.0        73.0
2009      682296     52411          81.0        96.0
2010      680411     52600          68.0        96.0
2011      683083     52103          88.0       100.0
2012      685007     52578          82.0        91.0
2013      683401     52133          74.0        90.0
2014      682371     52135          90.0        87.0
2015      681763     51804          77.0        77.0
--------------------
Shop 2
--------------------

Задание 3

       apple_sold  pen_sold  apple_stolen  pen_stolen
year                                                
2006      681341     52555          78.0        91.0
2007      681281     51939          68.0        76.0
2008      685110     52032  