In [72]:
import xml.etree.ElementTree as ET
import pandas as pd
import os

In [52]:
# helper: convert xml element to a dictionary

def parseEl(el):
    res = {}
    for it in el.getchildren():
        res[it.tag] = it.text
    return res

def parseXMLFile(filename, fieldName):
    tree = ET.parse(filename)
    elements = tree.iter(fieldName)
    dics = list(map(parseEl, elements))
    return pd.DataFrame(dics)

### Parsing a store data file

In [83]:
filename = '../rawData/TivTaam/Stores7290873255550-201703191531.xml'
tree = ET.parse(filename)
storeElements = tree.iter('Store')
storeDics = list(map(parseEl, storeElements))
storeTable = pd.DataFrame(storeDics)
storeTable

Unnamed: 0,Address,BikoretNo,City,StoreId,StoreName,StoreType,ZipCode
0,א.ת דרומי,5,נתניה,2,נתניה,1,unknown
1,זבוטינסקי פינת ויצמן מתחם פאוור סנטר,4,אשדוד,3,אשדוד,1,unknown
2,האצל 18 א.ת חדש,2,ראשון לציון,5,ראשון לציון,1,unknown
3,העבודה 14 פינת המלאכה א.ת,1,בת ים,6,בת ים,1,unknown
4,התחיה 1,0,אשקלון,7,אשקלון,1,unknown
5,הכבאי 3,4,כרמיאל,10,כרמיאל,1,unknown
6,חלוצי התעשיה 116 מפרץ חיפה,2,קריות,12,קריות,1,unknown
7,המזח 4,1,א.ת עמק חפר,13,חנות המפעל,1,unknown
8,המכבים 62 צומת בית דגן,0,ראשון לציון,14,ראשון מזרח,1,unknown
9,דרך חברון 48 מתחם ביג,9,באר שבע,15,באר שבע חדש,1,unknown


### Parsing Tiv Taam prices

In [53]:
import gzip

In [86]:
dataroot = '../rawData/TivTaam/'
filelist = os.listdir(dataroot)
filelist = [f for f in filelist if 'PriceFull' in f]

data = []
for f in filelist:
    branch = f.split('-')[1]
    fg = gzip.GzipFile(dataroot + f, 'r')
    table = parseXMLFile(fg, 'Item')
    fg.close()
    table['branch'] = branch
    table['chain'] = u'טיב טעם'
    data.append(table)

tivTaamPrices = pd.concat(data)
tivTaamPrices
    


Unnamed: 0,AllowDiscount,ItemCode,ItemId,ItemName,ItemPrice,ItemStatus,ItemType,ManufactureCountry,ManufacturerItemDescription,ManufacturerName,PriceUpdateDate,QtyInPackage,Quantity,UnitOfMeasure,UnitOfMeasurePrice,UnitQty,bIsWeighted,branch,chain
0,1,4607012351821,184722,"צנימים ""MARTIN"" בטעם",4.30,1,0,רוסיה,צנימים MARTIN בטעם ירק עם שמנת 60 גר,MARTIN,2017-05-12 08:25:16,1,0.00,Unknown,0.0000,Unknown,0,002,טיב טעם
1,1,480305,7330,הרמזית 400 טבליות,21.90,1,0,לא ידוע,הרמזית 400 טבליות,"י"" ,",2015-01-01 00:00:00,1,400.00,ליטר,0.0547,לא ידוע,0,002,טיב טעם
2,1,480329,7331,הרמזית 800 טבליות,34.70,1,0,לא ידוע,הרמזית 800 טבליות,"י"" ,",2015-01-01 00:00:00,1,0.00,Unknown,0.0000,Unknown,0,002,טיב טעם
3,1,5903386090700,189903,סלט פיקניק 850 גרם ו,10.90,1,0,לא ידוע,סלט פיקניק 850 גרם ויקטוס,ויקטוס,2017-05-12 12:38:18,1,850.00,100 גרם,0.0128,לא ידוע,0,002,טיב טעם
4,1,5903386091028,189904,סלט ורשבסקי 900 גרם,10.90,1,0,לא ידוע,סלט ורשבסקי 900 גרם ויקטוס,ויקטוס,2017-05-12 12:38:18,1,900.00,100 גרם,0.0121,לא ידוע,0,002,טיב טעם
5,1,480442,7336,קוואקר 500 גרם שקית,15.30,1,0,לא ידוע,קוואקר 500 גרם שקית,FRITO-LAY TRADING CO,2017-05-08 13:31:08,1,500.00,ליטר,0.0306,לא ידוע,0,002,טיב טעם
6,1,4810009,7343,טואלט דאק נוזל אסלה,23.90,1,0,הולנד,טואלט דאק נוזל אסלה זוג כתום,SC Jonson,2015-01-01 00:00:00,1,1.50,100 גרם,15.9333,לא ידוע,0,002,טיב טעם
7,1,6837547,184726,גבינת טילסיטר במשקל,39.90,1,0,לא ידוע,גבינת טילסיטר במשקל אמרלנד,"י"" ,",2016-01-10 10:29:25,לא ידוע,1.00,"ק""ג",39.9000,קילוגרמים,1,002,טיב טעם
8,1,7290000048185,7351,גבינה למריחה 5% מהד,4.60,1,0,לא ידוע,גבינה למריחה 5% מהדרין 250 גרם,תנובה מרכז שיתופי לש,2016-02-11 11:48:45,1,250.00,ליטר,0.0184,לא ידוע,0,002,טיב טעם
9,1,7290000048192,7352,גבינה למריחה 9% 250,4.60,1,0,לא ידוע,גבינה למריחה 9% 250 גרם,תנובה מרכז שיתופי לש,2016-02-11 11:48:45,1,250.00,ליטר,0.0184,לא ידוע,0,002,טיב טעם


In [87]:
tivTaamPrices.to_csv('../csv/tivTaamPrices_2017_06_29.csv', encoding='utf8', index=False)

### Parsing CoopShop prices

In [88]:
dataroot = '../rawData/CoOpShop/'
filelist = os.listdir(dataroot)
filelist = [f for f in filelist if 'PriceFull' in f]

data = []
for f in filelist:
    branch = f.split('-')[1]
    fg = gzip.GzipFile(dataroot + f, 'r')
    table = parseXMLFile(fg, 'item')
    fg.close()
    table['branch'] = branch
    table['chain'] = u'קואופ שופ'
    data.append(table)

CoopShopPrices = pd.concat(data)
CoopShopPrices

Unnamed: 0,AllowDiscount,ItemCode,ItemName,ItemPrice,ItemStatus,ItemType,ManufactureCountry,ManufacturerItemDescription,ManufacturerName,QtyInPackage,Quantity,SoldByWeight,UnitOfMeasure,UnitOfMeasurePrice,branch,chain
0,1,1011,בצל יבש מוזל,4.90,1,3,ישראל,בצל יבש מוזל,B.B.B,לא ידוע,1.00,,"ק""ג",4.9000,10,קואופ שופ
1,1,1199,מנגו,11.90,1,3,ישראל,מנגו,B.B.B,לא ידוע,1.00,,"ק""ג",11.9000,10,קואופ שופ
2,1,1243,ענבים שחורים,15.90,1,3,ישראל,ענבים שחורים,.N.Y.C,לא ידוע,1.00,,"ק""ג",15.9000,10,קואופ שופ
3,1,1304,רימונים,9.90,1,3,ישראל,רימונים,B.B.B,לא ידוע,1.00,,"ק""ג",9.9000,10,קואופ שופ
4,1,13495113513,חטיף קליק כדורים 75,5.70,1,1,ישראל,קליק חלב 75 גר,קליק ורד הגליל,לא ידוע,75.00,,גרם,0.0760,10,קואופ שופ
5,1,1540,דלורית,6.90,1,3,ישראל,דלורית,B.B.B,לא ידוע,1.00,,"ק""ג",6.9000,10,קואופ שופ
6,1,1571,גזר ארוז,5.90,1,3,ישראל,גזר ארוז,B.B.B,לא ידוע,1.00,,"ק""ג",5.9000,10,קואופ שופ
7,1,1595,דלעת,9.90,1,3,ישראל,דלעת,B.B.B,לא ידוע,1.00,,"ק""ג",9.9000,10,קואופ שופ
8,1,16000548404,נייטשר וואלי קראנצ'י,16.90,1,1,ספרד,חמוציות במיץ רימונים 142,Nature Valley,לא ידוע,210.00,,גרם,0.0805,10,קואופ שופ
9,1,16016,פטריות חורש למילוי ב,49.90,1,3,ישראל,פטריות חורש למילוי ב,B.B.B,לא ידוע,1.00,,"ק""ג",49.9000,10,קואופ שופ


In [92]:
CoopShopPrices.to_csv('../csv/CoopShopPrices_2017_06_29.csv', encoding='utf8', index=False)

### Parsing Shupersal prices

In [94]:
dataroot = '../rawData/Shupersal/'
filelist = os.listdir(dataroot)
filelist = [f for f in filelist if 'PriceFull' in f]

data = []
for f in filelist:
    branch = f.split('-')[1]
    fg = gzip.GzipFile(dataroot + f, 'r')
    table = parseXMLFile(fg, 'Item')
    fg.close()
    table['branch'] = branch
    table['chain'] = u'שופרסל'
    data.append(table)

ShupersalPrices = pd.concat(data)
ShupersalPrices

Unnamed: 0,AllowDiscount,ItemCode,ItemName,ItemPrice,ItemStatus,ItemType,ManufactureCountry,ManufacturerItemDescription,ManufacturerName,PriceUpdateDate,QtyInPackage,Quantity,UnitOfMeasure,UnitOfMeasurePrice,UnitQty,bIsWeighted,branch,chain
0,1,11210009387,"רוטב טבסקו ירוק 60 מ""ל",12.80,1,1,US,רוטב טבסקו ירוק,ניצן,2017-02-07 08:54,0,60.00,"100 מ""ל",21.33,מיליליטרים,0,001,שופרסל
1,1,13495113506,קליק ביסקוויט 75 גרם,6.40,1,1,IL,קליק ביסקוויט,יוניליוור,2015-09-30 06:37,0,75.00,100 גרם,8.53,גרמים,0,001,שופרסל
2,1,13495113513,קליק שוקולד חלב 75 גרם,6.40,1,1,IL,קליק שוקולד,יוניליוור,2015-09-30 06:37,0,75.00,100 גרם,8.53,גרמים,0,001,שופרסל
3,1,13495113520,קליק קורנפלקס 75 גרם,6.40,1,1,IL,קליק קורנפלקס,יוניליוור,2015-09-30 06:37,0,75.00,100 גרם,8.53,גרמים,0,001,שופרסל
4,1,13495113537,קליק חום לבן מעורב 75 גר,6.40,1,1,IL,קליק מעורב,יוניליוור,2015-09-30 06:37,0,75.00,100 גרם,8.53,גרמים,0,001,שופרסל
5,1,13495113582,קליק כריות 75 גרם,6.40,1,1,IL,קליק כריות,יוניליוור,2015-09-30 06:37,0,75.00,100 גרם,8.53,גרמים,0,001,שופרסל
6,1,16000423534,קראנצי שיבולת ושוקולד5יח,21.90,1,1,US,חטיף נייצ'ר ואלי,ג'נרל מילס,2017-06-06 09:47,0,210.00,100 גרם,10.43,גרמים,0,001,שופרסל
7,1,16000548404,חטיף נייטשר ואלי ש.שועל5,21.90,1,1,US,חטיף נייטשר ואלי,ג'נרל מילס,2017-06-06 09:47,0,210.00,100 גרם,10.43,גרמים,0,001,שופרסל
8,1,16000548909,נייטשר וואלי גרנולה 5יח',21.90,1,1,US,חטיף נייטשר ואלי,ג'נרל מילס,2017-06-06 09:47,0,210.00,100 גרם,10.43,גרמים,0,001,שופרסל
9,1,16229909819,קרם קוקוס 1 ליטר,19.90,1,1,TH,קרם קוקוס,תאי אגרי פוד פובליק,2016-10-13 09:47,1,1.00,ליטר,19.90,ליטרים,0,001,שופרסל


In [95]:
ShupersalPrices.to_csv('../csv/ShupersalPrices_2017_06_29.csv', encoding='utf8', index=False)