# Работа с файлами  в Python

* Чтение и запись текстовых файлов
* Чтение и запись бинарных файлов
* Обработка данных в формате JSON
* Сериализация объектов pickle
* Чтение и запись сжатых файлов
* Библиотеки os и shutil 
* Проверка существования файлов

### Чтение и запись текстовых файлов

In [1]:
# Чтение файлов
f = open('somefile.txt', 'r')
data = f.read()
f.close()

In [4]:
# ! somefile.txt

In [5]:
# Запись файлов с помощью write 
# write принимает на вход строку
text1 = 'Blah-Blah-Blah'
f = open('somefile_new.txt', 'w')
f.write(text1)
f.close()

In [6]:
!cat somefile_new.txt

Blah-Blah-Blah

In [11]:
#  Запись файлов с помощью writelines
# writelines принимает список
text1 = 'Blah-Blah-Blah'
text2 = text1 * 5

texts = [text1,text2]
f = open('somefile_new.txt', 'w')
f.writelines(texts)
f.close()

In [12]:
!cat somefile_new.txt

Blah-Blah-BlahBlah-Blah-BlahBlah-Blah-BlahBlah-Blah-BlahBlah-Blah-BlahBlah-Blah-Blah

In [13]:
# Важно! Разделители нужно ставить самостоятельно :)

texts = [text1,text2]
f = open('somefile_new.txt', 'w')
f.writelines([t + '\n' for  t in texts])
f.close()

In [14]:
# проверим что внутри somefile_new.txt
!cat somefile_new.txt

Blah-Blah-Blah
Blah-Blah-BlahBlah-Blah-BlahBlah-Blah-BlahBlah-Blah-BlahBlah-Blah-Blah


In [15]:
lines = []
with open('somefile.txt', 'rt') as f: 
    for line in f:
        lines.append(line)
lines

['Межпланетный корабль разбился.\n',
 '   От моего старого школьного товарища, который больше  полумесяца  правил\n',
 'этим кораблем, осталось лишь нечто бесформенное. А  я,  видимо,  жив.  Как\n',
 'случилось, что я не погиб? Может быть, это знают волшебники, но не я.\n',
 '   Мы летели к Марсу. По расчетам моего покойного друга, наш  корабль  уже\n',
 'вошел в сферу притяжения Марса. Выходит, я достиг цели? Если это  так,  то\n',
 'душа моего  друга  может  быть  спокойной:  ради  чести  оказаться  первым\n',
 'китайцем на Марсе стоит и умереть! Но  на  Марс  ли  я  попал?  Могу  лишь\n',
 'строить догадки, никаких  доказательств  у  меня  нет.  Конечно,  астроном\n',
 'определил бы, что это за планета, но я, к сожалению, понимаю в  астрономии\n',
 'ничуть не больше, чем в древнеегипетских письменах.  Друг,  без  сомнения,\n',
 'просветил бы меня... Увы! Мой добрый старый друг... ']

In [16]:
# Пишем кусочки текстовых данных
text1 = 'Blah-Blah-Blah'
text2 = text1 * 2
with open('somefile_new.txt', 'wt') as f:
    f.write(text1)
    f.write(text2)

In [17]:
!cat somefile_new.txt

Blah-Blah-BlahBlah-Blah-BlahBlah-Blah-Blah

In [18]:
# Добавляем текст в файл
with open('somefile_new.txt', 'a') as f:
    f.write(text1)
    f.write(text2)

In [21]:
!cat somefile_new.txt

Blah-Blah-BlahBlah-Blah-BlahBlah-Blah-Blah

In [20]:
# Записываем текст в файл
with open('somefile_new.txt', 'wt') as f:
    f.write(text1)
    f.write(text2)

In [28]:
# Перенаправленная инструкция print для записи в файл
line1 = text1 
line2 = text2 
with open('somefile_new.txt', 'wt') as f:
    print(line1, file=f)
    print(line2, file=f)

In [24]:
# Перенаправленная инструкция print с разделителем
with open('somefile_new.txt', 'wt') as f:
    print(line1, 90, 20, sep=',', file=f)
    print(line1, 90, 20, sep=',', file=f)

In [30]:
!cat somefile_new.txt

Blah-Blah-Blah
Blah-Blah-BlahBlah-Blah-Blah


In [31]:
# В print можно менять знаки окончания строки
for i in range(5): 
    print(i)
    print(i , end='\n')


0
1
2
3
4


In [32]:
for i in range(5): 
    print(i, end=' ')

0 1 2 3 4 

# Чтение и запись бинарных файлов

In [33]:
# Записать бинарные данные в файл
with open('somefile.bin', 'wb') as f:
    f.write(b'Hello World')

In [34]:
!cat somefile.bin

Hello World

In [35]:
# Прочесть весь файл как одну байтовую строку
with open('somefile.bin', 'rb') as f: 
    data = f.read()

In [36]:
data


b'Hello World'

In [39]:
for el in data:
    print(el, chr(el),ord(chr(el)))

72 H 72
101 e 101
108 l 108
108 l 108
111 o 111
32   32
87 W 87
111 o 111
114 r 114
108 l 108
100 d 100


# Pickle

In [40]:
# пикл сериализует объекты python в бинарные файлы
import pickle
very_important_list = [1,3,4,5,6]

In [41]:
fpath = 'vil.pkl'
with open(fpath, 'wb') as f:
    pickle.dump(very_important_list,f)

In [42]:
!ls

Lesson_3.ipynb       medals.xlsx          somefile.zip
[34mdata[m[m                 somefile.bin         somefile2.zip
data.json            somefile.bz2         somefile_new.txt
[34mimg[m[m                  somefile.gz          vil.pkl
medal_on_sheets.xlsx somefile.txt


In [43]:
!cat vil.pkl

�]q (KKKKKe.

In [44]:
with open(fpath, 'rb') as f:
    new_very_important_list = pickle.load(f)

In [45]:
new_very_important_list

[1, 3, 4, 5, 6]

# Чтение и запись сжатых файлов

In [46]:
import gzip
import bz2

In [47]:
# Сжатие с помощью gzip
text = 'bla-bla-bla ' * 5
with gzip.open('somefile.gz', 'wt') as f:
    f.write(text)

In [48]:
# Распаковка
with gzip.open('somefile.gz', 'rt') as f:
    newtext = f.read()
newtext

'bla-bla-bla bla-bla-bla bla-bla-bla bla-bla-bla bla-bla-bla '

In [49]:
# Сжатие с помощью bz2
text = 'bla-bla-bla ' * 3
with bz2.open('somefile.bz2', 'wt') as f:
    f.write(text)

In [50]:
# Распаковка
with bz2.open('somefile.bz2', 'rt') as f:
    new_text = f.read()
new_text

'bla-bla-bla bla-bla-bla bla-bla-bla '

In [51]:
!ls

Lesson_3.ipynb       medals.xlsx          somefile.zip
[34mdata[m[m                 somefile.bin         somefile2.zip
data.json            somefile.bz2         somefile_new.txt
[34mimg[m[m                  somefile.gz          vil.pkl
medal_on_sheets.xlsx somefile.txt


In [60]:
# Для ZIP архивов можно использовать библиотеку zipfile

import zipfile
zf = zipfile.ZipFile('somefile.zip', 'w')
zf.write('somefile.txt')
zf.close()

In [64]:
!ls

Lesson_3.ipynb       medals.xlsx          somefile.zip
[34mdata[m[m                 somefile.bin         somefile_new.txt
data.json            somefile.bz2         vil.pkl
[34mimg[m[m                  somefile.gz
medal_on_sheets.xlsx somefile.txt


In [54]:
# Архивируем
with zipfile.ZipFile('somefile2.zip', 'w') as zf:
    zf.write('somefile.txt')

In [63]:
# Извлекаем из архива
fzip = zipfile.ZipFile('somefile.zip')
fzip.extract(fzip.namelist()[0])
fzip.close()

# Pandas & Zip

In [148]:
# Допустим у нас есть архив с одним csv файлом
fpth = 'data/Summer Olympic medalists 1896 to 2008 - IOC COUNTRY CODES.csv'
with zipfile.ZipFile(os.path.join('data','countries.zip'), 'w') as zf:
    zf.write(fpth)

In [150]:
# Pandas read_csv способен извлечь из неого DataFrame
zip_countries = pd.read_csv(os.path.join('data','countries.zip'))

In [151]:
zip_countries.head()

Unnamed: 0,Country,NOC,ISO code
0,Afghanistan,AFG,AF
1,Albania,ALB,AL
2,Algeria,ALG,DZ
3,American Samoa*,ASA,AS
4,Andorra,AND,AD


# JSON - это не только сын Джея

<img src='img\jay.jpeg' width=300 align=left>

In [65]:
# JSON - это формат для передачи данных из разных систем
import json
data = {
    'name' : 'Vasya',
    'age' : 50,
    'sex' : 'M'
    }
json_str = json.dumps(data)

In [66]:
json_str

'{"name": "Vasya", "age": 50, "sex": "M"}'

In [67]:
# Запись JSON-данных
with open('data.json', 'w') as f:
    json.dump(data, f)

In [68]:
# Чтение данных
with open('data.json', 'r') as f:
    data = json.load(f)

In [69]:
data

{'name': 'Vasya', 'age': 50, 'sex': 'M'}

In [193]:
# Синтаксис JSON очень похож синтаксис в Python
# True отображается на true, False – на false, а None – на null.

In [70]:
json.dumps(False)

'false'

In [71]:
json.dumps(None)

'null'

# os и shutil

In [73]:
import os

In [74]:
# Выдает список содержимого директории
os.listdir('img')

['web_scrap.jpeg', 'jay.jpeg', 'batman_xl.jpg', 'json_logo-555px.png']

In [75]:
[x for x in os.listdir('img') if x.endswith('.jpeg')]

['web_scrap.jpeg', 'jay.jpeg']

In [76]:
# Создает директорию
os.mkdir('test')

In [79]:
!ls

Lesson_3.ipynb       medals.xlsx          somefile.zip
[34mdata[m[m                 somefile.bin         somefile_new.txt
data.json            somefile.bz2         vil.pkl
[34mimg[m[m                  somefile.gz
medal_on_sheets.xlsx somefile.txt


In [78]:
# Удаляет директорию
os.rmdir('test')

In [81]:
!ls data

Summer Olympic medalists 1896 to 2008 - ALL MEDALISTS.tsv
Summer Olympic medalists 1896 to 2008 - EDITIONS.tsv
Summer Olympic medalists 1896 to 2008 - IOC COUNTRY CODES.csv
bronze_top5.csv
gold_top5.csv
[34mmedals[m[m
silver_top5.csv


In [83]:
# Если нужно пройтись по дереву каталога можно использовать os.walk
# for el in os.walk('data'):
#     print(el)

In [9]:
# Если нужно склеить путь к файлу или директории
os.path.join('..','img','file.txt')

'../img/file.txt'

In [85]:
# Используйте os.path, чтобы проверить, существует ли файл или каталог. Напри- мер:
os.path.exists('img') 
os.path.exists('img/spam')


False

In [86]:
# Вы можете выполнить дополнительные тесты, чтобы проверить тип файла. Эти проверки возвращают False, если файл не существует:
# Это обычный файл?
os.path.isfile('img')


False

In [88]:
# Это каталог?
os.path.isdir('img')


True

In [89]:
# Если вам нужно получить метаданные (например, размер или дату изменения файла)
# это тоже можно сделать с помощью модуля os.path:
os.path.getsize('img/jay.jpeg')

91132

In [90]:
os.path.getmtime('img')

1567523025.0

In [91]:
import time
time.ctime(os.path.getmtime('img'))

'Tue Sep  3 18:03:45 2019'

# shutil

In [92]:
import shutil

In [None]:
# Для премещения файлов можно использовать shutil.move
# shutil.move(src, dst)

In [None]:
# Для компирования можно воспользоваться одной из нескольких функций
# shutil.copy(src, dst)  - копирует содержимое файла
# shutil.copytree(src, dst)  - копирует содержимое директории

In [46]:
# Если директория не пуста, то для ее удаления лучше использовать rmtree из shutil
# shutil.rmtree('test')

In [105]:
!ls

Lesson_3.ipynb       medal_on_sheets.xlsx somefile.gz
[34mdata[m[m                 medals.xlsx          somefile.txt
data.json            somefile.bin         somefile.zip
[34mimg[m[m                  somefile.bz2         vil.pkl


In [93]:
# Создадим директории
os.mkdir('test_dir1')
os.mkdir('test_dir2')

In [95]:
# Перенесем файл
shutil.move('somefile_new.txt', 'test_dir1/somefile_new.txt')

'test_dir1/somefile_new.txt'

In [103]:
!ls test_dir3

somefile_new.txt


In [97]:
# Скопируем файл
shutil.copy('test_dir1/somefile_new.txt', 'test_dir2/somefile_new.txt') 

'test_dir2/somefile_new.txt'

In [101]:
# Скопируем директорию и ее содержимое
shutil.copytree('test_dir2', 'test_dir3') 

'test_dir3'

In [104]:
# Удалим то, что мы создали
shutil.rmtree('test_dir1')
shutil.rmtree('test_dir2')
shutil.rmtree('test_dir3')

# Практическая часть

In [106]:
# 1. Создайте директорию poems
os.mkdir('poems')

In [107]:
# 2. Создайте в ней файл pushkin.txt, в который запишите text_task
text_task = """
Я помню чудное мгновенье:
Передо мной явилась ты,
Как мимолетное виденье,
Как гений чистой красоты.
"""
with open(os.path.join('poems','pushkin.txt'), 'wt') as f:
    print(text_task, file=f)



In [109]:
!ls poems

pushkin.txt


In [110]:
# 3. Удалите директорию poems
shutil.rmtree('poems')

# Pandas и присоединение таблиц

In [112]:
import pandas as pd

In [113]:
# Прописываем пути к файлам
bronzefpth = os.path.join('data','medals','Bronze.csv')
silverfpth = os.path.join('data','medals','Silver.csv')
goldfpth = os.path.join('data','medals','Gold.csv')
# Подгружаем CSV
bronze = pd.read_csv(bronzefpth).head(5)
silver = pd.read_csv(silverfpth).head(5)
gold = pd.read_csv(goldfpth).head(5)
gold

Unnamed: 0,NOC,Country,Total
0,USA,United States,2088.0
1,URS,Soviet Union,838.0
2,GBR,United Kingdom,498.0
3,FRA,France,378.0
4,GER,Germany,407.0


In [114]:
silver

Unnamed: 0,NOC,Country,Total
0,USA,United States,1195.0
1,URS,Soviet Union,627.0
2,GBR,United Kingdom,591.0
3,FRA,France,461.0
4,GER,Germany,350.0


In [115]:
bronze

Unnamed: 0,NOC,Country,Total
0,USA,United States,1052.0
1,URS,Soviet Union,584.0
2,GBR,United Kingdom,505.0
3,FRA,France,475.0
4,GER,Germany,454.0


In [117]:
medals = gold.copy()
new_labels = ['NOC', 'Country', 'Gold']
medals.columns = new_labels
medals['Silver'] = silver['Total']
medals['Bronze'] = bronze['Total']

In [125]:
medals_m = pd.merge(gold,silver, on=['NOC', 'Country'], how='outer')

In [127]:
medals_m2 = pd.merge(medals_m,bronze, on=['NOC', 'Country'])

In [130]:
medals_m2.columns = ['NOC', 'Country', 'gold', 'silver', 'bronze']

In [135]:
medals_m2

Unnamed: 0,NOC,Country,gold,silver,bronze
0,USA,United States,2088.0,1195.0,1052.0
1,URS,Soviet Union,838.0,627.0,584.0
2,GBR,United Kingdom,498.0,591.0,505.0
3,FRA,France,378.0,461.0,475.0
4,GER,Germany,407.0,350.0,454.0


In [136]:
pd.concat([gold,silver['Total'],bronze['Total']], axis=1)

Unnamed: 0,NOC,Country,Total,Total.1,Total.2
0,USA,United States,2088.0,1195.0,1052.0
1,URS,Soviet Union,838.0,627.0,584.0
2,GBR,United Kingdom,498.0,591.0,505.0
3,FRA,France,378.0,461.0,475.0
4,GER,Germany,407.0,350.0,454.0


In [120]:
# Когда мы хотим слить несколько табиц с одинаковыми колонками в одну большую (по вертикали)
medals_dict = {'gold': goldfpth, 'silver': silverfpth,'bronze':bronzefpth}

In [121]:
# Можно использовать метод df.append()
# !!! Важно, что он работает не так как append в списках, то есть не inplace
medals_df = pd.DataFrame()
for medal, fpth in medals_dict.items():
    df_temp = pd.read_csv(fpth)
    df_temp['medal'] = medal
    medals_df = medals_df.append(df_temp)

# Практическая часть

In [145]:
# Даны 3 таблицы
medalists = pd.read_csv('data/Summer Olympic medalists 1896 to 2008 - ALL MEDALISTS.tsv', sep='\t', skiprows=4)
editions = pd.read_csv('data/Summer Olympic medalists 1896 to 2008 - EDITIONS.tsv', sep='\t')
countries = pd.read_csv('data/Summer Olympic medalists 1896 to 2008 - IOC COUNTRY CODES.csv')

In [155]:
medalists.head(3)

Unnamed: 0,City,Edition,Sport,Discipline,Athlete,NOC,Gender,Event,Event_gender,Medal
0,Athens,1896,Aquatics,Swimming,"HAJOS, Alfred",HUN,Men,100m freestyle,M,Gold
1,Athens,1896,Aquatics,Swimming,"HERSCHMANN, Otto",AUT,Men,100m freestyle,M,Silver
2,Athens,1896,Aquatics,Swimming,"DRIVAS, Dimitrios",GRE,Men,100m freestyle for sailors,M,Bronze


In [156]:
medalists.Gender.value_counts()

Men      21721
Women     7495
Name: Gender, dtype: int64

In [188]:
new_medalists = pd.merge(medalists,countries, on='NOC')

In [189]:
new_medalists.head()

Unnamed: 0,City,Edition,Sport,Discipline,Athlete,NOC,Gender,Event,Event_gender,Medal,Country,ISO code
0,Athens,1896,Aquatics,Swimming,"HAJOS, Alfred",HUN,Men,100m freestyle,M,Gold,Hungary,HU
1,Athens,1896,Aquatics,Swimming,"HAJOS, Alfred",HUN,Men,1200m freestyle,M,Gold,Hungary,HU
2,Athens,1896,Athletics,Athletics,"SZOKOLYI, Alajos",HUN,Men,100m,M,Bronze,Hungary,HU
3,Athens,1896,Athletics,Athletics,"DANI, Nandor",HUN,Men,800m,M,Silver,Hungary,HU
4,Athens,1896,Athletics,Athletics,"KELLNER, Gyula",HUN,Men,marathon,M,Bronze,Hungary,HU


In [None]:
new_medalists_g = new_medalists.groupby(['ISO code','Edition','Gender'])['Athlete'].count().reset_index()

In [191]:
new_medalists_g.head()

Unnamed: 0,ISO code,Edition,Gender,Athlete
0,AE,2004,Men,1
1,AF,2008,Men,1
2,AM,1996,Men,2
3,AM,2000,Men,1
4,AM,2008,Men,6


In [192]:
mdgen = pd.pivot_table(new_medalists_g, index=['ISO code','Edition'], columns='Gender', values='Athlete' )

In [197]:
# mdgen

In [201]:
mdgen = mdgen.fillna(0)

In [202]:
mdgen['Total'] = mdgen[['Men','Women']].sum(axis=1)

In [203]:
mdgen['Men_pct'] = mdgen['Men'] / mdgen['Total'] * 100
mdgen['Women_pct'] = mdgen['Women'] / mdgen['Total'] * 100
mdgen['Men_pct'] = mdgen['Men_pct'].astype('int')
mdgen['Women_pct'] = mdgen['Women_pct'].astype('int')

In [206]:
mdgen = mdgen.reset_index()

In [210]:
# mdgen[mdgen['ISO code'] == 'US']

In [None]:
# Определите гендерное распределение (в процентах) медалистов по странам по годам 
# Выведите результаты в виде таблицы вместе с полем ISO code


# Немного про Pandas & Excel

<img src='img\batman_xl.jpg' width=400 align=left>


In [211]:
# Сохраним medals_df в файл excel
medals_df.to_excel('medals.xlsx', index=False)

In [142]:
# Если в excel - файле только один лист, или нужен только первый
df = pd.read_excel('medals.xlsx')
df.head()

Unnamed: 0,NOC,Country,Total,medal
0,USA,United States,2088.0,gold
1,URS,Soviet Union,838.0,gold
2,GBR,United Kingdom,498.0,gold
3,FRA,France,378.0,gold
4,GER,Germany,407.0,gold


In [214]:
# Если нужно считать несколько листов из файла, то 
# можно использовать pd.read_excel c параметром sheet_name 
xls = pd.ExcelFile('medal_on_sheets.xlsx')
xls.sheet_names

['gold', 'silver', 'bronze']

In [None]:
medals_from_excel = pd.DataFrame()
for sheet_name in xls.sheet_names:
    temp_df = pd.read_excel('medal_on_sheets.xlsx', sheet_name=sheet_name)
    medals_from_excel= medals_from_excel.append(temp_df)

In [217]:
# medals_from_excel

Unnamed: 0,NOC,Country,Total
0,USA,United States,2088
1,URS,Soviet Union,838
2,GBR,United Kingdom,498
3,FRA,France,378
4,GER,Germany,407
0,USA,United States,1195
1,URS,Soviet Union,627
2,GBR,United Kingdom,591
3,FRA,France,461
4,GER,Germany,350


### Как сохранить DataFrame в ексель на разных листах?


In [218]:
# Создаем файл
writer = pd.ExcelWriter('medal_on_sheets2.xlsx', engine='xlsxwriter')

In [219]:
# Записываем на листы
gold.to_excel(writer, sheet_name='gold', index=False)
silver.to_excel(writer, sheet_name='silver', index=False)
bronze.to_excel(writer, sheet_name='bronze', index=False)
# Сохраняем и закрвыаем 
writer.save()

In [220]:
!ls

Lesson_3.ipynb        medal_on_sheets2.xlsx somefile.txt
[34mdata[m[m                  medals.xlsx           somefile.zip
data.json             somefile.bin          vil.pkl
[34mimg[m[m                   somefile.bz2          ~$medals.xlsx
medal_on_sheets.xlsx  somefile.gz


In [221]:
# Или так c помощью менеджера контекста with
with pd.ExcelWriter('medal_on_sheets3.xlsx', engine='xlsxwriter') as writer:
    for i, tab in enumerate([gold,silver,bronze]):
        tab.to_excel(writer, sheet_name=str(i), index=False)

# Практическая часть 

In [222]:
# Сохраните DataFrame medalists в файл medalists.xlsx
# В этом файле данные по каждой строне должны быть на отдельном листе
medalists.head()

Unnamed: 0,City,Edition,Sport,Discipline,Athlete,NOC,Gender,Event,Event_gender,Medal
0,Athens,1896,Aquatics,Swimming,"HAJOS, Alfred",HUN,Men,100m freestyle,M,Gold
1,Athens,1896,Aquatics,Swimming,"HERSCHMANN, Otto",AUT,Men,100m freestyle,M,Silver
2,Athens,1896,Aquatics,Swimming,"DRIVAS, Dimitrios",GRE,Men,100m freestyle for sailors,M,Bronze
3,Athens,1896,Aquatics,Swimming,"MALOKINIS, Ioannis",GRE,Men,100m freestyle for sailors,M,Gold
4,Athens,1896,Aquatics,Swimming,"CHASAPIS, Spiridon",GRE,Men,100m freestyle for sailors,M,Silver


In [226]:
from tqdm import tqdm_notebook

country_names = medalists.NOC.unique()
with pd.ExcelWriter('medalists.xlsx', engine='xlsxwriter') as writer:
    for el in tqdm_notebook(country_names):
        medalists[medalists['NOC'] == el].to_excel(writer, sheet_name=el, index=False)

HBox(children=(IntProgress(value=0, max=138), HTML(value='')))




# Pandas & ...

<img src="img\web_scrap.jpeg" width=500 align=left>

In [229]:
import pandas as pd
import requests
from tqdm import tqdm_notebook

In [230]:
headers = {'X-Requested-With': 'XMLHttpRequest'}
payload = ({'region':'77'})
url = 'http://www.rosneft-azs.ru/map_search'

In [231]:
r = requests.post(url, data=payload, headers=headers)

In [281]:
res = r.json()
stations = res['stations']

In [283]:
price_content = res['stations'][0]['price']
fuel_types = [x['type'] for x in price_content]

adict = {}
adict['Azs'] = []
adict['Address'] = []
for k in fuel_types:
    adict[k] = []

# Заполняем списки с помощью цикла
for station in tqdm_notebook(stations):     
    adict['Azs'].append(station['id'])
    adict['Address'].append(station['address'])
    for d in station['price']:
        for t in fuel_types:
            if d['type'] == t:
                adict[t].append(d['price'])

In [248]:
# Почему сюда не подходит метод .fromkeys() ?
# adict = dict.fromkeys(['Azs','Address','Price92','Price95'],[])

In [280]:
rn = pd.DataFrame(adict)
rn.head()

Unnamed: 0,Azs,Address,92,92_fora,95,95_fora,98,98_fora,100,100_pulsar,diesel,diesel_fora,gas,methane
0,56505,"Новосибирская обл., г. Новосибирск, ул. Фабрич...",41.25,0.0,44.4,0.0,49.5,0,0.0,0.0,47.05,0,0.0,0.0
1,58520,"Ростовская обл., Мясниковский р-н, п. Чалтырь,...",43.39,43.89,0.0,47.72,0.0,0,0.0,0.0,44.85,0,0.0,0.0
2,58316,"Владимирская обл., Судогодский р-н, д. Лаврово...",41.6,0.0,44.6,45.1,0.0,0,0.0,0.0,44.3,0,0.0,0.0
3,58519,"Ростовская обл., г. Ростов-на-Дону, ул. 40 Лет...",43.39,0.0,47.22,47.92,0.0,0,0.0,0.0,44.85,0,0.0,0.0
4,58509,"Калужская обл., г. Калуга, ул. Зерновая, 34",40.15,0.0,43.2,44.0,0.0,0,0.0,0.0,42.85,0,0.0,0.0


# Практическая часть..

In [299]:
# Добавить в таблицу другие виды топлива

price_content = res['stations'][0]['price']
fuel_types = [x['type'] for x in price_content]

adict = {}
adict['Azs'] = []
adict['Address'] = []
for k in fuel_types:
    adict[k] = []

# Заполняем списки с помощью цикла
for station in tqdm_notebook(stations):     
    adict['Azs'].append(station['id'])
    adict['Address'].append(station['address'])
    for d in station['price']:
        for t in fuel_types:
            if d['type'] == t:
                adict[t].append(d['price'])
                
rn = pd.DataFrame(adict)
rn.head()

HBox(children=(IntProgress(value=0, max=2301), HTML(value='')))




Unnamed: 0,Azs,Address,92,92_fora,95,95_fora,98,98_fora,100,100_pulsar,diesel,diesel_fora,gas,methane
0,56505,"Новосибирская обл., г. Новосибирск, ул. Фабрич...",41.25,0.0,44.4,0.0,49.5,0,0.0,0.0,47.05,0,0.0,0.0
1,58520,"Ростовская обл., Мясниковский р-н, п. Чалтырь,...",43.39,43.89,0.0,47.72,0.0,0,0.0,0.0,44.85,0,0.0,0.0
2,58316,"Владимирская обл., Судогодский р-н, д. Лаврово...",41.6,0.0,44.6,45.1,0.0,0,0.0,0.0,44.3,0,0.0,0.0
3,58519,"Ростовская обл., г. Ростов-на-Дону, ул. 40 Лет...",43.39,0.0,47.22,47.92,0.0,0,0.0,0.0,44.85,0,0.0,0.0
4,58509,"Калужская обл., г. Калуга, ул. Зерновая, 34",40.15,0.0,43.2,44.0,0.0,0,0.0,0.0,42.85,0,0.0,0.0


In [300]:
# Сделать отдельну колонку Regions, отделив регионы от адреса АЗС 
rn['Regions'] = rn.Address.apply(lambda x:x.split(',')[0])
rn.head()

Unnamed: 0,Azs,Address,92,92_fora,95,95_fora,98,98_fora,100,100_pulsar,diesel,diesel_fora,gas,methane,Regions
0,56505,"Новосибирская обл., г. Новосибирск, ул. Фабрич...",41.25,0.0,44.4,0.0,49.5,0,0.0,0.0,47.05,0,0.0,0.0,Новосибирская обл.
1,58520,"Ростовская обл., Мясниковский р-н, п. Чалтырь,...",43.39,43.89,0.0,47.72,0.0,0,0.0,0.0,44.85,0,0.0,0.0,Ростовская обл.
2,58316,"Владимирская обл., Судогодский р-н, д. Лаврово...",41.6,0.0,44.6,45.1,0.0,0,0.0,0.0,44.3,0,0.0,0.0,Владимирская обл.
3,58519,"Ростовская обл., г. Ростов-на-Дону, ул. 40 Лет...",43.39,0.0,47.22,47.92,0.0,0,0.0,0.0,44.85,0,0.0,0.0,Ростовская обл.
4,58509,"Калужская обл., г. Калуга, ул. Зерновая, 34",40.15,0.0,43.2,44.0,0.0,0,0.0,0.0,42.85,0,0.0,0.0,Калужская обл.


In [None]:
# Выбрать АЗС из Белоруссии и сохранить в rnbelarus
belarus_regions = rn[(rn[95] > 0) & (rn[95] < 10) ]['Regions'].unique().tolist()
rnbelarus = rn[rn.Regions.isin(belarus_regions)]

In [308]:
rnbelarus=rnbelarus.reset_index()

In [315]:
# Пересчитать цены rnbelarus в рубли 31,5823 на 04.09.2019 на сайте ЦБ
belrub = 31.5823
rnbelarus[fuel_types] = rnbelarus[fuel_types] * belrub

In [303]:
# Убрать АЗС из Белоруссии из таблциы rn
rn = rn[~rn.Regions.isin(belarus_regions)]

In [321]:
# Расчитать средние цены на топливо по регионам
rn_region_prices = rn.groupby('Regions')[fuel_types].median()

In [345]:
# Создать директорию regional_prices
os.mkdir('regional_prices')

In [398]:
# !ls

In [347]:
# shutil.rmtree('regional_prices')

In [386]:
# Записать в отдельный .csv файл цены для каждого региона. 
# Разделить должен быть знак табуляции sep='\t'
# Название файла записать как название региона, заменив пробел на _
rn_regions = rn.Regions.unique().tolist()
for region in tqdm_notebook(rn_regions):
    filename = '_'.join(region.split(' '))
    if filename.endswith('.'):
        filename += 'csv'
    else:
        filename += '.csv'
    fpath = os.path.join('regional_prices', filename)
    rn[rn.Regions == region].to_csv(fpath, sep='\t', index=False)
    

HBox(children=(IntProgress(value=0, max=81), HTML(value='')))




In [387]:
# Выведите содержимое директории в переменную list_of_files
list_of_files = os.listdir('regional_prices')

In [389]:
# Создайте словарь regional_prices и заполните его таким образом, чтобы
# ключ был название файла без .csv, а значения - список строк, счиатанных из файла
regional_prices = {}
list_of_files = [x for x in list_of_files if x.endswith('csv')]
for el in tqdm_notebook(list_of_files):
    k = '.'.join(el.split('.')[:-1])
    fpth = os.path.join('regional_prices', el)
    with open(fpth, 'r') as f:
        rndata = f.read()
        regional_prices[k] = rndata

HBox(children=(IntProgress(value=0, max=81), HTML(value='')))




In [390]:
# Соберите таблицу rnnew из словаря regional_prices
manyrows=[]
for v in regional_prices.values():
    rows = v.split('\n')
    manyrows.extend(rows)

header = manyrows[0]
manyrows = [x.split('\t') for x in manyrows[1:] if x != header]
rnnew = pd.DataFrame(manyrows, columns=header.split('\t'))

In [399]:
rnnew.head()

Unnamed: 0,Azs,Address,92,92_fora,95,95_fora,98,98_fora,100,100_pulsar,diesel,diesel_fora,gas,methane,Regions
0,58181,"Ярославская обл., Ярославский р-н, п. Карачиха...",40.7,0.0,43.68,44.41,0.0,0,0.0,0.0,44.53,0,0.0,0.0,Ярославская обл.
1,58182,"Ярославская обл., Некрасовский р-н, п. Некрасо...",0.0,0.0,0.0,0.0,0.0,0,0.0,0.0,0.0,0,0.0,0.0,Ярославская обл.
2,58183,"Ярославская обл., Ярославский р-н, г. Ярославл...",40.95,0.0,43.68,44.41,0.0,0,0.0,0.0,44.53,0,0.0,0.0,Ярославская обл.
3,58184,"Ярославская обл., г. Ярославль, ул. Колышкина,...",0.0,0.0,0.0,0.0,0.0,0,0.0,0.0,0.0,0,0.0,0.0,Ярославская обл.
4,58185,"Ярославская обл., г. Ярославль, ш. Тормозное, 107",40.95,0.0,43.68,44.41,47.67,0,0.0,0.0,44.53,0,0.0,0.0,Ярославская обл.
