# Работа с файлами с Python

* Чтение и запись текстовых файлов
* Чтение и запись бинарных файлов
* Обработка данных в формате JSON
* Сериализация объектов pickle
* Чтение и запись сжатых файлов
* Библиотеки os и shutil 
* Проверка существования файлов

### Чтение и запись текстовых файлов

In [52]:
# Чтение файлов
f = open('somefile.txt', 'r')
data = f.read()
f.close()

In [54]:
# Запись файлов с помощью write 
# write принимает на вход строку
text1 = 'Blah-Blah-Blah'
f = open('somefile_new.txt', 'w')
f.write(text1)
f.close()

In [67]:
#  Запись файлов с помощью writelines
# writelines принимает список
texts = [text1,text2]
f = open('somefile_new.txt', 'w')
f.writelines(texts)
f.close()

In [66]:
!cat somefile_new.txt

Blah-Blah-BlahBlah-Blah-BlahBlah-Blah-Blah

In [68]:
# Важно! Разделители нужно ставить самостоятельно :)
texts = [text1,text2]
f = open('somefile_new.txt', 'w')
f.writelines([t + '\n' for  t in texts])
f.close()

In [69]:
# проверим что внутри somefile_new.txt
!cat somefile_new.txt

Blah-Blah-Blah
Blah-Blah-BlahBlah-Blah-Blah


In [34]:
lines = []
with open('somefile.txt', 'rt') as f: 
    for line in f:
        lines.append(line)
lines

In [36]:
# Пишем кусочки текстовых данных
text1 = 'Blah-Blah-Blah'
text2 = text1 * 2
with open('somefile_new.txt', 'wt') as f:
    f.write(text1)
    f.write(text2)

In [37]:
# Добавляем текст в файл
with open('somefile_new.txt', 'a') as f:
    f.write(text1)
    f.write(text2)

In [None]:
# Записываем текст в файл
with open('somefile_new.txt', 'wt') as f:
    f.write(text1)
    f.write(text2)

In [39]:
# Перенаправленная инструкция print для записи в файл
line1 = text1 
line2 = text2 
with open('somefile_new.txt', 'wt') as f:
    print(line1, file=f)
    print(line2, file=f)

In [116]:
# Перенаправленная инструкция print с разделителем
with open('somefile_new.txt', 'wt') as f:
    print(line1, 90, 20, sep=',', file=f)
    print(line1, 90, 20, sep=',', file=f)

In [104]:
!cat somefile_new.txt

Blah-Blah-Blah,90,20
Blah-Blah-Blah,90,20


In [105]:
# В print можно менять знаки окончания строки
for i in range(5): 
    print(i)
#     print(i , end='\n')


0
1
2
3
4


In [106]:
for i in range(5): 
    print(i, end=' ')

0 1 2 3 4 

# Чтение и запись бинарных файлов

In [141]:
# Записать бинарные данные в файл
with open('somefile.bin', 'wb') as f:
    f.write(b'Hello World')

In [142]:
# Прочесть весь файл как одну байтовую строку
with open('somefile.bin', 'rb') as f: 
    data = f.read()

In [146]:
for el in data:
    print(el)

72
101
108
108
111
32
87
111
114
108
100


# Pickle

In [25]:
# пикл сериализует объекты python в бинарные файлы
import pickle
very_important_list = [1,3,4,5,6]

In [26]:
fpath = 'vil.pkl'
with open(fpath, 'wb') as f:
    pickle.dump(very_important_list,f)

In [27]:
# !ls

In [28]:
with open(fpath, 'rb') as f:
    new_very_important_list = pickle.load(f)

In [29]:
new_very_important_list

[1, 3, 4, 5, 6]

# Чтение и запись сжатых файлов

In [150]:
import gzip
import bz2

In [165]:
# Сжатие с помощью gzip
text = 'bla-bla-bla ' * 5
with gzip.open('somefile.gz', 'wt') as f:
    f.write(text)

In [166]:
# Распаковка
with gzip.open('somefile.gz', 'rt') as f:
    newtext = f.read()
newtext

'bla-bla-bla bla-bla-bla bla-bla-bla bla-bla-bla bla-bla-bla '

In [162]:
# Сжатие с помощью bz2
text = 'bla-bla-bla ' * 3
with bz2.open('somefile.bz2', 'wt') as f:
    f.write(text)

In [163]:
# Распаковка
with bz2.open('somefile.bz2', 'rt') as f:
    new_text = f.read()
new_text

In [173]:
!ls

Lesson_3.ipynb       medals.xlsx          somefile.zip
[34mdata[m[m                 somefile.bin         somefile2.zip
data.json            somefile.bz2         vil.pkl
[34mimg[m[m                  somefile.gz
medal_on_sheets.xlsx somefile.txt


In [185]:
# Для ZIP архивов можно использовать библиотеку zipfile

import zipfile
zf = zipfile.ZipFile('somefile.zip', 'w')
zf.write('somefile.txt')
zf.close()

In [186]:
# Архивируем
with zipfile.ZipFile('somefile2.zip', 'w') as zf:
    zf.write('somefile.txt')

In [183]:
# Извлекаем из архива
fzip = zipfile.ZipFile('somefile2.zip')
fzip.extract(fzip.namelist()[0])
fzip.close()

# JSON - это не только сын Джея

<img src='img\jay.jpeg' width=300 align=left>

In [147]:
# JSON - это формат для передачи данных из разных систем
import json
data = {
    'name' : 'Vasya',
    'age' : 50,
    'sex' : 'M'
    }
json_str = json.dumps(data)

In [148]:
json_str

'{"name": "Vasya", "age": 50, "sex": "M"}'

In [182]:
# Запись JSON-данных
with open('data.json', 'w') as f:
    json.dump(data, f)

In [183]:
# Чтение данных
with open('data.json', 'r') as f:
    data = json.load(f)

In [193]:
# Синтаксис JSON очень похож синтаксис в Python
# True отображается на true, False – на false, а None – на null.

In [194]:
json.dumps(False)

'false'

In [195]:
json.dumps(None)

'null'

# os и shutil

In [8]:
import os

In [51]:
# Выдает список содержимого директории
os.listdir('img')

['web_scrap.jpeg', 'jay.jpeg', 'json_logo-555px.png']

In [43]:
# Создает директорию
# os.mkdir('test')

In [52]:
# Удаляет директорию
# os.rmdir('test')

In [53]:
# Если нужно пройтись по дереву каталога можно использовать os.walk
# for el in os.walk('test'):
#     print(el)

In [9]:
# Если нужно склеить путь к файлу или директории
os.path.join('..','img','file.txt')

'../img/file.txt'

In [14]:
# Используйте os.path, чтобы проверить, существует ли файл или каталог. Напри- мер:
os.path.exists('img') 
os.path.exists('img/spam')


False

In [15]:
# Вы можете выполнить дополнительные тесты, чтобы проверить тип файла. Эти проверки возвращают False, если файл не существует:
# Это обычный файл?
os.path.isfile('img')


False

In [16]:
# Это каталог?
os.path.isdir('img')


True

In [22]:
# Если вам нужно получить метаданные (например, размер или дату изменения файла)
# это тоже можно сделать с помощью модуля os.path:
os.path.getsize('img/jay.jpeg')

91132

In [23]:
os.path.getmtime('img')

1567432372.2145486

In [24]:
import time
time.ctime(os.path.getmtime('img'))

'Mon Sep  2 16:52:52 2019'

# shutil

In [87]:
import shutil

In [None]:
# Для премещения файлов можно использовать shutil.move
# shutil.move(src, dst)

In [None]:
# Для компирования можно воспользоваться одной из нескольких функций
# shutil.copy(src, dst)  - копирует содержимое файла
# shutil.copytree(src, dst)  - копирует содержимое директории

In [46]:
# Если директория не пуста, то для ее удаления лучше использовать rmtree из shutil
# shutil.rmtree('test')

In [112]:
!ls

Lesson_3.ipynb       [34mimg[m[m                  somefile.txt
[34mdata[m[m                 medal_on_sheets.xlsx vil.pkl
data.json            medals.xlsx


In [113]:
# Создадим директории
os.mkdir('test_dir1')
os.mkdir('test_dir2')

In [117]:
# Перенесем файл
shutil.move('somefile_new.txt', 'test_dir1/somefile_new.txt')

'test_dir1/somefile_new.txt'

In [118]:
# Скопируем файл
shutil.copy('test_dir1/somefile_new.txt', 'test_dir2/somefile_new.txt') 

'test_dir2/somefile_new.txt'

In [119]:
# Скопируем директорию и ее содержимое
shutil.copytree('test_dir2', 'test_dir3') 

'test_dir3'

In [120]:
# Удалим то, что мы создали
shutil.rmtree('test_dir1')
shutil.rmtree('test_dir2')
shutil.rmtree('test_dir3')

# Практическая часть

In [None]:
# 1. Создайте директорию poems
#----- Ваш код здесь ----

In [222]:
# 2. Создайте в ней файл pushkin.txt, в который запишите text_task
text_task = """
Я помню чудное мгновенье:
Передо мной явилась ты,
Как мимолетное виденье,
Как гений чистой красоты.
"""
#----- Ваш код здесь ----

In [None]:
# 3. Удалите директорию poems
#----- Ваш код здесь ----

# Pandas и присоединение таблиц

In [191]:
import pandas as pd

In [93]:
# Прописываем пути к файлам
bronzefpth = os.path.join('data','medals','Bronze.csv')
silverfpth = os.path.join('data','medals','Silver.csv')
goldfpth = os.path.join('data','medals','Gold.csv')
# Подгружаем CSV
bronze = pd.read_csv(bronzefpth).head(5)
silver = pd.read_csv(silverfpth).head(5)
gold = pd.read_csv(goldfpth).head(5)
gold

Unnamed: 0,NOC,Country,Total
0,USA,United States,2088.0
1,URS,Soviet Union,838.0
2,GBR,United Kingdom,498.0
3,FRA,France,378.0
4,GER,Germany,407.0


In [94]:
silver

Unnamed: 0,NOC,Country,Total
0,USA,United States,1195.0
1,URS,Soviet Union,627.0
2,GBR,United Kingdom,591.0
3,FRA,France,461.0
4,GER,Germany,350.0


In [95]:
bronze

Unnamed: 0,NOC,Country,Total
0,USA,United States,1052.0
1,URS,Soviet Union,584.0
2,GBR,United Kingdom,505.0
3,FRA,France,475.0
4,GER,Germany,454.0


In [96]:
medals = gold.copy()
new_labels = ['NOC', 'Country', 'Gold']
medals.columns = new_labels
medals['Silver'] = silver['Total']
medals['Bronze'] = bronze['Total']

In [97]:
medals.head()

Unnamed: 0,NOC,Country,Gold,Silver,Bronze
0,USA,United States,2088.0,1195.0,1052.0
1,URS,Soviet Union,838.0,627.0,584.0
2,GBR,United Kingdom,498.0,591.0,505.0
3,FRA,France,378.0,461.0,475.0
4,GER,Germany,407.0,350.0,454.0


In [98]:
# Когда мы хотим слить несколько табиц с одинаковыми колонками в одну большую (по вертикали)
medals_dict = {'gold': goldfpth, 'silver': silverfpth,'bronze':bronzefpth}

In [99]:
# Можно использовать метод df.append()
# !!! Важно, что он работает не так как append в списках, то есть не inplace
medals_df = pd.DataFrame()
for medal, fpth in medals_dict.items():
    df_temp = pd.read_csv(fpth)
    df_temp['medal'] = medal
    medals_df = medals_df.append(df_temp)

# Практическая часть

In [212]:
# Даны 3 таблицы
medalists = pd.read_csv('data/Summer Olympic medalists 1896 to 2008 - ALL MEDALISTS.tsv',
                        sep='\t', skiprows=4)
editions = pd.read_csv('data/Summer Olympic medalists 1896 to 2008 - EDITIONS.tsv', sep='\t')
countries = pd.read_csv('data/Summer Olympic medalists 1896 to 2008 - IOC COUNTRY CODES.csv')

In [221]:
# countries.head(3)
# editions.head(3)
# medalists.head(3)

In [None]:
# Определите гендерное распределение (в процентах) медалистов по странам по годам 
# Выведите результаты в виде таблицы вместе с полем ISO code
#----- Ваш код здесь ----

# Немного про Pandas & Excel

<img src='img\batman_xl.jpg' width=400 align=left>


In [100]:
# Сохраним medals_df в файл excel
medals_df.to_excel('medals.xlsx', index=False)

In [142]:
# Если в excel - файле только один лист, или нужен только первый
df = pd.read_excel('medals.xlsx')
df.head()

Unnamed: 0,NOC,Country,Total,medal
0,USA,United States,2088.0,gold
1,URS,Soviet Union,838.0,gold
2,GBR,United Kingdom,498.0,gold
3,FRA,France,378.0,gold
4,GER,Germany,407.0,gold


In [146]:
# Если нужно считать несколько листов из файла, то 
# можно использовать pd.read_excel c параметром sheet_name 
xls = pd.ExcelFile('medals.xlsx')
xls.sheet_names

['Лист1', 'Лист3', 'Лист2']

In [148]:
medals_from_excel = pd.DataFrame()
for sheet_name in xls.sheet_names:
    temp_df = pd.read_excel('medals.xlsx', sheet_name=sheet_name)
    medals_from_excel= medals_from_excel.append(temp_df)

# medals_from_excel

### Как сохранить DataFrame в ексель на разных листах?


In [149]:
# Создаем файл
writer = pd.ExcelWriter('medal_on_sheets.xlsx', engine='xlsxwriter')
# Записываем на листы
gold.to_excel(writer, sheet_name='gold', index=False)
silver.to_excel(writer, sheet_name='silver', index=False)
bronze.to_excel(writer, sheet_name='bronze', index=False)
# Сохраняем и закрвыаем 
writer.save()

In [139]:
# Или так c помощью менеджера контекста with
with pd.ExcelWriter('medal_on_sheets.xlsx', engine='xlsxwriter') as writer:
    for i, tab in enumerate([gold,silver,bronze]):
        tab.to_excel(writer, sheet_name=str(i), index=False)


# Практическая часть 

In [None]:
# Сохраните DataFrame medalists в файл medalists.xlsx
# В этом файле данные по каждой строне должны быть на отдельном листе
#----- Ваш код здесь ----

# Pandas & ...

<img src="img\web_scrap.jpeg" width=500 align=left>

In [54]:
import pandas as pd
import requests
from tqdm import tqdm_notebook


In [28]:
headers = {'X-Requested-With': 'XMLHttpRequest'}
payload = ({'region':'77'})
url = 'http://www.rosneft-azs.ru/map_search'
r = requests.post(url, data=payload, headers=headers)
res = r.json()

In [None]:
stations = res['stations']

In [22]:
# Формируем словарь со списками для колонок таблицы
adict = {'Azs':[],'Address' :[],'Price92':[],'Price95':[]}
# Заполняем списки с помощью цикла
for station in tqdm_notebook(stations):     
    adict['Azs'].append(station['id'])
    adict['Address'].append(station['address'])
    for d in station['price']:
        if d['type'] == 92:
            adict['Price92'].append(d['price'])
        elif d['type'] == 95:
            adict['Price95'].append(d['price'])

HBox(children=(IntProgress(value=0, max=2301), HTML(value='')))




In [23]:
# Почему сюда не подходит метод .fromkeys() ?
# adict = dict.fromkeys(['Azs','Address','Price92','Price95'],[])

In [25]:
rn = pd.DataFrame.from_dict(adict)
rn.head()

Unnamed: 0,Azs,Address,Price92,Price95
0,56505,"Новосибирская обл., г. Новосибирск, ул. Фабрич...",41.25,44.4
1,58520,"Ростовская обл., Мясниковский р-н, п. Чалтырь,...",43.39,0.0
2,58316,"Владимирская обл., Судогодский р-н, д. Лаврово...",41.6,44.6
3,58519,"Ростовская обл., г. Ростов-на-Дону, ул. 40 Лет...",43.39,47.22
4,58509,"Калужская обл., г. Калуга, ул. Зерновая, 34",40.15,43.2


# Практическая часть..

In [None]:
# Добавить в таблицу другие виды топлива
#----- Ваш код здесь ----

In [None]:
# Отделить регионы от адреса АЗС
#----- Ваш код здесь ----

In [None]:
# Выбрать АЗС из Белоруссии и сохранить в rnbelarus
#----- Ваш код здесь ----

In [None]:
# Пересчитать цены rnbelarus в рубли
#----- Ваш код здесь ----

In [None]:
# Убрать АЗС из Белоруссии из таблциы rn
#----- Ваш код здесь ----

In [None]:
# Расчитать средние цены на топливо по регионам
#----- Ваш код здесь ----

In [None]:
# Создать директорию regional_prices
#----- Ваш код здесь ----

In [None]:
# Записать в отдельный .csv файл цены для каждого региона. 
# Разделить должен быть знак табуляции sep='\t'
# Название файла записать как название региона, заменив пробел на _
#----- Ваш код здесь ----

In [None]:
# Выведите содержимое директории в переменную list_of_files
#----- Ваш код здесь ----

In [None]:
# Создайте словарь regional_prices и заполните его таким образом, чтобы
# ключ был название файла без .csv, а значения - список строк, счиатанных из файла
#----- Ваш код здесь ----

In [None]:
# Соберите таблицу rnnew из словаря regional_prices
#----- Ваш код здесь ----