# File I/O

In [None]:
filename = open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

In [1]:
f1 = open(file="./w_test.txt",mode="w",encoding="utf-8")
f1.write("test text\n")
f1.write("test text2")
f1.close()


f2 = open(file = "./w_test.txt",mode="r",encoding="utf-8")
k = f2.readlines()
for i in k:
    print(i)
f2.close()

test text

test text2


In [2]:
with open("./w_test.txt", mode="r",encoding="utf-8") as f:
    print(f.readline())

test text



## Форматы файлов

- СSV
- JSON
- XML
- Excel
- HTML-site

### CSV (Comma Separated Value)

* CSV – Comma Separated Values (http://data.okfn.org/doc/csv)
* RFC 4180 - Common Format and MIME Type for Comma-Separated Values (CSV) Files (http://tools.ietf.org/html/rfc4180)
* RFC 7111 - URI Fragment Identifiers for the text/csv Media Type (https://tools.ietf.org/html/rfc7111)
* Python 3.6 CSV (https://docs.python.org/3.6/library/csv.html)

In [1]:
import csv
import os

In [3]:
fn = "example.csv"
if os.path.exists(fn):
    append_write = 'a'  
else:
    append_write = 'w' 

with open(fn, append_write,newline='',encoding="utf-8") as f:
    writer = csv.writer(f,delimiter=',')
    writer.writerow(("txt1","txt2"))

In [13]:
with open(fn, newline='') as f:
    reader = csv.reader(f, delimiter=' ')
    for row in reader:
        print(row)

['first_name,last_name']
['Baked,Beans']
['first_name,last_name']
['Baked,Beans']


In [7]:
# csv.DictWriter
import os 
import csv

fn = "example2.csv"
if os.path.exists(fn):
    append_write = 'a'  
else:
    append_write = 'w' 
    
with open(fn1, append_write, newline='') as csvfile:
    fieldnames = ['first_name', 'last_name']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    
    writer.writerow({'first_name': 'Baked', 'last_name': 'Beans'})
    writer.writerow({'first_name': '1', 'last_name': '2'})

In [8]:
# csv.DictReader 

if os.path.exists(fn):
        with open(fn, newline='') as f:
            reader = csv.DictReader(f)
            for row in reader:
                print(row)

{'last_name': 'Beans', 'first_name': 'Baked'}
{'last_name': '2', 'first_name': '1'}


# Excel

- [openpyxl](https://openpyxl.readthedocs.io/en/default/) - Read/Write Excel 2007 xlsx/xlsm files
- xlrd - Extract data from Excel spreadsheets (.xls and .xlsx, versions 2.0 onwards) on any platform
- xlsxwriter - Write files in the Excel 2007+ XLSX file format
- xlwt - Generate spreadsheet files that are compatible with Excel 97/2000/XP/2003, OpenOffice.org Calc, and Gnumeric.

In [None]:
# pip install openpyxl

from openpyxl import *
from openpyxl.utils import 

def get_data(sourcefile, source_list, source_column_letter):
    ret_urls = []
    if sourcefile == None:
        return "No file"
    wb = load_workbook(sourcefile)
    ws_source = wb.get_sheet_by_name(source_list)
    source_column_index = column_index_from_string(source_column_letter)-1
    cell_generator = [cll for cll in ws_source.iter_cols(min_col=source_column_index, max_col=source_column_index)]
    for i in cell_generator[0]:
        if i.value is not None:
            ret_urls.append(i.value)
    return ret_urls

# JSON

- ECMA-404 (http://json.org , http://www.ecma-international.org/publications/files/ECMA-ST/ECMA-404.pdf)
- JSON-LD 1.0 - A JSON-based Serialization for Linked Data - W3C Recommendation 16 January 2014 (http://www.w3.org/TR/json-ld/)
- BSON (http://bsonspec.org/spec.html, http://bsonspec.org)
- UBJSON ( http://en.wikipedia.org/wiki/UBJSON)
- Hjson, the Human JSON (http://hjson.org)
- JSON5 (http://json5.org)
- JSON Schema (http://json-schema.org)


В качестве значений в JSON могут быть использованы:

* Объект — это неупорядоченное множество пар ключ:значение, заключённое в фигурные скобки «{ }». Ключ описывается строкой, между ним и значением стоит символ «:». Пары ключ-значение отделяются друг от друга запятыми.
* Массив (одномерный) — это упорядоченное множество значений. Массив заключается в квадратные скобки «[ ]». Значения разделяются запятыми.
* Число.
* Литералы true, false и null.
* Строка — это упорядоченное множество из нуля или более символов юникода, заключённое в двойные кавычки. Символы могут быть указаны с использованием escape-последовательностей, начинающихся с обратной косой черты «\» (поддерживаются варианты \", \\, \/, \t, \n, \r, \f и \b), или записаны шестнадцатеричным кодом в кодировке Unicode в виде \uFFFF.

Пример валидного json файла

Для работы с валидными json форматами в Python есть пакет json

In [9]:
import json

# запись словаря в файл

fn = "j1.json"
data = {"ключ":"значение"} # словарь
content = json.dumps(data, ensure_ascii=False) 
with open(fn, 'w',encoding="utf-8") as f:
    f.write(content)


In [10]:
# загрузка в словарь из файла

with open(fn, 'r',encoding="utf-8") as file:
    d = json.load(file)
    print(d)
    print(type(d))

{'ключ': 'значение'}
<class 'dict'>


### Json tools

* http://jsoneditoronline.org/

## Задания

1. Написать файловый браузер -функцию, которая по заданному пути возвращает список элементов (папок и файлов) и тип (файл или папка)
* Замерить время создания 100 json-файлов с структурой {"id":<from 0 to 100> ,"name":<10 random characters>,"body":<100 random characters>}
* Полученные файлы считать в один csv-файл 
