# Работа с файлами и таблицами

## Таблицы

* CSV $-$ comma separated values ака. значения разделенные запятой.
* TSV $-$ tab separated values ака. значения разделенные знаком табуляции (`\t`).
* XLS(X) $-$ сложный бинарный формат, используемый Excel.

Будем работать с файлом с десертами:

In [None]:
# сработает если у вас Colab / Linux.
# иначе можно импортировать модуль wget
# и написать wget.download(...)

!wget -q 'https://raw.githubusercontent.com/KatiaKozlova/files/main/desserts.csv'

Как CSV, так и TSV можно прочитать как обычные файлы с указанием кодировки.

In [None]:
# ваш код тут

Дальнейший план работы прост:
1. Разбить текст по строкам.
2. (опционально) Сохранить заголовки
3. Разделить каждую строку по символу табуляции `\t` или по запятым.
4. Сохранить в виде списка списков или списка словарей.

Как вы думаете, какие у этого метода минусы / подводные камни?


## **Модуль `csv`**

Нужен для удобной работы с форматами:

[Ссылка](https://docs.python.org/3/library/csv.html) на документацию.

Так как это модуль, его надо импортировать:

In [None]:
import csv

### *Чтение*:

Чтобы работать с файлом любого формата, его надо открыть, как мы это всегда делаем!

1. `csv.reader(file)`

In [None]:
with open('desserts.csv', 'r', encoding='utf-8') as csv_desserts:
    desserts = csv.reader(csv_desserts)
    stop = 5
    for row in desserts:
        print(row)
        stop -= 1

        if not stop:
            break

['ingredient', 'amount', 'name']
['Яйцо куриное', '4 штуки', 'pirog s jablochnimi rozami']
['Сахарная пудра', '50 г', 'pirog s jablochnimi rozami']
['Пшеничная мука', '200 г', 'pirog s jablochnimi rozami']
['Соль', 'щепотка', 'pirog s jablochnimi rozami']


По сути, это замена `.read()` + `.split()`.

**NB!** Сейчас в переменной `desserts` хранится итератор:

In [None]:
print(desserts)

<_csv.reader object at 0x7b6079aadb60>


In [None]:
# Как сделать из desserts список списков?
with open('desserts.csv', 'r', encoding='utf-8') as csv_desserts:
    desserts = csv.reader(csv_desserts)
    print(list(desserts)[:10])

[['ingredient', 'amount', 'name'], ['Яйцо куриное', '4 штуки', 'pirog s jablochnimi rozami'], ['Сахарная пудра', '50 г', 'pirog s jablochnimi rozami'], ['Пшеничная мука', '200 г', 'pirog s jablochnimi rozami'], ['Соль', 'щепотка', 'pirog s jablochnimi rozami'], ['Сливочное масло', '100 г', 'pirog s jablochnimi rozami'], ['Молоко', '400 мл', 'pirog s jablochnimi rozami'], ['Белое сухое вино', '100 мл', 'pirog s jablochnimi rozami'], ['Ванилин', '1 чайная ложка', 'pirog s jablochnimi rozami'], ['Цедра апельсина', '1 чайная ложка', 'pirog s jablochnimi rozami']]


В любой нормальной табличке сверху находятся заголовки (headers), которые описывают, что за информация находится в каждом столбце. Так как `csv.reader()` возвращает итератор, можно их сохранить отдельно так:

In [None]:
with open('desserts.csv', 'r', encoding='utf-8') as csv_desserts:
    desserts = csv.reader(csv_desserts)
    headers = next(desserts)
    rows = list(desserts)[:5]

print(headers)
print(rows)

['ingredient', 'amount', 'name']
[['Яйцо куриное', '4 штуки', 'pirog s jablochnimi rozami'], ['Сахарная пудра', '50 г', 'pirog s jablochnimi rozami'], ['Пшеничная мука', '200 г', 'pirog s jablochnimi rozami'], ['Соль', 'щепотка', 'pirog s jablochnimi rozami'], ['Сливочное масло', '100 г', 'pirog s jablochnimi rozami']]


2. `csv.DictReader(file)`

(да-да, с больших букв!)

Каждая строка становится значениями словаря с ключами-заголовками:

In [None]:
with open('desserts.csv', 'r', encoding='utf-8') as csv_desserts:
    desserts = csv.DictReader(csv_desserts)

    for row in desserts:
        print(row)
        break

{'ingredient': 'Яйцо куриное', 'amount': '4 штуки', 'name': 'pirog s jablochnimi rozami'}


### Задача №1

У вас есть [датасет](https://raw.githubusercontent.com/KatiaKozlova/files/main/language_codes.csv) с языками и их кодами в формате CSV (`language_codes.csv`). Каждая строчка состоит из значений, разделенных запятыми:

- столбец `alpha2`: двухбуквенный код языка;
- столбец `English`: английское название языка.
    
Например, `av,Avaric`.
    
Напишите программу, которая принимала бы на вход имя и фамилию человека на латинице, а возвращала язык, код которого совпадает с первыми буквами имени и фамилии.
    
|**Ввод**|**Вывод**|
|---|---|
|`Kate Moss`|`Central Khmer`|
|`Federico Fellini`|`Fulah`|

In [None]:
# ваш код тут

### *Запись*:

1. `csv.writer(file)`

Опять же, надо открыть файл в нужном режиме, создать переменную для записи, а потом писать через `.writerow()` / `.writerows()`. Первый принимает на вход итерируемый объект (например, кортеж / список / ...), а второй - итерируемый объект из итерируемых объектов (спиок списков / список кортежей / ...).

In [None]:
data = [['hostname', 'vendor', 'model', 'location'],
        ['sw1', 'Cisco', '3750', 'London, Best str'],
        ['sw2', 'Cisco', '3850', 'Liverpool, Better str'],
        ['sw3', 'Cisco', '3650', 'Liverpool, Better str'],
        ['sw4', 'Cisco', '3650', 'London, Best str']]


with open('sw_data_new.csv', 'w', encoding='utf-8') as csv_file:
    writer = csv.writer(csv_file)
    for row in data:
        writer.writerow(row)

#  или так

with open('sw_data_new.csv', 'w', encoding='utf-8') as csv_file:
    writer = csv.writer(csv_file)
    writer.writerows(data)

In [None]:
with open('sw_data_new.csv', 'r', encoding='utf-8') as csv_file:
    csv_read = csv_file.read()
print(csv_read)

hostname,vendor,model,location
sw1,Cisco,3750,"London, Best str"
sw2,Cisco,3850,"Liverpool, Better str"
sw3,Cisco,3650,"Liverpool, Better str"
sw4,Cisco,3650,"London, Best str"



Почему кавычки?

2. `csv.DictWriter(file)`

Работа со словарями. Тоже через `.writerow()`, но еще `.writeheader()` для записи заголовка. Предварительно заголовки подаются в `csv.DictWriter()` списком под аргументом `fieldnames`.

In [None]:
data = [{
    'hostname': 'sw1',
    'location': 'London',
    'model': '3750',
    'vendor': 'Cisco'
}, {
    'hostname': 'sw2',
    'location': 'Liverpool',
    'model': '3850',
    'vendor': 'Cisco'
}, {
    'hostname': 'sw3',
    'location': 'Liverpool',
    'model': '3650',
    'vendor': 'Cisco'
}, {
    'hostname': 'sw4',
    'location': 'London',
    'model': '3650',
    'vendor': 'Cisco'
}]

In [None]:
with open('csv_write_dictwriter.csv', 'w', encoding='utf-8') as csv_file:
    writer = csv.DictWriter(csv_file, fieldnames=list(data[0].keys()))
    writer.writeheader()
    for d in data:
        writer.writerow(d)

### *Разделители*

Мы все говорили о CSV файлах. А как дела обстоят с TSV?

In [None]:
!wget -q 'https://gist.githubusercontent.com/cdroulers/1a919d7f9ce701a716b0/raw/77dbd5e7e3db7017ae64e3f420e53f7e8b90aca1/Sample.tsv'

In [None]:
with open('Sample.tsv', 'r', encoding='utf-8') as csv_desserts:
    desserts = csv.DictReader(csv_desserts)
    for row in desserts:
        print(row)

{'Some parameter\tOther parameter\tLast parameter': 'CONST\t123456\t12.45'}


Начего не получилось! Почему так?

Потому что разделитель (delimiter) другой! Его можно указать любым (по дефолту - запятая).

In [None]:
with open('Sample.tsv', 'r', encoding='utf-8') as csv_desserts:
    desserts = csv.DictReader(csv_desserts, delimiter='\t')
    for row in desserts:
        print(row)

{'Some parameter': 'CONST', 'Other parameter': '123456', 'Last parameter': '12.45'}


### Задача №2

 У вас есть [корпус](https://raw.githubusercontent.com/KatiaKozlova/files/main/princess_corpus.tsv) с репликами из диснеевских мультфильмов в формате TSV (`princess_corpus.tsv`). Каждая строчка состоит из значений, разделенных знаком табуляции:
    
- столбец `Disney_Period`: один из трех периодов Диснея `EARLY / MID / LATE`;
- столбец `Text`: реплика;
- столбец `Speaker_Status`: один из трех вариантов `PRINCE / PRINCESS / NON-P` (реплика принца, принцессы или другого персонажа);
- столбец `Movie`: английское название мультфильма;
- столбец `Speaker`: английское название героя;
- столбец `Year`: год выпуска мультфильма;
- столбец `UTTERANCE_NUMBER`: номер реплики для каждого мультфильма;
    
Например, `EARLY yes, your majesty. NON-P Snow White guard 1937 15`.
    
1. Переведите TSV формат в CSV и сохраните как `princess_corpus.сsv`.
2. Посчитайте, сколько реплик за фильм произносит каждая принцесса и сколько реплик в среднем произносят принцессы каждого периода.

In [None]:
# ваш код тут

## JSON-файлы

> **JSON** (JavaScript Object Notation) $-$ это текстовый формат для хранения и обмена данными. Чаще всего используется для хранения словарей и списков в удобном формате.

    "paper_id": "0036b28fddf7e93da0970303672934ea2f9944e7",
    "metadata": {
        "title": "The fecal microbiota and unconjugated fecal bile acids in dogs with diabetes mellitus ESCG-O-2 Impact of antibiotic administration on fecal bacterial groups potentially associated with dysbiosis in kittens ESCG-O-3 Fecal microbial metabolism is altered in dogs with chronic enteropathy ESCG-O-4 The pug breed demonstrates a worse response to treatment of protein-losing enteropathy than other breeds of dog ESCG-O-6 Dogs with acute haemorrhagic diarrhoea syndrome not receiving antibiotics have a good prognosis despite initial high AHDS-score and systemic inflammation ESCG-O-7 Faecal bile acid profiles in dogs with acute haemorrhagic diarrhoea syndrome over time and compared to healthy dogs ESCG-O-8 Long-term consequences of acute hemorrhagic diarrhea syndrome in dogs ESVC-O-1 Acute effect of oral pimobendan on left atrial function and mitral valve regurgitation severity in dogs with stage B2 myxomatous mitral valve disease -A pilot study ESVC-O-2 Retrospective evaluation of the safety and tolerability of pimobendan in cats with obstructive versus nonobstructive hypertrophic cardiomyopathy",
        "authors": [
            {
                "first": "B",
                "middle": [],
                "last": "Ruggerone",
                "suffix": "",
                "affiliation": {
                    "laboratory": "",
                    "institution": "University of Thessaly",
                    "location": {
                        "settlement": "Karditsa",
                        "country": "Greece"
                    }
                },
                "email": ""
            },
            {
                "first": "A",
                "middle": [
                    "C"
                ],
                "last": "Manchester",
                "suffix": "",
                "affiliation": {
                    "laboratory": "Gastrointestinal laboratory",
                    "institution": "Texas A&M University",
                    "location": {
                        "settlement": "College Station",
                        "country": "United States of America"
                    }
                }
            ]
        }



Для работы с этим форматом помогает одноименный модуль `json`.

In [None]:
import json

In [None]:
!wget -q 'https://raw.githubusercontent.com/KatiaKozlova/files/main/unece.json'

#### Чтение:

Для чтения в модуле `json` есть два метода:
- `json.load()` $-$ метод считывает **файл** в формате JSON и возвращает объекты Python
- `json.loads()` $-$ метод считывает **строку** в формате JSON и возвращает объекты Python

Как с этим работать? Сначала все так же, как с файлом! А потом один из методов.

In [None]:
with open('unece.json', 'r', encoding='utf-8') as json_file:
    dict_file = json.load(json_file)

In [None]:
with open('unece.json', 'r', encoding='utf-8') as json_file:
    json_text = json_file.read()
    dict_file = json.loads(json_text)

In [None]:
dict_file[1]

{'Country': 'Albania',
 'Year': '2001',
 'Area (square kilometres)': 28748,
 'Total population': 3073734,
 'Population density, pers. per sq. km': 106.91992,
 'Population aged 0-14, male': 460732,
 'Population aged 0-14, female': 436652,
 'Population aged 15-64, male': 963612,
 'Population aged 15-64, female': 980800,
 'Population aged 64+, male': 108254,
 'Population aged 64+, female': 123684,
 'Total population, male (%)': 49.86111,
 'Total population, female (%)': 50.13889,
 'Life expectancy at birth, women': 80.45,
 'Life expectancy at birth, men': 74.12,
 'Life expectancy at age 65, women': 19.51,
 'Life expectancy at age 65, men': 15.85,
 'Total fertility rate': 2.1,
 'Adolescent fertility rate': 16.49547,
 'Mean age of women at birth of first child': None,
 'Computer use, 16-24, male': None,
 'Computer use, 16-24, female': None,
 'Computer use, 25-54, male': None,
 'Computer use, 25-54, female': None,
 'Computer use, 55-74, male': None,
 'Computer use, 55-74, female': None,
 'Wo

#### Запись:

Для записи информации в формате JSON в модуле `json` также два метода:
- `json.dump()` $-$ метод **записывает объект Python в файл** в формате JSON
- `json.dumps()` $-$ метод **возвращает строку** в формате JSON

**Важное отступление!** Так как JSON основан на подмножестве синтаксиса JavaScript, у него есть несколько особенностей, свойственных JS...

Так, например, вот таблица конвертации данных Python в JSON:

|    Python   |  JSON  |
|:-----------:|:------:|
| dict        | object |
| list, tuple | array  |
| str         | string |
| int, float  | number |
| True        | true   |
| False       | false  |
| None        | null   |

А вот обратная (из JSON в Python):

|      JSON     | Python |
|:-------------:|:------:|
| object        | dict   |
| array         | list   |
| string        | str    |
| number (int)  | int    |
| number (real) | float  |
| true          | True   |
| false         | False  |
| null          | None   |


Можно заметить, что JSON **не различает** списки и кортежи!

Для записи мы, опять же, должны открыть файл, а потом использовать один из методов!

In [None]:
with open('unece_new.json', 'w', encoding='utf-8') as f:
    f.write(json.dumps(dict_file))

In [None]:
with open('unece_new.json', 'w', encoding='utf-8') as f:
    json.dump(dict_file, f)

#### Дополнительные параметры методов записи

В формат JSON нельзя записать словарь, у которого ключи $-$ кортежи (вызовет ошибку `TypeError`; для того, чтобы ее избежать см. далее). И вообще ключами словаря могут быть **только строки**. Но, если в словаре Python использовались числа, ошибки не будет. Вместо этого выполнится конвертация чисел в строки...

1. `sort_keys=True` $-$ сортировка ключей;
2. `indent` $-$ отступ (может быть равен числу или строке);
3. `ensure_ascii=True` $-$ гарантия, что все не-ASCII символы в выводе будут экранированы;
4. `skipkeys=True` $-$ ключи словаря не базового типа будут проигнорированы.

In [None]:
with open('unece_new_new.json', 'w') as f:
    json.dump(dict_file, f, sort_keys=True, indent=4, ensure_ascii=True)

### Задача №3

Ник в мессендже Lenagram $-$ это собака, затем от 7 до 9 латинских букв. Допускаются подчеркивания и точки, но не более одного подряд. Если вы хотите дать кому-то свой контакт, то буквы могут быть в любом регистре, т.е. `@LOGIN` и `@login` $-$ это один и тот же человек.  

В [TSV-файле](https://raw.githubusercontent.com/KatiaKozlova/files/main/lenagram.csv) затесались несколько невалидных ников. Найдите валидные ники и выведите из них три случайных (вместе с соответствующими emoji), сохранив все валидные записи в JSON-файл подобной структуры:
    
```Plain
[
    {
        "nick": "@1231__231:,
        "emojis": "💋 💌"
    },
    {
        "nick": "@1__2!@###$1:,
        "emojis": "💌"
    }
]
```


In [None]:
# ваш код тут

### Задача №4

Найти открытый API (например, OpenWeather) и получить данные о погоде в заданном городе. Распарсить JSON и вывести температуру и условия погоды.

In [None]:
# ваш код туть