### Используем функцию read_table()

Вы уже работали с текстовыми файлами, данные в которых представлены в табличной форме. Это файлы CSV. 

Также вам известно, что, указав определенные значения параметров функции **read_csv()**, можно считать данные из файла, в котором используется разделитель данных, отличный от запятой (**sep**), вместо десятичной точки используется другой символ (**decimal**), а также при считывании должно быть пропущено некоторое количество строк (***skiprows***). 

Такие данные обычно хранятся в текстовых файлах с расширением TXT. Этот тип файлов — источник данных, который легко расшифровывать и интерпретировать. Для чтения данных из файлов такого типа Pandas, помимо функции **read_csv()**, предлагает и функцию **read_table()**.

- Функция **read_csv()**, как вы уже знаете, загружает данные с разделителями из файла, URL-адреса, и в качестве разделителя по умолчанию используется запятая (символ). В документации эта функция описана как «Чтение данных из файла значений, разделённых запятыми (CSV), в DataFrame».

- Функция **read_table()** также загружает данные с разделителями из файла, URL-адреса, но в качестве разделителя по умолчанию используется символ табуляции ('\t'). В документации эта функция описана как «Чтение данных из файла значений с разделителями в DataFrame».

Данные функции используются похожим образом, и то, что в настоящий момент поддерживаются они обе, обусловлено тем, что многие пользователи продолжают использовать функцию read_table(). Так, например, поиск на GitHub даёт более пятидесяти тысяч результатов по запросу "pd.read_table".

Для демонстрации использования функции read_table() выполним следующее: 

- используя  функцию read_csv(), считаем данные из файла [countries.csv](https://lms-cdn.skillfactory.ru/assets/courseware/v1/f65b2f71986034fa85958c2ea2fb5364/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DST_3.0._16_2_countries.csv) в переменную countries_data, создав объект DataFrame;
- используя уже знакомую функцию to_csv(), выгрузим этот DataFrame в файл countries.txt (с расширением TXT), который сохраним в папке data. В качестве разделителя используется символ пробела (" ").

In [2]:
import pandas as pd
countries_data = pd.read_csv('data/DST_3.0._16_2_countries.csv',sep=';')
countries_data.to_csv('data/DST_3.0._16_2_countries.txt',sep=' ')

Считаем данные из файла countries.txt в переменную txt_df  (объект DataFrame), применив функцию read_table() с параметрами sep=' '  и  index_col=['country'] (так мы избавимся от столбца с индексом и присвоим названия строкам, используя данные одного из столбцов). Выводим на экран полученный результат:

In [3]:
txt_df = pd.read_table('data/DST_3.0._16_2_countries.txt',sep=' ',index_col=['country'])
display(txt_df)

Unnamed: 0_level_0,Unnamed: 0,population,square
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Англия,0,56.29,133396
Канада,1,38.05,9984670
США,2,322.28,9826630
Россия,3,146.24,17125191
Украина,4,45.5,603628
Беларусь,5,9.5,207600
Казахстан,6,17.04,2724902


### Применение параметра header

Используя параметр **header**, при создании DataFrame мы учитываем наличие/отсутствие строки заголовков в исходном файле данных.

Например, если при считывании данных из ранее сохранённого в папке data файла melb_data_ps.csv указать значение параметра header=None, то первая строка исходного файла не будет восприниматься как строка заголовка и будет отнесена к области данных DataFrame:

### Решаем проблему с кодировкой исходных данных

>При считывании файла и создании DataFrame может возникнуть проблема — при выводе на экран данные будут отображаться в виде >нечитаемых символов. Это связано с кодировкой символов в исходном файле.


Для решения проблемы выполним следующие действия:

- узнаем, какая кодировка символов используется в считываемом файле, для этого обратимся к субмодулю `chardet.universaldetector` библиотеки [Universal Encoding Detector](https://chardet.readthedocs.io/en/latest/usage.html). Модуль необходимо предварительно установить с помощью стандартной команды менеджера пакетов pip: pip install chardet;
- при считывании файла и создании DataFrame будем использовать параметр `encoding`  —  указывает, какой тип кодировки символов используется в считываемом файле. 

>✍️ Для выполнения кода-примера скачайте файл `ErrorEnCoding.csv` по [ссылке](https://lms-cdn.skillfactory.ru/assets/courseware/v1/fcfb039eed06edf73f3e0cf430d4632b/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/ErrorEnCoding.csv) и скопируйте его в каталог `data`.

#### Локализуем проблему

Считываем файл и создаем DataFrame без использования параметра `encoding`:

In [4]:
data = pd.read_csv('data/ErrorEnCoding.csv', header=None, encoding_errors='replace')
display(data)

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,������
1,User_908,Advismowr@mail.ru,������
2,User_962,Anachso@ukr.net,���������
3,User_973,Antecia@inbox.ru,�����
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,������
96,User_901,V2artierso@mail.ru,�����������
97,User_970,Vashoterlo@bk.ru,�������
98,User_965,Visuareda@yahoo.com,�������


**Выявлена проблема**: при стандартном считывании содержимое файла читается некорректно. Необходимо указать кодировку файла при считывании.

#### Определяем кодировку файла

Приведённый ниже код поможет нам определить используемую кодировку в файле, степень достоверности, используемый язык.

#### ДОПОЛНИТЕЛЬНО

При открытии файла использовалась конструкция `with ... as ...` (с англ. «с... как...»). Эта конструкция применяется для гарантии того, что критические функции и методы (в данном случае метод .close() закрывает открытый ранее файл) будут выполнены в любом случае.

```python
# Открываем файл и связываем его с объектом "f"
with open('path/filename') as f: # Работа с файлом...
    # ...не забываем про отступ...
    # ...
    
# Нет отступа = работа с файлом закончена, файл filename закрыт
```

Как упоминалось ранее, здесь конструкция `with ... as ...` гарантирует закрытие файла filename, связанного с объектом `f`.

Для более глубокого знакомства с конструкцией `with ... as ...` предлагаем вам обратиться к [документации](https://docs.python.org/3/library/ast.html?highlight=#ast.With).

In [5]:
# Импортируем субмодуль chardet.universal
from chardet.universaldetector import UniversalDetector

detector = UniversalDetector()

with open('data/ErrorEnCoding.csv', 'rb') as fh:
    for line in fh:
        detector.feed(line)
        if detector.done:
            break
print(detector.close())

{'encoding': 'KOI8-R', 'confidence': 0.8402412806602051, 'language': 'Russian'}


С достоверностью примерно 84 % тип используемой в файле кодировки — koi8-r. Повторим считывание файла, используя полученные данные.

#### Считываем файл, указав кодировку

In [6]:
data = pd.read_csv('data/ErrorEnCoding.csv', header=None, encoding='KOI8-R')
display(data)

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,Тюмень
96,User_901,V2artierso@mail.ru,Арзангелтск
97,User_970,Vashoterlo@bk.ru,Воронеж
98,User_965,Visuareda@yahoo.com,Воронеж


### Чтение файла по ссылке, используя функцию read_table()

Ранее вы уже считывали данные из файла `melb_data.csv`, который находится в свободном доступе в интернете, используя функцию `read_csv()`. 

Попробуем использовать функцию `read_table()`, указав в качестве разделителя данных запятую — `','`.

In [7]:
data = pd.read_table('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv', sep=',')
display(data.shape[0])

#Как видим, функция read_table() сработала и с CSV-файлом — достаточно было указать, какой разделитель используется.

18396

### Чтение/запись архивированных CSV-файлов

Большие по размеру CSV-файлы для экономии памяти часто **«упаковывают»** в архив, например **zip**. 

Механизм, используемый в функции **read_csv()**, позволяет проводить чтение текстового файла из архива, не распаковывая его. 

Функция **read_csv()** сама распознает архив и извлекает из него данные (*работает практически со всеми zip-архивами*). 

Есть ограничение — файл в zip-архиве должен быть один (если файлов в архиве несколько, то можно разархивировать файлы и работать с каждым вне архива. Подробнее об этом поговорим в юните Итоги).

Ранее вы работали с датасетом `students_performance.csv`, упакованным в архив. Для работы с файлом вы предварительно проводили распаковку архива. Попробуем начать работу с файлом, не распаковывая его.

✍️ Скачайте заархивированный датасет в CSV-формате `students_performance.zip` по [ссылке](https://lms-cdn.skillfactory.ru/assets/courseware/v1/8a7b3b3f18edf7a3772760221c97139b/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/students_performance.zip)  и скопируйте его в каталог data, не распаковывая архив.

Используя функцию **read_csv()**, загрузите данные из заархивированного датасета  в переменную **data()** и выведите её содержимое на экран, используя приведённый ниже код:

In [8]:
data = pd.read_csv('data/students_performance.zip')
display(data)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


В функции **to_csv()** предусмотрен механизм, позволяющий *проводить упаковку* CSV-файлов в zip-архив. 

Проделаем обратную операцию — данные из DataFrame data запишем в CSV-файл, упакуем полученный файл в zip-архив «на лету» и сохраним полученный архив в папке data, выполнив следующий код:

In [9]:
# Определяем параметры архивирования — метод сжатия, имя файла в архиве
compression_opts = dict(method='zip', archive_name='out.csv') 
data.to_csv('data/out.zip', index=False, compression=compression_opts)