In [1]:
import pandas as pd

### Экспорт данных в формат csv осуществляется с помощью метода         **DataFrame to_csv()**            

* **path_or_buf** — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
* **sep** — разделитель данных в выходном файле (по умолчанию ',');
* **decimal** — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
* **columns** — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
* **index** — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

### Запись и чтение в других форматах

* **to_excel()** — запись DataFrame в формат Excel-таблицы (.xlsx);
* **to_json()** — запись DataFrame в формат JSON (.json);
* **to_xml()** — запись DataFrame в формат XML-документа (.xml);
* **to_sql()** — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).
##
* **read_excel()** — чтение из формата Excel-таблицы (.xlsx) в DataFrame;
* **read_json()** — чтение из формата JSON (.json) в DataFrame;
* **read_xml()** — чтение из формата XML-документа (.xml) в DataFrame;
* **read_sql()** — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).

### **1.** Для демонстрации использования функции **read_table()** выполним следующее: 

* используя  функцию read_csv(), считаем данные из файла countries.csv в переменную countries_data, создав объект DataFrame;
* используя уже знакомую функцию to_csv(), выгрузим этот DataFrame в файл countries.txt (с расширением TXT), который сохраним в папке data. В качестве разделителя используется символ пробела (" ").

In [2]:
# используя  функцию read_csv(), считаем данные из файла countries.csv в переменную countries_data, создав объект DataFrame;
countries_data = pd.read_csv('data/countries.csv', sep=';')
display (countries_data)


# используя уже знакомую функцию to_csv(), выгрузим этот DataFrame в файл countries.txt (с расширением TXT), который сохраним в папке data. 
# В качестве разделителя используется символ пробела (" ").
countries_data.to_csv('data/countries.txt', index=False, sep=' ')

Unnamed: 0,country,population,area
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


##### Считаем данные из файла countries.txt в переменную txt_df  (объект DataFrame), применив функцию read_table() с параметрами sep=' '  и  index_col=['country'] (так мы избавимся от столбца с индексом и присвоим названия строкам, используя данные одного из столбцов). Выводим на экран полученный результат:

In [3]:
# Загружаем данные из файла в переменную, создавая объект DataFrame
txt_df = pd.read_table('data/countries.txt', sep=' ', index_col=['country'])
display (txt_df)

Unnamed: 0_level_0,population,area
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Англия,56.29,133396
Канада,38.05,9984670
США,322.28,9826630
Россия,146.24,17125191
Украина,45.5,603628
Беларусь,9.5,207600
Казахстан,17.04,2724902


### **2.** Применение параметра **header**

* Используя параметр header, при создании DataFrame мы учитываем наличие/отсутствие строки заголовков в исходном файле данных.

* Например, если при считывании данных из ранее сохранённого в папке data файла melb_data_ps.csv указать значение параметра header=None, то первая строка исходного файла не будет восприниматься как строка заголовка и будет отнесена к области данных DataFrame:

In [4]:
melb_data_test = pd.read_csv('../project_1_Pandas/data/melb_data_ps.csv')
display (melb_data_test.head(3)) 

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"


In [5]:
# Загружаем данные из файла в переменную, создавая объект DataFrame
melb_data = pd.read_csv('../project_1_Pandas/data/melb_data_ps.csv', header=None) 
# Выводим содержимое DataFrame на экран
display(melb_data.head(5))

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
1,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
2,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
3,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
4,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"


### **3.** Решаем проблему с кодировкой исходных данных

**При считывании файла и создании DataFrame может возникнуть проблема — при выводе на экран данные будут отображаться в виде нечитаемых символов. Это связано с кодировкой символов в исходном файле.**

* узнаем, какая кодировка символов используется в считываемом файле, для этого обратимся к субмодулю **chardet.universaldetector** библиотеки Universal Encoding Detector. Модуль необходимо предварительно установить с помощью стандартной команды менеджера пакетов pip: **pip install chardet;**
* при считывании файла и создании DataFrame будем использовать параметр encoding  —  указывает, какой тип кодировки символов используется в считываемом файле. 

##### **3.1.** Локализуем проблему

Считываем файл и создаем DataFrame без использования параметра **encoding**:
##
**Выявлена проблема**: при стандартном считывании содержимое файла читается некорректно. Необходимо указать кодировку файла при считывании.

In [16]:
# Считываем данные из файла с неизвестной кодировкой в переменную, создавая объект DataFrame
data=pd.read_csv('data/ErrorEnCoding.csv', header=None, encoding_errors='replace') 
# Выводим содержимое DataFrame на экран
display(data)

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,������
1,User_908,Advismowr@mail.ru,������
2,User_962,Anachso@ukr.net,���������
3,User_973,Antecia@inbox.ru,�����
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,������
96,User_901,V2artierso@mail.ru,�����������
97,User_970,Vashoterlo@bk.ru,�������
98,User_965,Visuareda@yahoo.com,�������


### **3.2** Определяем кодировку файла

Приведённый ниже код поможет нам определить используемую кодировку в файле, степень достоверности, используемый язык **(применяется для большого объема текстовых данных)**.

In [7]:
# Импортируем субмодуль chardet.universal
from chardet.universaldetector import UniversalDetector

detector = UniversalDetector()

with open('data/ErrorEnCoding.csv', 'rb') as fh:
    for line in fh:
        detector.feed(line)
        if detector.done:
            break
print(detector.close())

{'encoding': 'KOI8-R', 'confidence': 0.8773902118791048, 'language': 'Russian'}


##### **ВЫВОД** - с достоверностью примерно 88 % тип используемой в файле кодировки — koi8-r. Повторим считывание файла, используя полученные данные.

##### Считываем файл, указав кодировку т.е. используем параметр **encoding**

In [18]:
# Создаем DataFrame из файла, явно указав кодировку символов, и выводим его содержимое на экран
data=pd.read_csv('data/ErrorEnCoding.csv', encoding='koi8-r', header=None)
display(data)

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,Тюмень
96,User_901,V2artierso@mail.ru,Арзангелтск
97,User_970,Vashoterlo@bk.ru,Воронеж
98,User_965,Visuareda@yahoo.com,Воронеж


![image.png](attachment:image.png)

### ДОПОЛНИТЕЛЬНО
* При открытии файла использовалась конструкция **with ... as ... (с англ. «с... как...»)**. Эта конструкция применяется для гарантии того, что критические функции и методы (в данном случае **метод .close()** закрывает открытый ранее файл) будут выполнены в любом случае.

##### Открываем файл и связываем его с объектом "f"
* with open('path/filename') as f: # Работа с файлом...
* ...не забываем про отступ...
* ...   
* Нет отступа = работа с файлом закончена, файл filename закрыт

##### Как упоминалось ранее, здесь конструкция with ... as ... гарантирует закрытие файла filename, связанного с объектом f.

### **4.** Чтение файла по ссылке, используя функцию **read_table()**

Ранее вы уже считывали данные из файла melb_data.csv, который находится в свободном доступе в интернете, используя функцию read_csv(). Попробуем использовать функцию read_table(), указав в качестве разделителя данных запятую — ','.

In [9]:
data = pd.read_table('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv', sep=',')
display(data.head(3))

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0


##### **ВЫВОД** Как видим, функция **read_table()** сработала и с CSV-файлом — достаточно было указать, какой разделитель используется.

### **5.** Чтение/запись архивированных CSV-файлов

* → Большие по размеру CSV-файлы для экономии памяти часто «упаковывают» в архив, например zip. 
##
* Механизм, используемый в функции **read_csv()**, позволяет проводить чтение текстового файла из архива, не распаковывая его. **Функция read_csv()** сама распознает архив и извлекает из него данные (работает практически со всеми zip-архивами). Есть ограничение — файл в zip-архиве должен быть один **(если файлов в архиве несколько, то можно разархивировать файлы и работать с каждым вне архива.** Подробнее об этом поговорим в юните Итоги).

* Ранее вы работали с датасетом students_performance.csv, упакованным в архив. Для работы с файлом вы предварительно проводили распаковку архива. Попробуем начать работу с файлом, не распаковывая его.

In [10]:
data = pd.read_csv('data/students_performance.zip')
display(data.head)

<bound method NDFrame.head of      gender race/ethnicity parental level of education         lunch  \
0    female        group B           bachelor's degree      standard   
1    female        group C                some college      standard   
2    female        group B             master's degree      standard   
3      male        group A          associate's degree  free/reduced   
4      male        group C                some college      standard   
..      ...            ...                         ...           ...   
995  female        group E             master's degree      standard   
996    male        group C                 high school  free/reduced   
997  female        group C                 high school  free/reduced   
998  female        group D                some college      standard   
999  female        group D                some college  free/reduced   

    test preparation course  math score  reading score  writing score  
0                      none      

##### **ВЫВОД** - Файл в архиве прочитан без каких-либо проблем, данные из него загружены в переменную data.

##### В функции to_csv() предусмотрен механизм, позволяющий проводить **упаковку CSV-файлов в zip-архив.** Проделаем обратную операцию — данные из DataFrame data запишем в CSV-файл, упакуем полученный файл в zip-архив «на лету» и сохраним полученный архив в папке data, выполнив следующий код:

In [20]:
# Определяем параметры архивирования — метод сжатия, имя файла в архиве
compression_opts = dict(method='zip', archive_name='out.csv') 
data.to_csv('data/out.zip', index=False, compression=compression_opts)

##### **ВЫВОДЫ** В ходе выполнения кода содержимое DataFrame сохранено в файле **out.csv**, файл упакован в **архив out.zip**, а архив записан в каталог data.

# Считывание данных из файла **Excel**

* Подобно уже хорошо нам известной функции **read_csv()**, в pandas предусмотрена функция для удобного чтения XLS- и XLSX- файлов: read_excel() (англ. читать_Excel). Синтаксис обеих функций практически идентичен.

✍️ Для примера попробуем открыть файл grades.xlsx, содержащий оценки студентов за прослушанные курсы. Для чтения файла предварительно потребуется установить **библиотеку openpyxl через команду pip install openpyxl**.

In [21]:
grades = pd.read_excel('data/grades.xlsx')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


##### **ВАЖНО** Так же, как и read_csv(), функция read_excel() может принимать на вход не только путь к файлу на компьютере, но и интернет-ссылку на него.