In [5]:
import pandas as pd

✍ Из рассмотренных ранее примеров создания DataFrame становится понятно, что создавать таблицы вручную довольно проблематично и затратно как по объёму кода, так и по времени его написания. Возникает вопрос: всегда ли так приходится делать? Ответ — конечно же, не всегда.
_______________
В работе Data Scientist чаще всего сталкивается с уже собранными данными, хранящимися в виде файлов и других источников, таких как базы данных и web-источники. Проблема заключается в том, что каждый источник данных представляет разный формат: например, если данные приходят к вам из отдела бухгалтерии, то это, скорее всего, будет формат Excel-таблицы, результаты web-запросов чаще всего представлены в формате JSON или XML и так далее.
___________
Благодаря функциональности Pandas можно быстро и легко читать данные самых распространённых форматов и преобразовывать их в DataFrame. При этом данные могут быть прочитаны с вашего диска или же по сети. Более того, раз данные можно прочитать, значит, их можно и сохранить — для этого Pandas также предоставляет возможности.

                              ЗАПИСЬ В CSV-ФАЙЛ

Предположим, что мы захотели сохранить созданный нами ранее DataFrame. Самым простым и распространённым источником табличных данных является формат csv (comma-separated values). В данном формате ячейки таблицы обозначаются некоторым разделителем, чаще всего запятой либо точкой с запятой.

Экспорт данных в формат csv осуществляется с помощью метода DataFrame to_csv().  
_________
                       Основные параметры метода DataFrame to_csv()
____________
**path_or_buf** — путь до файла, в который будет записан DataFrame (например, data/my_data.csv); <br/>
**sep**— разделитель данных в выходном файле (по умолчанию ',');<br/>
**decimal** — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');<br/>
**columns** — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);<br/>
**index** — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

Заранее создадим папку data в директории, где лежит наш ноутбук. Теперь давайте сохраним наш DataFrame с информацией о странах в csv-файл countries.csv и положим файл в папку data. При этом укажем, что разделителем в нашем файле будет являться символ ';', а также то, что нам не нужен дополнительный столбец с индексами строк <br/>
```
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('data/countries.csv', index=False, sep=';')```

При успешном выполнении кода в вашей директории data должен появиться файл countries.csv, который даже можно открыть в редакторе и посмотреть его содержимое.

                                     ЧТЕНИЕ CSV-ФАЙЛА

Для чтения таблицы из csv-файла используется функция модуля Pandas read_csv. Функция возвращает DataFrame и имеет несколько важных параметров.

                         *Основные параметры функции read_csv*
_______________________
                         

filepath_or_buffer — путь до файла, который мы читаем; <br/>
sep — разделитель данных (по умолчанию ','); <br/>
decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.'); <br/>
names — список с названиями столбцов для чтения; <br/>
skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).
__________________

Убедимся, что сохранённый нами ранее файл создался верно. Для этого прочитаем его в переменную countries_data и выведем её на экран. Не забудем также о том, что мы использовали в качестве разделителя ';':

In [9]:
countries_data = pd.read_csv('data/countries.csv', sep=';') # Для чтения таблицы из csv-файла 
# используется функция модуля Pandas read_csv. 
display(countries_data)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ

На самом деле файл с данными не обязательно должен храниться у вас на компьютере. Если он находится в открытом доступе по ссылке (например, на Google Диске или GitHub), его можно прочитать и из интернета — для этого достаточно в функции read_csv() вместо пути до файла указать ссылку на файл. Например:

data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')

display(data)

In [1]:
data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

NameError: name 'pd' is not defined

                       ЗАПИСЬ И ЧТЕНИЕ В ДРУГИХ ФОРМАТАХ

Как уже говорилось ранее, Pandas способен работать со многими распространёнными форматами данных.

_Методы для записи таблиц в файлы отличных от csv форматов_:<br/>
to_excel() — запись DataFrame в формат Excel-таблицы (.xlsx); <br/>
to_json() — запись DataFrame в формат JSON (.json);<br/>
to_xml() — запись DataFrame в формат XML-документа (.xml);<br/>
to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных). <br/>
_Методы для чтения таблиц из файлов в отличных от csv форматах:_<br/>
read_excel() — чтение из формата Excel-таблицы (.xlsx) в DataFrame;<br/>
read_json() — чтение из формата JSON (.json) в DataFrame;<br/>
read_xml() — чтение из формата XML-документа (.xml) в DataFrame;<br/>
read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).<br/>