# **4. Работа с различными источниками данных в Pandas**


✍ Из рассмотренных ранее примеров создания DataFrame становится понятно, что создавать таблицы вручную довольно проблематично и затратно как по объёму кода, так и по времени его написания. Возникает вопрос: всегда ли так приходится делать? Ответ — конечно же, не всегда.

В работе Data Scientist чаще всего сталкивается с уже собранными данными, хранящимися в виде файлов и других источников, таких как базы данных и web-источники. Проблема заключается в том, что каждый источник данных представляет разный формат: например, если данные приходят к вам из отдела бухгалтерии, то это, скорее всего, будет формат Excel-таблицы, результаты web-запросов чаще всего представлены в формате JSON или XML и так далее.

Благодаря функциональности Pandas можно быстро и легко читать данные самых распространённых форматов и преобразовывать их в DataFrame. При этом данные могут быть прочитаны с вашего диска или же по сети. Более того, раз данные можно прочитать, значит, их можно и сохранить — для этого Pandas также предоставляет возможности.



ЗАПИСЬ В CSV-ФАЙЛ

Предположим, что мы захотели сохранить созданный нами ранее DataFrame. Самым простым и распространённым источником табличных данных является формат csv (comma-separated values). В данном формате ячейки таблицы обозначаются некоторым разделителем, чаще всего запятой либо точкой с запятой.

Экспорт данных в формат csv осуществляется с помощью метода DataFrame to_csv().  

Кликните на плашку, чтобы увидеть информацию ↓

Основные параметры метода DataFrame to_csv()

Заранее создадим папку data в директории, где лежит наш ноутбук. Теперь давайте сохраним наш DataFrame с информацией о странах в csv-файл countries.csv и положим файл в папку data. При этом укажем, что разделителем в нашем файле будет являться символ ';', а также то, что нам не нужен дополнительный столбец с индексами строк:



In [None]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('data/countries.csv', index=False, sep=';')


При успешном выполнении кода в вашей директории data должен появиться файл countries.csv, который даже можно открыть в редакторе и посмотреть его содержимое.

ДОПОЛНИТЕЛЬНО

Чтобы более подробно ознакомиться с методом to_csv(), предлагаем вам обратиться к документации.



ЧТЕНИЕ CSV-ФАЙЛА

Для чтения таблицы из csv-файла используется функция модуля Pandas read_csv. Функция возвращает DataFrame и имеет несколько важных параметров.

Кликните на плашку, чтобы увидеть информацию ↓

Основные параметры функции read_csv()

Убедимся, что сохранённый нами ранее файл создался верно. Для этого прочитаем его в переменную countries_data и выведем её на экран. Не забудем также о том, что мы использовали в качестве разделителя ';':

countries_data = pd.read_csv('data/countries.csv', sep=';')
display(countries_data)
Img

ДОПОЛНИТЕЛЬНО

Чтобы более подробно ознакомиться с функцией read_csv(), предлагаем вам обратиться к документации.



ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ

На самом деле файл с данными не обязательно должен храниться у вас на компьютере. Если он находится в открытом доступе по ссылке (например, на Google Диске или GitHub), его можно прочитать и из интернета — для этого достаточно в функции read_csv() вместо пути до файла указать ссылку на файл. Например:

data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)
→ Данные, прочитанные выше, ещё понадобятся нам в этом модуле, а пока предлагаем ознакомиться ещё с несколькими методами.



ЗАПИСЬ И ЧТЕНИЕ В ДРУГИХ ФОРМАТАХ

Как уже говорилось ранее, Pandas способен работать со многими распространёнными форматами данных.

Методы для записи таблиц в файлы отличных от csv форматов:

to_excel() — запись DataFrame в формат Excel-таблицы (.xlsx);
to_json() — запись DataFrame в формат JSON (.json);
to_xml() — запись DataFrame в формат XML-документа (.xml);
to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).
Методы для чтения таблиц из файлов в отличных от csv форматах:

read_excel() — чтение из формата Excel-таблицы (.xlsx) в DataFrame;
read_json() — чтение из формата JSON (.json) в DataFrame;
read_xml() — чтение из формата XML-документа (.xml) в DataFrame;
read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).
✍ Итак, мы рассмотрели, как можно записывать данные из DataFrame в файл и читать их из него. Эти навыки понадобятся нам в дальнейшем при работе с реальными данными и при их анализе. А пока предлагаем вам закрепить полученные знания, выполнив задания ниже ↓



*Задание 4.1*

Как прочитать в DataFrame csv-файл, в качестве разделителя у которого значится '!'?

df = pd.read_csv('path/file.csv', separator = '!')

df = pd.read_csv('path/file.csv', sep= '!')

df = pd.read_csv('path/file.csv', names= '!')

df = pd.read_csv('path/file.csv', prefix= '!')
нет ответа
Отправить
Some problems have options such as save, reset, hints, or show answer. These options follow the Submit button.



*Задание 4.2*

Как прочитать в DataFrame csv-файл, в качестве разделителя у которого значится ';', а первые 20 строк занимает служебная информация?

df = pd.read_csv('path/file.csv', sep = ';', skiprows = 20)

df = pd.read_csv('path/file.csv', separator = ';', skipinitialspace = 20)

df = pd.read_csv('path/file.csv', separator = ';')

df = pd.read_csv('path/file.csv', skiprows = 20)
нет ответа
Отправить
Some problems have options such as save, reset, hints, or show answer. These options follow the Submit button.



*З*адание 4.3*

Как записать DataFrame в csv-файл, в котором разделителем служит ';', а целая часть числа отделяется от дробной знаком ','?

df.to_csv('path/file.csv', sep = ';', delimeter =',')

df.to_csv('path/file.csv', sep = ',', decimal=';')

df.to_csv('path/file.csv', sep = ';', decimal=',')

df.to_csv('path/file.csv', sep = ';', index=False)



*Задание 4.4*

Какая функция позволяет прочитать файл 'income.xslx' в DataFrame?

pd.read_xml()

pd.read_excel()

pd.read_sql()

pd.read_json()
