<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;"> ✍ Из рассмотренных ранее примеров создания DataFrame становится понятно, что создавать таблицы вручную довольно проблематично и затратно как по объёму кода, так и по времени его написания. Возникает вопрос: всегда ли так приходится делать? Ответ — конечно же, не всегда.</div>

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">В работе Data Scientist чаще всего сталкивается с уже собранными данными, хранящимися в виде файлов и других источников, таких как базы данных и web-источники. Проблема заключается в том, что каждый источник данных представляет разный формат: например, если данные приходят к вам из отдела бухгалтерии, то это, скорее всего, будет формат Excel-таблицы, результаты web-запросов чаще всего представлены в формате JSON или XML и так далее.</div>

Благодаря функциональности Pandas можно быстро и легко читать данные самых распространённых форматов и преобразовывать их в DataFrame. При этом данные могут быть прочитаны с вашего диска или же по сети. Более того, раз данные можно прочитать, значит, их можно и сохранить — для этого Pandas также предоставляет возможности.

# Запись в CSV-файл

Предположим, что мы захотели сохранить созданный нами ранее DataFrame. Самым простым и распространённым источником табличных данных является формат csv (comma-separated values). В данном формате ячейки таблицы обозначаются некоторым разделителем, чаще всего запятой либо точкой с запятой.

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Экспорт данных в формат csv осуществляется с помощью метода DataFrame to_csv().  </div>

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%; text-align: center;">Основные параметры метода DataFrame to_csv()</div>


<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">
<ul>
<li>path_or_buf — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
<li>sep — разделитель данных в выходном файле (по умолчанию ',');
<li>decimal — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
<li>columns — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
<li>index — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).
</div>


Заранее создадим папку data в директории, где лежит наш ноутбук. Теперь давайте сохраним наш DataFrame с информацией о странах в csv-файл countries.csv и положим файл в папку data. При этом укажем, что разделителем в нашем файле будет являться символ ';', а также то, что нам не нужен дополнительный столбец с индексами строк:

In [1]:
import pandas as pd

In [4]:
countries_df = pd.DataFrame(
    {
        "country": [
            "Англия",
            "Канада",
            "США",
            "Россия",
            "Украина",
            "Беларусь",
            "Казахстан",
        ],
        "population": [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
        "square": [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902],
    }
)

countries_df.to_csv("data/countries.csv", index=False, sep=";")

При успешном выполнении кода в вашей директории data должен появиться файл countries.csv, который даже можно открыть в редакторе и посмотреть его содержимое.


<div style="border: 3px dotted white; padding: 5px; margin-right: auto;  width: 80%;"> 
ДОПОЛНИТЕЛЬНО

Чтобы более подробно ознакомиться с методом to_csv(), предлагаем вам обратиться к <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html">документации.</div>


# Чтение csv-файла

Для чтения таблицы из csv-файла используется функция модуля Pandas read_csv. Функция возвращает DataFrame и имеет несколько важных параметров.

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%; text-align: center;">Основные параметры функции read_csv()

</div>

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">
<ul>
<li>filepath_or_buffer — путь до файла, который мы читаем;
<li>sep — разделитель данных (по умолчанию ',');
<li>decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');
<li>names — список с названиями столбцов для чтения;
<li>skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).
</div>


Убедимся, что сохранённый нами ранее файл создался верно. Для этого прочитаем его в переменную countries_data и выведем её на экран. Не забудем также о том, что мы использовали в качестве разделителя ';':

In [5]:
countries_data = pd.read_csv("data/countries.csv", sep=";")
display(countries_data)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902



<div style="border: 3px dotted white; padding: 5px; margin-right: auto;  width: 80%;"> 


ДОПОЛНИТЕЛЬНО

Чтобы более подробно ознакомиться с функцией read_csv(), предлагаем вам обратиться к <a href="https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html">документации.</div>


# Чтение csv-файла по ссылке

На самом деле файл с данными не обязательно должен храниться у вас на компьютере. Если он находится в открытом доступе по ссылке (например, на Google Диске или GitHub), его можно прочитать и из интернета — для этого достаточно в функции read_csv() вместо пути до файла указать ссылку на файл. Например:

In [6]:
data = pd.read_csv(
    "https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv"
)
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ Данные, прочитанные выше, ещё понадобятся нам в этом модуле, а пока предлагаем ознакомиться ещё с несколькими методами.</div>

# Запись и чтение в других форматах

Как уже говорилось ранее, Pandas способен работать со многими распространёнными форматами данных.

## Методы для записи таблиц в файлы отличных от csv форматов:

- to_excel() — запись DataFrame в формат Excel-таблицы (.xlsx);
- to_json() — запись DataFrame в формат JSON (.json);
- to_xml() — запись DataFrame в формат XML-документа (.xml);
- to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).


## Методы для чтения таблиц из файлов в отличных от csv форматах:

- read_excel() — чтение из формата Excel-таблицы (.xlsx) в DataFrame;
- read_json() — чтение из формата JSON (.json) в DataFrame;
- read_xml() — чтение из формата XML-документа (.xml) в DataFrame;
- read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).


<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">✍ Итак, мы рассмотрели, как можно записывать данные из DataFrame в файл и читать их из него. Эти навыки понадобятся нам в дальнейшем при работе с реальными данными и при их анализе. А пока предлагаем вам закрепить полученные знания, выполнив задания ниже ↓</div>

###  Задание 4.1

Как прочитать в DataFrame csv-файл, в качестве разделителя у которого значится '!'?

- df = pd.read_csv('path/file.csv', separator = '!')

- df = pd.read_csv('path/file.csv', sep= '!')

- df = pd.read_csv('path/file.csv', names= '!')

- df = pd.read_csv('path/file.csv', prefix= '!')
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
- df = pd.read_csv('path/file.csv', sep= '!')
</code>
</details>

###  Задание 4.2

Как прочитать в DataFrame csv-файл, в качестве разделителя у которого значится ';', а первые 20 строк занимает служебная информация?

- df = pd.read_csv('path/file.csv', sep = ';', skiprows = 20)

- df = pd.read_csv('path/file.csv', separator = ';', skipinitialspace = 20)

- df = pd.read_csv('path/file.csv', separator = ';')

- df = pd.read_csv('path/file.csv', skiprows = 20)
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
- df = pd.read_csv('path/file.csv', sep = ';', skiprows = 20)
</code>
</details>

###  Задание 4.3

Как записать DataFrame в csv-файл, в котором разделителем служит ';', а целая часть числа отделяется от дробной знаком ','?

- df.to_csv('path/file.csv', sep = ';', delimeter =',')

- df.to_csv('path/file.csv', sep = ',', decimal=';')

- df.to_csv('path/file.csv', sep = ';', decimal=',')

- df.to_csv('path/file.csv', sep = ';', index=False)
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
- df.to_csv('path/file.csv', sep = ';', decimal=',')
</code>
</details>

###   Задание 4.4

Какая функция позволяет прочитать файл 'income.xslx' в DataFrame?

- pd.read_xml()

- pd.read_excel()

- pd.read_sql()

- pd.read_json()


<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>

- pd.read_excel()
</code>
</details>