# Создание, чтение и запись
Вы не сможете работать с данными, если не умеете их читать. Начните здесь.

# Введение
В этом микро-курсе вы узнаете все о pandas, самой популярной библиотеке Python для анализа данных.

Попутно вы выполните несколько практических упражнений с реальными данными. Мы рекомендуем вам поработать над упражнениями, читая соответствующие руководства.

Чтобы приступить к первому упражнению, пожалуйста, нажмите здесь.

В этом руководстве вы узнаете, как создавать свои собственные данные, а также как работать с уже существующими данными.

# Начало работы
Чтобы использовать pandas, вы обычно начинаете со следующей строки кода.

In [None]:
import pandas as pd

# Создание данных
В pandas есть два основных объекта: фрейм данных и серия.

Фрейм данных

Фрейм данных - это таблица. Он содержит массив отдельных записей, каждая из которых имеет определенное значение. Каждая запись соответствует строке (или записи) и столбцу.

Например, рассмотрим следующий простой фрейм данных:

In [None]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

код ссылки
В этом примере запись "0, нет" имеет значение 131. Запись "0, да" имеет значение 50 и так далее.

Записи фрейма данных не ограничиваются целыми числами. Например, вот фрейм данных, значения которого являются строками:

In [None]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Мы используем конструктор pd.DataFrame() для создания этих объектов DataFrame. Синтаксис для объявления нового объекта - это словарь, ключами которого являются имена столбцов (Bob и Sue в этом примере), а значениями - список записей. Это стандартный способ создания нового фрейма данных, с которым вы, скорее всего, столкнетесь.

код ссылки
Конструктор dictionary-list присваивает значения меткам столбцов, но для меток строк просто использует значение по возрастанию от 0 (0, 1, 2, 3, ...). Иногда это нормально, но часто мы хотим присвоить эти метки сами.

Список меток строк, используемых во фрейме данных, называется индексом. Мы можем присвоить ему значения, используя параметр index в нашем конструкторе:

In [None]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

# Серии¶

Ряд, напротив, представляет собой последовательность значений данных. Если фрейм данных представляет собой таблицу, то ряд - это список. И на самом деле вы можете создать его, используя только список:

In [None]:
pd.Series([1, 2, 3, 4, 5])

Серия - это, по сути, отдельный столбец фрейма данных. Таким образом, вы можете присвоить метки строк Серии таким же образом, как и раньше, используя параметр index. Однако у серии нет имени столбца, у нее есть только одно общее название:

In [None]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

Последовательность и фрейм данных тесно связаны. Полезно представлять фрейм данных как набор последовательностей, "склеенных вместе". Мы подробнее рассмотрим это в следующем разделе этого руководства.

# Чтение файлов данных
Удобно создавать фреймы данных или ряды вручную. Но в большинстве случаев мы не будем создавать собственные данные вручную. Вместо этого мы будем работать с уже существующими данными.

Данные могут храниться в любом из множества различных форматов. Безусловно, самым простым из них является простой файл CSV. Когда вы открываете файл CSV, вы получаете что-то похожее на это:

Product A,Product B,Product C,
30,21,9,
35,34,1,
41,11,11

Таким образом, CSV-файл представляет собой таблицу значений, разделенных запятыми. Отсюда и название: "Значения, разделенные запятыми", или CSV.

Давайте теперь отложим в сторону наши игрушечные наборы данных и посмотрим, как выглядит реальный набор данных, когда мы считываем его во фрейм данных. Мы будем использовать функцию pd.read_csv() для считывания данных в DataFrame. Это происходит следующим образом:

In [None]:
wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv")

Мы можем использовать атрибут shape, чтобы проверить, насколько велик результирующий фрейм данных:

In [None]:
wine_reviews.shape

Итак, наш новый фрейм данных содержит 130 000 записей, распределенных по 14 различным столбцам. Это почти 2 миллиона записей!

Мы можем просмотреть содержимое результирующего фрейма данных, используя команду head(), которая захватывает первые пять строк:

In [None]:
wine_reviews.head()

Функция pd.read_csv() обладает широкими возможностями и содержит более 30 дополнительных параметров, которые вы можете указать. Например, в этом наборе данных вы можете видеть, что CSV-файл имеет встроенный индекс, который pandas не распознал автоматически. Чтобы заставить pandas использовать этот столбец для индекса (вместо того, чтобы создавать новый с нуля), мы можем указать index_column.

In [None]:
wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
wine_reviews.head()

# Ваш ход¶
Если вы еще не приступали к выполнению упражнения, вы можете начать здесь.