## Работа с модулем Pandas

Модуль Pandas предназначен для работы с данными, чем-то напоминающей работу с электронными таблицами. Данные хранятся в таблице с именованными колонками и пронумерованными строками.

Для начала подключим модуль:

In [None]:
# Данная конструкция подключает модуль pandas
# и позволяет обращаться к его функциям через имя pd.
import pandas as pd

## Чтение данных с помощью Pandas

Вероятно, один из наиболее часто встречающихся видов работы по анализу данных это чтение данных. Библиотека pandas предлагает  функции для чтения и записи файлов в различных форматах, таких как CSV, JSON, XML и XLSX Excel, причем все они создают DataFrame с информацией, считанной из файла.

Существует множество доступных функций чтения, как показано в следующей таблице:

![pandas read data table](https://raw.githubusercontent.com/yakushinav/omo/afc79fcda09f4abc49dc15ac8b6d0eec943d5dd1/img/pandas_data.png)

## Метод `read_csv`

Первый метод, который мы изучим, — это **read_csv**, который позволяет нам считывать файлы со значениями, разделенными запятыми (CSV) и файлы необработанного текста (TXT) в DataFrame.

Функция `read_csv` чрезвычайно мощна, и вы можете указать очень широкий набор параметров во время импорта, что позволяет нам точно настроить способ чтения и анализа данных, указав правильную структуру, кодирование и другие детали. Наиболее распространенные параметры следующие:

- `filepath`: путь к файлу, который нужно прочитать.
- `sep`: символы, которые используются в качестве разделителя полей в файле.
- `header`: индекс строки, содержащей имена столбцов (нет, если нет).
- `index_col`: индекс столбца или последовательности индексов, которые следует использовать в качестве индекса строк данных.
- `names`: последовательность, содержащая имена столбцов (используется вместе с заголовком = None).
- `skiprows`: количество строк или последовательность индексов строк, которые следует игнорировать при загрузке.
- `na_values`: последовательность значений, которые, если они найдены в файле, должны рассматриваться как NaN.
- `dtype`: словарь, в котором ключами будут имена столбцов, а значениями будут типы NumPy, в которые должно быть преобразовано их содержимое.
- `parse_dates`: флаг, указывающий, должен ли Python попытаться проанализировать данные в формате, аналогичном датам, как даты. Вы можете ввести список имен столбцов, которые необходимо объединить для анализа, в качестве даты.
- `date_parser`: функция, которую можно использовать для анализа дат.
- `nrows`: количество строк для чтения с начала файла.
- `skip_footer`: количество строк, которые нужно игнорировать в конце файла.
- `encoding`: ожидаемая кодировка прочитанного файла.
- `squeeze`: флаг, указывающий, что если считанные данные содержат только один столбец, результатом будет серия, а не DataFrame.
- `тысячи`: символ, используемый для определения разделителя тысяч.
- `decimal`: символ, используемый для определения десятичного разделителя.
- `skip_blank_lines`: флаг, указывающий, следует ли игнорировать пустые строки.

## Чтение нашего первого файла CSV

Каждый раз, когда мы вызываем метод read_csv, нам нужно будет передать явный параметр filepath, указывающий путь, где находится наш CSV-файл.

Допускается любой допустимый путь к строке. Строка может быть URL-адресом. Допустимые схемы URL-адресов включают HTTP, FTP, S3 и файл. Для URL-адресов файлов ожидается хост. Локальным файлом может быть: `file://localhost/path/to/table.csv`.

Например, мы можем использовать метод read_csv для загрузки данных непосредственно из URL-адреса:

In [None]:
csv_url = "https://raw.githubusercontent.com/yakushinav/omo/main/data/gdp.csv"

pd.read_csv(csv_url).head()

In [None]:
#Рассмотрим набор данных, о ценах акций (на самом деле тут не важно каких)
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv')
df.head()

## Поведение первой строки с параметром `header`

В CSV-файле, который мы читаем, есть только два столбца: Timestamp и Price. У него нет заголовка. Pandas автоматически назначил первую строку данных в качестве заголовков, что неверно. Мы можем перезаписать это поведение с помощью параметра «header».

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',
                 header=None)

In [None]:
df.head()

## Параметр `na_values` для отсутствующих значений

Мы можем определить параметр na_values со значениями, которые мы хотим распознавать как NA/NaN. В этом случае пустые строки `''`, `?` и `-` будут распознаваться как нулевые значения.

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',
                 header=None,
                 na_values=['', '?', '-'])

In [None]:
df.head()

## Параметр `names` для имен столбцов (полей данных)

Мы добавим имена этих столбцов, используя параметр «names».

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'])

In [None]:
df.head()

## Типы столбцов с использованием параметра `dtype`


Без использования параметра dtype Pandas попытаются автоматически определить тип каждого столбца. Мы можем использовать параметр dtype, чтобы указать Pandas использовать определенный тип dtype.

В этом случае мы заставим столбец «Цена» иметь значение с плавающей запятой (вещественное число).

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'],
                 dtype={'Price': 'float'})

In [None]:
df.head()

In [None]:
df.dtypes

Столбец Timestamp интерпретируется как обычная строка («object» в нотации pandas).

Мы преобразуем столбец Timestamp в объекты Datetime, используя метод to_datetime:

In [None]:
pd.to_datetime(df['Timestamp']).head()

In [None]:
df['Timestamp'] = pd.to_datetime(df['Timestamp'])

In [None]:
df.head()

In [None]:
df.dtypes

## Преобразование даты с использованием параметра `parse_dates`

Другой способ работы с объектами Datetime — использование параметра parse_dates с указанием положения столбцов с датами.

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'],
                 dtype={'Price': 'float'},
                 parse_dates=[0])

In [None]:
df.head()

In [None]:
df.dtypes

## Добавление индекса с помощью параметра index_col

По умолчанию pandas автоматически назначает числовой автоинкрементный индекс или метку строки, начинающуюся с нуля. Возможно, вы захотите оставить индекс по умолчанию как таковой, если в ваших данных нет столбца с уникальными значениями, который мог бы служить лучшим индексом. Если есть столбец, который, по вашему мнению, будет служить лучшим индексом, вы можете переопределить поведение по умолчанию, установив для столбца свойство index_col. Он принимает числовое значение, представляющее индекс, или строку имени столбца для установки одного столбца в качестве индекса или список числовых значений или строк для создания мультииндекса.

В наших данных мы выбираем первый столбец Timestamp в качестве индекса (index=0), передавая ноль в аргумент index_col.

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'],
                 dtype={'Price': 'float'},
                 parse_dates=[0],
                 index_col=[0])

In [None]:
df.head()

In [None]:
df.dtypes

## Чуть более сложный пример чтения данных

Теперь мы прочитаем еще один файл CSV. Этот файл имеет следующие столбцы:

- `first_name`
- `last_name`
- `age`
- `math_score`
- `french_score`
- `next_test_date`

Давайте прочитаем и посмотрим, как это выглядит.

In [None]:
exam_df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv')

In [None]:
exam_df

## Пользовательские разделители данных с использованием параметра `sep`

Мы можем определить, какой разделитель использовать, используя параметр `sep`. Если мы не используем параметр `sep`, pandas автоматически обнаружит разделитель.

В большинстве файлов CSV разделителем является запятая (`,`) и он определяется автоматически. Но мы можем найти файлы с другими разделителями, такими как точка с запятой (`;`), табуляция (`\t`, особенно в файлах TSV), пробелы или любые другие специальные символы.

В этом случае разделителем является символ `>`.

In [None]:
exam_df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                      sep='>')

In [None]:
exam_df

## Кодировка данных

Файлы хранятся с использованием разных «кодировок». Вы, наверное, слышали об ASCII, UTF-8, cp1251 и т.д.

При чтении данных пользовательскую кодировку можно определить с помощью параметра encoding.

- `encoding='UTF-8'`: будет использоваться, если данные закодированы UTF-8.
- `encoding='cp1251'`: будет использоваться, если данные закодированы в соответствии с windows cp1251.

В нашем случае нам не нужна специальная кодировка, поскольку данные загружаются правильно.

## Изменение разделителя «десятичный» и «тысячный».

Десятичные и тысячные знаки символов могут меняться в разных наборах данных. Если у нас есть столбец, содержащий запятую (`,`) для обозначения десятичного знака или знака тысяч, тогда этот столбец будет считаться строкой, а не числовым.

In [None]:
exam_df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                      sep='>')

In [None]:
exam_df

In [None]:
exam_df[['math_score', 'french_score']].dtypes

Чтобы решить эту проблему и гарантировать, что такие столбцы интерпретируются как целочисленные значения, нам нужно будет использовать параметры «decimal» и/или «thousands», чтобы указать правильные десятичные и/или тысячи индикаторов.

In [None]:
exam_df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                      sep='>',
                      decimal=',')

In [None]:
exam_df

In [None]:
exam_df[['math_score', 'french_score']].dtypes

Давайте посмотрим, что происходит с параметром «thousands»:

In [None]:
pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
            sep='>',
            thousands=',')

## Исключение определенных строк

Мы можем использовать `skiprows`, чтобы:

— Исключить чтение указанного количества строк из начала файла, передав целочисленный аргумент. **При этом также будет удален заголовок**.
— Пропустить чтение определенных индексов строк из файла, передав список, содержащий индексы строк, которые нужно пропустить.

In [None]:
exam_df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                      sep='>',
                      decimal=',')

In [None]:
exam_df

Чтобы пропустить чтение первых двух строк из этого файла, мы можем использовать skiprows=2:

In [None]:
pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
            sep='>',
            skiprows=2)

Поскольку заголовок считается первой строкой, чтобы пропустить чтение строк данных 1 и 3, мы можем использовать skiprows=[1,3]`:

In [None]:
exam_df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                      sep='>',
                      decimal=',',
                      skiprows=[1,3])

In [None]:
exam_df

## Избавьтесь от пустых строк

Для параметра skip_blank_lines установлено значение True, поэтому пустые строки пропускаются при чтении файлов.

Если мы установим для этого параметра значение False, то каждая пустая строка будет загружена со значениями NaN в DataFrame.

In [None]:
pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
            sep='>',
            skip_blank_lines=False)

## Загрузка определенных столбцов

Мы можем использовать параметр usecols, когда хотим загрузить только определенные столбцы, а не все.

С точки зрения производительности это лучше, потому что вместо загрузки всех данных в память, а затем удаления ненужных столбцов, мы можем выбрать нужные столбцы, загружая сам набор данных.

В качестве параметра usecols вы можете передать либо список строк, соответствующих именам столбцов, либо список целых чисел, соответствующих индексу столбца.

In [None]:
pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
            usecols=['first_name', 'last_name', 'age'],
            sep='>')

Или используя только позицию столбца:

In [None]:
pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
            usecols=[0, 1, 2],
            sep='>')

## Использование `Series` вместо `DataFrame`

Если проанализированные данные содержат только один столбец, мы можем вернуть ряд данных, используя метод «squeeze».

In [None]:
exam_test_1 = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                          sep='>',
                          usecols=['last_name'])

In [None]:
type(exam_test_1)

In [None]:
exam_test_2 = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                          sep='>',
                          usecols=['last_name']).squeeze('columns')

In [None]:
type(exam_test_2)

## Сохранить в файл CSV

Мы также можем сохранить наш DataFrame в виде файла CSV.

In [None]:
exam_df

Мы можем просто сгенерировать строку CSV из нашего DataFrame:

In [None]:
exam_df.to_csv()

Или укажите путь к файлу, в котором мы хотим сохранить сгенерированный код CSV:

In [None]:
exam_df.to_csv('out.csv')

In [None]:
pd.read_csv('out.csv')

In [None]:
exam_df.to_csv('out.csv',
               index=None)

In [None]:
pd.read_csv('out.csv')