## Работа с модулем Pandas

Модуль Pandas предназначен для работы с данными, чем-то напоминающей работу с электронными таблицами. Данные хранятся в таблице с именованными колонками и пронумерованными строками.

Для начала подключим модуль:

In [1]:
# Данная конструкция подключает модуль pandas
# и позволяет обращаться к его функциям через имя pd.
import pandas as pd

## Чтение данных с помощью Pandas

Вероятно, один из наиболее часто встречающихся видов работы по анализу данных это чтение данных. Библиотека pandas предлагает  функции для чтения и записи файлов в различных форматах, таких как CSV, JSON, XML и XLSX Excel, причем все они создают DataFrame с информацией, считанной из файла.

Существует множество доступных функций чтения, как показано в следующей таблице:

![pandas read data table](https://raw.githubusercontent.com/yakushinav/omo/afc79fcda09f4abc49dc15ac8b6d0eec943d5dd1/img/pandas_data.png)

## Метод `read_csv`

Первый метод, который мы изучим, — это **read_csv**, который позволяет нам считывать файлы со значениями, разделенными запятыми (CSV) и файлы необработанного текста (TXT) в DataFrame.

Функция `read_csv` чрезвычайно мощна, и вы можете указать очень широкий набор параметров во время импорта, что позволяет нам точно настроить способ чтения и анализа данных, указав правильную структуру, кодирование и другие детали. Наиболее распространенные параметры следующие:

- `filepath`: путь к файлу, который нужно прочитать.
- `sep`: символы, которые используются в качестве разделителя полей в файле.
- `header`: индекс строки, содержащей имена столбцов (нет, если нет).
- `index_col`: индекс столбца или последовательности индексов, которые следует использовать в качестве индекса строк данных.
- `names`: последовательность, содержащая имена столбцов (используется вместе с заголовком = None).
- `skiprows`: количество строк или последовательность индексов строк, которые следует игнорировать при загрузке.
- `na_values`: последовательность значений, которые, если они найдены в файле, должны рассматриваться как NaN.
- `dtype`: словарь, в котором ключами будут имена столбцов, а значениями будут типы NumPy, в которые должно быть преобразовано их содержимое.
- `parse_dates`: флаг, указывающий, должен ли Python попытаться проанализировать данные в формате, аналогичном датам, как даты. Вы можете ввести список имен столбцов, которые необходимо объединить для анализа, в качестве даты.
- `date_parser`: функция, которую можно использовать для анализа дат.
- `nrows`: количество строк для чтения с начала файла.
- `skip_footer`: количество строк, которые нужно игнорировать в конце файла.
- `encoding`: ожидаемая кодировка прочитанного файла.
- `squeeze`: флаг, указывающий, что если считанные данные содержат только один столбец, результатом будет серия, а не DataFrame.
- `thousands`: символ, используемый для определения разделителя тысяч.
- `decimal`: символ, используемый для определения десятичного разделителя.
- `skip_blank_lines`: флаг, указывающий, следует ли игнорировать пустые строки.

## Чтение нашего первого файла CSV

Каждый раз, когда мы вызываем метод read_csv, нам нужно будет передать явный параметр filepath, указывающий путь, где находится наш CSV-файл.

Допускается любой допустимый путь к строке. Строка может быть URL-адресом. Допустимые схемы URL-адресов включают HTTP, FTP, S3 и файл. Для URL-адресов файлов ожидается хост. Локальным файлом может быть: `file://localhost/path/to/table.csv`.

Например, мы можем использовать метод read_csv для загрузки данных непосредственно из URL-адреса:

In [2]:
csv_url = "https://raw.githubusercontent.com/yakushinav/omo/main/data/gdp.csv"

pd.read_csv(csv_url).head()

Unnamed: 0,Country Name,Country Code,Year,Value
0,Arab World,ARB,1968,25760680000.0
1,Arab World,ARB,1969,28434200000.0
2,Arab World,ARB,1970,31385500000.0
3,Arab World,ARB,1971,36426910000.0
4,Arab World,ARB,1972,43316060000.0


In [3]:
#Рассмотрим набор данных, о ценах акций (на самом деле тут не важно каких)
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv')
df.head()

Unnamed: 0,2/4/17 0:00,1099.169125
0,3/4/17 0:00,1141.813
1,4/4/17 0:00,?
2,5/4/17 0:00,1133.079314
3,6/4/17 0:00,-
4,7/4/17 0:00,-


## Поведение первой строки с параметром `header`

В CSV-файле, который мы читаем, есть только два столбца: Timestamp и Price. У него нет заголовка. Pandas автоматически назначил первую строку данных в качестве заголовков, что неверно. Мы можем перезаписать это поведение с помощью параметра «header».

In [4]:
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',
                 header=None)

In [5]:
df.head()

Unnamed: 0,0,1
0,2/4/17 0:00,1099.169125
1,3/4/17 0:00,1141.813
2,4/4/17 0:00,?
3,5/4/17 0:00,1133.079314
4,6/4/17 0:00,-


## Параметр `na_values` для отсутствующих значений

Мы можем определить параметр na_values со значениями, которые мы хотим распознавать как NA/NaN. В этом случае пустые строки `''`, `?` и `-` будут распознаваться как нулевые значения.

In [6]:
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',
                 header=None,
                 na_values=['', '?', '-'])

In [7]:
df.head()

Unnamed: 0,0,1
0,2/4/17 0:00,1099.169125
1,3/4/17 0:00,1141.813
2,4/4/17 0:00,
3,5/4/17 0:00,1133.079314
4,6/4/17 0:00,


## Параметр `names` для имен столбцов (полей данных)

Мы добавим имена этих столбцов, используя параметр «names».

In [8]:
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'])

In [9]:
df.head()

Unnamed: 0,Timestamp,Price
0,2/4/17 0:00,1099.169125
1,3/4/17 0:00,1141.813
2,4/4/17 0:00,
3,5/4/17 0:00,1133.079314
4,6/4/17 0:00,


## Типы столбцов с использованием параметра `dtype`


Без использования параметра dtype Pandas попытаются автоматически определить тип каждого столбца. Мы можем использовать параметр dtype, чтобы указать Pandas использовать определенный тип dtype.

В этом случае мы заставим столбец «Цена» иметь значение с плавающей запятой (вещественное число).

In [10]:
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'],
                 dtype={'Price': 'float'})

In [11]:
df.head()

Unnamed: 0,Timestamp,Price
0,2/4/17 0:00,1099.169125
1,3/4/17 0:00,1141.813
2,4/4/17 0:00,
3,5/4/17 0:00,1133.079314
4,6/4/17 0:00,


In [12]:
df.dtypes

Unnamed: 0,0
Timestamp,object
Price,float64


Столбец Timestamp интерпретируется как обычная строка («object» в нотации pandas).

Мы преобразуем столбец Timestamp в объекты Datetime, используя метод to_datetime:

In [13]:
pd.to_datetime(df['Timestamp']).head()

  pd.to_datetime(df['Timestamp']).head()


Unnamed: 0,Timestamp
0,2017-02-04
1,2017-03-04
2,2017-04-04
3,2017-05-04
4,2017-06-04


In [14]:
df['Timestamp'] = pd.to_datetime(df['Timestamp'])

  df['Timestamp'] = pd.to_datetime(df['Timestamp'])


In [15]:
df.head()

Unnamed: 0,Timestamp,Price
0,2017-02-04,1099.169125
1,2017-03-04,1141.813
2,2017-04-04,
3,2017-05-04,1133.079314
4,2017-06-04,


In [16]:
df.dtypes

Unnamed: 0,0
Timestamp,datetime64[ns]
Price,float64


## Преобразование даты с использованием параметра `parse_dates`

Другой способ работы с объектами Datetime — использование параметра parse_dates с указанием положения столбцов с датами.

In [17]:
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'],
                 dtype={'Price': 'float'},
                 parse_dates=[0])

  df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',


In [18]:
df.head()

Unnamed: 0,Timestamp,Price
0,2017-02-04,1099.169125
1,2017-03-04,1141.813
2,2017-04-04,
3,2017-05-04,1133.079314
4,2017-06-04,


In [19]:
df.dtypes

Unnamed: 0,0
Timestamp,datetime64[ns]
Price,float64


## Добавление индекса с помощью параметра index_col

По умолчанию pandas автоматически назначает числовой автоинкрементный индекс или метку строки, начинающуюся с нуля. Возможно, вы захотите оставить индекс по умолчанию как таковой, если в ваших данных нет столбца с уникальными значениями, который мог бы служить лучшим индексом. Если есть столбец, который, по вашему мнению, будет служить лучшим индексом, вы можете переопределить поведение по умолчанию, установив для столбца свойство index_col. Он принимает числовое значение, представляющее индекс, или строку имени столбца для установки одного столбца в качестве индекса или список числовых значений или строк для создания мультииндекса.

В наших данных мы выбираем первый столбец Timestamp в качестве индекса (index=0), передавая ноль в аргумент index_col.

In [20]:
df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'],
                 dtype={'Price': 'float'},
                 parse_dates=[0],
                 index_col=[0])

  df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/market-price.csv',


In [21]:
df.head()

Unnamed: 0_level_0,Price
Timestamp,Unnamed: 1_level_1
2017-02-04,1099.169125
2017-03-04,1141.813
2017-04-04,
2017-05-04,1133.079314
2017-06-04,


In [22]:
df.dtypes

Unnamed: 0,0
Price,float64


## Чуть более сложный пример чтения данных

Теперь мы прочитаем еще один файл CSV. Этот файл имеет следующие столбцы:

- `first_name`
- `last_name`
- `age`
- `math_score`
- `french_score`
- `next_test_date`

Давайте прочитаем и посмотрим, как это выглядит.

In [23]:
exam_df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv')

In [24]:
exam_df

Unnamed: 0,Unnamed: 1,first_name>last_name>age>math_score>french_score
"Ray>Morley>18>""68","000"">""75","000"""
Melvin>Scott>24>77>83,,
Amirah>Haley>22>92>67,,
"Gerard>Mills>19>""78","000"">72",
Amy>Grimes>23>91>81,,


## Пользовательские разделители данных с использованием параметра `sep`

Мы можем определить, какой разделитель использовать, используя параметр `sep`. Если мы не используем параметр `sep`, pandas автоматически обнаружит разделитель.

В большинстве файлов CSV разделителем является запятая (`,`) и он определяется автоматически. Но мы можем найти файлы с другими разделителями, такими как точка с запятой (`;`), табуляция (`\t`, особенно в файлах TSV), пробелы или любые другие специальные символы.

В этом случае разделителем является символ `>`.

In [25]:
exam_df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                      sep='>')

In [26]:
exam_df

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Ray,Morley,18,68000,75000
1,Melvin,Scott,24,77,83
2,Amirah,Haley,22,92,67
3,Gerard,Mills,19,78000,72
4,Amy,Grimes,23,91,81


## Кодировка данных

Файлы хранятся с использованием разных «кодировок». Вы, наверное, слышали об ASCII, UTF-8, cp1251 и т.д.

При чтении данных пользовательскую кодировку можно определить с помощью параметра encoding.

- `encoding='UTF-8'`: будет использоваться, если данные закодированы UTF-8.
- `encoding='cp1251'`: будет использоваться, если данные закодированы в соответствии с windows cp1251.

В нашем случае нам не нужна специальная кодировка, поскольку данные загружаются правильно.

## Изменение разделителя «десятичный» и «тысячный».

Десятичные и тысячные знаки символов могут меняться в разных наборах данных. Если у нас есть столбец, содержащий запятую (`,`) для обозначения десятичного знака или знака тысяч, тогда этот столбец будет считаться строкой, а не числовым.

In [27]:
exam_df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                      sep='>')

In [28]:
exam_df

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Ray,Morley,18,68000,75000
1,Melvin,Scott,24,77,83
2,Amirah,Haley,22,92,67
3,Gerard,Mills,19,78000,72
4,Amy,Grimes,23,91,81


In [29]:
exam_df[['math_score', 'french_score']].dtypes

Unnamed: 0,0
math_score,object
french_score,object


Чтобы решить эту проблему и гарантировать, что такие столбцы интерпретируются как целочисленные значения, нам нужно будет использовать параметры «decimal» и/или «thousands», чтобы указать правильные десятичные и/или тысячи индикаторов.

In [30]:
exam_df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                      sep='>',
                      decimal=',')

In [31]:
exam_df

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Ray,Morley,18,68.0,75.0
1,Melvin,Scott,24,77.0,83.0
2,Amirah,Haley,22,92.0,67.0
3,Gerard,Mills,19,78.0,72.0
4,Amy,Grimes,23,91.0,81.0


In [32]:
exam_df[['math_score', 'french_score']].dtypes

Unnamed: 0,0
math_score,float64
french_score,float64


Давайте посмотрим, что происходит с параметром «thousands»:

In [33]:
pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
            sep='>',
            thousands=',')

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Ray,Morley,18,68000,75000
1,Melvin,Scott,24,77,83
2,Amirah,Haley,22,92,67
3,Gerard,Mills,19,78000,72
4,Amy,Grimes,23,91,81


## Исключение определенных строк

Мы можем использовать `skiprows`, чтобы:

— Исключить чтение указанного количества строк из начала файла, передав целочисленный аргумент. **При этом также будет удален заголовок**.
— Пропустить чтение определенных индексов строк из файла, передав список, содержащий индексы строк, которые нужно пропустить.

In [34]:
exam_df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                      sep='>',
                      decimal=',')

In [35]:
exam_df

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Ray,Morley,18,68.0,75.0
1,Melvin,Scott,24,77.0,83.0
2,Amirah,Haley,22,92.0,67.0
3,Gerard,Mills,19,78.0,72.0
4,Amy,Grimes,23,91.0,81.0


Чтобы пропустить чтение первых двух строк из этого файла, мы можем использовать skiprows=2:

In [36]:
pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
            sep='>',
            skiprows=2)

Unnamed: 0,Melvin,Scott,24,77,83
0,Amirah,Haley,22,92,67
1,Gerard,Mills,19,78000,72
2,Amy,Grimes,23,91,81


Поскольку заголовок считается первой строкой, чтобы пропустить чтение строк данных 1 и 3, мы можем использовать skiprows=[1,3]`:

In [37]:
exam_df = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                      sep='>',
                      decimal=',',
                      skiprows=[1,3])

In [38]:
exam_df

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Melvin,Scott,24,77.0,83
1,Gerard,Mills,19,78.0,72
2,Amy,Grimes,23,91.0,81


## Избавьтесь от пустых строк

Для параметра skip_blank_lines установлено значение True, поэтому пустые строки пропускаются при чтении файлов.

Если мы установим для этого параметра значение False, то каждая пустая строка будет загружена со значениями NaN в DataFrame.

In [39]:
pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
            sep='>',
            skip_blank_lines=False)

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Ray,Morley,18.0,68000.0,75000.0
1,Melvin,Scott,24.0,77.0,83.0
2,Amirah,Haley,22.0,92.0,67.0
3,,,,,
4,Gerard,Mills,19.0,78000.0,72.0
5,Amy,Grimes,23.0,91.0,81.0


## Загрузка определенных столбцов

Мы можем использовать параметр usecols, когда хотим загрузить только определенные столбцы, а не все.

С точки зрения производительности это лучше, потому что вместо загрузки всех данных в память, а затем удаления ненужных столбцов, мы можем выбрать нужные столбцы, загружая сам набор данных.

В качестве параметра usecols вы можете передать либо список строк, соответствующих именам столбцов, либо список целых чисел, соответствующих индексу столбца.

In [40]:
pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
            usecols=['first_name', 'last_name', 'age'],
            sep='>')

Unnamed: 0,first_name,last_name,age
0,Ray,Morley,18
1,Melvin,Scott,24
2,Amirah,Haley,22
3,Gerard,Mills,19
4,Amy,Grimes,23


Или используя только позицию столбца:

In [41]:
pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
            usecols=[0, 1, 2],
            sep='>')

Unnamed: 0,first_name,last_name,age
0,Ray,Morley,18
1,Melvin,Scott,24
2,Amirah,Haley,22
3,Gerard,Mills,19
4,Amy,Grimes,23


## Использование `Series` вместо `DataFrame`

Если проанализированные данные содержат только один столбец, мы можем вернуть ряд данных, используя метод «squeeze».

In [42]:
exam_test_1 = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                          sep='>',
                          usecols=['last_name'])

In [43]:
type(exam_test_1)

In [44]:
exam_test_2 = pd.read_csv('https://raw.githubusercontent.com/yakushinav/omo/main/data/exam_review.csv',
                          sep='>',
                          usecols=['last_name']).squeeze('columns')

In [45]:
type(exam_test_2)

## Сохранить в файл CSV

Мы также можем сохранить наш DataFrame в виде файла CSV.

In [46]:
exam_df

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Melvin,Scott,24,77.0,83
1,Gerard,Mills,19,78.0,72
2,Amy,Grimes,23,91.0,81


Мы можем просто сгенерировать строку CSV из нашего DataFrame:

In [47]:
exam_df.to_csv()

',first_name,last_name,age,math_score,french_score\n0,Melvin,Scott,24,77.0,83\n1,Gerard,Mills,19,78.0,72\n2,Amy,Grimes,23,91.0,81\n'

Или укажите путь к файлу, в котором мы хотим сохранить сгенерированный код CSV:

In [48]:
exam_df.to_csv('out.csv')

In [49]:
pd.read_csv('out.csv')

Unnamed: 0.1,Unnamed: 0,first_name,last_name,age,math_score,french_score
0,0,Melvin,Scott,24,77.0,83
1,1,Gerard,Mills,19,78.0,72
2,2,Amy,Grimes,23,91.0,81


In [50]:
exam_df.to_csv('out.csv',
               index=None)

In [51]:
pd.read_csv('out.csv')

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Melvin,Scott,24,77.0,83
1,Gerard,Mills,19,78.0,72
2,Amy,Grimes,23,91.0,81
