## Оглавление:

[Юнит 1. Введение](#введение)
<br>
[Юнит 2. Pandas.Series](#юнит-2-pandasseries)
<br>
[Юнит 3. Pandas.DataFrame](#юнит-3-pandasdataframe)
<br>
[Юнит 4. Работа с различными источниками данных в Pandas](#работа-с-различными-источниками-данных-в-Pandas)
<br>


# Введение
## Немного о Pandas

→ Pandas является наиболее продвинутой и быстроразвивающейся библиотекой для анализа данных и их предобработки.

Данная библиотека построена поверх уже знакомой вам библиотеки NumPy, которая в свою очередь написана на языке С. Такая особенность даёт большой скачок в производительности операций библиотеки.

Ещё одним большим плюсом Pandas является подробная документация с детальным описанием всех функций и примерами их использования. Более того, так как Pandas является очень популярной библиотекой, то вы практически всегда сможете найти ответ на интересующий вас вопрос в интернете, главное — уметь правильно искать.


## Что умеет Pandas?

Среди основных возможностей библиотеки, необходимых специалисту в Data Science, можно выделить следующие:

- Работа с различными форматами данных (csv, excel, json, sql и т. д.).

- Фильтрация данных (извлечение данных по условиям).

- Быстрые математические операции с таблицами и их столбцами.

- Использование методов статистического анализа.

- Группировка данных и построение сводных таблиц.

- Объединение нескольких таблиц.

- Встроенная визуализация (возможность построения графиков по данным).

## Зачем мне Pandas?

Сегодня владение Pandas является одним из основных критериев на рынке труда для всех профессий, связанных с анализом и предобработкой данных. Среди специалистов даже существует поговорка «Анализ данных начинается с импорта Pandas». Это связано с тем, что в большинстве задач по работе с данными Pandas является ключевым инструментом.

⭐ Чем большим количеством возможностей библиотеки владеет специалист, тем большим объёмом навыков работы с данными он обладает, что, несомненно, влечёт рост ценности такого специалиста. 

**Целями данного модуля являются:**

        изучить основные структуры данных в Pandas;
        получить навыки работы с данными, представленными в различных форматах, с помощью Pandas;
        научиться получать информацию о структуре данных;
        освоить фильтрацию данных.


## Импорт библиотеки Pandas

Библиотека Pandas является стандартным пакетом в Anaconda, поэтому, если вы уже используете эту среду, устанавливать Pandas не нужно. Если же вы не используете Anaconda, то пакет устанавливается стандартно:

        pip install pandas

В общепринятой практике Pandas импортируется и используется под псевдонимом pd:

        import pandas as pd

Чтобы удостовериться, что импорт прошёл успешно, можно воспользоваться командой для проверки версии библиотеки:

        pd.__version__

        import pandas as pd
        pd.__version__

        '1.0.5'



In [2]:
import pandas as pd
pd.__version__

'1.4.2'

Для того чтобы лучше разобраться в материале, советуем вам выполнять весь код, который используется в модуле.

Ваша версия библиотеки может отличаться, так как Pandas не стоит на месте и постоянно обновляется.

Если библиотека импортирована под псевдонимом, то в дальнейшем, обращаясь к методам и классам из этой библиотеки, необходимо использовать заданный псевдоним, например pd.get_dummies().


 Основными структурами данных в Pandas являются Series и DataFrame. Далее мы рассмотрим их подробнее. 

In [None]:
print(pd.__name__)

[Назад к оглавлению](#оглавление)

# Юнит 2. Pandas.Series

Начнём наше знакомство с библиотекой Pandas со структуры данных pandas.Series (серия, ряд).

## Series как структура данных

Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы). 

Эту структуру можно сравнить со списком: каждому элементу ставится в соответствие индекс, однако, в отличие от списка, индексами могут быть не только порядковые номера — фактически что угодно, например названия компаний, даты, идентификаторы, наименования продуктов.

Также для каждой Series присваивается тип данных её элементов (например int64) и может быть определено имя всего массива. В итоге мы получаем некоторый гибрид списка и словаря.

Пример объекта Series: IMG

→ Series в какой-то степени является единицей хранения информации в Pandas. Её можно рассматривать как именованный столбец таблицы с индексами строк.
Перейдём от сухой теории к практике — научимся создавать серии и работать с ними.

## Создание Series

→ Для создания объекта Series используется команда pd.Series().

Рассмотрим несколько способов создания Series на примере со списком названий стран.

**Способ 1 — из списка с использованием параметров функции pd.Series():**

In [6]:
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

<small>**Примечание.** 
Функция display() является аналогом функции print() в файлах формата .ipynb (ноутбуках/блокнотах), но чаще используется для вывода табличных данных.

Здесь и в дальнейшем функция display() используется для более красивого вывода таблиц в файлах формата .ipynb.

Обратите внимание, что если вы пишете код в файлах с расширением .py, функция display() не будет вам доступна.

Также стоит отметить, что в файлах формата .ipynb результат работы последней строки в ячейке автоматически выводится на экран. Например (кликните на изображение, чтобы открыть его в полном размере):</small>

В результате выполнения кода выше мы получаем объект Series. При его выводе на экран можно увидеть заданные в параметре index метки — коды стран, соответствующие им значения (названия стран), которые мы задали в параметре data. Также с помощью аргумента name мы явно задали имя для Series.

Внизу, под выводом содержимого, можно увидеть тип данных объектов, хранимых в Series. Типом данных object в Pandas обозначаются строки и смешанные типы данных (кортежи, списки, текст, смешанный с числами, и т. д.).

<small>**Примечание.** Если оставить параметр index пустым, то метки будут присвоены автоматически в виде порядковых номеров элементов, например:</small>




In [7]:
countries = pd.Series(
    ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан']
)
display(countries)

0       Англия
1       Канада
2          США
3       Россия
4      Украина
5     Беларусь
6    Казахстан
dtype: object

**Способ 2 — из словаря**, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно:

In [8]:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

## Доступ к данным в Series

Доступ к элементам осуществляется с использованием loc или iloc.

**.loc** вызывается с квадратными скобками, в которые передаются метки. В него можно передать как один индекс, так и список, чтобы получилось несколько элементов. 

Например, для получения названия страны по коду "US" можно выполнить следующий код:

In [9]:
print(countries.loc['US'])
# США

США


Для того чтобы достать информацию по нескольким индексам, необходимо обернуть интересующие индексы в список:

In [10]:
print(countries.loc[['US', 'RU', 'UK']])

US       США
RU    Россия
UK    Англия
Name: countries, dtype: object


<small>**Примечание.** Обратите внимание, что в случае обращения по одному индексу возвращается строка. Если же обратиться по нескольким элементам, возвращается объект Series.</small>

**.iloc** также вызывается с квадратными скобками и принимает на вход порядковые номера элементов Series (нумерация начинаются с 0). В него можно так же передавать как один индекс, так и диапазон чисел. 

Например, для получения элемента по индексу "KZ" нужно обратиться через .iloc по номеру 6:

In [11]:
print(countries.iloc[6])
# Казахстан

Казахстан


Получим срез из исходной Series с первого по третий элемент:

In [12]:
print(countries.iloc[1:4])

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


<small>**Примечание.** Важно, что в последнем примере конечное значение диапазона не включается в результат (берутся элементы с порядковыми номерами от 1 до 4, не включая последний).</small>

На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[[‘UK’, 'US', ‘UA’]] или countries[[0, 2, 4]]. Оба варианта являются равноправными для Series, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — DataFrame, а в контексте этой структуры эти варианты уже неравноправны.

[Назад к оглавлению](#оглавление)

# Юнит 3. Pandas.DataFrame

## DataFrame как структура данных

✍ Наиболее популярным и понятным является табличное представление данных. Для работы с такими данными в Pandas существует объект DataFrame.

DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

Приведём пример такой структуры:

<table>
<tr><th></th><th>ФИО</th><th>Возраст</th><th>Доход</th><th>Размер кредита</th></tr> <!--ряд с ячейками заголовков-->
<tr><td>0</td><td>Иванов И. И.</td><td>32</td><td>120</td><td>250</td></tr> <!--ряд с ячейками тела таблицы-->
<tr><td>1</td><td>Авербух А. В.</td><td>28</td><td>44</td><td>320</td></tr>
<tr><td>2</td><td>Вестяк А. В.</td><td>86</td><td>250</td><td>500</td></tr>
<tr>
</table>

<small>**Примечание.** В дальнейшем слова DataFrame и таблица будут употребляться как синонимы. Также синонимами в Data Science являются слова столбец таблицы и признак.</small>

## Создание DataFrame

*DataFrame* создаётся с помощью функции **pd.DataFrame()**. Так же, как и для *Series*, для создания объектов *DataFrame* есть несколько способов:

<b>Способ 1</b><br>
    Самый простой способ создания <i>DataFrame</i> — из словаря, <b>ключами</b> которого являются <b>имена столбцов</b> будущей таблицы, а <b>значениями</b> — списки, в которых хранится <b>содержимое этих столбцов</b>:

In [22]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
display(countries_df)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


<small>**Примечание.** В данном коде мы создаём таблицу, столбцы которой соответствуют названиям стран, их населению в миллионах человек и площади в квадратных километрах.</small>

Обратите внимание, что, так как мы не задали метки (индексы) DataFrame, они были сгенерированы автоматически. Исправим это, задав индексы вручную:

In [23]:
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


<b>Способ 2</b><br>
    Также <i>DataFrame</i> можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [26]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


В данном варианте создания DataFrame мы задаём имена столбцов в списке с помощью параметра columns, а также инициализируем параметр index для задания меток стран.

## Axis в DataFrame

→ Как уже было сказано, DataFrame является двумерной структурой данных, что означает наличие двух возможных направлений движения в ней: вдоль строк и вдоль столбцов. 

Например, мы можем удалять как строки, так и столбцы таблицы, вычислять среднее значение как по столбцам, так и по строкам таблицы.

При работе с Pandas важно уметь указывать направление работы метода, который используется. Для этого вводится понятие axis (ось, координата). Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.

Схема ниже демонстрирует направления axis в DataFrame: <br>
<img src="./data/dst3-u1-md10_3_4.png" width="400"/>

Рассмотрим разницу в результатах работы методов в зависимости от параметра axis на примере использования метода DataFrame mean() — вычисление среднего по таблице.

Cчитаем **среднее по строкам** (axis = 0) в каждом столбце:

In [27]:
countries_df.mean(axis=0)

  countries_df.mean(axis=0)


population    9.070000e+01
square        5.800860e+06
dtype: float64

Считаем **среднее по столбцам** (axis = 1) в каждой строке:

In [28]:
countries_df.mean(axis=1)

  countries_df.mean(axis=1)


UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

Здесь среднее было рассчитано по числовым столбцам для каждой строки в таблице.

## Доступ к данным в DataFrame

Доступ к столбцу можно получить разными способами:

Можно обратиться к DataFrame по имени столбца через точку:

In [29]:
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Однако использование такого способа возможно только тогда, когда имя столбца указано без пробелов.

Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:

In [30]:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

<small>**Примечание.** Обратите внимание, что, как и ожидалось, при обращении к столбцу DataFrame мы получаем объект Series с именем, соответствующим имени столбца. Удостовериться в этом можно с помощью функции type():</small>

In [31]:
type(countries_df.population)

pandas.core.series.Series

Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам *loc* и *iloc*.

[Назад к оглавлению](#оглавление)