# Знакомство с Pandas.

**Pandas — это библиотека Python с открытым исходным кодом для специализированного анализа данных.**

Pandas появилась из необходимости в простом инструменте для обработки, извлечения и управления данными.

Этот пакет Python спроектирован на основе библиотеки NumPy. Такой выбор обуславливает успех и быстрое распространение pandas. Он также пользуется всеми преимуществами NumPy и делает pandas совместимой с большинством другим модулей.

Еще одно важное решение — разработка специальных структур для анализа данных. Вместо того, чтобы использовать встроенные в Python или предоставляемые другими библиотеками структуры, были разработаны две новых.

Ядром pandas являются две структуры данных, в которых происходят все операции:

* Series
* Dataframes


**Series** — это структура, используемая для работы с последовательностью одномерных данных,

а **Dataframe** — более сложная и подходит для нескольких измерений.

# Series (серии)

Series — это объект библиотеки pandas, спроектированный для представления одномерных структур данных, похожих на массивы, но с дополнительными возможностями. Его структура проста, ведь он состоит из двух связанных между собой массивов. Основной содержит данные (данные любого типа NumPy), а в дополнительном, index, хранятся метки.

In [None]:
import pandas as pd

In [None]:
s = pd.Series([12,-4,7,9])
s

Как можно увидеть по выводу, слева отображаются значения индексов, а справа — сами значения (данные).

Если не определить индекс при объявлении объекта, метки будут соответствовать индексам (положению в массиве) элементов объекта Series.

Однако лучше создавать Series, используя метки с неким смыслом, чтобы в будущем отделять и идентифицировать данные вне зависимости от того, в каком порядке они хранятся.

В таком случае необходимо будет при вызове конструктора включить параметр index и присвоить ему массив строк с метками.

In [None]:
s = pd.Series([12,-4,7,9], index=['a','b','c','d'])
s

Если необходимо увидеть оба массива, из которых состоит структура, можно вызвать два атрибута: **index и values.**

In [None]:
s.values

In [None]:
s.index

In [None]:
s[1] = 0
s['b'] = 1

In [None]:
import numpy as np
arr = np.array([1,2,3,4])
s3 = pd.Series(arr)
s3

**Операции и математические функции**

Другие операции, такие как операторы (+, -, * и /), а также математические функции, работающие с массивами NumPy, могут использоваться и для Series.

In [None]:
s / 2

In [None]:
np.log(s)

**Количество значений**

В Series часто встречаются повторения значений. Поэтому важно иметь информацию, которая бы указывала на то, есть ли дубликаты или конкретное значение в объекте.

Так, можно объявить Series, в котором будут повторяющиеся значения.

In [None]:
serd = pd.Series([1,0,2,1,2,3], index=['white','white','blue','green',' green','yellow']) 
serd

In [None]:
serd.unique()

In [None]:
serd.value_counts()

Наконец, isin() показывает, есть ли элементы на основе списка значений. Она возвращает булевые значения, которые очень полезны при фильтрации данных в Series или в колонке Dataframe.

In [None]:
serd.isin([0,3])

In [None]:
serd[serd.isin([0,3])]

# DataFrame (датафрейм)

**Dataframe**— это табличная структура данных, напоминающая таблицы из Microsoft Excel. Ее главная задача — позволить использовать многомерные Series. Dataframe состоит из упорядоченной коллекции колонок, каждая из которых содержит значение разных типов (числовое, строковое, булевое и так далее).

В отличие от Series у которого есть массив индексов с метками, ассоциированных с каждым из элементов, Dataframe имеет сразу два таких. Первый ассоциирован со строками (рядами) и напоминает таковой из Series. Каждая метка ассоциирована со всеми значениями в ряду. Второй содержит метки для каждой из колонок.

**Создание Dataframe**

Простейший способ создания Dataframe — передать объект dict в конструктор DataFrame(). Объект dict содержит ключ для каждой колонки, которую требуется определить, а также массив значений для них.

In [None]:
data = {'color' : ['blue', 'green', 'yellow', 'red', 'white'],
        'object' : ['ball', 'pen', 'pencil', 'paper', 'mug'],
        'price' : [1.2, 1.0, 0.6, 0.9, 1.7]}
frame = pd.DataFrame(data)
frame

In [None]:
frame2 = pd.DataFrame(data, columns=['object', 'price'])
frame2

In [None]:
frame.columns

In [None]:
frame.values

In [None]:
frame['price']

In [None]:
frame.price

Для строк внутри Dataframe используется атрибут loc со значением индекса нужной строки.

In [None]:
frame.loc[2]

In [None]:
frame.loc[[2,4]]

In [None]:
frame['object'][3]