In [1]:
import numpy as np
import pandas as pd  # Снова используемое сообществом сокращение.

# Pandas
`Pandas` - надстройка над библиотекой `NumPy`, главными объектами которого являются `DataFrame` и `Series`. Как и `NumPy` импортируется с использованием в сообществ соокращения `import pandas as pd`

`DataFrame` представляют собой многомерные массивы с метками для строк и столбцов. 
Метки делают работу с данными удобнее для восприятия человека. Помимо этого DataFrame даёт широкие возможности работы с данными вроде реляционной алгебры.

`Series` же представляет собой одномерные упорядоченные массивы с индексированным данными. Начнём с них:

## Series

Для создания объекта Series достаточно передать любой `iterable` в конструктор `pd.Series()`:

In [2]:
height_as_ndarray = np.random.normal(178, 5, 5).astype(int)

height = pd.Series(height_as_ndarray)
print(f'height: \n{height}')
print(f'\ntype(height): {type(height)}')

height: 
0    175
1    183
2    180
3    191
4    178
dtype: int32

type(height): <class 'pandas.core.series.Series'>


Значения `Series` хранит в виде знакомых нам `ndarray`. А хранит он их в аттрибуте `.values`

In [3]:
height_as_list = list(np.random.normal(178, 5, 5).astype(int))  # Обернём в list для демонстрации а) того, что list is suitable too
height = pd.Series(height_as_list)

print(f'height.values: {height.values}, type(height.values): {type(height.values)}') # б) того, что values принудительно переводятся в ndarray, см. вывод

height.values: [175 174 171 186 179], type(height.values): <class 'numpy.ndarray'>


Однако, выше заявлалось, что `Series` у нас индексированные. Выглядит это так:

In [4]:
height = pd.Series(np.random.normal(178, 5, 5).astype(int), 
                   index=['Иванов', 'Петров', 'Сидоров', 'Александров', 'Сергеев'])
height.index.name = 'Фамилия'
print(f'height: \n{height}')

print(f"\nМожно обращатсья с Series таки образом. Например, рост Петрова = height['Петров'] = {height['Петров']} ")

height: 
Фамилия
Иванов         173
Петров         179
Сидоров        173
Александров    175
Сергеев        185
dtype: int32

Можно обращатсья с Series таки образом. Например, рост Петрова = height['Петров'] = 179 


Самый занудный из вас может сказать, что это же то же самое, что может делать `dict`. А вот так `dict` может?

In [5]:
height = pd.Series(np.random.normal(180, 10, 5).astype(int), 
                   index=['Иванов', 'Петров', 'Сидоров', 'Александров', 'Сергеев'])

print(f'На призывной пункт пришли: \n{height}')
print('\nПришёл военком и сказал: "Это что за бардак? В одну шеренгу по росту становись!"')
print(f'\nИ встали перед военкомом: \n{height.sort_values()}')
print(f'\nИ сказал Военком: "{height.sort_values().index[-1]}, в баскетбол поди играешь?". И засмеялся так неприятно')

На призывной пункт пришли: 
Иванов         175
Петров         207
Сидоров        183
Александров    176
Сергеев        188
dtype: int32

Пришёл военком и сказал: "Это что за бардак? В одну шеренгу по росту становись!"

И встали перед военкомом: 
Иванов         175
Александров    176
Сидоров        183
Сергеев        188
Петров         207
dtype: int32

И сказал Военком: "Петров, в баскетбол поди играешь?". И засмеялся так неприятно


# DataFrame
Если `Series` - это расширение одномерного `ndarray` индексами, то DataFrame стоит рассматривать как расширение многомернного `ndarray`. Здесь индекс имеют не только строки, а ещё и столбцы. Смотрим:

In [6]:
matrix = np.random.randint(5, 30, (5, 3))
df = pd.DataFrame(matrix)
df

Unnamed: 0,0,1,2
0,24,11,24
1,17,19,13
2,6,22,9
3,28,12,15
4,12,14,25


Однако, при создании можно сразу указать индексы:

In [7]:
matrix = np.random.randint(5, 30, (5, 3))
df = pd.DataFrame(matrix, 
                  columns=['Жиры', 'Белки', 'Углеводы'], 
                  index=['Хлеб', 'Колбаса', 'Огурцы', 'Помидоры', 'Яблоки'])
df

Unnamed: 0,Жиры,Белки,Углеводы
Хлеб,27,11,22
Колбаса,13,19,27
Огурцы,26,25,28
Помидоры,22,13,14
Яблоки,21,20,14


Или же указать их потом:

In [8]:
matrix = np.random.randint(5, 30, (5, 3))
df = pd.DataFrame(matrix)
df.columns = ['Жиры', 'Белки', 'Углеводы']
df.index = ['Хлеб', 'Колбаса', 'Огурцы', 'Помидоры', 'Яблоки']
df

Unnamed: 0,Жиры,Белки,Углеводы
Хлеб,17,5,15
Колбаса,16,22,12
Огурцы,20,15,10
Помидоры,10,13,14
Яблоки,23,21,5


Колонки можно добавлять по мере необходимости:

In [9]:
matrix = np.random.randint(5, 30, (5, 3))
df = pd.DataFrame(matrix, 
                  columns=['Жиры', 'Белки', 'Углеводы'], 
                  index=['Хлеб', 'Колбаса', 'Огурцы', 'Помидоры', 'Яблоки'])

df['Калорийность'] = np.random.randint(100, 400, 5)
df

Unnamed: 0,Жиры,Белки,Углеводы,Калорийность
Хлеб,5,18,16,266
Колбаса,9,29,17,103
Огурцы,16,12,23,297
Помидоры,8,20,6,347
Яблоки,22,24,17,222


Так же `DataFrame` можно собирать из `Series`. При "сборке" `DataFrame` из `Series` будут учитываться индексы и это не допустит перепутывания данных:

In [10]:
height = pd.Series(np.random.normal(180, 10, 5).astype(int), 
                   index=['Иванов', 'Петров', 'Сидоров', 'Александров', 'Сергеев'])

weight = pd.Series(np.random.normal(70, 7, 5).astype(int), 
                   index=['Петров', 'Сидоров', 'Иванов', 'Сергеев', 'Степанов'])  # Заметьте, что порядок индексов не совпадает

print('Обращаем внимание на значения. height:')
print(height)
print('\nОбращаем внимание на значения. weight:')
print(weight)
df = pd.DataFrame({"Рост": height, "Вес": weight})
df

Обращаем внимание на значения. height:
Иванов         180
Петров         172
Сидоров        172
Александров    173
Сергеев        171
dtype: int32

Обращаем внимание на значения. weight:
Петров      64
Сидоров     75
Иванов      73
Сергеев     76
Степанов    68
dtype: int32


Unnamed: 0,Рост,Вес
Александров,173.0,
Иванов,180.0,73.0
Петров,172.0,64.0
Сергеев,171.0,76.0
Сидоров,172.0,75.0
Степанов,,68.0


Можете удостовериться, что значения не перепутаны. Более того, Pandas поддерживает работу с данными с пропусками. 
Там, где не удалось найти сопоставление рост/вес, будут заполнены значениями `NaN`

Так же можно создавать новые колонки как функцию от существующих:

In [11]:
height = pd.Series(np.random.normal(180, 10, 5).astype(int), index=['Иванов', 'Петров', 'Сидоров', 'Александров', 'Сергеев'])
weight = pd.Series(np.random.normal(70, 7, 5).astype(int), index=['Петров', 'Сидоров', 'Иванов', 'Сергеев', 'Степанов'])
df = pd.DataFrame({"Рост": height, "Вес": weight})

df['ИМТ'] = df['Вес'] / ((df['Рост'] / 100) ** 2)  # Индекс массы тела - вес в кг / (рост в см)^2

df

Unnamed: 0,Рост,Вес,ИМТ
Александров,185.0,,
Иванов,183.0,75.0,22.395413
Петров,179.0,72.0,22.471209
Сергеев,189.0,65.0,18.196579
Сидоров,191.0,68.0,18.63984
Степанов,,79.0,
