# объекты series библиотеки Pandas

In [1]:
# series это одномерный массив индексированных данных
import pandas as pd
import numpy as np

data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [2]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [3]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [4]:
data[1]

0.5

In [5]:
data[1:3]

1    0.50
2    0.75
dtype: float64

## объект series как обобщенный массив NumPy

In [6]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [7]:
data['b']

0.5

In [8]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 4, 7])

In [9]:
data

2    0.25
5    0.50
4    0.75
7    1.00
dtype: float64

In [10]:
data[4]

0.75

## объекты series как специализированный словарь

In [11]:
population_dict = {'California': 3832521,
                  'Texas': 2644893,
                  'New York': 19651127,
                  'Florida': 34932135,
                  'Illinois': 23444123}
population = pd.Series(population_dict)
population

California     3832521
Texas          2644893
New York      19651127
Florida       34932135
Illinois      23444123
dtype: int64

In [12]:
population['New York']

19651127

In [13]:
# в отличии от словаря объект Series поддерживает срезы
population['California':'New York']

California     3832521
Texas          2644893
New York      19651127
dtype: int64

## Создание объектов Series

In [14]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

# Объект DataFrame библиотеки Pandas

## DataFrame как обобщенный массив Numpy

Если объект Series аналог одномерного массива, то DataFrame аналог двумерного массива строк и столбцов.

In [15]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [16]:
states = pd.DataFrame({'population': population, 'area': area})
states

Unnamed: 0,population,area
California,3832521,423967
Texas,2644893,695662
New York,19651127,141297
Florida,34932135,170312
Illinois,23444123,149995


In [17]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [18]:
states.columns

Index(['population', 'area'], dtype='object')

## Объект DataFrame как специализированный слварь

In [19]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [20]:
states['population']

California     3832521
Texas          2644893
New York      19651127
Florida       34932135
Illinois      23444123
Name: population, dtype: int64

## Создание объектов DataFrame

### Из одного объекта Series

In [21]:
# Объект DataFrame это набор объектов Series.DataFrame состоящих из одного столбца
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,3832521
Texas,2644893
New York,19651127
Florida,34932135
Illinois,23444123


### Из списка словарей

In [22]:
# любой список словарей можно преобразовать в объект DataFrame
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [23]:
data = [{'a': 1, 'b': 2}, {'b': 1, 'c': 2}]
pd.DataFrame(data)

Unnamed: 0,a,b,c
0,1.0,2,
1,,1,2.0


### Из словаря объектов Series

In [24]:
pd.DataFrame({'population': population, 'area': area})

Unnamed: 0,population,area
California,3832521,423967
Texas,2644893,695662
New York,19651127,141297
Florida,34932135,170312
Illinois,23444123,149995


### Из двумерного массива NumPy

In [25]:
pd.DataFrame(np.random.rand(3, 2),
            columns=['foo', 'bar'],
            index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.805032,0.5951
b,0.663104,0.051888
c,0.495319,0.986351


### Из структурированного массива NumPy

In [26]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [27]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


# Объект Index библиотеки Pandas

In [28]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

## Объект Index как неизменяемый массив

In [29]:
ind[1]

3

In [30]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [31]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [32]:
# главное отличие от массивов NumPy это неизменяемость, т.е. их нельзя редактировать по индексам
ind[1] = 0

TypeError: Index does not support mutable operations

## Индекс как упорядоченное множество

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

indA.intersection(indB) # пересечение

In [None]:
indA.union(indB)

In [None]:
indA.symmetric_difference(indB)

# Индексация и выборка данных

## Выборка данных из объекта Series

### объект series как словарь

In [None]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

In [None]:
data['b']

In [None]:
'a' in data

In [None]:
data.keys()

In [None]:
list(data.items())

In [None]:
data['e'] = 1.25

In [None]:
data

### объект series как одномерный массив

In [None]:
# срез посредством явного индекса (последний элемент включается)
data['a':'c']

In [None]:
# срез посредством неявного целочисленного индекса (последний элемент не включается)
data[0:2]

In [None]:
# маскирование
data[(data > 0.3) & (data < 0.8)]

In [None]:
# прихотливая индексация (передача массива индексов)
data[['a', 'e']]

### Индексаторы: loc, iloc и ix

при наличии у объекта series явного целочисленного индекса операция индексации data[1] будет использовать явные
индексы, а операция среза data[1:3] неявный индекс.

In [None]:
data = pd.Series(['a', 'b', 'c', 'd', 'e'], index=[1, 3, 5, 7, 9])
data

In [None]:
# использование явного индекса при индексации
data[1]

In [None]:
# использование неявного индекса при срезе
data[1:3]

In [None]:
# атрибут loc позволяет выполнять индексацию и срезы с использованием явного индекса
data.loc[1]

In [None]:
data.loc[1:3]

In [None]:
# атрибут iloc выполнить индексацию и срезы, применяя неявный индекс в стиле Python
data.iloc[1]

In [None]:
data.iloc[1:3]

## Выборка данных из объекта DataFrame

### Объект DataFrame как словарь

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})

data = pd.DataFrame({'area': area, 'pop': pop})
data

In [None]:
# к отдельным объектам Series составляющим столбцы объекта DataFrame можно обращаться посредством 
# такой же индексации как и для словарей по имени слобца
data['area']

In [None]:
# можно обращаться к данным и с помощью атрибутов, исползуя в их качестве имена столбцов
data.area

In [None]:
data.area is data['area']

In [None]:
data.pop is data['pop']

In [None]:
data['density'] = data['pop'] / data['area']

In [None]:
data

### Объекты DataFrame как двумерный массив

In [None]:
data.values

In [None]:
data.T

In [None]:
data

In [None]:
# указание отдельного индекса для массива означает доступ к строке
data.values[0]

In [None]:
# указание отдельного индекса для объекта DataFrame доступ к столбцу
data['area']

In [None]:
data.iloc[:3, :2]

In [None]:
data.loc[:'Florida', :'pop']

In [None]:
data.loc[data.index[:3], :'pop']

In [None]:
data.loc[data.density > 100, ['pop', 'density']]

In [None]:
data.iloc[0, 2] = 90

In [None]:
data

### Дополнительный синтаксис для индексации

In [None]:
data['Florida': 'Illinois']

In [None]:
data[1:3]

In [None]:
data['area']

In [None]:
data[data.density > 100]

# Операции над данными в библиотеке Pandas

## Универсальные функции: сохранение индекса

In [None]:
import pandas as pd
import numpy as np

rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

In [None]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)), columns=['A', 'B', 'C', 'D'])
df

In [None]:
np.exp(ser)

In [None]:
np.sin(df * np.pi/4)

## Универсальные функции: выравнивание индексов

### Выравнивание индексов в объектах Series

In [None]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')
population / area

In [None]:
area.index | population.index

In [None]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])

In [None]:
A + B

In [None]:
A.add(B, fill_value=0)

### Выравнивание индексов в объектах DataFrame

In [None]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list('AB'))
A

In [None]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list('BAC'))
B

In [None]:
A + B

In [None]:
# stack выстраивает значения объекта А в один столбец
A.stack()

In [None]:
fill = A.stack().mean()
A.add(B, fill_value=fill)

## Универсальные функции: выполнение операции между объектами DataFrame и Series

In [None]:
A = rng.randint(10, size=(3, 4))
A

In [None]:
A - A[0]

In [None]:
# вычитание по строкам
df = pd.DataFrame(A, columns=list('QRST'))
print(df)
df - df.iloc[0]

In [None]:
# вычитание по столбцам
df.subtract(df['R'], axis=0)

In [None]:
halfrow = df.iloc[0, ::2]
halfrow

In [None]:
df - halfrow

# Обработка отсутствующих данных

## Компромисы при обозначении отсутствующих данных

## Отсутствующие данные в библиотеке Pandas

### None: отсутствующие данные в языке Python

In [None]:
import numpy as np
import pandas as pd

vals1 = np.array([1, None, 3, 4])
vals1

In [None]:
for dtype in ['object', 'int']:
    print("dtype = ", dtype)
    %timeit np.arange(1E6, dtype=dtype).sum()
    print()

In [None]:
vals1.sum()

### NaN: отсутствующие числовые данные

In [None]:
vals2 = np.array([1, np.nan, 3, 4])
vals2.dtype

In [None]:
1 + np.nan

In [None]:
0 * np.nan

In [None]:
vals2.sum(), vals2.min(), vals2.max()

In [None]:
np.nansum(vals2)

In [None]:
np.nanmin(vals2)

In [None]:
np.nanmax(vals2)

NaN это значение с плавающей точкой. Аналогов для цеочисленных, строковых и других не существует.

### Значение NaN и None в библиотеке Pandas

In [None]:
pd.Series([1, np.nan, 2, None])

In [None]:
x = pd.Series(range(2), dtype=int)
x

In [None]:
x[0] = None
x

## Операции над пустыми значениями

## Выявление пустых значений

In [None]:
data = pd.Series([1, np.nan, 'hello', None])
data

In [None]:
data.isnull()

In [None]:
data[data.notnull()]

In [None]:
data[data.isnull()]

## Удаление пустых значений

In [None]:
data.dropna()

In [None]:
df = pd.DataFrame([[1, np.nan, 2],
                   [2, 3, 5], 
                   [np.nan, 4, 6]], columns=['a', 'b', 'c'])
df

In [None]:
df.dropna()

In [None]:
df.dropna(axis='columns')

In [None]:
df.dropna(axis=1)

In [None]:
df[3] = np.nan
df

In [None]:
df.dropna(axis=1, how='all')

In [None]:
df.dropna(axis='rows', thresh=3)

## Заполнение пустых значений

In [None]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

In [None]:
data.fillna(0)

In [None]:
# заполнение по направлению вперед
data.fillna(method='ffill')

In [None]:
# заполнение по направлению назад
data.fillna(method='bfill')

In [None]:
df

In [None]:
df[3] = np.nan

In [None]:
df

In [None]:
df.fillna(method='ffill', axis=1)

# Иерархическая индексация

In [None]:
import pandas as pd
import numpy as np

## Мультииндексированный объект Series

### Плохой способ представления двумерных данных в одномерных объектах Series

In [None]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]
pop = pd.Series(populations, index=index)
pop

In [None]:
pop[('California', 2010):('Texas', 2000)]

In [None]:
# уберем все значения из 2010 года
pop[[i for i in pop.index if i[1] == 2010]]

### Лучший способ

In [None]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
index = pd.MultiIndex.from_tuples(index)
index

In [None]:
pop = pop.reindex(index)
pop

In [None]:
pop[:, 2010]

### Мультииндекс как дополнительное измерение

In [None]:
# преобразование мультииндексного объекта Series в индексированный обычным образом DataFrame
pop_df = pop.unstack()
pop_df

In [None]:
# противоположная операция
pop_df.stack()

In [None]:
pop_df = pd.DataFrame({'total': pop, 'under18': [9267089, 9284094, 4687374, 4318033, 5906301, 6879014]})
pop_df

In [None]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18

In [None]:
f_u18.unstack()

## Методы создания мультииндексов

In [None]:
# Самый простой способ это передавать список из двух или более индексных массивов
df = pd.DataFrame(np.random.rand(4, 2), 
                  index=[list('aabb'), [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
df

In [None]:
# если передать словарь с соответствующими кортежами в качестве ключей, библиотека Pandas автоматически распознает такой синтаксис 
# и будет по умолчанию использовать мультииндекс

data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pd.Series(data)

### Явеые конструкторы для оьхектов Meltiindex

In [None]:
# список массивов
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

In [None]:
# список кортежей
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

In [None]:
# декартово произведение (a,b)*(1,2) = a1, a2, b1, b2
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

### Название уровней мультииндексов

In [None]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
index = pd.MultiIndex.from_tuples(index)
index

In [None]:
populations = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]
pop = pd.Series(populations, index=index)

In [None]:
pop

In [None]:
pop.index.names = ['state', 'year']
pop

### Мультииндекс для столбцов

In [None]:
# иерархические индексы и столбцы
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                  names=['year', 'visit'])

columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                    names=['subject', 'type'])

# создаем имитационные данные
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

#создаем объект DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

In [None]:
health_data['Guido']

## Индексация и срезы по мультииндкусу

### Мультииндексакция объекта Series

In [None]:
pop

In [None]:
pop['California', 2000]

In [None]:
pop['California']

In [None]:
pop.loc['California': 'New York']

In [None]:
pop.iloc[1:3]

In [None]:
pop[:, 2000]

In [None]:
pop[pop > 22000000]

In [None]:
pop[['California', 'Texas']]

### Мультииндексация объектов DataFrame

In [None]:
health_data

In [None]:
# В DataFrame основными являются столбцы и используемый для мультииндексированных Series синтаксис
# применяется тоже к столбцам
health_data['Guido', 'HR']

In [None]:
health_data.iloc[:2, :3]

In [None]:
health_data.loc[:, [('Bob', 'HR'), ('Guido', 'Temp')]]

In [None]:
health_data.loc[(:, 1), (:, 'HR')]

In [None]:
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]

## Перегруппировка мультииндексов

### Отсторированные и неотсортированые индексы

In [None]:
# сздадим простые мультииндексированные данных, индексы в которых не отсортированы
index = pd.MultiIndex.from_product([list('acb'), [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data

In [None]:
try:
    data['a':'b']
except KeyError as e:
    print(type(e))
    print(e)

In [None]:
data = data.sort_index()
data

In [None]:
data['a':'b']

### Выполнение над индексацией операции stuck и unstuck

In [None]:
pop.unstack(level=0)

In [None]:
pop

In [None]:
pop.unstack(level=1)

In [None]:
pop.unstack().stack()

### Создание и перестройка индексов

In [None]:
pop_flat = pop.reset_index(name='population')
pop_flat

In [None]:
pop_flat.set_index(['state', 'year'])

## Агрегирование по мультииндексам

In [None]:
health_data

In [None]:
data_mean = health_data.groupby(level='year').mean()
data_mean

In [None]:
data_mean.groupby(axis=1, level='type').mean()

# Объединение наборов данных: конкатенация и добавление в конец

In [None]:
import pandas as pd
import numpy as np

In [None]:
def make_df(cols, ind):
    """Быстро создаем объект DataFrame"""
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)


class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

## Напоминание: конкатенация массивов NumPy

In [None]:
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
np.concatenate([x, y, z])

In [None]:
x = [[1, 2], 
     [3, 4]]
np.concatenate([x, x], axis=1)

In [None]:
np.concatenate([x, x], axis=0)

## Простоя конкатенацмя с помощью метода pd.concat

In [None]:
# сигнатура функции pd.concat в библиотеке Pandas 
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)

In [None]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

In [None]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
display('df1', 'df2', 'pd.concat([df1, df2])')

In [None]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
display('df3', 'df4', 'pd.concat([df3, df4], axis=1)')

### Дублирование индексов

In [None]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index # дублируем индексы
display('x', 'y', 'pd.concat([x, y])')

In [None]:
try:
    pd.concat([x, y], verify_integrity=True)
except ValueError as e:
    print("ValueError: ", e)

In [None]:
display('x', 'y', 'pd.concat([x, y], ignore_index=True)')

In [None]:
display('x', 'y', "pd.concat([x, y], keys=['x', 'y'])")

### Конкатенация с использованием соединений

In [None]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
display('df5', 'df6', 'pd.concat([df5, df6])')

In [None]:
display('df5', 'df6', 'pd.concat([df5, df6], join="inner")')

# Объединение наборов данных: слияние и соединение

## Виды соединений

### Соединение один к одному

In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_group': [2004, 2008, 2012, 2014]})
display('df1', 'df2')

In [None]:
df3 = pd.merge(df1, df2)
display('df3')

### Соединение многие к одному

In [None]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})
display('df3', 'df4', 'pd.merge(df3, df4)')

### Соединение многие ко многим

In [None]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']})
display('df1', 'df5', 'pd.merge(df1, df5)')

# Задание ключа слияния

## Ключевое слово on

In [None]:
import pandas as pd
import numpy as np

def make_df(cols, ind):
    """Быстро создаем объект DataFrame"""
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)


class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)


In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_group': [2004, 2008, 2012, 2014]})

display('df1', 'df2', 'pd.merge(df1, df2, on="employee")')

# параметр работает только когда в левом и правом объекте есть указанное название столбца

## Ключевое слово left_on и right_on

In [None]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [7000, 8000, 12000, 9000]})
display('df1', 'df3')

In [None]:
display('pd.merge(df1, df3, left_on="employee", right_on="name")')

In [None]:
# удаление лишнего столбца
pd.merge(df1, df3, left_on='employee', right_on='name').drop('name', axis=1)

## Ключевое слово left_index и right_index

In [None]:
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')
display('df1a', 'df2a')

In [None]:
display('pd.merge(df1a, df2a, left_index=True, right_index=True)')

In [None]:
pd.merge(df1a, df2a, left_index=True, right_index=True)

In [None]:
df1a.join(df2a)

In [None]:
df1a

In [None]:
df3

In [None]:
pd.merge(df1a, df3, left_index=True, right_on='name')

# Задание операций над множествами для соединений

In [None]:
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
                    'food': ['fish', 'beans', 'bread']},
                   columns=['name', 'food'])
df7 = pd.DataFrame({'name': ['Mary', 'Joseph',],
                    'drink': ['wine', 'beer']},
                   columns=['name', 'drink'])
display('df6', 'df7', 'pd.merge(df6, df7)')

In [None]:
pd.merge(df6, df7, how='inner')

In [None]:
pd.merge(df6, df7, how='outer')

In [None]:
pd.merge(df6, df7, how='left')

In [None]:
pd.merge(df6, df7, how='right')

## Пересекающееся название столбцов: ключевое слово suffixes

In [None]:
df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [1, 2, 3, 4]})
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [3, 1, 4, 2]})

In [None]:
df8

In [None]:
df9

In [None]:
pd.merge(df8, df9, on='name')

In [None]:
pd.merge(df8, df9, on='name', suffixes=["_L", "_R"])

## Пример: данные по штатам США

In [34]:
pop = pd.read_csv('data/state-population.csv')
areas = pd.read_csv('data/state-areas.csv')
abbrevs = pd.read_csv('data/state-abbrevs.csv')
display('pop.head()', 'areas.head()', 'abbrevs.head()')

'pop.head()'

'areas.head()'

'abbrevs.head()'

In [35]:
# Допустим, нам нужно на основе этой информации отсортировать штаты и территорию США по плотности
# населения в 2010 году. Для этого необходимо объединить наборы данных

# Начнем со слияния многие-ко-многим которое позволит получить полное имя штата в объекте DataFrame
# для населения. Выполнить слияниенужно на основе стобдца state/region объекта pop и столбца abbrebiation
# объекта abbrevs. Мы вопсрользуемся опцией how='outer' чтобы гарантировать что не упустим никаких данных из-за
# несовпадения меток

merged = pd.merge(pop, abbrevs, how='outer', left_on='state/region', right_on='abbreviation')
merged

Unnamed: 0,state/region,ages,year,population,state,abbreviation
0,AL,under18,2012,1117489.0,Alabama,AL
1,AL,total,2012,4817528.0,Alabama,AL
2,AL,under18,2010,1130966.0,Alabama,AL
3,AL,total,2010,4785570.0,Alabama,AL
4,AL,under18,2011,1125763.0,Alabama,AL
...,...,...,...,...,...,...
2539,USA,total,2010,309326295.0,,
2540,USA,under18,2011,73902222.0,,
2541,USA,total,2011,311582564.0,,
2542,USA,under18,2012,73708179.0,,


In [36]:
# удалим дублирующую информацию
merged = merged.drop(columns='abbreviation')
merged.head()

Unnamed: 0,state/region,ages,year,population,state
0,AL,under18,2012,1117489.0,Alabama
1,AL,total,2012,4817528.0,Alabama
2,AL,under18,2010,1130966.0,Alabama
3,AL,total,2010,4785570.0,Alabama
4,AL,under18,2011,1125763.0,Alabama


In [37]:
# нужно проверить не было ли каких либо несовпадений
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state            True
dtype: bool

In [38]:
# часть информации о населении отсутствует, выясним какая именно
merged[merged['population'].isnull()].head()

Unnamed: 0,state/region,ages,year,population,state
2448,PR,under18,1990,,
2449,PR,total,1990,,
2450,PR,total,1991,,
2451,PR,under18,1991,,
2452,PR,total,1993,,


In [39]:
# похоже, что источник пустых значений по населению - Пуэрто-Рико до 2000 года. Вероятно это произошло из-за того, 
# что необходимых данных не было в первоисточнике.

In [40]:
# Мы видим что некоторые из новых значений столбца state тоже пусты, а значит в ключе объекта abbrevs 
# отсутствует соответствующие записи. Выясним, для каких территорий отсутствуют соответствующие значения

merged.loc[merged['state'].isnull(), 'state/region'].unique()

array(['PR', 'USA'], dtype=object)

In [41]:
# Все понятно: наши данные по населению включают записи для Пуэрто-Рико и США в целом, отсутствующие в ключе
# аббревиатур штатов. Исправим это, ваставив соответствующие записи
merged.loc[merged['state/region']=='PR', 'state'] = 'Puerto Rico'
merged.loc[merged['state/region']=='USA', 'state'] = 'United States'
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state           False
dtype: bool

In [42]:
# state больше нет пустых значений.
# Теперь можно слить рузультат с данными по площади штатов с помощью аналогичной процедуры. После изучения
# имеющихся результатов становится понятно, что нужно выполнить соединение по столбцу state в обоих объектах
final = pd.merge(merged, areas, on='state', how='left')
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


In [43]:
# Выполним снова проверку на пустые значения чтобы узнать, были ли какие-то несовпадения
final.isnull().any()

state/region     False
ages             False
year             False
population        True
state            False
area (sq. mi)     True
dtype: bool

In [44]:
# В столбце area имеются пустые значения. Посмотрим, какие территории не были учтены
final['state'][final['area (sq. mi)'].isnull()].unique()

array(['United States'], dtype=object)

In [45]:
# Видим что наш объект DataFrame areas не содержит площадь США в целом. Мы могли бы вставить соответствующее 
# значение (например, воспользовавшись суммой площадей всех штатов), но в данном случае мы просто удалим пустые
# значения, поскольку плотность населения США в целом нас сейчас не интересует
final.dropna(inplace=True)
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


In [56]:
# Теперь у нас есть все необходимые данные. Чтобы ответить на интересующий нас вопро, сначала выберем часть данных
# соответствующих 2010 году и всему населению. Воспользуемся функцией query
data2010 = final.query("year == 2010 & ages == 'total'")
data2010.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
3,AL,total,2010,4785570.0,Alabama,52423.0
91,AK,total,2010,713868.0,Alaska,656425.0
101,AZ,total,2010,6408790.0,Arizona,114006.0
189,AR,total,2010,2922280.0,Arkansas,53182.0
197,CA,total,2010,37333601.0,California,163707.0


In [49]:
# теперь вычислим плотность населения и выведем данные в соответствующем порядке. Начнем с переиндексации наших
# данных по штату, после чего вычислим результат
data2010.isnull().any()

state/region     False
ages             False
year             False
population       False
area (sq. mi)    False
dtype: bool

In [57]:
data2010.set_index('state', inplace=True)
density = data2010['population'] / data2010['area (sq. mi)']

In [60]:
density.sort_values(ascending=False, inplace=True)
density.head()

state
District of Columbia    8898.897059
Puerto Rico             1058.665149
New Jersey              1009.253268
Rhode Island             681.339159
Connecticut              645.600649
dtype: float64

In [61]:
# Результат - список штатов плюс Вашингтон и пуэрто-рико, упорядоченный по плотности населения в 2010 году.
# так же можно вынести окончание списка
density.tail()

state
South Dakota    10.583512
North Dakota     9.537565
Montana          6.736171
Wyoming          5.768079
Alaska           1.087509
dtype: float64

# Агрегирование и группировка

## Данные о планетах

In [66]:
import seaborn as sns
planets = sns.load_dataset('planets')
planets.shape

(1035, 6)

In [79]:
planets


Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006
1031,Transit,1,2.615864,,148.00,2007
1032,Transit,1,3.191524,,174.00,2007
1033,Transit,1,4.125083,,293.00,2008


## Простое аггрегирование в библиотеке Pandas

In [68]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.rand(5))
ser

0    0.374540
1    0.950714
2    0.731994
3    0.598658
4    0.156019
dtype: float64

In [69]:
ser.sum()

2.811925491708157

In [70]:
ser.mean()

0.5623850983416314

In [71]:
df = pd.DataFrame({'A': rng.rand(5),
                   'B': rng.rand(5)})

In [72]:
df

Unnamed: 0,A,B
0,0.155995,0.020584
1,0.058084,0.96991
2,0.866176,0.832443
3,0.601115,0.212339
4,0.708073,0.181825


In [73]:
df.mean()

A    0.477888
B    0.443420
dtype: float64

In [74]:
df.mean(axis='columns')

0    0.088290
1    0.513997
2    0.849309
3    0.406727
4    0.444949
dtype: float64

In [88]:
planets.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


## GroupBy: разбиение, применение, объединение

### Разбиение, применение и объединение

In [92]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [93]:
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f8a48bc4940>

In [94]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


### Объект GroupBy

#### Индексация по столбцам

In [101]:
planets

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006
1031,Transit,1,2.615864,,148.00,2007
1032,Transit,1,3.191524,,174.00,2007
1033,Transit,1,4.125083,,293.00,2008


In [98]:
planets.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

#### Цикл по группам

In [100]:
for (method, group) in planets.groupby('method'):
    print("{0:30s} shape={1}".format(method, group.shape))

Astrometry                     shape=(2, 6)
Eclipse Timing Variations      shape=(9, 6)
Imaging                        shape=(38, 6)
Microlensing                   shape=(23, 6)
Orbital Brightness Modulation  shape=(3, 6)
Pulsar Timing                  shape=(5, 6)
Pulsation Timing Variations    shape=(1, 6)
Radial Velocity                shape=(553, 6)
Transit                        shape=(397, 6)
Transit Timing Variations      shape=(4, 6)


#### Методы диспетчеризации

In [105]:
planets.groupby('method')['year'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,2011.5,2.12132,2010.0,2010.75,2011.5,2012.25,2013.0
Eclipse Timing Variations,9.0,2010.0,1.414214,2008.0,2009.0,2010.0,2011.0,2012.0
Imaging,38.0,2009.131579,2.781901,2004.0,2008.0,2009.0,2011.0,2013.0
Microlensing,23.0,2009.782609,2.859697,2004.0,2008.0,2010.0,2012.0,2013.0
Orbital Brightness Modulation,3.0,2011.666667,1.154701,2011.0,2011.0,2011.0,2012.0,2013.0
Pulsar Timing,5.0,1998.4,8.38451,1992.0,1992.0,1994.0,2003.0,2011.0
Pulsation Timing Variations,1.0,2007.0,,2007.0,2007.0,2007.0,2007.0,2007.0
Radial Velocity,553.0,2007.518987,4.249052,1989.0,2005.0,2009.0,2011.0,2014.0
Transit,397.0,2011.236776,2.077867,2002.0,2010.0,2012.0,2013.0,2014.0
Transit Timing Variations,4.0,2012.5,1.290994,2011.0,2011.75,2012.5,2013.25,2014.0


### Агрегирование, фильтрация, преобразование, применение

In [106]:
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': rng.randint(0, 10, 6)},
                  columns=['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


#### Агрегирование

In [107]:
df.groupby('key').aggregate(['min', np.median, max])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,3,4.0,5
B,1,2.5,4,0,3.5,7
C,2,3.5,5,3,6.0,9


In [108]:
df.groupby('key').aggregate({'data1': 'min',
                             'data2': 'max'})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,7
C,2,9


#### Фильтрация

In [109]:
def filter_func(x):
    return x['data2'].std() > 4
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


In [111]:
df.groupby('key').std()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2.12132,1.414214
B,2.12132,4.949747
C,2.12132,4.242641


In [113]:
df.groupby('key').filter(filter_func)

Unnamed: 0,key,data1,data2
1,B,1,0
2,C,2,3
4,B,4,7
5,C,5,9


#### Преобразование

In [114]:
df.groupby('key').transform(lambda x: x - x.mean())

Unnamed: 0,data1,data2
0,-1.5,1.0
1,-1.5,-3.5
2,-1.5,-3.0
3,1.5,-1.0
4,1.5,3.5
5,1.5,3.0


#### Метод apply()

In [115]:
def norm_by_data2(x):
    # x - объект DataFrame сгруппированных значений
    x['data1'] /= x['data2'].sum()
    return x
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


In [116]:
df.groupby('key').apply(norm_by_data2)

Unnamed: 0,key,data1,data2
0,A,0.0,5
1,B,0.142857,0
2,C,0.166667,3
3,A,0.375,3
4,B,0.571429,7
5,C,0.416667,9


### Задание ключа разбиения

#### Список, массив, объект Series и индекс как ключи группировки

In [118]:
L = [0, 1, 0, 1, 2, 0]
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


In [119]:
df.groupby(L).sum()

Unnamed: 0,data1,data2
0,7,17
1,4,3
2,4,7


In [120]:
df.groupby(df['key']).sum()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,3,8
B,5,7
C,7,12
