### <span style="color:#0ab49a">Занятие №6:</span> <span style="color:#BA77D8">Работа с данными</span> 

![Текст картинки если файл картинки не найден](img/banner.png)

### <span style="color:#55628D">1. Знакомство с Pandas</span>

In [None]:
import pandas as pd

# У нас есть какие-то данные табличного духа
data = [[ 0.990360, -1.131429, -1.065981,  0.855488],
        [ 0.493665,  0.589660, -0.432106, -0.240378],
        [-0.807992, -1.794176, -1.210304,  0.201295],
        [-0.270479, -1.121976,  0.459273, -0.178025],
        [ 0.188286, -0.931686,  1.959219,  0.387350],
        [ 2.252443,  0.848532,  0.925256,  1.014754]]

# Из них можно создать DataFrame, дав колонкам имена
df = pd.DataFrame(data, columns=list('ABCD'))
print(df)

### <span style="color:#55628D">2. Метаданные</span>

In [None]:
import pandas as pd

# Если у нас есть словарь с разнородными данными,
# из него тоже можно сделать DataFrame
data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [42 * i  for i in range(4)],
        'E': 'foo'}
df = pd.DataFrame(data)

# Посмотрим, как выглядит df с учётом того,
# что данные в него были загружены разной размерности
print(df)

# Посмотрим на метаданные фрейма

# Типы данных
print("=================")
print(df.dtypes)

# Индекс
print("=================")
print(df.index)

# Столбцы
print("=================")
print(df.columns)

### <span style="color:#55628D">3. Индексы</span>

In [None]:
import pandas as pd

data = [[ 0.990360, -1.131429, -1.065981,  0.855488],
        [ 0.493665,  0.589660, -0.432106, -0.240378],
        [-0.807992, -1.794176, -1.210304,  0.201295],
        [-0.270479, -1.121976,  0.459273, -0.178025],
        [ 0.188286, -0.931686,  1.959219,  0.387350],
        [ 2.252443,  0.848532,  0.925256,  1.014754]]

df = pd.DataFrame(data, columns=list('ABCD'))
print(df)

# Индекс (определяет, как будем обращаться к строкам)
# По умолчанию в нём номера строк
print("=================")
print(df.index)

# Обращение к отдельной "ячейке таблицы"
print("=================")
print(df.loc[0,'A'])

# Создадим новый фрейм из тех же данных,
# но индекс теперь будет нестандартный
dates = pd.date_range('20200101', periods=6)
df2 = pd.DataFrame(data, index=dates, columns=list('ABCD'))

# Посмотрим на фрейм и его индекс
print("=================")
print(df2)
print("=================")
print(df2.index)

# И обратим внимание, как теперь выглядит обрашение к "ячейке таблицы"
print("=================")
print(df2.loc['20200101','A'])

"""
На этапе первого общения с pandas вряд ли нужны нестандартные индексы. Но стоит знать, что они бывают.
И при обращении через .loc нужно именно значение индекса, и оно может быть не равно номеру строки.
"""

### <span style="color:#55628D">4. Обращение к элементам</span>

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [42 * i  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)

# Посмотрим весь фрейм
print(df)

# Выборки средствами .loc, при обращении через .loc используются *ключи*.
# Можно использовать отдельные значения, списки, диапазоны.

print("=== .loc access ===")

# Заданная пара строк, все столбцы
# (обратите внимание, что последний элемент включён в выборку)
print("=================")
print(df.loc[1:2])

# Заданный столбец, все строки
print("=================")
print(df.loc[:,'D'])

# Заданная пара строк, избранные столбцы
print("=================")
print(df.loc[1:2,['A', 'D']])

# Конкретная "ячейка"
print("=================")
print(df.loc[1,'A'])

# То же самое, но .at вместо .loc
# (умеет работать только со скалярами, зато быстрее)
print("=================")
print(df.at[1,'A'])

# Выборки средствами .iloc, при обращении через .iloc используются *номера*.
# Можно использовать отдельные значения, списки, диапазоны.

print("=== .iloc access ===")

# Заданная пара строк, все столбцы
# (обратите внимание, что последний элемент не включён в выборку)
print("=================")
print(df.iloc[1:3])

# Заданный столбец, все строки
print("=================")
print(df.iloc[:,3])

# Заданная пара строк, избранные столбцы
print("=================")
print(df.iloc[[0,3],[0,3]])

# Конкретная "ячейка"
print("=================")
print(df.iloc[1,3])

# То же самое, но .iat вместо .iloc
# (умеет работать только со скалярами, зато быстрее)
print("=================")
print(df.iat[1,3])

print("=== 'default' access ===")

# Все значения из столбца
# (кажется, по умолчанию используется .loc ...)
print("=================")
print(df['D'])

# Ой, а так вообще нельзя
# print(df[0])

# А так можно, и это будут строки
print("=================")
print(df[0:2])

# "Просто скобочками" можно обращаться к столбцам по имени или к строкам по диапазонам.
# Просто потому что это частая хотелка и интуитивное ожидание.
# Но во избежание путаницы есть смысл использовать .loc или .iloc явно.

### <span style="color:#55628D">5. Изменение</span>

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [42 * i  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)
print(df)

# Можно присвоить отдельное значение
print("=================")
df.loc[0,'D'] = -42
print(df)

# Или, например, столбец целиком
print("=================")
df.loc[:,'D'] = [i for i in range(4)]
print(df)

### <span style="color:#55628D">6. Критерии</span>

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [42 * i  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)
print(df)

# Правильный способ выборки чего-нибудь по критерию
print("=================")
print(df[df['D'] > 0])

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [42 * i  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)
print(df)

# Результат такой операции над фреймом - маска из boolean-ов
print("=================")
print(df['D'] > 42)

# И эту маску можно применить к тому же фрейму для выборки нужных строк
print("=================")
print(df[df['D'] > 42])

# После выборки строк из них можно извлечь нужный столбец с помощью .loc
print("=================")
print(df[df['D'] > 42].loc[:,'D'])

# А вот так нельзя! потому что цепочка df[].loc[] смотрит уже в копию
# print("=================")
# df[df['D'] > 42].loc[:,'D'] = 0

# Но сам .loc умеет принимать маску из boolean-ов в роли индекса,
# поэтому можно и вот такое написать для выборки.
print("=================")
print(df.loc[df['D'] > 42,['A','D']])

# И вот так теперь можно! Потому что df.loc[] смотрит в реальные данные.
print("=================")
df.loc[df['D'] > 42,'D'] = 0
print(df)

### <span style="color:#55628D">7. Сортировка</span>

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [42 * i  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)
print(df)

# Отсортировать фрейм по колонке можно примерно так
print("=================")
print(df.sort_values(by='D', ascending=False))

# Сортировать фрейм можно и после каких-то ещё операций над ним,
# соединяя их в логические цепочки
print("=================")
print(df.loc[df['D'] > 42].sort_values(by='D', ascending=True))

### <span style="color:#55628D">8. Пробелы в данных</span>

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [42 * i  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)

# Ещё можно при желании создавать новые колонки на лету
df.loc[1:2, 'F'] = 'test'
print(df)

# Если это сделать так, как в примере выше, то в данных останутся NaN-ы.
# Это не единственный источник NaN-ов, разумеется.
# Заполнить такие пробелы в данных значением по умолчанию можно вот так.
print("=================")
print(df.fillna(value=''))

### <span style="color:#55628D">9. Статистика</span>

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [i ** 2  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)
print(df)

# Можно посчитать от данных какие-нибудь статы

# Кстати, если что-нибудь будет нам многократно нужно,
# его очень даже можно запомнить в какой-нибудь переменной.
target = df.loc[df['D'] > 0, 'D']
print("=================")
print(target)

# Теперь посчитаем статы от выбранного кусочка данных
print("=================")
print(target.min())
print(target.max())
print(target.mean())
print(target.median())

# На правах ремарки. Вот этот результат вряд ли вам понравится.
# print(df.loc[:,['D']].mean())

# Потому что его тип будет не float, а pandas.core.series.Series
# Потому что указали не один столбец, а список из одного столбца.
# print(type(df.loc[:,['D']].mean()))

### <span style="color:#55628D">10. Функция apply()</span>

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [i ** 2  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)
print(df)

# Внимание! Сама идея использовать .apply() довольно плохая. Потому что это плохо для производительности.
# Лучше использовать нативные методы.
# Но если очень нужно, то так можно.
print("=================")
print(df.loc[:,['A', 'C', 'D']].apply(lambda x: x**2))

### <span style="color:#55628D">11. Склейка</span>

In [None]:
import pandas as pd

# У нас есть данные из разных источников, которые хочется склеить по ключу
left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})

print("=== left #1")
print(left)

print("=== right #1")
print(right)

# Это можно сделать вот так
print("=== merged #1")
m = pd.merge(left, right, on='key')
print(m)


# А если ключи не совпадают?
right2 = pd.DataFrame({'key': ['foo', 'baz'], 'rval': [4, 5]})
print("=== left #2")
print(left)

print("=== right #2")
print(right2)

print("=== merged #2")
print(pd.merge(left, right2, on='key'))


# А если в ключах сплошные повторы?
left3 = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right3 = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
print("=== left #3")
print(left3)

print("=== right #3")
print(right3)

print("=== merged #3")
print(pd.merge(left3, right3, on='key'))


# Это примерно как join в базах данных.
# И у него есть примерно столь же много вариаций и ключей разной степени полезности.

### <span style="color:#55628D">12. Группировка</span>

In [None]:
import pandas as pd

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': [i for i in range(8)],
                   'D': [i**2 for i in range(8)]})

print(df)
print("=================")

# Можно, например, сгруппировать по значениям в столбце A,
# после чего посчитать суммы по каждой группе.
print(df.groupby('A').sum())

# Так тоже можно. Но лучше без .apply всё же.
#print(df.groupby('A').apply(...))

### <span style="color:#55628D">13. </span>

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': [i for i in range(8)],
                   'D': [i**2 for i in range(8)]})

print(df)

# Можно взять и нарисовать фрейм
ax = df.plot()
ax.set_xlabel('x label')
ax.set_ylabel('y label')

print("=================")

# А потом посчитать агрегаты
aggr = df.groupby('A').sum()
print(aggr)

# И их тоже нарисовать
ax2 = aggr.plot(kind='bar')

plt.show()

### <span style="color:#55628D">14. Чтение из файла</span>

In [None]:
import pandas as pd

df = pd.read_csv("data.csv", index_col='num')

print(df)

print("=================")

print(df.groupby('A').sum())