### <span style="color:#0ab49a">Занятие №7:</span> <span style="color:#BA77D8">Табличные данные</span> 

![](img/banner.png)

### <span style="color:#55628D">1. Знакомство с Pandas</span>

In [None]:
import pandas as pd

# У нас есть какие-то данные табличного духа
data = [[ 0.990360, -1.131429, -1.065981,  0.855488],
        [ 0.493665,  0.589660, -0.432106, -0.240378],
        [-0.807992, -1.794176, -1.210304,  0.201295],
        [-0.270479, -1.121976,  0.459273, -0.178025],
        [ 0.188286, -0.931686,  1.959219,  0.387350],
        [ 2.252443,  0.848532,  0.925256,  1.014754]]

df = pd.DataFrame(data)
print(df)

In [None]:
# Из них можно создать DataFrame, дав колонкам имена
df = pd.DataFrame(data, columns=list('ABCD'))
print(df)

In [None]:
# Если данные очень большие, по умолчанию отображение урезается
data = [[f"{i}-{j}" for i in range(5)] for j in range(100)]
df = pd.DataFrame(data)
print(df)

In [None]:
pd.set_option("display.max_rows", None)
print(df)
pd.set_option("display.max_rows", 10)

### <span style="color:#55628D">2. Метаданные</span>

In [None]:
import pandas as pd

# Если у нас есть словарь с разнородными данными, из него тоже можно сделать DataFrame
N = 2
data = {'A': [1.1 for _ in range(N)],
        'B': pd.Timestamp('20200901'),
        'C': [111, "str"],
        'D': [42 * i  for i in range(N)],
        'E': 'foo'}
df = pd.DataFrame(data)

# Посмотрим, как выглядит df с учётом того, что данные в него были загружены разной размерности
print(df)

In [None]:
# Типы данных
print(df.dtypes)

In [None]:
# Индекс
print(list(df.index))

In [None]:
# Столбцы
print(list(df.columns))

### <span style="color:#55628D">3. Индексы</span>
На этапе первого общения с pandas вряд ли нужны нестандартные индексы. Но стоит знать, что они бывают.<br>
И при обращении через .loc нужно именно значение индекса, и оно может быть не равно номеру строки.

In [None]:
import pandas as pd

data = [[ 0.990360, -1.131429, -1.065981,  0.855488],
        [ 0.493665,  0.589660, -0.432106, -0.240378],
        [-0.807992, -1.794176, -1.210304,  0.201295],
        [-0.270479, -1.121976,  0.459273, -0.178025],
        [ 0.188286, -0.931686,  1.959219,  0.387350],
        [ 2.252443,  0.848532,  0.925256,  1.014754]]

df = pd.DataFrame(data, columns=list('ABCD'))
print(df)

In [None]:
# По умолчанию индексы - номера строк
print(df.index)

In [None]:
# Обращение к отдельной "ячейке таблицы"
print(df.loc[0,'A'])

In [None]:
# Создадим новый фрейм из тех же данных, но индекс теперь будет нестандартный
dates = pd.date_range('20200101', periods=6)
df2 = pd.DataFrame(data, index=dates, columns=list('ABCD'))
print(df2)

In [None]:
print(df2.index)

In [None]:
# И обратим внимание, как теперь выглядит обрашение к "ячейке таблицы"
print(df2.loc['20200102','A'])

### <span style="color:#55628D">4. Обращение к элементам</span>
"Просто скобочками" можно обращаться к столбцам по имени или к строкам по диапазонам.<br>
Просто потому что это частая хотелка и интуитивное ожидание.<br>
Но во избежание путаницы есть смысл использовать .loc или .iloc явно.

#### <span style="color:#1DA398">4.1 loc</span>
Выборки средствами .loc, при обращении через .loc используются *ключи*.<br>
Можно использовать отдельные значения, списки, диапазоны.

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [42 * i  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)

# Посмотрим весь фрейм
print(df)

In [None]:
# Заданная пара строк, все столбцы
# (обратите внимание, что последний элемент включён в выборку)
print(df.loc[1:2])

In [None]:
# Заданный столбец, все строки
print(df.loc[:,'D'])

In [None]:
# Заданная пара строк, избранные столбцы
print(df.loc[1:2, ['A', 'D']])

In [None]:
# Конкретная "ячейка"
print(df.loc[1,'A'])

In [None]:
# То же самое, но .at вместо .loc (умеет работать только со скалярами, зато быстрее)
print(df.at[1,'A'])

#### <span style="color:#1DA398">4.2 iloc</span>
Выборки средствами .iloc, при обращении через .iloc используются *номера*.<br>
Можно использовать отдельные значения, списки, диапазоны.

In [None]:
print(df)

In [None]:
# Заданная пара строк, все столбцы
# (обратите внимание, что последний элемент не включён в выборку)
print(df.iloc[1:3])

In [None]:
# Заданный столбец, все строки
print("=================")
print(df.iloc[:,3])

In [None]:
# Заданная пара строк, избранные столбцы
print("=================")
print(df.iloc[[0,3],[0,3]])

In [None]:
# Конкретная "ячейка"
print("=================")
print(df.iloc[1,3])

In [None]:
# То же самое, но .iat вместо .iloc
# (умеет работать только со скалярами, зато быстрее)
print("=================")
print(df.iat[1,3])

#### <span style="color:#1DA398">4.3 по умолчанию</span>

In [None]:
# Все значения из столбца
# (кажется, по умолчанию используется .loc ...)
print(df['D'])

In [None]:
# А так вообще нельзя
print(df[0])

In [None]:
# А так можно, и это будут строки
print(df[0:2])

### <span style="color:#55628D">5. Изменение</span>

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [42 * i  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)
print(df)

In [None]:
# Можно присвоить отдельное значение
df.loc[0,'D'] = -42
print(df)

In [None]:
# Или, например, столбец целиком
df.loc[:,'D'] = [i for i in range(4)]
print(df)

In [None]:
# Замена целых стоблца/строки одним значеним
df.loc[:,'D'] = 0
df.loc[2, :] = 0
print(df)

### <span style="color:#55628D">6. Критерии</span>

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [42 * i  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)
print(df)

In [None]:
# Правильный способ выборки чего-нибудь по критерию
print(df[df['D'] > 0])

In [None]:
# Результат такой операции над фреймом - маска из boolean-ов
a = df['D'] > 42
print(a)
# И эту маску можно применить к тому же фрейму для выборки нужных строк
print("=================")
print(df[a])

In [None]:
# После выборки строк из них можно извлечь нужный столбец с помощью .loc
print(df[df['D'] > 42].loc[:,'D'])

In [None]:
print(df[df['D'] > 42]['D'])

In [None]:
# А вот так нельзя! потому что цепочка df[].loc[] смотрит уже в копию
df[df['D'] > 42].loc[:,'D'] = 0

In [None]:
# Но сам .loc умеет принимать маску из boolean-ов в роли индекса, поэтому можно и вот такое написать для выборки.
print(df.loc[df['D'] > 42, ['A','D']])

In [None]:
# И вот так теперь можно! Потому что df.loc[] смотрит в реальные данные.
df.loc[df['D'] > 42,'D'] = 100
print(df)

### <span style="color:#55628D">7. Сортировка</span>

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [42 * i  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)
print(df)

In [None]:
# Отсортировать фрейм по колонке можно примерно так
print(df.sort_values(by='D', ascending=True))

In [None]:
# Сортировать фрейм можно и после каких-то ещё операций над ним, соединяя их в логические цепочки
print(df.loc[df['D'] > 42].sort_values(by='D', ascending=True))

### <span style="color:#55628D">8. Пробелы в данных</span>

In [14]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [42 * i  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)
print(df)

     A          B    C    D    E
0  1.1 2020-09-01  111    0  foo
1  1.1 2020-09-01  111   42  foo
2  1.1 2020-09-01  111   84  foo
3  1.1 2020-09-01  111  126  foo


In [15]:
# Ещё можно при желании создавать новые колонки на лету
df.loc[1:2, 'F'] = 'test'
print(df)

     A          B    C    D    E     F
0  1.1 2020-09-01  111    0  foo   NaN
1  1.1 2020-09-01  111   42  foo  test
2  1.1 2020-09-01  111   84  foo  test
3  1.1 2020-09-01  111  126  foo   NaN


In [16]:
# Если это сделать так, как в примере выше, то в данных останутся NaN-ы.
# Это не единственный источник NaN-ов, разумеется.
# Заполнить такие пробелы в данных значением по умолчанию можно вот так.
print(df.fillna(value='s'))

     A          B    C    D    E     F
0  1.1 2020-09-01  111    0  foo     s
1  1.1 2020-09-01  111   42  foo  test
2  1.1 2020-09-01  111   84  foo  test
3  1.1 2020-09-01  111  126  foo     s


### <span style="color:#55628D">9. Статистика</span>

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [i ** 2  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)
print(df)

In [None]:
# Можно посчитать от данных какие-нибудь статы

# Кстати, если что-нибудь будет нам многократно нужно, его очень даже можно запомнить в какой-нибудь переменной.
target = df.loc[df['D'] > 0, 'D']
print(target)

In [None]:
# Теперь посчитаем статы от выбранного кусочка данных
print(f"Минимум: {target.min()}")
print(f"Максимум: {target.max()}")
print(f"Среднее: {target.mean()}")
print(f"Медиана: {target.median()}")

In [None]:
# На правах ремарки. Вот этот результат вряд ли вам понравится.
print(df.loc[:,['D']].mean())
print("=================")
print(df.loc[:,['D']].mean().to_list()[0])
print(df.loc[:,['D']].mean()[0])
print("=================")

# Потому что его тип будет не float, а pandas.core.series.Series
# Потому что указали не один столбец, а список из одного столбца.
print(type(df.loc[:,['D']].mean()))

### <span style="color:#55628D">10. Функция apply()</span>
Внимание! Сама идея использовать **.apply()** довольно плохая. Потому что это плохо для производительности.<br>
Лучше использовать нативные методы.<br>
Но если очень нужно, то так можно.

In [None]:
import pandas as pd

data = {'A': 1.1,
        'B': pd.Timestamp('20200901'),
        'C': 111,
        'D': [i ** 2  for i in range(4)],
        'E': 'foo'}

df = pd.DataFrame(data)
print(df)

In [None]:
print(df.loc[:,['A', 'C', 'D']].apply(lambda x: x**2))

In [None]:
print(df)

### <span style="color:#55628D">11. Склейка</span>

#### <span style="color:#1DA398">11.0 Простая склейка</span>

In [None]:
import pandas as pd

# У нас есть данные из разных источников, которые хочется склеить по ключу
left = pd.DataFrame({'key': ['foo', 'bar'], 
                     'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'bar'], 
                      'rval': [4, 5]})

print(f"Слева:\n{left}")
print("=================")
print(f"Справа:\n{right}")

In [None]:
m = pd.merge(left, right)
print(m)

#### <span style="color:#1DA398">11.1 Исправных данных по ключу</span>

In [None]:
# Это можно сделать вот так
m = pd.merge(left, right, on='key')
print(m)

#### <span style="color:#1DA398">11.2 Ошибочных данных по ключу</span>

In [None]:
# А если ключи не совпадают?
right2 = pd.DataFrame({'key': ['foo', 'baz'], 'rval': [4, 5]})

print(f"Слева:\n{left}")
print("=================")
print(f"Справа:\n{right2}")

In [None]:
print(pd.merge(left, right2, on='key'))

#### <span style="color:#1DA398">11.3 Повторяющихся данных по ключу</span>

In [None]:
left3 = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right3 = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})

print(f"Слева:\n{left3}")
print("=================")
print(f"Справа:\n{right3}")

In [None]:
print(pd.merge(left3, right3, on='key'))

### <span style="color:#55628D">12. Группировка</span>

In [1]:
import pandas as pd

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': [i for i in range(8)],
                   'D': [i**2 for i in range(8)]})

print(df)

     A      B  C   D
0  foo    one  0   0
1  bar    one  1   1
2  foo    two  2   4
3  bar  three  3   9
4  foo    two  4  16
5  bar    two  5  25
6  foo    one  6  36
7  foo  three  7  49


In [2]:
# Можно, например, сгруппировать по значениям в столбце A, после чего посчитать суммы по каждой группе.
print(df.groupby('A').sum())

                     B   C    D
A                              
bar        onethreetwo   9   35
foo  onetwotwoonethree  19  105


In [None]:
# Так тоже можно. Но лучше без .apply всё же.
print(df.groupby('A').apply()

### <span style="color:#55628D">13. Визуализация</span>

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': [i for i in range(8)],
                   'D': [i**2 for i in range(8)]})

print(df)

In [None]:
# Можно взять и нарисовать фрейм
ax = df.plot()
ax.set_xlabel('x label')
ax.set_ylabel('y label')
plt.show()

In [None]:
# А потом посчитать агрегаты
aggr = df.groupby('A').sum()
print(aggr)

In [None]:
# И их тоже нарисовать
ax2 = aggr.plot(kind='bar')

plt.show()

### <span style="color:#55628D">14. Чтение из файла</span>
1. read_csv
2. read_excel
3. read_json
4. read_html
5. read_sql
6. ...

In [None]:
import pandas as pd

df = pd.read_csv("lesson07/data.csv", index_col='num', sep=",")

print(df)

In [None]:
print(df.groupby('A').sum())

---
#### LMS-контест 

In [None]:
import pandas as pd

file1 = "lesson07/games001.csv"
file2 = "lesson07/rates001.csv"

games = pd.read_csv(file1, sep=";")
rates = pd.read_csv(file2, sep=";")

# Подготовка
mean_marks = rates.groupby('id', as_index=False).mean()
data = pd.merge(games, mean_marks, on='id')

# 1-я часть задачи
sorted_data = data.sort_values("mark", ascending=False)
sorted_data = sorted_data.reset_index()
for i in range(3):
    print(f"{sorted_data.loc[i, 'name']} {sorted_data.loc[i, 'mark']:.3f}")

# 2-я часть задачи
data_8 = data.loc[data['mark'] > 8.0]
tmp = data_8.loc[:, "company"].value_counts()
a = tmp.sort_values(ascending=False)
print(f"{a.index[0]} {a.iloc[0]}")