In [None]:
import itertools

def chainslice(begin, end, *seq):
    return itertools.islice(itertools.chain(*seq), begin, end)

for i in chainslice(3, 7, [1, 2, 3, 4, 5], (6, 7, 8, 9)):
    print(i)

In [None]:
import importlib

module_name = input("Name of module? ")
module = importlib.import_module(module_name)
print(module.__doc__)

# Collections

In [None]:
from collections import Counter
Counter('aabsbsbsbhshhbbsbs')

In [None]:
s = 'How many times does each word show up in this sentence word times each each word'
words = s.split()
Counter(words)

In [None]:
from collections import defaultdict
d = defaultdict(object)
d['key']

In [None]:
d = defaultdict(lambda: 0)
d['key']

In [None]:
d = defaultdict(list)
d['key']

In [None]:
d = defaultdict(lambda: defaultdict(list))
d['key']['key1']

# Pandas

Pandas $-$ это модуль для первичной обработки данных, с помощью которого можно провести простой обзор и подготовку данных к дальнейшему интеллектуальному анализу.
Основные возможности:
* удобное чтение и запись данных из многих источников, начиная от текстовых (txt, csv, json, html), бинарных (Excel, Open Document, Msgpack, HDF5) и SQL форматов (PostgreSQL, MySQL, SQLite, Google BigQuery) до автоматизации обращений к популярным веб-ресурсам (Eurostat, World Bank, Nasdaq, MOEX, ...) с базовым внутренним представлением в виде датафреймов (двумерных индексированных массивов)
* удобная предобработка (убрать пропуски, переформатировать, объединить, переиндексировать и сделать срез по индексу)
* слияние и конкатенация
* поиск, сортировка, выборка объектов, удовлетворяющих заданным критериям
* визуализация данных

Импорт библиотеки:

In [None]:
import pandas as pd

### Загрузка данных и создание датафреймов

__Для начал поприветствуем следующие форматы__:
* _csv_ (comma separated values), _tsv_ (tab separated values) - таблицы, записанные в текстовые файлы с простой структурой. Эти файлы можно открывать в обычном текстовом редакторе. Pandas представит эти данные в табличном формате
* _xls_ (eXceL Spreadsheet $-$ формат используемый Microsoft Office)
* _json_ (JavaScript Object Notation, используется для _сериализации_ структур данных, то есть сохранения объектов из памяти, например, вложенных списков или словарей python, в виде структуризованного текста). Json-текст представляет собой либо набор пар "ключ: значение", либо упорядоченный набор значений
* текстовые в иной специфичной для задачи форме (например, vowpal-wabbit и uci bag-of-words для <<мешка слов>>)

В pandas есть готовые функции для чтения данных во всех этих форматах.

В коммерческой практике данные в идеале хранятся в базах. Оттуда их часто читают с помощью sql-подобных запросов, но pandas также представляет более удобные интерфейсы для этого.

__Чтение из csv с помощью pandas__:
[pandas.read_csv()](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)
У функции немало параметров, основные:
* filepath_or_buffer (перый и единственный обязательный аргумент) --- имя файла
* sep $-$ разделитель (; , \t ...)
* quotechar $-$ символ кавычек, все что внутри считается за строку (разделители также могут входить в эту строку; ' " ...)
* names $-$ список названий колонок
* header $-$ номер строки файла (с 0), которую нужно считать заголовком
* dtype $-$ словарь, сопоставляющий именам колонок типы данных в них
* na_values $-$ строка/список/словарь (ключи $-$ названия колонок) строковых значений, которые нужно считать пропуском.

По умолчанию names=None и header=0, то есть названия колонок берутся из первой строки файла. Можно передать названия через names. Если вы не хотите давать названия, укажите header=None, тогда названия будут даны автоматически индексами с 0. Учтите, что названия нужны при дальнейшей работе с данными (если вы только не собираетесь взять оттуда только numpy-матрицу; в этом случае они не понадобятся). Следите за длиной списка названий, он должен совпадать с реальным числом колонок в файле (а в противном случае вы получите ошибки)! Чтобы заменить заголовки, записанные в файле, нужно установить header=0 и передать names.

В функцию pd.read\_csv можно передавать как путь к файлу, хранящемуся на компьютере, так и ссылку на файл в Интернете.

Для чтения xls: [pandas.read_excel](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)

Для чтения sql: [pandas.read_sql](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html)


Считывание данных:

In [None]:
data = pd.read_csv("https://raw.githubusercontent.com/iad34/seminars/master/materials/data_sem1.csv",
                   sep=";", )

Сегодня мы будем работать на сверхпопулярном примере данных по кораблекрушению Титаника: он содержит информацию о пассажирах корабля, включая их демографические характеристики и информацию о выживании, которую обычно пытаются "предсказать".

Посмотреть первые строки:

In [None]:
data.head(10)

In [None]:
type(data)

Переменная, которую возвращает функция чтения, ссылается на _датафрейм_; это основная структура данных в pandas. Его можно создать и вручную:

In [None]:
df = pd.DataFrame({'AAA' : [4,5,6,7], 'BBB' : [10,20,30,40], 'CCC' : [100,50,-30,-50]})
df

### Работа со строками и столбцами датафрейма

Датафрейм - это таблица. Названия строк:

In [None]:
data.index

*Названия* столбов:

In [None]:
data.columns

In [None]:
data

Полезный функционал:
* параметр df.dtypes $-$ типы колонок
* метод [df.fillna(value)](http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.DataFrame.fillna.html), value $-$ на что заменить (скаляр или словарь с ключами-названиями колонок)
* методы df.head([N]) и df.tail([N]) $-$ показать N (необязательный аргумент) первых или последних значений
* параметры df.index, df.columns и df.values $-$ соответственно индексы строк датафрейма, названия колонок и np.array, составленный из значений датафрейма
* метод df.T $-$ транспонировать данные (поменять строки и столбцы местами)
* сортировка данных по индексу (по названиям строк) и по значениям колонки, например df.sort_index(axis=1, ascending=False) и df.sort_values(by='B')
* метод df.copy() $-$ копировать датафрейм

Все структуры данных, показываемые и возвращаемые pandas, имеют тип, разработанный для pandas (а не стандартный для python список или словарь). Все эти типы имеют удобный интерфейс обращения к своим элементам (индексация, slicing), но иногда кажутся непривычными. Например, df[smth], как указано выше, должен выдать колонку, имеющую название smth (если она существует в датафрейме).

В датафрейме могут храниться данные разных типов (главное, чтобы тип был один и тот же внутри колонки), например float, int, string.

Выбор нескольких столбцов:

In [None]:
data[["Age", "Sex", "Cabin"]].head(5)

In [None]:
data.index[2:5]

В машинном обучении библиотеку удобно использовать со следующей интерпретацией: по строкам датафрейма находятся объекты, по столбцам - признаки и целевая переменная. В нашем датафрейме целевая переменная задана в столбце Survived. Если мы бы хотели выделить часть датафрейма без этого столбца, мы бы использовали такой код:

In [None]:
data.drop("Survived", axis=1, inplace=False).head()

Обратите внимание, что столбец не удалился из датафрейма навсегда. Результат нашей операции оказался только в выводе, и если бы мы хотели его сохранить, мы должны были бы присвоить результат операции новой переменной.

Индексация по строкам:

In [None]:
data2 = data.iloc[data.index % 2 == 0].head(5)

data2

Использование столбца Name для задания названий строк (index):

In [None]:
data.set_index(data["Name"], inplace=True)

In [None]:
data.head()

Тут строки индексируются с помощью Name (выделено жирным в начале каждой строки).

Считывание данных без названий колонок и придумывание своих названий колонкам:

In [None]:
data_m = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data",
                     header=None)

In [None]:
data_m.columns = ["col"+str(i) for i in range(23)]

In [None]:
data_m.head()

### Анализ и преобразование датафрейма

Основная информация по датафрейму:

In [None]:
data.describe()

По этим статистикам можно понять, одинаковый ли масштаб имеют признаки (например, Age измеряется от 0 до 80, а Pclass в единицах - от 1 до 3). Также можно понять, есть ли пропуски в данных (по count). Например, в графе Age есть пропуски.

Уникальные значения в столбце:

In [None]:
set(data["Sex"])

Уникальные значения в столбце с числом строк с таким значением:

In [None]:
data["Sex"].value_counts()

Перекодирование столбца с помощью функции map:

In [None]:
sex = data["Sex"]
sex.map({"male":1, "female":-1, "unknown":0}).head()

Функция apply: применение функции поэлементно к столбцу или строке (+ создание нового столбца, потому что apply возвращает результат и никак не модифицирует датафрейм)

In [None]:
data["NewAge"] = data["Age"].apply(lambda x: x+100)

In [None]:
data.head()

Функция groupby: создание групп по значению какого-то столбца (или группы столбцов)

In [None]:
data.groupby("Sex")['Age'].apply(lambda x: x.mean())

Создаем столбец с фамилией:

In [None]:
data["Family"] = data["Name"].apply(lambda s: s.split(";")[0])

In [None]:
data.head(1)

Сколько человек в каждой семье (семья - множество людей с одной фамилией Family)?

In [None]:
data.groupby("Family")["Age"].count().head(10)

Сколько семей, в которых больше трех человек?

In [None]:
(data.groupby("Family")["Age"].count() > 3).sum()

Выбор строк по условию (индексация по строкам по массиву из True и False)

In [None]:
data[(data.Age > 10) & (data.Sex=="male")].head()

### Задания:

1. Какова доля семей, в которых минимальный возраст меньше 20 (семьи с детьми)?

In [None]:
# your code here

2. Какова доля выживших пассажиров из класса 3? А пассажиров из класса 1?

In [None]:
# your code here

In [None]:
# your code here

3. Сколько пассажиров выжило, а сколько - нет?

In [None]:
#your code here

4. Создайте столбец "IsChild", который равен 1, если возраст меньше 20, и 0 иначе. Для пропущенных значений поведение функции может быть произвольным.

In [None]:
# your code here

5. Какова доля выживших женщин из первого класса? А доля выживших мужчин из 3 класса?

In [None]:
# your code here

# Обрабатываем german-credit-data с визуализацией

In [None]:
import pandas as pd

In [None]:
!wget https://raw.githubusercontent.com/PersDep/german-credit-data/main/german_credit_data_with_risk.csv

In [None]:
!ls

In [None]:
df_credit = pd.read_csv('german_credit_data_with_risk.csv', index_col=0) # загружаем данные с помощью pandas

In [None]:
df_credit.info() # обобщенное представление о данных

In [None]:
df_credit.head()

In [None]:
df_credit.shape # строки, столбцы

In [None]:
df_credit['Risk'].describe() # описываем столбцы

In [None]:
df_credit.describe() # и проводим численный анализ по численным столбцам

In [None]:
df_credit.nunique() # узнаём вариацию значений

In [None]:
# получаем данные о корреляции возраста и результата
df_good_age = df_credit.loc[df_credit["Risk"] == 'good']['Age'].values.tolist()
df_bad_age = df_credit.loc[df_credit["Risk"] == 'bad']['Age'].values.tolist()
df_age = df_credit['Age'].values.tolist()

In [None]:
import matplotlib
import matplotlib.pyplot as plt

In [None]:
# и рассматриваем на гистограммах
cols = 11
fig, axs = plt.subplots(1, 3, tight_layout=True, figsize=(20, 5))
axs[0].hist(df_good_age, bins=cols, color='green', label='Good credits age distribution')
axs[1].hist(df_bad_age, bins=cols, color='red', label='Bad credits age distribution')
axs[2].hist(df_age, bins=cols, label='Overall age distribution')
axs[0].set_ylabel('Count')
fig.legend(loc='upper right')
plt.show()

In [None]:
# категоризируем возраст по интервалам
interval = (18, 25, 35, 50, 65, 90)
labels = ['Student', 'Young', 'Adult', 'Senior', 'Old']
df_credit["Age_cat"] = pd.cut(df_credit.Age, interval, labels=labels)
df_credit.nunique()

In [None]:
# получаем данные о корреляции проживания и результатов
df_good_housing = df_credit[df_credit["Risk"]== 'good']["Housing"].value_counts()
df_bad_housing = df_credit[df_credit["Risk"]== 'bad']["Housing"].value_counts()
plt.plot(df_good_housing.index.values, df_good_housing.values, color='green', label='Good credit', marker='o', markersize=15, lw=0)
plt.plot(df_bad_housing.index.values, df_bad_housing.values, color='red', label='Bad credit', marker='o', markersize=15, lw=0)
plt.ylabel('Count')
plt.legend(loc='upper right')
plt.show()

In [None]:
import math

x = [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1, 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2]
plt.plot(x, list(map(math.sin, x)))
plt.show()

In [None]:
# посмотрим на возможности seaborn с накладывающимися гистограммами
import seaborn as sns

fig = plt.figure(figsize=(15, 5))
sns.histplot(df_credit[df_credit["Risk"] == 'good']["Duration"], color='g', label='Good')
sns.histplot(df_credit[df_credit["Risk"] == 'bad']["Duration"], color='r', label='Bad')
fig.suptitle('Durations for credits')
plt.legend(loc='best')
fig.show()

In [None]:
# заполняем пустующие ячейки размера аккаунтов, теперь у нас нет пустых значений
df_credit['Saving accounts'] = df_credit['Saving accounts'].fillna('no_inf')
df_credit['Checking account'] = df_credit['Checking account'].fillna('no_inf')
df_credit.info()

In [None]:
# делаем категории бинарными значениями
df_credit = df_credit.merge(pd.get_dummies(df_credit.Purpose, drop_first=True, prefix='Purpose'), left_index=True, right_index=True)
df_credit = df_credit.merge(pd.get_dummies(df_credit.Sex, drop_first=True, prefix='Sex'), left_index=True, right_index=True)
df_credit = df_credit.merge(pd.get_dummies(df_credit.Housing, drop_first=True, prefix='Housing'), left_index=True, right_index=True)
df_credit = df_credit.merge(pd.get_dummies(df_credit["Saving accounts"], drop_first=True, prefix='Savings'), left_index=True, right_index=True)
df_credit = df_credit.merge(pd.get_dummies(df_credit.Risk, prefix='Risk'), left_index=True, right_index=True)
df_credit = df_credit.merge(pd.get_dummies(df_credit["Checking account"], drop_first=True, prefix='Check'), left_index=True, right_index=True)
df_credit = df_credit.merge(pd.get_dummies(df_credit["Age_cat"], drop_first=True, prefix='Age_cat'), left_index=True, right_index=True)

In [None]:
# удаляем лишнее, размер кредита и продолжительность оставим численными небинарными признаками
del df_credit["Saving accounts"]
del df_credit["Checking account"]
del df_credit["Purpose"]
del df_credit["Sex"]
del df_credit["Housing"]
del df_credit["Age_cat"]
del df_credit["Risk"]
del df_credit['Risk_good']
del df_credit['Age']
df_credit.nunique()

In [None]:
# смотрим на тепловую карту корреляций
plt.figure(figsize=(20, 15))
sns.heatmap(df_credit.astype(float).corr(), linewidths=0.1, vmax=1.0, square=True,  linecolor='white', annot=True)
plt.show()

In [None]:
from sklearn.model_selection import train_test_split # функция для разделения данных
from sklearn.ensemble import RandomForestClassifier # Конструктор модели леса решающих деревьев
from sklearn.metrics import accuracy_score # функция для проверки точности

In [None]:
X = df_credit.drop('Risk_bad', 1).values # доступные признаки
y = df_credit['Risk_bad'].values # целевой признак
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state=10) # Разбиваем на тренировочный и тестовый наборы

In [None]:
model = RandomForestClassifier(max_depth=None, max_features=10, n_estimators=15, random_state=11) # создаём модель (выбор параметров -- отдельная тема)
model.fit(X_train, y_train) # обучаем модель на тренировочном наборе
y_pred = model.predict(X_test) # вычисляемся на тестовом наборе признаков
accuracy_score(y_test, y_pred) # сравниваем с целевыми значениями