# Настройка pandas

In [1]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

# задаем некоторые настройки pandas, регулирующие
# формат вывода
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 65)

# импортируем matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

# Создание категориальных переменных

In [2]:
# создаем категориальную переменную непосредственно из списка  
lmh_values = ["low", "high", "medium", "medium", "high"]
lmh_cat = pd.Categorical(lmh_values)
lmh_cat

['low', 'high', 'medium', 'medium', 'high']
Categories (3, object): ['high', 'low', 'medium']

In [4]:
# смотрим категории
lmh_cat.categories

Index(['high', 'low', 'medium'], dtype='object')

In [5]:
# свойство .codes показывает коды (целочисленные значения) 
# для каждого значения категориальной переменной
lmh_cat.codes

array([1, 0, 2, 2, 0], dtype=int8)

In [6]:
# создаем из списка, но при этом явно указываем категории
lmh_cat = pd.Categorical(lmh_values,
                         categories=["low", "medium", "high"])
lmh_cat

['low', 'high', 'medium', 'medium', 'high']
Categories (3, object): ['low', 'medium', 'high']

In [None]:
# коды выглядят так
lmh_cat.codes

In [None]:
# сортировка выполняется с помощью кодов, 
# лежащих в основе каждого значения
lmh_cat.sort_values()

In [None]:
# создаем категориальную переменную с помощью объекта Series и dtype
cat_series = pd.Series(lmh_values, dtype="category")
cat_series

In [None]:
# создаем категориальную переменную с помощью метода .astype()
s = pd.Series(lmh_values)
as_cat = s.astype('category')
cat_series

In [None]:
# категориальная переменная имеет свойство .cat
cat_series.cat

In [None]:
# получаем индекс категориальной переменной
cat_series.cat.categories

In [None]:
# создаем датафрейм из 5 значений
np.random.seed(123456)
values = np.random.randint(0, 100, 5)
bins = pd.DataFrame({ "Values": values})
bins

In [None]:
# разбиваем значения на 10 групп 
bins['Group'] = pd.cut(values, range(0, 101, 10))
bins

In [None]:
# проверяем, является ли созданная переменная категориальной
bins.Group

In [None]:
# создаем упорядоченную категориальную переменную из
# названий драгоценных металлов
# порядок важен для определения относительной
# ценности металла
metal_values = ["bronze", "gold", "silver", "bronze"]
metal_categories = ["bronze", "silver", "gold"]
metals = pd.Categorical(metal_values,
                        categories=metal_categories,
                        ordered = True)
metals

In [None]:
# меняем значения
metals_reversed_values = pd.Categorical(
    metals[::-1],
    categories = metals.categories, 
    ordered=True)
metals_reversed_values

In [None]:
# сравниваем значения двух категориальных переменных
metals <= metals_reversed_values

In [None]:
metals

In [None]:
metals_reversed_values

In [None]:
# смотрим распределение кодов переменной metals
# коды - это целочисленные значения, 
# соответствующие каждому элементу
metals.codes

In [None]:
# а теперь смотрим распределение кодов 
# переменной metals_reversed_values
metals_reversed_values.codes

In [None]:
# создаем категориальную переменную со значением, которое
# нельзя отнести ни к одной из категорий, поэтому для него
# будет получено значение NaN
pd.Categorical(["bronze", "copper"],
               categories=metal_categories)

# Переименование категорий

In [None]:
# создаем категориальную переменную с 3 категориями
cat = pd.Categorical(["a","b","c","a"], 
                     categories=["a", "b", "c"])
cat

In [None]:
# переименовываем категории (а также значения)
cat.categories = ["bronze", "silver", "gold"]
cat

In [None]:
# эта строка тоже переименовывает
cat.rename_categories(["x", "y", "z"])

In [None]:
# убеждаемся, что переименование не было выполнено на месте
cat

# Добавление категорий

In [None]:
# добавляем категорию platinum
with_platinum = metals.add_categories(["platinum"])
with_platinum

# Удаление категорий

In [None]:
# удаляем категорию bronze
no_bronze = metals.remove_categories(["bronze"])
no_bronze

# Удаление неиспользуемых категорий

In [None]:
# удаляем любые неиспользуемые категории (в данном случае platinum)
with_platinum.remove_unused_categories()

# Настройка категорий

In [None]:
# создаем серию
s = pd.Series(["one","two","four", "five"], dtype="category")
s

In [None]:
# удаляем категории "two", "three" и "five" (они заменяются на значения NaN)
s = s.cat.set_categories(["one","four"])
s

# Описательная информация

In [None]:
# получаем описательную информацию 
# о категориальной переменной metals
metals.describe()

# Количество значений в каждой категории

In [None]:
# подсчитываем количество значений в каждой категории
metals.value_counts()

# Минимум, максимум и мода

In [None]:
# вычислим минимум, максимум и моду для
# категориальной переменной metals
(metals.min(), metals.max(), metals.mode())

# Обработка школьных оценок

In [None]:
# 10 учеников со случайными оценками
np.random.seed(123456)
names = ['Ivan', 'Nikolay', 'Roman', 'Elena', 'Sergey', 'Semen', 
         'Diana', 'Ekaterina', 'Alla', "Marina"]
grades = np.random.randint(4, 10, len(names))
scores = pd.DataFrame({'Name': names, 'Grade': grades})
scores

In [None]:
# задаем группы и соответствующие буквенные оценки
score_bins =    [ 1,  2,   3,  4,   5,  6,   7,   8,  9,  10]
letter_grades = ['C-', 'C', 'C+', 'B-', 'B', 
                 'B+', 'A-', 'A', 'A+']

In [None]:
# разбиваем на основе групп и присваиваем буквенные оценки
letter_cats = pd.cut(scores.Grade, score_bins, labels=letter_grades)
scores['Letter'] = letter_cats
scores

In [None]:
# исследуем интересующую категориальную переменную
letter_cats

In [None]:
# сколько наблюдений имеет каждая оценка?
scores.Letter.value_counts()

In [None]:
# сортируем по буквенным оценкам, а не числовым
scores.sort_values(by=['Letter'], ascending=False)