# Настройка pandas

In [48]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

# задаем некоторые настройки pandas, регулирующие
# формат вывода
pd.set_option('display.notebook_repr_html', True)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 65)

# импортируем matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

# Создание категориальных переменных

In [49]:
# создаем категориальную переменную непосредственно из списка  
lmh_values = ["low", "high", "medium", "medium", "high"]
lmh_cat = pd.Categorical(lmh_values)
lmh_cat

[low, high, medium, medium, high]
Categories (3, object): [high, low, medium]

In [50]:
# смотрим категории
lmh_cat.categories

Index(['high', 'low', 'medium'], dtype='object')

In [51]:
# извлекаем значения
lmh_cat.get_values()

  


array(['low', 'high', 'medium', 'medium', 'high'], dtype=object)

In [52]:
# свойство .codes показывает коды (целочисленные значения) 
# для каждого значения категориальной переменной
lmh_cat.codes

array([1, 0, 2, 2, 0], dtype=int8)

In [53]:
# создаем из списка, но при этом явно указываем категории
lmh_cat = pd.Categorical(lmh_values,
                         categories=["low", "medium", "high"])
lmh_cat

[low, high, medium, medium, high]
Categories (3, object): [low, medium, high]

In [54]:
# коды выглядят так
lmh_cat.codes

array([0, 2, 1, 1, 2], dtype=int8)

In [55]:
# сортировка выполняется с помощью кодов, 
# лежащих в основе каждого значения
lmh_cat.sort_values()

[low, medium, medium, high, high]
Categories (3, object): [low, medium, high]

In [56]:
# создаем категориальную переменную с помощью объекта Series и dtype
cat_series = pd.Series(lmh_values, dtype="category")
cat_series

0       low
1      high
2    medium
3    medium
4      high
dtype: category
Categories (3, object): [high, low, medium]

In [57]:
# создаем категориальную переменную с помощью метода .astype()
s = pd.Series(lmh_values)
as_cat = s.astype('category')
cat_series

0       low
1      high
2    medium
3    medium
4      high
dtype: category
Categories (3, object): [high, low, medium]

In [58]:
# категориальная переменная имеет свойство .cat
cat_series.cat

<pandas.core.arrays.categorical.CategoricalAccessor object at 0x11c9ceb00>

In [59]:
# получаем индекс категориальной переменной
cat_series.cat.categories

Index(['high', 'low', 'medium'], dtype='object')

In [60]:
# создаем датафрейм из 100 значений
np.random.seed(123456)
values = np.random.randint(0, 100, 5)
bins = pd.DataFrame({ "Values": values})
bins

Unnamed: 0,Values
0,65
1,49
2,56
3,43
4,43


In [61]:
# разбиваем значения на 10 групп 
bins['Group'] = pd.cut(values, range(0, 101, 10))
bins

Unnamed: 0,Values,Group
0,65,"(60, 70]"
1,49,"(40, 50]"
2,56,"(50, 60]"
3,43,"(40, 50]"
4,43,"(40, 50]"


In [62]:
# проверяем, является ли созданная переменная категориальной
bins.Group

0    (60, 70]
1    (40, 50]
2    (50, 60]
3    (40, 50]
4    (40, 50]
Name: Group, dtype: category
Categories (10, interval[int64]): [(0, 10] < (10, 20] < (20, 30] < (30, 40] ... (60, 70] < (70, 80] < (80, 90] < (90, 100]]

In [63]:
# создаем упорядоченную категориальную переменную из
# названий драгоценных металлов
# порядок важен для определения относительной
# ценности металла
metal_values = ["bronze", "gold", "silver", "bronze"]
metal_categories = ["bronze", "silver", "gold"]
metals = pd.Categorical(metal_values,
                        categories=metal_categories,
                        ordered = True)
metals

[bronze, gold, silver, bronze]
Categories (3, object): [bronze < silver < gold]

In [64]:
# меняем значения
metals_reversed_values = pd.Categorical(
    metals.get_values()[::-1],
    categories = metals.categories, 
    ordered=True)
metals_reversed_values

  This is separate from the ipykernel package so we can avoid doing imports until


[bronze, silver, gold, bronze]
Categories (3, object): [bronze < silver < gold]

In [65]:
# сравниваем значения двух категориальных переменных
metals <= metals_reversed_values

array([ True, False,  True,  True])

In [66]:
# смотрим распределение кодов переменной metals
# коды - это целочисленные значения, 
# соответствующие каждому элементу
metals.codes

array([0, 2, 1, 0], dtype=int8)

In [67]:
# а теперь смотрим распределение кодов 
# переменной metals_reversed_values
metals_reversed_values.codes

array([0, 1, 2, 0], dtype=int8)

In [68]:
# создаем категориальную переменную со значением, которое
# нельзя отнести ни к одной из категорий, поэтому для него
# будет получено значение NaN
pd.Categorical(["bronze", "copper"],
               categories=metal_categories)

[bronze, NaN]
Categories (3, object): [bronze, silver, gold]

# Переименование категорий

In [69]:
# создаем категориальную переменную с 3 категориями
cat = pd.Categorical(["a","b","c","a"], 
                     categories=["a", "b", "c"])
cat

[a, b, c, a]
Categories (3, object): [a, b, c]

In [70]:
# переименовываем категории (а также значения)
cat.categories = ["bronze", "silver", "gold"]
cat

[bronze, silver, gold, bronze]
Categories (3, object): [bronze, silver, gold]

In [71]:
# эта строка тоже переименовывает
cat.rename_categories(["x", "y", "z"])

[x, y, z, x]
Categories (3, object): [x, y, z]

In [72]:
# убеждаемся, что переименование не было выполнено на месте
cat

[bronze, silver, gold, bronze]
Categories (3, object): [bronze, silver, gold]

# Добавление категорий

In [73]:
# добавляем категорию platinum
with_platinum = metals.add_categories(["platinum"])
with_platinum

[bronze, gold, silver, bronze]
Categories (4, object): [bronze < silver < gold < platinum]

# Удаление категорий

In [74]:
# удаляем категорию bronze
no_bronze = metals.remove_categories(["bronze"])
no_bronze

[NaN, gold, silver, NaN]
Categories (2, object): [silver < gold]

# Удаление неиспользуемых категорий

In [75]:
# удаляем любые неиспользуемые категории (в данном случае platinum)
with_platinum.remove_unused_categories()

[bronze, gold, silver, bronze]
Categories (3, object): [bronze < silver < gold]

# Настройка категорий

In [76]:
# создаем серию
s = pd.Series(["one","two","four", "five"], dtype="category")
s

0     one
1     two
2    four
3    five
dtype: category
Categories (4, object): [five, four, one, two]

In [77]:
# удаляем категории "two", "three" и "five" (они заменяются на значения NaN)
s = s.cat.set_categories(["one","four"])
s

0     one
1     NaN
2    four
3     NaN
dtype: category
Categories (2, object): [one, four]

# Описательная информация

In [78]:
# получаем описательную информацию 
# о категориальной переменной metals
metals.describe()

Unnamed: 0_level_0,counts,freqs
categories,Unnamed: 1_level_1,Unnamed: 2_level_1
bronze,2,0.5
silver,1,0.25
gold,1,0.25


# Количество значений в каждой категории

In [79]:
# подсчитываем количество значений в каждой категории
metals.value_counts()

bronze    2
silver    1
gold      1
dtype: int64

# Минимум, максимум и мода

In [80]:
# вычислим минимум, максимум и моду для
# категориальной переменной metals
(metals.min(), metals.max(), metals.mode())

('bronze', 'gold', [bronze]
 Categories (3, object): [bronze < silver < gold])

# Обработка школьных оценок

In [81]:
# 10 учеников со случайными оценками
np.random.seed(123456)
names = ['Ivana', 'Norris', 'Ruth', 'Lane', 'Skye', 'Sol', 
         'Dylan', 'Katina', 'Alissa', "Marc"]
grades = np.random.randint(50, 101, len(names))
scores = pd.DataFrame({'Name': names, 'Grade': grades})
scores

Unnamed: 0,Name,Grade
0,Ivana,51
1,Norris,92
2,Ruth,100
3,Lane,99
4,Skye,93
5,Sol,97
6,Dylan,93
7,Katina,77
8,Alissa,82
9,Marc,73


In [82]:
# задаем группы и соответствующие буквенные оценки
score_bins =    [ 0,  59,   62,  66,   69,   72,  76,   79,   82,  
                 86,   89,   92,  99, 100]
letter_grades = ['F', 'D-', 'D', 'D+', 'C-', 'C', 'C+', 'B-', 'B', 
                 'B+', 'A-', 'A', 'A+']

In [83]:
# разбиваем на основе групп и присваиваем буквенные оценки
letter_cats = pd.cut(scores.Grade, score_bins, labels=letter_grades)
scores['Letter'] = letter_cats
scores

Unnamed: 0,Name,Grade,Letter
0,Ivana,51,F
1,Norris,92,A-
2,Ruth,100,A+
3,Lane,99,A
4,Skye,93,A
5,Sol,97,A
6,Dylan,93,A
7,Katina,77,C+
8,Alissa,82,B-
9,Marc,73,C


In [84]:
# исследуем интересующую категориальную переменную
letter_cats

0     F
1    A-
2    A+
3     A
4     A
5     A
6     A
7    C+
8    B-
9     C
Name: Grade, dtype: category
Categories (13, object): [F < D- < D < D+ ... B+ < A- < A < A+]

In [85]:
# сколько наблюдений имеет каждая оценка?
scores.Letter.value_counts()

A     4
A+    1
A-    1
B-    1
C+    1
     ..
B     0
C-    0
D+    0
D     0
D-    0
Name: Letter, Length: 13, dtype: int64

In [86]:
# сортируем по буквенным оценкам, а не числовым
scores.sort_values(by=['Letter'], ascending=False)

Unnamed: 0,Name,Grade,Letter
2,Ruth,100,A+
3,Lane,99,A
4,Skye,93,A
5,Sol,97,A
6,Dylan,93,A
1,Norris,92,A-
8,Alissa,82,B-
7,Katina,77,C+
9,Marc,73,C
0,Ivana,51,F
