In [1]:
import pandas as pd
import numpy as np

- .replace() - Replace values given in to_replace with value.

In [2]:
temp = pd.Series([24, -9999, 22, -8888, 18, 26, -9999]) 

In [4]:
#Допустим у нас есть измерения температур. 
#Очевидны значения, которые не стоит брать в рассчет (прибор не исправен)
temp

0      24
1   -9999
2      22
3   -8888
4      18
5      26
6   -9999
dtype: int64

In [5]:
#Замена конкретного значения
temp.replace([-9999], np.nan)

0      24.0
1       NaN
2      22.0
3   -8888.0
4      18.0
5      26.0
6       NaN
dtype: float64

In [6]:
#Замена нескольних конкретных значений
temp.replace([-9999, -8888], [np.nan, -1])

0    24.0
1     NaN
2    22.0
3    -1.0
4    18.0
5    26.0
6     NaN
dtype: float64

Мы можем делать замену значений и с помощью loc/iloc, но replace удобнее т.к. loc/iloc требуют указания координат того значения, которое надо заменить, а replace это сделает за нас. 

Надо только указать что менять и на какое значение.

In [None]:
#Напишем ф-ию, которая будет редактировать наши индексы

In [56]:
airport_data = pd.DataFrame({'airline': ['Air China', 'Jet Airways', 'Aeroflot',
                                         'easyJet'], 'planes': [10, 4, 30, 2]})
country = {'Air China': 'China', 'Jet Airways': 'India', 'Aeroflot': 'Russia',
           'easyJet': 'United Kingdom'}

In [57]:
airport_data['Country'] = airport_data['airline'].map(country)

In [58]:
airport_data['RUS'] = airport_data['airline'].map(lambda x: 'RU' if x == 'Aeroflot' else 'not_RU')

In [59]:
airport_data = airport_data.set_index('airline')

In [60]:
airport_data.index

Index(['Air China', 'Jet Airways', 'Aeroflot', 'easyJet'], dtype='object', name='airline')

In [61]:
def rename_index(x):
    return x[:5].upper()

In [62]:
airport_data.index = airport_data.index.map(rename_index)

In [63]:
airport_data.index

Index(['AIR C', 'JET A', 'AEROF', 'EASYJ'], dtype='object', name='airline')

In [64]:
#Напишем лямбда функцию, которая будет редактировать названия наших колонок

In [65]:
airport_data.columns

Index(['planes', 'Country', 'RUS'], dtype='object')

In [66]:
airport_data.columns = airport_data.columns.map(lambda x: x.upper())

In [67]:
airport_data

Unnamed: 0_level_0,PLANES,COUNTRY,RUS
airline,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AIR C,10,China,not_RU
JET A,4,India,not_RU
AEROF,30,Russia,RU
EASYJ,2,United Kingdom,not_RU


- .rename()

In [70]:
airport_data = airport_data.rename(index = {'AIR C' : 'EARTH B'})
airport_data

Unnamed: 0_level_0,PLANES,COUNTRY,RUS
airline,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
EARTH B,10,China,not_RU
JET A,4,India,not_RU
AEROF,30,Russia,RU
EASYJ,2,United Kingdom,not_RU


In [71]:
airport_data = airport_data.rename(columns = {'RUS' : 'SUR'})
airport_data

Unnamed: 0_level_0,PLANES,COUNTRY,SUR
airline,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
EARTH B,10,China,not_RU
JET A,4,India,not_RU
AEROF,30,Russia,RU
EASYJ,2,United Kingdom,not_RU


In [72]:
airport_data = airport_data.rename({'EARTH B' : 'AIR C'}, axis=0)
airport_data

Unnamed: 0_level_0,PLANES,COUNTRY,SUR
airline,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AIR C,10,China,not_RU
JET A,4,India,not_RU
AEROF,30,Russia,RU
EASYJ,2,United Kingdom,not_RU


In [73]:
airport_data = airport_data.rename({'SUR' : 'RUS'}, axis=1)
airport_data

Unnamed: 0_level_0,PLANES,COUNTRY,RUS
airline,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AIR C,10,China,not_RU
JET A,4,India,not_RU
AEROF,30,Russia,RU
EASYJ,2,United Kingdom,not_RU


Самособой через rename() мы одновременно можем менять значения столбцов и колонок

- .cut() - Use cut when you need to segment and sort data values into bins. This function is also useful for going from a continuous variable to a categorical variable. For example, cut could convert ages to groups of age ranges. Supports binning into an equal number of bins, or a pre-specified array of bins.

In [74]:
ages = [20,15,46,84,25,34,22,12,45,125,15,22]

Разобьем наши данные на категории

0-18

18-25

25-35

35-45

55-65

65+

In [75]:
bins = [0, 18, 25, 35, 45, 55, 65]

In [77]:
#Наши значения попали в свои интервалы
pd.cut(ages, bins)

[(18.0, 25.0], (0.0, 18.0], (45.0, 55.0], NaN, (18.0, 25.0], ..., (0.0, 18.0], (35.0, 45.0], NaN, (0.0, 18.0], (18.0, 25.0]]
Length: 12
Categories (6, interval[int64, right]): [(0, 18] < (18, 25] < (25, 35] < (35, 45] < (45, 55] < (55, 65]]

In [78]:
pd.cut(ages, bins, right = True)

[(18.0, 25.0], (0.0, 18.0], (45.0, 55.0], NaN, (18.0, 25.0], ..., (0.0, 18.0], (35.0, 45.0], NaN, (0.0, 18.0], (18.0, 25.0]]
Length: 12
Categories (6, interval[int64, right]): [(0, 18] < (18, 25] < (25, 35] < (35, 45] < (45, 55] < (55, 65]]

Иными словами, с помощью функции cut. Мы выполнили переход от непрерывной переменной к категориальной переменной. Такой шаг еще называют дискретизацией. 

In [79]:
result = pd.cut(ages, bins)
result

[(18.0, 25.0], (0.0, 18.0], (45.0, 55.0], NaN, (18.0, 25.0], ..., (0.0, 18.0], (35.0, 45.0], NaN, (0.0, 18.0], (18.0, 25.0]]
Length: 12
Categories (6, interval[int64, right]): [(0, 18] < (18, 25] < (25, 35] < (35, 45] < (45, 55] < (55, 65]]

In [81]:
result.categories

IntervalIndex([(0, 18], (18, 25], (25, 35], (35, 45], (45, 55], (55, 65]], dtype='interval[int64, right]')

In [83]:
result.codes

array([ 1,  0,  4, -1,  1,  2,  1,  0,  3, -1,  0,  1], dtype=int8)

In [84]:
#Посчитаем количество данных в каждой категории
result.value_counts()

(0, 18]     3
(18, 25]    4
(25, 35]    1
(35, 45]    1
(45, 55]    1
(55, 65]    0
dtype: int64

In [86]:
#Зададим лэйблы
groups = ['1', '2', '3', '4', '5', '6']

In [87]:
result = pd.cut(ages, bins, labels = groups)

In [88]:
result

['2', '1', '5', NaN, '2', ..., '1', '4', NaN, '1', '2']
Length: 12
Categories (6, object): ['1' < '2' < '3' < '4' < '5' < '6']

In [90]:
#Пересчитаем результат
result.value_counts()

1    3
2    4
3    1
4    1
5    1
6    0
dtype: int64

- Разобьем данные на количество групп

In [93]:
car_gas = [200, 220, 205, 207, 201, 230, 307, 310, 601, 405, 401, 302]

In [99]:
Car_class = pd.cut(car_gas, 4, labels = ['Первый_класс', 'Второй_класс', 'Третий_класс', 'Четвертый_класс'])

In [100]:
Car_class.value_counts()

Первый_класс       6
Второй_класс       3
Третий_класс       2
Четвертый_класс    1
dtype: int64

- Разобьем данные на равные группы. Так называемая разбивка на квартили
- .qcut() - Quantile-based discretization function.

Discretize variable into equal-sized buckets based on rank or based on sample quantiles. For example 1000 values for 10 quantiles would produce a Categorical object indicating quantile membership for each data point.

In [102]:
Car_class2 = pd.qcut(car_gas, 4, labels = ['Первый_класс', 'Второй_класс', 'Третий_класс', 'Четвертый_класс'])

In [104]:
Car_class2.value_counts()

Первый_класс       3
Второй_класс       3
Третий_класс       3
Четвертый_класс    3
dtype: int64

# Практика

# Задача 5.3.10
Сегодня наш друг Николай (владелец сети кинотеатров) просит нас о помощи. Николай хочет запустить в прокат новый индийский фильм с известным актером, но пока не понимает на сколько фильм может быть успешен. Для этого он собрал группу из 50 человек и устроил для них закрытый показ. После закрытого показа каждый зритель поставил оценку от 0 до 10, где 0 - совсем плохо, 10 - отлично. Николай начинал проходить курс по основам Pandas, но остановился где-то на сериях, поэтому он подготовил серию в которой хранятся все оценки зрителей:
![](https://ucarecdn.com/94a5a6f9-5652-44d3-ac8c-63dcc0d17675/)
(на скрине первые 10 оценок)

И теперь он хочет разбить все оценки на три группы:

0-4 - Плохо
5-7 - Так себе
8-10 - Отлично

А потом посчитать по каждой группе количество оценок. Помогите Николаю посчитать результаты) 

Ваша функция solution должна вернуть серию в которой будут лежать названия групп (индекс) и количество оценок (значения).

In [51]:
s1 = [8, 9, 2, 0, 3, 8, 3, 9, 6, 5, 7, 0, 3, 0, 6, 7, 3, 9, 3, 5, 1, 4, 6, 5, 7, 5, 7, 6, 4, 
                6, 6, 1, 9, 1, 5, 8, 4, 6, 8, 5, 9, 5, 7, 9, 9, 1, 1, 0, 1, 0]
s1

[8,
 9,
 2,
 0,
 3,
 8,
 3,
 9,
 6,
 5,
 7,
 0,
 3,
 0,
 6,
 7,
 3,
 9,
 3,
 5,
 1,
 4,
 6,
 5,
 7,
 5,
 7,
 6,
 4,
 6,
 6,
 1,
 9,
 1,
 5,
 8,
 4,
 6,
 8,
 5,
 9,
 5,
 7,
 9,
 9,
 1,
 1,
 0,
 1,
 0]

In [66]:
#Разобьем на групп 0-4, 5-7, 8-10
bins =[0, 4, 7, 11]

In [67]:
#Зададим лейблы
groups =  ['Плохо', 'Хорошо', 'Отлично']

In [68]:
result = pd.cut(s1, bins, right = False)

In [71]:
result.value_counts()

[0, 4)     17
[4, 7)     17
[7, 11)    16
dtype: int64

# Задача 5.3.12
Костя, один из студентов нашего курса, кажется все понял про функцию map и решил применить свою функцию get_sklad_number к значениям из серии s1:
![](https://ucarecdn.com/a37bebf2-cb34-45ea-b5d0-7cdc5ac54d90/)
Функция вытаскивает из названия склада его номер. Но у него что-то пошло не так и код не запускается. Помогите Косте исправить ошибки в коде.  

In [None]:
import pandas as pd

"""
На вход функции get_sklad_number подается имя склада
Функция разбивает имя склада на слово Sklad и его номер
Номер склада преобразуется из str в int
Функция возвращает номер склада
"""
def get_sklad_number(sklad_name):
    sklad_number = sklad_name.split(' ')[1]
    number_as_int = int(sklad_number)
    return number_as_int

def solution(s1):
    result = s1.map(get_sklad_number)
    return result

# Задача 5.3.14
На вход функции подается датафрейм с наиболее популярными веб-сайтами за последний месяц в мире. У некоторых веб-сайтов не верно записано доменное имя: вместо .com -> .cm или .om, а вместо .ru -> рф. По всей видимости данные в систему вносил человек, который не очень знаком с интернетом. Замените значения в ячейках на корректные:
![](https://ucarecdn.com/5b5bd43a-921e-4149-8894-a34faee20973/)
Условие: примените функцию replace.

In [72]:
df = pd.DataFrame({'Веб-сайт': ['google.com', 'youtube.com', 'facebook.cm',
                  'twitter.com', 'instagram.com', 'baidu.com', 'wikipedia.org',
                   'yandex.рф', 'yahoo.cm', 'whatsapp.om']})
df

Unnamed: 0,Веб-сайт
0,google.com
1,youtube.com
2,facebook.cm
3,twitter.com
4,instagram.com
5,baidu.com
6,wikipedia.org
7,yandex.рф
8,yahoo.cm
9,whatsapp.om
