## 3.1 Первое знакомство с Series

In [8]:
import pandas as pd # импорт библиотеки

Numpy хорошо работает с числовыми данными - для этого он и создавался. Но на практике таблицы содержат не только числа, но и текст. Поэтому пришлось создавать другие контейнеры данных, которые хорошо будут работать с другими типами.

**Series (серия или по простому ряд значений)** - контейнер в библиотеке Pandas, который создан для хранения одномерного массива данных. В нее нельзя погрузить матрицу или трехмерный массив. Серия может унести только одномерный массив. Именно серия будет хранить содержимое наших столбцов и строк поэтому давайте посмотрим на нее подробнее. Сейчас запомните, что серия это фундамент будущей Pandas таблицы!

Серия состоит из двух очень важных компонентов:

1) хранилище наших значений (именно эти значения мы видим в столбце/строке)

2) хранилище индексов. Индексы могут быть как числовые так и строковые. Обращаясь к серии через индекс мы просим серию вернуть из хранилища значений элемент, который связан с индексом. Очень похоже на словарь! 

Индексы и значения жестко связаны между собой.

Чтобы создать серию вам надо обратиться к библиотеке pandas и у неё спросить серию: **pandas.Series()**. В скобки передайте одномерный список или массив. Кстати, словарь тоже сработает! Pandas примет ваш массив/словарь и создаст на их основе серию.

При попытке распечатать на экране серию, питон печатает две колонки: левая - индексы, правая - наши значения.

Через свойство **.index** вы получите одномерный numpy массив индексов

Через свойство **.values** вы получите одномерный numpy массив с нашими значениями

In [16]:
import pandas as pd

s1 = pd.Series([1, 3, -5, 12])

print(s1, end='\n\n') # серия
print(s1.values, end='\n\n') # значения
print(s1.index) # индексы

0     1
1     3
2    -5
3    12
dtype: int64

[ 1  3 -5 12]

RangeIndex(start=0, stop=4, step=1)


Если при создании серии вы не задаёте индексы, то серия автоматически создает их для себя. Вы можете задать свои индексы, для этого в конструктор серии передайте значения, которые надо хранить в серии и индексы для них.

In [18]:
import pandas as pd

s2 = pd.Series([1, 3, -5, 12], index=['a', 'b', 'c', 'd'])

print(s2, end='\n\n') # серия
print(s2.values, end='\n\n') # значения
print(s2.index) # индексы

a     1
b     3
c    -5
d    12
dtype: int64

[ 1  3 -5 12]

Index(['a', 'b', 'c', 'd'], dtype='object')


Для доступа к элементу серии в скобках укажите индекс, который связан с этим элементом. Если индекс числовой, то в квадратных скобках укажите число: **s[1]**. Если индексы строковые, то укажите в кавычках: **s['c']** (можно одинарные, можно двойные).

In [22]:
import pandas as pd

s3 = pd.Series([1, 3, -5, 12], index=['a', 'b', 'c', 'd'])

print(s3['c']) # доступ по строковому индексу
print(s3[3]) # доступ по числовому индексу

-5
12


Вы можете создавать серию как на основе списка, так и на основе numpy массива - результат будет одинаковый). Для получения доступа к нескольким элементам серии передайте список индексов: **s[['a', 'b', 'c']]**

In [28]:
import pandas as pd

s4 = pd.Series([1, 3, -5, 12], index=['a', 'b', 'c', 'd'])

s4['b'] = 100 # замена значения в исходной серии

print(s4[['b', 'a', 'c']]) # доступ по строковому индексу к нескольким значениям

b    100
a      1
c     -5
dtype: int64


## Задачи урока 3.1

1. Создайте серию, которая будет содержать элементы 1, 2, 3, 4, 5. Функция должна вернуть серию.

In [None]:
import pandas as pd

def solution():
    return pd.Series(range(1, 6))

2. На вход функции подаётся серия. Доработайте функцию так чтобы она возвращала индексы серии

In [None]:
import pandas as pd

def solution(s1):
    return s1.index

3. Создайте серию, которая будет содержать элементы 1, 2, 3, 4, 5 и индексы a, b, c, d, e. Функция должна вернуть серию.

In [31]:
import pandas as pd
import string

def solution():
    return pd.Series(range(1, 6), list(string.ascii_lowercase[:5])

4. На вход функции подаётся серия. Вытяните из нее элементы с индексами a и с. Функция должна вернуть серию.

In [None]:
import pandas as pd

def solution(s1):
    return s1[['a', 'c']]

5. На вход функции подаётся серия. Замените элемент по индексу c на 0. Функция должна вернуть серию с измененным элементом по индексу с.

In [None]:
import pandas as pd

def solution(s1):
    s1['c'] = 0
    return s1

6. На вход функции подаётся серия. Доработайте функцию так чтобы она возвращала numpy массив, который содержит значения серии

In [None]:
import pandas as pd
import numpy as np

def solution(s1):
    return np.array(s1.values)

## 3.3 Поподробнее про серии: идексы, сложение, проверка на NaN

1) При фильтрации серии индексы остаются, а не пересоздаются.  
2) Арифметические операции не распространяются на индексы

In [50]:
import pandas as pd

s1 = pd.Series([1, 3, -5, 12], index=['a', 'b', 'c', 'd'])
s1 = s1 + 100

print(s1[s1 > 100])

a    101
b    103
d    112
dtype: int64


Серию можно создавать не только на основе списка. Еще один распространённый сценарий это создание серии из словаря. В этом случае ключи словаря перейдут в индексы серии.

In [56]:
import pandas as pd

d = {'Moscow': 100, 'Murmansk': 200, 'Ufa': 300}
s2 = pd.Series(d)

print(s2, end='\n\n')
print('Moscow' in s2, end='\n\n')
print(s2 + s2)

Moscow      100
Murmansk    200
Ufa         300
dtype: int64

True

Moscow      200
Murmansk    400
Ufa         600
dtype: int64


1) Вы можете задавать индексы на этапе создания серии  
2) Не обязательно чтобы индексы шли по порядку  
3) Если вы создаёте серию на основе словаря и указали индекс, которого не существует в словаре, то pandas добавит в серию такой индекс, но значение будет равно NaN (пропуск)  
4) Если вы создаете серию на основе словаря и не передали все индексы, то никакой ошибки не будет. Пандас добавит в серию только те значения, которые вы указали в индексе

In [59]:
import pandas as pd

d = {'Moscow': 100, 'Murmansk': 200, 'Ufa': 300}
s3 = pd.Series(d, index=['Murmansk', 'Moscow', 'Vladivostok', 'Ufa']) # задаём собственный порядок отображения

print(s3)

Murmansk       200.0
Moscow         100.0
Vladivostok      NaN
Ufa            300.0
dtype: float64


Чтобы проверить серию на NaN, можно использовать функцию **isnull**. Существует обратная функции **notnull**

In [63]:
import pandas as pd

d = {'Moscow': 100, 'Murmansk': 200, 'Ufa': 300}
s3 = pd.Series(d, index=['Murmansk', 'Moscow', 'Vladivostok', 'Ufa']) # задаём собственный порядок отображения

print(s3.isnull(), end='\n\n')
print(s3.notnull())

Murmansk       False
Moscow         False
Vladivostok     True
Ufa            False
dtype: bool

Murmansk        True
Moscow          True
Vladivostok    False
Ufa             True
dtype: bool


**Важно запомнить, что при сложении серий:**

1) не обязательно чтобы они были одинаковой длины  
2) сложение будет происходить по индексам  
3) если в одной из серий есть индекс, которого нет в другой серии, то индекс добавляется в результирующую серию, но значение присваивается NaN  

In [65]:
import pandas as pd

s1 = pd.Series({'Moscow': 100, 'Murmansk': 200, 'Ufa': 300})
s2 = pd.Series({'Moscow': 500, 'Murmansk': 200, 'Vladivostok': 300})

print(s1 + s2)

Moscow         600.0
Murmansk       400.0
Ufa              NaN
Vladivostok      NaN
dtype: float64


В случае если необходимо изменить индексы у уже существующей серии, то аглоритм таков:

In [68]:
import pandas as pd

s = pd.Series([5, 10, 20, 30 , 40, 50])

print(s, end='\n\n')

s.index = ['a', 'b', 'c', 'd', 'e', 'f'] # меняем индексы

print(s)

0     5
1    10
2    20
3    30
4    40
5    50
dtype: int64

a     5
b    10
c    20
d    30
e    40
f    50
dtype: int64


У каждой серии есть своё имя. Задать или прочитать имя можно через свойство **name**. Имя используется при работе с хранилищем серий - DataFrame (про него смотрите дальше, но сначала тест).

In [69]:
import pandas as pd

s = pd.Series([5, 10, 20, 30 , 40, 50])

s.name = 'values'
print(s)

0     5
1    10
2    20
3    30
4    40
5    50
Name: values, dtype: int64


## Задачи урока 3.3

1. На вход функции подаётся серия из 7 значений. Известно, что она хранит количество посещенных сайтов некоторого пользователя за первую неделю:

![1](https://ucarecdn.com/624e853b-0065-4f4d-977c-5173040f0168/)

Известно, что за вторую неделю пользователь посетил в два раза больше сайтов  
![2](https://ucarecdn.com/1985976f-ed26-4bf9-bdb8-6ce2fb1a93c9/)

Определите сколько сайтов посетил пользователь в сумме за две недели в разрезе по дням недели. Функция должна вернуть только те дни, где количество посещенных сайтов больше 20:

![3](https://ucarecdn.com/c89026ec-0080-4671-a61e-2e47f4cf314a/)

In [None]:
import pandas as pd

def solution(ser1):
    result = ser1 + ser1 * 2
    return result[result > 20]

2. На вход поступает некоторая серия. Проверьте, есть ли в ней индекс 'Пятница'. Верните True если есть иначе False.

In [None]:
import pandas as pd

def solution(ser1):
    return 'Пятница' in ser1

## 3.4 Практика: тонкости при работе с сериями

1. На вход функции подаётся словарь. Постройте из него серию и умножьте каждое значение серии на 2. Функция должна вернуть серию. 

In [None]:
import pandas as pd

def solution(d):
    return pd.Series(d) * 2

2. На вход функции подаётся словарь. Постройте из него серию так чтобы индексы были расположены в порядке: e, a, c, b, d

In [None]:
import pandas as pd

def solution(d):
    return pd.Series(d, ['e', 'a', 'c', 'b', 'd'])

3. На вход функции подаётся словарь. Постройте из него серию и добавьте еще один индекс g. Индексу g присвойте значение 10. Функция должна вернуть серию.

In [None]:
import pandas as pd

def solution(d):
    s = pd.Series(d)
    s['g'] = 10
    return s

4. Проверьте, все ли значения серии заполнены? Верните одно значение False - если не все; True - если все заполнены

In [None]:
import pandas as pd

def solution(s1):
    return all(s1.isnull())

5. На вход вам подаётся серия. Разверните индексы в обратном направлении:

![1](https://ucarecdn.com/618e5198-6834-43fd-b4c5-c8b8eaad97c0/)

In [75]:
import pandas as pd

def solution(s1):
    result = pd.Series(s1.values, s1.index[::-1])
    return result

s1 = pd.Series([6, 5, 4])
solution(s1)

2    6
1    5
0    4
dtype: int64

## 3.5 Первое знакомство с DataFrame

Для хранения серий разработчики Pandas не стали брать словарь, а решили создать свой контейнер - DataFrame (датафрейм). Чтобы датафрейм легко ориентировался в сериях, их наделили свойством name. 

У серии индексы не уникальные! Они могут повторяться.

In [6]:
import pandas as pd

s = pd.Series([1, 2, 3], index=['a', 'b', 'a'])

print(s, end='\n\n')
print(s['a'])

a    1
b    2
a    3
dtype: int64

a    1
a    3
dtype: int64


Датафреймы очень хорошо создаются на основе словаря, который состоит из ключей и значений в качестве вложенных списков. Ключи словаря в датафрейме станут названиями столбцов, а вложенные списки - колонками.

In [7]:
import pandas as pd

data = { 'city': ['Moscow', 'Moscow', 'Moscow', 'Kazan', 'Kazan', 'Kazan'],
        'year':  [2022,      2021,     2020,     2022,    2021,    2020],
        'visits': [500,      2000,     1500,     100,     230,     200]}

df = pd.DataFrame(data)

print(df)

     city  year  visits
0  Moscow  2022     500
1  Moscow  2021    2000
2  Moscow  2020    1500
3   Kazan  2022     100
4   Kazan  2021     230
5   Kazan  2020     200


In [9]:
import pandas as pd

data = { 'city': ['Moscow', 'Moscow', 'Moscow', 'Kazan', 'Kazan', 'Kazan'],
        'year':  [2022,      2021,     2020,     2022,    2021,    2020],
        'visits': [500,      2000,     1500,     100,     230,     200]}

df = pd.DataFrame(data, columns=['city', 'year', 'country']) # можно выбрать любое кол-во колонок, или создать новую

print(df)

     city  year country
0  Moscow  2022     NaN
1  Moscow  2021     NaN
2  Moscow  2020     NaN
3   Kazan  2022     NaN
4   Kazan  2021     NaN
5   Kazan  2020     NaN


При создании датафрейма вы можете задать свои собственные индексы (как и с серией)

In [17]:
import pandas as pd

data = { 'city': ['Moscow', 'Moscow', 'Moscow', 'Kazan', 'Kazan', 'Kazan'],
        'year':  [2022,      2021,     2020,     2022,    2021,    2020],
        'visits': [500,      2000,     1500,     100,     230,     200]}

# можно задать любой индекс, главное чтобы кол-во совпадало
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd','e', 'f'], columns=['city', 'year'])

print(df)

     city  year
a  Moscow  2022
b  Moscow  2021
c  Moscow  2020
d   Kazan  2022
e   Kazan  2021
f   Kazan  2020


Доступ к целой колонке мы можем получить указав название колонки в квадратных скобках: **df['название колонки']**. Этот способ разрешает вытягивать колонки с пробелами и спец. символами. Менее гибкий способ это обращение к колонки через **атрибут(свойство)** датафрейма

In [24]:
import pandas as pd

data = { 'city': ['Moscow', 'Moscow', 'Moscow', 'Kazan', 'Kazan', 'Kazan'],
        'year':  [2022,      2021,     2020,     2022,    2021,    2020],
        'visits': [500,      2000,     1500,     100,     230,     200]}

df = pd.DataFrame(data, index=['a', 'b', 'c', 'd','e', 'f'], columns=['city', 'year'])

print(df['city'], end='\n\n') # доступ по первому способу
print(df.city, end='\n\n') # доступ по второму способу

a    Moscow
b    Moscow
c    Moscow
d     Kazan
e     Kazan
f     Kazan
Name: city, dtype: object

a    Moscow
b    Moscow
c    Moscow
d     Kazan
e     Kazan
f     Kazan
Name: city, dtype: object



In [27]:
print(df.loc['c']) # еще один способ вытянутть данные в виде серии

city    Moscow
year      2020
Name: c, dtype: object


Возможно у вас был вопрос: а как создать новую колонку? Все очень просто! В квадратных скобках указываем название новой колонки и передаем либо одно значение либо массив.

Если передаёте массив, то помните, что количество элементов должно быть равно количеству строк в датафрейме. Иначе датафрейм не сможет положить к себе одномерный массив.

In [30]:
import pandas as pd

data = { 'city': ['Moscow', 'Moscow', 'Moscow', 'Kazan', 'Kazan', 'Kazan'],
        'year':  [2022,      2021,     2020,     2022,    2021,    2020],
        'visits': [500,      2000,     1500,     100,     230,     200]}

df = pd.DataFrame(data, index=['a', 'b', 'c', 'd','e', 'f'])
df['visits'] = 0
df['new_visits'] = [100, 200, 300, 400, 500, 600]

print(df)

     city  year  visits  new_visits
a  Moscow  2022       0         100
b  Moscow  2021       0         200
c  Moscow  2020       0         300
d   Kazan  2022       0         400
e   Kazan  2021       0         500
f   Kazan  2020       0         600


Кстати, можно добавить и серию! Только не забывайте про индексы - они должны совпадать, иначе датафрейм ничего не добавит)

In [34]:
import pandas as pd

data = { 'city': ['Moscow', 'Moscow', 'Moscow', 'Kazan', 'Kazan', 'Kazan'],
        'year':  [2022,      2021,     2020,     2022,    2021,    2020],
        'visits': [500,      2000,     1500,     100,     230,     200]}

df = pd.DataFrame(data, index=['a', 'b', 'c', 'd','e', 'f'])
s = pd.Series([1, 10, 20], index=['a', 'd', 'f'])

df['new_data'] = s

print(df)

     city  year  visits  new_data
a  Moscow  2022     500       1.0
b  Moscow  2021    2000       NaN
c  Moscow  2020    1500       NaN
d   Kazan  2022     100      10.0
e   Kazan  2021     230       NaN
f   Kazan  2020     200      20.0


## Задачи урока 3.5

1. На основе словаря создайте датафрейм с индексами user1, user2, user3, user4

In [43]:
import pandas as pd

def solution():
    data = {'user' : ['Ivan', 'Petr', 'Nikolay', 'Andrey'], 
            'time_per_page' :  [10, 30 , 15, 5], 
             'pages' : [7, 9, 12, 3]}
    result = pd.DataFrame(data, index=['user1', 'user2', 'user3', 'user4'])
    return result


solution()

Unnamed: 0,user,time_per_page,pages
user1,Ivan,10,7
user2,Petr,30,9
user3,Nikolay,15,12
user4,Andrey,5,3


2. На вход функции подаётся датафрейм с прошлого степа. Добавьте в датафрейм новую колонку с названием total_time, и присвойте ей произведение значений из столбцов time_per_page и pages. Функция должна вернуть итоговый датафрейм.

In [40]:
import pandas as pd

def solution(df):
    df['total_time'] = df['time_per_page'] * df['pages']
    return df

3. На вход функции подаётся датафрейм с прошлого степа и серия, которая содержит информацию о балансе пользователя, добавьте в датафрейм столбец balance, который будет хранить информацию о балансе из серии.

![1](https://ucarecdn.com/7fa011bf-a2bb-4f9d-a6d3-ebed9dc47bdb/)



In [44]:
import pandas as pd

def solution(df, s1):
    df['balance'] = s1
    return df

4. На вход функции подаётся датафрейм с прошлого степа. Найдите индексы строк, где баланс не подтянулся. На выходе функция должна вернуть объект Index

In [64]:
import pandas as pd

def solution(df):
    return df[df.balance.isnull()].index

5. На вход функции подаётся датафрейм с прошлого степа. Создайте новую колонку c названием is_correct. Проверьте каждое значение из столбца total_time. Если значение меньше 100, то в колонку is_correct вставьте True, а иначе False. Функция должна вернуть датафрейм с внесёнными изменениями.

In [80]:
import pandas as pd

def solution(df):
    df['is_correct'] = df['total_time'] > 100
    return df

## 3.6 Поподробнее про DataFrame: индексы, вложенные словари, del и .T

Если вы добавляете серию к датафрейму, то будьте внимательны с индексами! Если у серии будут индексы, которых нет у датафрейма, то значения из серии просто не добавятся к датафрейму!

In [8]:
import pandas as pd

data = { 'city': ['Moscow', 'Moscow', 'Moscow', 'Kazan', 'Kazan', 'Kazan'],
        'year':  [2022, 2021, 2020, 2022, 2021, 2020],
        'visits': [1, 2, 3, 4, 5, 6]}


s1 = pd.Series([1, 10, 20], index=[0, 3, 7]) # 7 не добавится так как такого индеккса нету в df
df['old_visits'] = s1 

print(df)

     city  year  visits  old_visits
0  Moscow  2022       1         1.0
1  Moscow  2021       2         NaN
2  Moscow  2020       3         NaN
3   Kazan  2022       4        10.0
4   Kazan  2021       5         NaN
5   Kazan  2020       6         NaN


В колонку можно добавить объект типа **range** или **список**. Удалить колонку можно с помощью оператора **del**

In [19]:
import pandas as pd

data = { 'city': ['Moscow', 'Moscow', 'Moscow', 'Kazan', 'Kazan', 'Kazan'],
        'year':  [2022, 2021, 2020, 2022, 2021, 2020],
        'visits': [1, 2, 3, 4, 5, 6]}
df = pd.DataFrame(data)
df['new_column'] = range(6)

print(df, end='\n\n')

del df['city'] # удаление колонки

print(df)




     city  year  visits  new_column
0  Moscow  2022       1           0
1  Moscow  2021       2           1
2  Moscow  2020       3           2
3   Kazan  2022       4           3
4   Kazan  2021       5           4
5   Kazan  2020       6           5

   year  visits  new_column
0  2022       1           0
1  2021       2           1
2  2020       3           2
3  2022       4           3
4  2021       5           4
5  2020       6           5


Разработчики Pandas позаботились о нас и наделили датафрейм возможностью создаваться на основе вложенных словарей. Что это означает? А то, что вложенные словари уже содержат индексы строк. Внешние ключи будут отвечать за название колонок, а внутренние ключи за индексы строк:

In [34]:
import pandas as pd

data2 = {'Moscow': {2020: 1500, 2021: 2000, 2022:500},
         'Kazan':  {2020: 200, 2021: 230, 2022: 100}} # вложенные ключи являются индексами

df = pd.DataFrame(data2)

print(df)

Unnamed: 0,Moscow,Kazan
2020,1500,200
2021,2000,230
2022,500,100


Уже знакомое нам свойство транспонирование работает и с датафреймом! Помните, где мы его уже встречали?)

In [35]:
import pandas as pd

data2 = {'Moscow': {2020: 1500, 2021: 2000, 2022:500},
         'Kazan':  {2020: 200, 2021: 230, 2022: 100}} # вложенные ключи являются индексами

df = pd.DataFrame(data2)

print(df.T)

        2020  2021  2022
Moscow  1500  2000   500
Kazan    200   230   100


Если необходимо получить все значения из колонки, то используется свойство **values**, которое возвращает NumPy массив

In [36]:
import pandas as pd

data2 = {'Moscow': {2020: 1500, 2021: 2000, 2022:500},
         'Kazan':  {2020: 200, 2021: 230, 2022: 100}} # вложенные ключи являются индексами

df = pd.DataFrame(data2)

print(df.values)

[[1500  200]
 [2000  230]
 [ 500  100]]


На самом деле у датафрейма два индекса: один для навигации по строкам, а второй по навигации по колонкам:

![1](https://ucarecdn.com/604dd2a7-e1d7-4701-a687-2c43df4802c4/)

Первый можно получить через свойство index, а второй через свойство .columns. 

Да, свойство называется columns (от англ. колонки), но это тоже индекс. 

## Задачи урока 3.5

1. На вход подаётся датафрейм. Удалите столбец clicks:

![1](https://ucarecdn.com/8ab4cc8d-302c-4735-89fb-63ef2520e977/)

In [39]:
import pandas as pd

def solution(_df):
    del _df['clicks']
    return _df


df = pd.DataFrame({'user_name': ('Ivan', 'Alex', 'Ugen'),  
                   'clicks': (2, 5, 8), 
                   'time_interval':(3, 6, 9)})

solution(df)

Unnamed: 0,user_name,time_interval
0,Ivan,3
1,Alex,6
2,Ugen,9


2. На вход функции подаётся датафрейм, отредактируйте индекс второй строки:

![1](https://ucarecdn.com/79075c75-c697-4006-b19a-1b09b43eeba1/)

![2](https://ucarecdn.com/251cf53c-9d7f-4914-ac16-00c8059b1124/)

In [57]:
import pandas as pd

def solution(_df):
    _df.index = [0, 'one', 2]
    return _df


df = pd.DataFrame({'user_name': ('Ivan', 'Alex', 'Ugen'),  
                   'clicks': (2, 5, 8), 
                   'time_interval':(3, 6, 9)})

solution(df)

Unnamed: 0,user_name,clicks,time_interval
0,Ivan,2,3
one,Alex,5,6
1,Ugen,8,9


 3. На вход функции подаётся датафрейм, переведите название (лейблы) колонок в верхний регистр:
 
 ![1](https://ucarecdn.com/79075c75-c697-4006-b19a-1b09b43eeba1/)
 
 ![2](https://ucarecdn.com/46a2fb3b-d728-4b79-8f08-bdafd0545ece/)

In [64]:
import pandas as pd

def solution(_df):
    _df.columns = map(str.upper, _df.columns)
    return _df


df = pd.DataFrame({'user_name': ('Ivan', 'Alex', 'Ugen'),  
                   'clicks': (2, 5, 8), 
                   'time_interval':(3, 6, 9)})

solution(df)

Unnamed: 0,USER_NAME,CLICKS,TIME_INTERVAL
0,Ivan,2,3
1,Alex,5,6
2,Ugen,8,9


4. На вход функции подаётся некоторый датафрейм. Определите количество строк и количество столбцов в датафрейме. Функция должна вернуть кортеж: (количество строк, количество столбцов)

In [67]:
import pandas as pd

def solution(_df):
    return _df.shape


df = pd.DataFrame({'user_name': ('Ivan', 'Alex', 'Ugen'),  
                   'clicks': (2, 5, 8), 
                   'time_interval':(3, 6, 9)})

solution(df)

(3, 3)

## 3.7 Практика: особенности индексации

In [84]:
import pandas as pd

def solution(_df, _s1):
    _s1.index = map(int, _s1.index)
    _df['balance'] = _s1
    return _df



df = pd.DataFrame({'user_name': ('Ivan', 'Alex', 'Ugen'),  
                   'clicks': (2, 5, 8), 
                   'time_interval':(3, 6, 9)})

s = pd.Series([100, 200, 800], index=['0', '1', '2'])

solution(df, s)

Unnamed: 0,user_name,clicks,time_interval,balance
0,Ivan,2,3,100
1,Alex,5,6,200
2,Ugen,8,9,800


## 3.8 Функции reindex, drop и индексация в датафрейме

Если необходимо поменять названия индексов(строк) или колонок, то нужно присваивать не одно значение, а сразу весь список

In [19]:
import pandas as pd

df = pd.DataFrame({'user_name': ('Ivan', 'Alex', 'Ugen'),  
                   'clicks': (2, 5, 8), 
                   'time_interval':(3, 6, 9)})

df.index = ['a', 'b', 'c']
df.columns = ['Name', 'Clicks', 'Time']

df

Unnamed: 0,Name,Clicks,Time
a,Ivan,2,3
b,Alex,5,6
c,Ugen,8,9


С помощью функции **reindex** можно переназначить, либо выбрать только необходмые столбцы/строки из DataFrame. Используем тогда, когда необходимо что-то оставить

In [33]:
import pandas as pd

df = pd.DataFrame({'user_name': ('Ivan', 'Alex', 'Ugen'),  
                   'clicks': (2, 5, 8), 
                   'time_interval':(3, 6, 9)})

df.reindex(['user_name', 'time_interval', 'new_column'], axis=1)

Unnamed: 0,user_name,time_interval,new_column
0,Ivan,3,
1,Alex,6,
2,Ugen,9,


функция **drop** позволяет удалить элементы по нужной нам оси. Используем тогда, когда необходимо что-то удалить

In [39]:
import pandas as pd

df = pd.DataFrame({'user_name': ('Ivan', 'Alex', 'Ugen'),  
                   'clicks': (2, 5, 8), 
                   'time_interval':(3, 6, 9)})

df2 = df.drop(['user_name', 'time_interval'], axis=1) # возваращает новый DataFrame
print(df2, end='\n\n')

df.drop('user_name', axis=1, inplace=True) # удалеяет на месте
print(df)



   clicks
0       2
1       5
2       8

   clicks  time_interval
0       2              3
1       5              6
2       8              9


**Индексация по сериям осуществляется следующими способами:**

In [52]:
import pandas as pd

s = pd.Series([50, 10, 200, 500, 350], index=['a', 'b', 'c', 'd', 'e'])

print(s['a']) # по лэйблу
print(s[0], end='\n\n') # по индексу
print(s[2:], end='\n\n') # по срезу
print(s[df > 200], end='\n\n') # по маске
print(s[['e', 'b']], end='\n\n') # несколько лэйблов в разном порядке
print(s['b':'e']) # срез лэйблов с включением последнего элемента

50
50

c    200
d    500
e    350
dtype: int64

d    500
e    350
dtype: int64

e    350
b     10
dtype: int64

b     10
c    200
d    500
e    350
dtype: int64


Pandas позволяет присваивать значения по срезу лэйблов

In [55]:
s['c':'e'] = 0

s

a    50
b    10
c     0
d     0
e     0
dtype: int64

**Индексация по DataFrame осуществляется следующими способами:**

In [75]:
import pandas as pd

df = pd.DataFrame({'user_name': ('Ivan', 'Alex', 'Ugen'),  
                   'clicks': (2, 5, 8), 
                   'time_interval':(3, 6, 9)})

print(df[['user_name', 'time_interval']], end='\n\n') # вытягивание разных колонок
print(df[:3], end='\n\n') # вытягивание разных строк
print(df[df.clicks >= 5]) # вытягивание данных по маске

  user_name  time_interval
0      Ivan              3
1      Alex              6
2      Ugen              9

  user_name  clicks  time_interval
0      Ivan       2              3
1      Alex       5              6
2      Ugen       8              9

  user_name  clicks  time_interval
1      Alex       5              6
2      Ugen       8              9


Данные можно вытягивать и по двумерной маске

In [74]:
import pandas as pd

df = pd.DataFrame({'user_name': (10, 20, 30),  
                   'clicks': (2, 5, 8), 
                   'time_interval':(3, 6, 9)})
mask = df > 5
print(mask, end='\n\n')

df[df > 5] = 0
print(df)

   user_name  clicks  time_interval
0       True   False          False
1       True   False           True
2       True    True           True

   user_name  clicks  time_interval
0          0       2              3
1          0       5              0
2          0       0              0


## 3.9 Практика: вытягиваем нужное, удаляем ненужное

1. На вход подаётся датафрейм. Проверьте, есть ли в нём строка с лейблом **f**. Функция должна вернуть True если строка есть, иначе False

In [None]:
import pandas as pd

def solution(_df):
    return 'f' in _df.index

2. На вход подаётся датафрейм. Проверьте, есть ли в нём колонка user_name и строка с лейблом f. Функция должна вернуть True если колонка и строка существуют, иначе False

In [None]:
import pandas as pd

def solution(_df):
    return 'f' in _df.index and 'user_name' in _df.column

2. На вход подаётся датафрейм, удалите из названий колонок префикс user_. Функция должна вернуть датафрейм с названием колонок без префикса user_:

In [9]:
import pandas as pd
import numpy as np

def solution(_df):
    _df.columns = [column_name[5:] for column_name in _df.columns]
    return _df


data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]

_df = pd.DataFrame(data, columns=['user_name', 'user_age', 'user_clicks', 'user_balance', 'user_history'], index=list('abcdefg'))

solution(_df)

Unnamed: 0,name,age,clicks,balance,history
a,Ivan,25,4,50,1
b,Petr,40,9,250,8
c,Nikolay,19,12,25,1
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4
f,Ilya,20,18,15,2
g,Igor,19,2,10,1


3. На вход подаётся датафрейм, выполните реиндекс строк таким образом, чтобы остались только строчки с лейблами, которые перечислены в листе

In [15]:
import pandas as pd

def solution(_df):
    lst = ['a', 'f', 'g']
    return _df.reindex(lst)


data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]

_df = pd.DataFrame(data, columns=['user_name', 'user_age', 'user_clicks', 'user_balance', 'user_history'], index=list('abcdefg'))

solution(_df)

Unnamed: 0,user_name,user_age,user_clicks,user_balance,user_history
a,Ivan,25,4,50,1
f,Ilya,20,18,15,2
g,Igor,19,2,10,1


4. На вход подаётся датафрейм, удалите из датафрейма строчки c лейблами c, f, g и колонку c лейблом history. Верните итоговый датафрейм.

In [24]:
import pandas as pd

def solution(_df):
    _df.drop(['c', 'f', 'g'], inplace=True)
    _df.drop(['user_history'], axis=1, inplace=True)
    return _df


data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]

_df = pd.DataFrame(data, columns=['user_name', 'user_age', 'user_clicks', 'user_balance', 'user_history'], index=list('abcdefg'))

solution(_df)

Unnamed: 0,user_name,user_age,user_clicks,user_balance
a,Ivan,25,4,50
b,Petr,40,9,250
d,Sergey,33,6,115
e,Andrey,38,2,152


5. На вход подаётся датафрейм, вытяните столбцы **name, age, balance**. Функция должна вернуть датафрейм:

In [29]:
import pandas as pd

def solution(_df):
    return _df[['user_name', 'user_age', 'user_balance']]


data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]

_df = pd.DataFrame(data, columns=['user_name', 'user_age', 'user_clicks', 'user_balance', 'user_history'], index=list('abcdefg'))

solution(_df)

Unnamed: 0,user_name,user_age,user_balance
a,Ivan,25,50
b,Petr,40,250
c,Nikolay,19,25
d,Sergey,33,115
e,Andrey,38,152
f,Ilya,20,15
g,Igor,19,10


6. На вход подаётся датафрейм, выведите только тех пользователей, которые старше 30 лет

In [41]:
import pandas as pd

def solution(_df):
    mask = _df['age'] > 30
    return _df[mask]


data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]

_df = pd.DataFrame(data, columns=['name', 'age', 'clicks', 'balance', 'history'], index=list('abcdefg'))

solution(_df)

Unnamed: 0,name,age,clicks,balance,history
b,Petr,40,9,250,8
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4


7. На вход подаётся датафрейм, выведите пользователей, которые младше 30 лет и баланс больше 20:

In [45]:
import pandas as pd

def solution(_df):
    mask = (_df['age'] < 30) & (_df['balance'] > 20)
    return _df[mask]


data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]

_df = pd.DataFrame(data, columns=['name', 'age', 'clicks', 'balance', 'history'], index=list('abcdefg'))

solution(_df)

Unnamed: 0,name,age,clicks,balance,history
a,Ivan,25,4,50,1
c,Nikolay,19,12,25,1


8. На вход подаётся датафрейм, определите пользователей у которых баланс больше 100. Возьмите две колонки **name и age**, а затем отдайте получившийся датафрейм на проверку:

In [52]:
import pandas as pd

def solution(_df):
    mask = _df['balance'] > 100
    return _df[mask][['name', 'age']]


data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]

_df = pd.DataFrame(data, columns=['name', 'age', 'clicks', 'balance', 'history'], index=list('abcdefg'))

solution(_df)

Unnamed: 0,name,age
b,Petr,40
d,Sergey,33
e,Andrey,38


9.   На вход подаётся датафрейм, выберите из датафрейма записи, если имя пользователя **Petr или Andrey**. От получившегося датафрейма возьмите три столбца: **name, age, balance**: 

In [61]:
import pandas as pd

def solution(_df):
    mask = (_df['name'] == 'Petr') | (_df['name'] == 'Andrey')
    return _df[mask][['name', 'age', 'balance']]


data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]

_df = pd.DataFrame(data, columns=['name', 'age', 'clicks', 'balance', 'history'], index=list('abcdefg'))

solution(_df)

Unnamed: 0,name,age,balance
b,Petr,40,250
e,Andrey,38,152


10. На вход подаётся датафрейм, В компании было принято решение обнулить баланс для пользователей у которых баланс меньше 100. Вы были выбраны исполнителем. Отредактируйте колонку balance.

In [109]:
import pandas as pd

def solution(_df):
    _df.loc[_df['balance'] < 100, ['balance']] = 0
    return _df


data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]

_df = pd.DataFrame(data, columns=['name', 'age', 'clicks', 'balance', 'history'], index=list('abcdefg'))

solution(_df)

Unnamed: 0,name,age,clicks,balance,history
a,Ivan,25,4,0,1
b,Petr,40,9,250,8
c,Nikolay,19,12,0,1
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4
f,Ilya,20,18,0,2
g,Igor,19,2,0,1


## 3.10 Операторы loc, iloc, at, iat. Сложение нескольких датафреймов

Оператор **loc** используется для вытягивания данных из датафрейма на основе лейблов!
Обязательно после **loc** указывать квадратные, а не круглые скобки!
В скобках: слева от запятой лейблы строк, справа от запятой лейблы столбцов.

In [142]:
data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]

df = pd.DataFrame(data, columns=['name', 'age', 'clicks', 'balance', 'history'], index=list('abcdefg'))

df

Unnamed: 0,name,age,clicks,balance,history
a,Ivan,25,4,50,1
b,Petr,40,9,250,8
c,Nikolay,19,12,25,1
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4
f,Ilya,20,18,15,2
g,Igor,19,2,10,1


In [143]:
df.loc[['a', 'b'], ['name', 'age']] # как в NumPy

Unnamed: 0,name,age
a,Ivan,25
b,Petr,40


In [124]:
df.loc[:, ['name', 'age']] # все строки

Unnamed: 0,name,age
a,Ivan,25
b,Petr,40
c,Nikolay,19
d,Sergey,33
e,Andrey,38
f,Ilya,20
g,Igor,19


In [134]:
df.loc[df['age'] > 30, ['balance', 'age']] # также как и в NumPy можно использовать маску

Unnamed: 0,balance,age
b,250,40
d,115,33
e,152,38


Оператор **iloc** похож на **loc**, но работает не с лейблами, а с индексами (числами)!

In [137]:
df.iloc[0:3, 0:2]

Unnamed: 0,name,age
a,Ivan,25
b,Petr,40
c,Nikolay,19


Данные операторы можно использовать и для записи значений

In [145]:
df.loc[df['age'] > 30, 'balance'] = 0
df

Unnamed: 0,name,age,clicks,balance,history
a,Ivan,25,4,50,1
b,Petr,40,9,0,8
c,Nikolay,19,12,25,1
d,Sergey,33,6,0,6
e,Andrey,38,2,0,4
f,Ilya,20,18,15,2
g,Igor,19,2,10,1


**Сложение массивов производится только по совпадающим двум индексам**

In [144]:
import pandas as pd

df1 = pd.DataFrame(np.arange(9).reshape(3, 3), columns=list('bcd'), index=['Moscow', 'Kazan', 'Vladivostok'])
df2 = pd.DataFrame(np.arange(12).reshape(4, 3), columns=list('bde'), index=['Yakutsk', 'Moscow', 'Kazan', 'Ufa'])

df1

Unnamed: 0,b,c,d
Moscow,0,1,2
Kazan,3,4,5
Vladivostok,6,7,8


In [146]:
df2

Unnamed: 0,b,d,e
Yakutsk,0,1,2
Moscow,3,4,5
Kazan,6,7,8
Ufa,9,10,11


In [147]:
df1 + df2

Unnamed: 0,b,c,d,e
Kazan,9.0,,12.0,
Moscow,3.0,,6.0,
Ufa,,,,
Vladivostok,,,,
Yakutsk,,,,


**Сравнение возможно только для датафреймов у которых лейблы в точности совпадают!**

## Задачи урока 3.10

1. Стажер Саша запутался, когда работал с датафреймом. Он хотел вытянуть две строчки, но всё напутал. Теперь он пришел к вам и просит о помощи. Отредактируйте, пожалуйста, код Саши.

![1](https://ucarecdn.com/15295984-0ab0-435c-b064-fa68724b5283/)

![2](https://ucarecdn.com/8a7967e6-bde2-4af1-914d-85308c718873/)

In [155]:
import pandas as pd

def solution(_df):
    result = _df.loc[['a', 'c']] # исправьте ошибку
    return result

2. На вход подаётся датафрейм, пользуясь оператором at, вытяните из датафрейма значение из строки d, во втором столбце. Функция должна вернуть это значение

![1](https://ucarecdn.com/1100a59a-26d6-453b-a13c-aa438905cc87/)

In [156]:
import pandas as pd

def solution(_df):
    return df.at['d', 'col2']

3. На вход функции подаётся датафрейм, выполните поэлементное сложение двух строк (a и d):

![1](https://ucarecdn.com/31a3a14c-3569-47a5-b9f3-628ab15dbb93/)  
   На выходе должна получиться серия:

![2](https://ucarecdn.com/b8ec4e6a-6cd1-41f3-ac7c-b9cefa305258/)

In [None]:
import pandas as pd

def solution(_df):
    result = _df.loc['a'] + _df.loc['d']
    return result

## 3.11 Сложение датафреймов, сортировки, арифметика с пропусками

Для правильного сложения датафрэймов необходимо, чтобы индексы и колонки полностью совпадали у двух датафрэймов

In [4]:
import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3]})
df2 = pd.DataFrame({'B': [1, 2, 3]})

df1 + df2 # не совпадают колонки

Unnamed: 0,A,B
0,,
1,,
2,,


Функции ниже ничего не записывают в датафрейм. Они просто пытаются выполнить свою работу и если одно из слагаемых NaN, тогда оно подменяется на значение из параметра fill_value. *Если и и там будет NaN, то тут уже не сработает.*

**Функции:**

* add, radd - сложение

* sub, rsub - вычитание

* div, rdiv - деление

* mul, rmul - умножение

* pow, rpow - возведение в степень

 

**Чем отличается функция с буквой r в начале?. Покажу на примере:**

df / 5  - означает, разделить все значения датафрейма на 5. Тоже самое: df.div(5)  (да-да, в функцию можно и число передавать)
А как например записать наборот?: 5 / df т.е. пятёрку разделить на каждый элемент датафрейма. Вот для этого и нужна функция rdiv:  df.rdiv(5). Т.е. функции с буквой r как-бы меняют местами наши элементы.

In [150]:
import pandas as pd
import numpy as np

df1 = pd.DataFrame({'visits':[100,200,300]}, index=['Kazan', 'Vladivostok','Moscow'])
df2 = pd.DataFrame({'visits':[200, np.nan, 400]}, index=['Kazan', 'Vladivostok','Moscow'])

df1

Unnamed: 0,visits
Kazan,100
Vladivostok,200
Moscow,300


In [151]:
df2

Unnamed: 0,visits
Kazan,200.0
Vladivostok,
Moscow,400.0


In [149]:
df1 + df2 # если пропущено значение, то сложения не будет

Unnamed: 0,visits
Kazan,300.0
Vladivostok,
Moscow,700.0


In [13]:
df1.add(df2, fill_value=0) # другое дело, вместо NaN значения заполнены 0

Unnamed: 0,visits
Kazan,300.0
Vladivostok,200.0
Moscow,700.0


Если попытаться сложить серию с датафрэймом, то сложение будет происходить по индексу и по колонке:

In [16]:
import pandas as pd

df3 = pd.DataFrame({'a':[100, 200, 300], 
                    'b': [1, 2, 3]}, index=['Kazan', 'Vladivostok','Moscow'])

df3

Unnamed: 0,a,b
Kazan,100,1
Vladivostok,200,2
Moscow,300,3


In [17]:
s1 = pd.Series([1, 2], index=['a', 'b'])
s1

a    1
b    2
dtype: int64

In [18]:
df3 + s1

Unnamed: 0,a,b
Kazan,101,3
Vladivostok,201,4
Moscow,301,5


Если необходимо произвести сложение по строкам, а не по столбцам, можно использовать следующий способ:

In [23]:
s1 = pd.Series([1, 2], index=['Kazan', 'Moscow']) # меняем индексы на строчные

df3.add(s1, axis=0)

Unnamed: 0,a,b
Kazan,101.0,2.0
Moscow,302.0,5.0
Vladivostok,,


**Сортировка Series**

In [152]:
import pandas as pd

s = pd.Series([1,-2,3,-4], index = ['c','a','b','d'])
s

c    1
a   -2
b    3
d   -4
dtype: int64

In [34]:
s.sort_index(ascending=False, inplace=True) # сортировка по индексу, по убыванию, изменяя серию
s

d   -4
c    1
b    3
a   -2
dtype: int64

In [37]:
s.sort_values() # сортировка значений без аргументов

d   -4
a   -2
c    1
b    3
dtype: int64

**Сортировка DataFrame**

Сортировка лэйблов производится по осям:

In [155]:
import pandas as pd

df = pd.DataFrame(np.arange(12).reshape(4, 3), columns=list('ebd'), index=['a', 'c', 'd', 'e'])

df.sort_index(ascending=False, axis=0, inplace=True) # сортировка по индексу, в обратном порядке, на месте

df

Unnamed: 0,e,b,d
e,9,10,11
d,6,7,8
c,3,4,5
a,0,1,2


In [156]:
df.sort_index(axis=1) # сортировка по столбцу

Unnamed: 0,b,d,e
e,10,11,9
d,7,8,6
c,4,5,3
a,1,2,0


Сортировка значений производится следующим образом:

In [100]:
import pandas as pd

data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]

df = pd.DataFrame(data, columns=['name', 'age', 'clicks', 'balance', 'history'], index=list('abcdefg'))
df

Unnamed: 0,name,age,clicks,balance,history
a,Ivan,25,4,50,1
b,Petr,40,9,250,8
c,Nikolay,19,12,25,1
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4
f,Ilya,20,18,15,2
g,Igor,19,2,10,1


In [50]:
df.sort_values(by='age') # по одной колонке

Unnamed: 0,name,age,clicks,balance,history
c,Nikolay,19,12,25,1
g,Igor,19,2,10,1
f,Ilya,20,18,15,2
a,Ivan,25,4,50,1
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4
b,Petr,40,9,250,8


In [57]:
df.sort_values(by=['age', 'balance'], ascending=False) # по двум колонкам

Unnamed: 0,name,age,clicks,balance,history
b,Petr,40,9,250,8
e,Andrey,38,2,152,4
d,Sergey,33,6,115,6
a,Ivan,25,4,50,1
f,Ilya,20,18,15,2
c,Nikolay,19,12,25,1
g,Igor,19,2,10,1


In [93]:
df.index.is_unique # позволяет проверить все ли индексы уникальны в датафрэйме

True

## 3.12 Описательные статистики. Уникальные значения

In [104]:
import pandas as pd

df = pd.DataFrame({'visits_2021' : [100, 200, 300, 50, 40],
                   'visits_2020' : [90, 100, np.nan, 10, 80],
                   'visits_2019' : [10, np.nan, 20, 16, 80]}, index=['Moscow', 'Kazan', 'Ufa', 'Yakutsk', 'Novosibirsk'])

df

Unnamed: 0,visits_2021,visits_2020,visits_2019
Moscow,100,90.0,10.0
Kazan,200,100.0,
Ufa,300,,20.0
Yakutsk,50,10.0,16.0
Novosibirsk,40,80.0,80.0


In [105]:
df.sum() # сумма по каждому столбцу

visits_2021    690.0
visits_2020    280.0
visits_2019    126.0
dtype: float64

In [106]:
df.sum(axis=1) # сумма по строкам

Moscow         200.0
Kazan          300.0
Ufa            320.0
Yakutsk         76.0
Novosibirsk    200.0
dtype: float64

In [107]:
df.mean() # среднее значение по каждому столбцу

visits_2021    138.0
visits_2020     70.0
visits_2019     31.5
dtype: float64

In [109]:
df.mean(axis=1) # среднее значение по строкам

Moscow          66.666667
Kazan          150.000000
Ufa            160.000000
Yakutsk         25.333333
Novosibirsk     66.666667
dtype: float64

In [113]:
df.mean(axis=1, skipna=False) # с учетом NaN

Moscow         66.666667
Kazan                NaN
Ufa                  NaN
Yakutsk        25.333333
Novosibirsk    66.666667
dtype: float64

In [116]:
df.min() # минимальное значение по столбцам

visits_2021    40.0
visits_2020    10.0
visits_2019    10.0
dtype: float64

In [118]:
df.max(axis=1) # максимальное значение по строкам

Moscow         100.0
Kazan          200.0
Ufa            300.0
Yakutsk         50.0
Novosibirsk     80.0
dtype: float64

In [121]:
df.describe() # описательная статистика по столбцам

Unnamed: 0,visits_2021,visits_2020,visits_2019
count,5.0,4.0,4.0
mean,138.0,70.0,31.5
std,110.544109,40.824829,32.593455
min,40.0,10.0,10.0
25%,50.0,62.5,14.5
50%,100.0,85.0,18.0
75%,200.0,92.5,35.0
max,300.0,100.0,80.0


In [122]:
df.T.describe() # описательная статистика по строкам

Unnamed: 0,Moscow,Kazan,Ufa,Yakutsk,Novosibirsk
count,3.0,2.0,2.0,3.0,3.0
mean,66.666667,150.0,160.0,25.333333,66.666667
std,49.328829,70.710678,197.989899,21.571586,23.094011
min,10.0,100.0,20.0,10.0,40.0
25%,50.0,125.0,90.0,13.0,60.0
50%,90.0,150.0,160.0,16.0,80.0
75%,95.0,175.0,230.0,33.0,80.0
max,100.0,200.0,300.0,50.0,80.0


In [124]:
import numpy as np

np.abs(df) # по модулю

Unnamed: 0,visits_2021,visits_2020,visits_2019
Moscow,100,90.0,10.0
Kazan,200,100.0,
Ufa,300,,20.0
Yakutsk,50,10.0,16.0
Novosibirsk,40,80.0,80.0


Функция **describe** применима и к Series

In [129]:
s = pd.Series(['a', 'b', 'a', 'c', 'a'])
s.describe()

count     5
unique    3
top       a
freq      3
dtype: object

In [132]:
s.unique() # позволяет вытянуть только уникальным элементы

array(['a', 'b', 'c'], dtype=object)

In [135]:
s.value_counts() # количество значений в каждом уникальном значении

a    3
b    1
c    1
Name: count, dtype: int64

In [139]:
s.isin(['a']) # проверка вхождения значений

0     True
1    False
2     True
3    False
4     True
dtype: bool

## 4.1 Что такое формат CSV и как его приручить?

In [2]:
import pandas as pd
import numpy as np

df = pd.read_csv('example.csv') # чтение файла и создание датафрэйма

df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


Если файл лежит отдельно от программы:

In [5]:
df2 = pd.read_csv(r'C:\Users\Vadim\Downloads\example2.csv')

df2

Unnamed: 0,a,b,c
0,vadim,rudman,10
1,veronika,rudman,10


Если разделитель другой:

In [12]:
df3 = pd.read_csv(r'C:\Users\Vadim\Downloads\example3.csv', sep=';')

df3

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


Если отсутствует заголовок можно использовать аругмент **header**

In [16]:
df4 = pd.read_csv(r'C:\Users\Vadim\Downloads\example3.csv', sep=';', header=None)

df4

Unnamed: 0,0,1,2
0,a,b,c
1,1,2,3
2,4,5,6
3,7,8,9


Аргумент **names** позволяет изменить название колонок сразу при чтении файла

In [17]:
df4 = pd.read_csv(r'C:\Users\Vadim\Downloads\example3.csv', sep=';', names=['one', 'two', 'three'])

df4

Unnamed: 0,one,two,three
0,a,b,c
1,1,2,3
2,4,5,6
3,7,8,9


## Задачи урока 4.1

In [3]:
import pandas as pd

df = pd.read_csv(r'C:\Users\Vadim\Downloads\Пассажиропоток_МосМетро_2.csv', sep=';', skiprows=1)
data = df.loc[(df['Квартал'] == 'IV квартал') & (df['Год'] == 2021), ['Станция метрополитена', 'Входы пассажиров']]
data.sort_values(by='Входы пассажиров', ascending=False, inplace=True)

data.head(1)

Unnamed: 0,Станция метрополитена,Входы пассажиров
956,Комсомольская,7660212


## 4.2 Поподробнее про обработку пропусков

Аргумент **skiprows** позволяет указать строки, которые необходимо пропустить при чтении файла, т.к. они могут быть лишними (мусорными)

In [10]:
import pandas as pd

df = pd.read_csv(r'C:\Users\Vadim\Downloads\Пассажиропоток_МосМетро_2.csv', sep=';', skiprows=1)
df

Unnamed: 0,Станция метрополитена,Линия,Год,Квартал,Входы пассажиров,Выходы пассажиров,global_id,NameOfStation_en,Line_en,Year_en,Quarter_en,IncomingPassengers_en,OutgoingPassengers_en,Unnamed: 13
0,Митино,Арбатско-Покровская линия,2021,I квартал,1913498,1829031,1138975996,,,,,,,
1,Волоколамская,Арбатско-Покровская линия,2021,I квартал,1236714,1222309,1138975997,,,,,,,
2,Строгино,Арбатско-Покровская линия,2021,I квартал,1938816,1903731,1138975999,,,,,,,
3,Крылатское,Арбатско-Покровская линия,2021,I квартал,1849616,1818208,1138976000,,,,,,,
4,Площадь Революции,Арбатско-Покровская линия,2021,I квартал,2324687,2319343,1138976008,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1367,Китай-город,Таганско-Краснопресненская линия,2022,I квартал,0,0,2363487484,,,,,,,
1368,Киевская,Филёвская линия,2022,I квартал,0,0,2363487549,,,,,,,
1369,Улица Милашенкова,Московская монорельсовая транспортная система,2021,IV квартал,17991,17295,2363643842,,,,,,,
1370,Кунцевская,Филёвская линия,2022,I квартал,543507,529972,2363644363,,,,,,,


Бывают ситуации, когда значение пропущено:

In [14]:
df2 = pd.read_csv(r'C:\Users\Vadim\Downloads\example4.csv', sep=';')
df2

Unnamed: 0,client,balance,age
0,Ivan,1500.0,25
1,Petr,,30
2,Nikolay,600.0,45


Проверку можно сделать с помощью функции **isnull**

In [15]:
pd.isnull(df2)

Unnamed: 0,client,balance,age
0,False,False,False
1,False,True,False
2,False,False,False


Пропуски могут быть в виде **NULL**, **NaN**, **NA** все они будут автоматические определены функцией **read_csv**

Что считать пропуском можно установить и самостоятельно, с помощью аргумента **na_values**

In [16]:
df2 = pd.read_csv(r'C:\Users\Vadim\Downloads\example4.csv', sep=';')
df2

Unnamed: 0,client,balance,age
0,Ivan,1500.0,25
1,Petr,,30
2,Nikolay,600.0,45


In [17]:
df2 = pd.read_csv(r'C:\Users\Vadim\Downloads\example4.csv', sep=';', na_values=[25, 45])
df2

Unnamed: 0,client,balance,age
0,Ivan,1500.0,
1,Petr,,30.0
2,Nikolay,600.0,


В **na_values** можно передать словарь, если необходимо считать пропусками строки, только по определенному столбцу:

In [18]:
df2 = pd.read_csv(r'C:\Users\Vadim\Downloads\example4.csv', sep=';', na_values={'age': [25, 30]})
df2

Unnamed: 0,client,balance,age
0,Ivan,1500.0,
1,Petr,,
2,Nikolay,600.0,45.0


В случае если файл достаточно большой, то не всегда есть смысл его полностью грузить в оперативную память, в таком случае лучше воспользоваться аргументом **nrows** и загрузить только нужное кол-во строк

In [21]:
df3 = pd.read_csv(r'C:\Users\Vadim\Downloads\example4.csv', sep=';', nrows=2)
df3

Unnamed: 0,client,balance,age
0,Ivan,1500.0,25
1,Petr,,30


Существует похожая функция **head**, которая позволяет выводить первые записи, но она работает уже с загруженными данными

In [36]:
df4 = pd.read_csv(r'C:\Users\Vadim\Downloads\example4.csv', sep=';')
df4.head(1)

Unnamed: 0,client;balance;age
0,Ivan;1500;25


## Задачи урока 4.2

In [164]:
import pandas as pd

df = pd.read_csv(r'C:\Users\Vadim\Downloads\Пассажиропоток_МосМетро_3.csv', sep='|', skiprows=[*range(5)])
clear_data = df.drop(df[df['Линия'].isnull()].index, axis=0)
clear_data['Входы пассажиров'].sum()

2514195123.0

In [203]:
import pandas as pd

df = pd.read_csv(r'C:\Users\Vadim\Downloads\Пассажиропоток_МосМетро_4.csv', sep='|', na_values={'IncomingPassengers': ['не указано', '0', 0]})
sum(df['IncomingPassengers'].isnull())

37

## 4.3 Учимся читать большие файлы кусочками

Файлы бывают по-настоящему огромные, грузить их в память не вариант, можно считывать их кусочками, создавая итератор, который выдает информацию по мере обращения с помощью функции **next** или цикла. Итератор создается благодаря аргументу **chunksize**

In [124]:
import pandas as pd

data = pd.read_csv(r'C:\Users\Vadim\Downloads\World University Rankings 2023.csv', chunksize=5)
next(data)

Unnamed: 0,University Rank,Name of University,Location,No of student,No of student per staff,International Student,Female:Male Ratio,OverAll Score,Teaching Score,Research Score,Citations Score,Industry Income Score,International Outlook Score
0,1,University of Oxford,United Kingdom,20965,10.6,42%,48 : 52,96.4,92.3,99.7,99.0,74.9,96.2
1,2,Harvard University,United States,21887,9.6,25%,50 : 50,95.2,94.8,99.0,99.3,49.5,80.5
2,3,University of Cambridge,United Kingdom,20185,11.3,39%,47 : 53,94.8,90.9,99.5,97.0,54.2,95.8
3,3,Stanford University,United States,16164,7.1,24%,46 : 54,94.8,94.2,96.7,99.8,65.0,79.8
4,5,Massachusetts Institute of Technology,United States,11415,8.2,33%,40 : 60,94.2,90.7,93.6,99.8,90.9,89.3


Пример использования:

In [189]:
import pandas as pd

totals = pd.Series([])
data = pd.read_csv(r'C:\Users\Vadim\Downloads\World University Rankings 2023.csv', chunksize=5)

for df in data: # достаем за каждую итерацию 5 строк
    totals = totals.add(df['Location'].value_counts(), fill_value=0)
    
totals.sort_values(ascending=False, inplace=True)

totals.head()

Location
United States     173.0
Japan             150.0
United Kingdom    149.0
India              91.0
China              82.0
dtype: object

**Сохранение датафрэйма в csv**

In [197]:
import pandas as pd

data = pd.read_csv(r'C:\Users\Vadim\Downloads\World University Rankings 2023.csv')
new_data = data[:5]

new_data.to_csv(r'C:\Users\Vadim\Downloads\new_data_university.csv', na_rep='Null', columns=['Location', 'Name of University'], index=False)

Аргумент **na_rep** позволяет задать пропуски в сохраняемом датафрэйме каким угодно именем

Аргумент **columns** позволяет задать сохраняемые столбцы на выбор

Если в сохраняемом файле не нужен индекс, ставим **index=False**

In [202]:
data = pd.read_csv(r'C:\Users\Vadim\Downloads\new_data_university.csv', index_col=0) # задает индекс по колонке

data

Unnamed: 0_level_0,Name of University
Location,Unnamed: 1_level_1
United Kingdom,University of Oxford
United States,Harvard University
United Kingdom,University of Cambridge
United States,Stanford University
United States,Massachusetts Institute of Technology


## Задачи урока 4.3

1.

In [222]:
import pandas as pd

data = pd.read_csv(r'C:\Users\Vadim\Downloads\users.csv', on_bad_lines='skip', sep=';')
female_data = data[data['sex'] == 'F']

female_data.to_csv(r'C:\Users\Vadim\Downloads\female_users.csv', sep=';', index=False, encoding='utf-8', columns=['username', 'mail'])

2.

In [233]:
import pandas as pd

data = pd.read_csv(r'C:\Users\Vadim\Downloads\users.csv', on_bad_lines='skip', sep=';', nrows=50)

len(data[data['sex'] == 'M'])

27

3.

In [270]:
import pandas as pd

data = pd.read_csv(r'C:\Users\Vadim\Downloads\users.csv', on_bad_lines='skip', sep=';', chunksize=30)

for index, chunk in enumerate(data):
    if index == 4:
        print(sum(chunk['blood_group'] == 'A+'))
        break

4


## 4.4 Кто такой JSON и как с ним подружиться?

In [28]:
import requests
import pandas as pd

# replace the "demo" apikey below with your own key from https://www.alphavantage.co/support/#api-key
url = 'https://www.alphavantage.co/query?function=TIME_SERIES_INTRADAY&symbol=IBM&interval=5min&apikey=demo'
r = requests.get(url)
data = r.json()

df = pd.DataFrame(data['Time Series (5min)']).T
df

Unnamed: 0,1. open,2. high,3. low,4. close,5. volume
2023-09-05 19:55:00,148.0100,148.2100,148.0100,148.0500,57
2023-09-05 19:50:00,148.2900,148.2900,148.2900,148.2900,1782
2023-09-05 19:30:00,148.1900,148.1900,148.1900,148.1900,1
2023-09-05 19:15:00,148.0600,148.0600,148.0600,148.0600,1
2023-09-05 19:10:00,148.0500,148.0500,148.0500,148.0500,1
...,...,...,...,...,...
2023-09-05 10:25:00,148.5950,148.6100,148.5000,148.5910,35171
2023-09-05 10:20:00,148.3400,148.5900,148.3000,148.5900,47876
2023-09-05 10:15:00,148.3500,148.3900,148.2800,148.3300,22730
2023-09-05 10:10:00,148.2300,148.4160,148.2300,148.3600,29879


## Задачи урока 4.4

In [50]:
import pandas as pd

data = pd.read_json(r'C:\Users\Vadim\Downloads\data-399-2022-07-01.json', encoding='windows-1251')
data[data['TicketCost'] == data['TicketCost'].min()]

Unnamed: 0,ID,NameOfTariff,TicketZone,global_id,NumberOfZone,TariffDistance,TypeOfTransport,NameOfCarrier,TicketCost,TicketValidity
17,7300,«Разовый» льготный,[{'TicketZone': 'в пределах железнодорожных ст...,19368812,-,-,"Пригородный электропоезд ЦППК, МТППК",[{'NameOfCarrier': 'АО «Центральная пригородна...,18.5,"указанная дата, но не более, чем 10 дней от да..."


In [81]:
import pandas as pd

data = pd.read_csv(r'C:\Users\Vadim\Downloads\users (3).csv', on_bad_lines='skip', sep=';', usecols=['username', 'name', 'sex'])
data.to_json(r'C:\Users\Vadim\Downloads\new_data.json')

## Задачи урока 4.5

Задача 1:

In [56]:
import pandas as pd

with pd.HDFStore(r'C:\Users\Vadim\Downloads\data_store2.h5') as data:
    print(data.keys())

['/parking_table', '/ser_district_value_counts']


In [55]:
data = pd.read_hdf(r'C:\Users\Vadim\Downloads\data_store2.h5', key='/parking_table')
data[data['District'].isin(['район Тропарёво-Никулино'])].Capacity.sum()

26

2.

Задача 2:

In [29]:
import pandas as pd

data = pd.read_html(r'C:\Users\Vadim\Downloads\23110000100100200001_Общий_прирост_постоянного_населения.html', 
                    skiprows=[1, 3, 4], header=1)
df = data[0].rename(columns={'Unnamed: 0': 'Наименование субъекта', 'Unnamed: 1': 'Код субъекта'})

df.dropna(axis=1, how='all', inplace=True)
df

Unnamed: 0,Наименование субъекта,Код субъекта,2014 г.,2015 г.,2016 г.,2017 г.,2018 г.,2019 г.,2020 г.,январь 2022 г..1
0,Центральный федеральный округ,30,131605.0,152840.0,105263.0,101831.0,66646.0,55497.0,-182596.0,-146560.0
1,Белгородская область,14000000000,3828.0,2201.0,2728.0,-2989.0,-2458.0,1733.0,-7892.0,-9342.0
2,Брянская область,15000000000,-9659.0,-7199.0,-5211.0,-9548.0,-10795.0,-7696.0,-9809.0,-13911.0
3,Владимирская область,17000000000,-7708.0,-8445.0,-7569.0,-11262.0,-12532.0,-7389.0,-16317.0,-18440.0
4,Воронежская область,20000000000,2188.0,2330.0,1931.0,-1640.0,-5947.0,-3616.0,-18597.0,-17930.0
...,...,...,...,...,...,...,...,...,...,...
94,Магаданская область,44000000000,-2241.0,-1726.0,-775.0,-1479.0,-2857.0,-1085.0,-1115.0,-1267.0
95,Сахалинская область,64000000000,-2636.0,-1098.0,51.0,2837.0,-543.0,-1381.0,-2636.0,-1444.0
96,Еврейская автономная область,99000000000,-2009.0,-2248.0,-1903.0,-2203.0,-2101.0,-1608.0,-1805.0,-2669.0
97,Чукотский автономный округ,77000000000,-15.0,-383.0,-335.0,-474.0,315.0,625.0,-761.0,513.0


In [67]:
df.loc[df['Наименование субъекта'] == 'Камчатский край', '2014 г.':'2020 г.'].sum(axis=1)

90   -8197.0
dtype: float64

Задача 3:

In [106]:
regions = ['Калужская область', 'Свердловская область', 'Кировская область', 'Ярославская область', 'Сахалинская область', 'Магаданская область']
sample_regions = df[df['Наименование субъекта'].isin(regions)]

sample_regions[sample_data['2020 г.'] == sample_data['2020 г.'].min()]

Unnamed: 0,Наименование субъекта,Код субъекта,январь 2022 г.,2014 г.,2015 г.,2016 г.,2017 г.,2018 г.,2019 г.,2020 г.,январь 2022 г..1,2014 г..1,2015 г..1,2016 г..1,2017 г..1,2018 г..1,2019 г..1,2020 г..1
67,Свердловская область,65000000000,,6795.0,2534.0,-665.0,-4085.0,-9557.0,-5018.0,-20614.0,-25727.0,,,,,,,


Задача 4:

In [131]:
from lxml import objectify

parsed = objectify.parse(r'C:\Users\Vadim\Downloads\users.xml')
root = parsed.getroot()

data = []

for el in root.element:
    d = {}
    for e in el.getchildren():
        d[e.tag] = e.text
    data.append(d)
    
df = pd.DataFrame(data)

(df.loc[df['sex'] == 'F', 'blood_group'] == 'B+').sum()

5

## Задачи урока 4.6

Задача 1:

In [57]:
import sqlalchemy as sql
import pandas as pd

con = sql.create_engine('sqlite:///C:/Users/Vadim/Downloads/local_db (1).db')
df = pd.read_sql('select Name, StationCapacity, Location from stations', con)
df['StationCapacity'] = df['StationCapacity'].astype(int)
df.sort_values(by=['StationCapacity', 'Name'], ascending=[False, True], inplace=True)

df.to_csv('C:/Users/Vadim/Downloads/result.csv', sep=';', index=False, encoding='utf-8')

Задача 2:

In [64]:
import pandas as pd

xlsx = pd.ExcelFile(r'C:\Users\Vadim\Downloads\Зарядные_станции_для_электромобилей.xlsx')

df1 = pd.read_excel(xlsx, '0', skiprows=1)
df2 = pd.read_excel(xlsx, '1')

df1.iloc[:, 3].value_counts().add(df2.iloc[:, 3].value_counts(), fill_value=0).sort_values(ascending=False).head(3)

Пресненский район    11.0
Мещанский район      10.0
Басманный район       9.0
Name: count, dtype: float64

## 5.1 Учимся обрабатывать пропуски

In [3]:
import numpy as np
import pandas as pd

data = pd.Series(['a', 'b', np.nan, 'c'])

data

0      a
1      b
2    NaN
3      c
dtype: object

Функция **isnull** возвращает булевый массив, где отсутствующие значения являются **True**

In [4]:
data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

Аналогичная функция **isna**

In [5]:
data.isna()

0    False
1    False
2     True
3    False
dtype: bool

Можно использовать функции как маску и тем самым фильтровать значения, но необходимо поставить логическое отрицание

In [9]:
data[~data.isna()]

0    a
1    b
3    c
dtype: object

In [10]:
data[data.notnull()]

0    a
1    b
3    c
dtype: object

Существует более популярная функция для очистки **NaN** значений - **dropna**, которая возвращает серию или датафрэйм без **NaN**

In [35]:
data2 = pd.Series(['a', 'b', np.nan, 'c', np.nan])
df = pd.DataFrame([[1, 2, 3], [np.nan, np.nan, np.nan], [np.nan, 4, 5], [7, np.nan, np.nan]])

data2

0      a
1      b
2    NaN
3      c
4    NaN
dtype: object

In [15]:
data2.dropna()

0    a
1    b
3    c
dtype: object

In [19]:
df

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,,
2,,4.0,5.0
3,7.0,,


Если функции **dropna** применятся к датафрэйму, то он оствляет только те строки, где нет **NaN** значений

In [20]:
df.dropna()

Unnamed: 0,0,1,2
0,1.0,2.0,3.0


Если необходимо удалить только те строки, в которых все значения равны **NaN**, тогда необходимо использовать аргумент **how='all'**

In [22]:
df.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
2,,4.0,5.0
3,7.0,,


Можно задавать ось по которой будет производиться удаление

In [24]:
df[3] = np.NaN
df

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,,,,
2,,4.0,5.0,
3,7.0,,,


In [25]:
df.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,,
2,,4.0,5.0
3,7.0,,


Параметром **thresh** мы можем сообщать функции dropna сколько не пустых значений должно быть в нашей строке/колонке. Например, если **thresh=3**, то функция **dropna** будет проверять чтобы в строке/колонке было минимум 3 непропущенных значения. Если больше, то хорошо, а вот если меньше, то такая строка будет удалена.

In [40]:
df2 = pd.DataFrame(np.random.rand(8, 3))
df2.loc[:3, 1] = np.nan
df2.loc[:1, 2] = np.nan

df2

Unnamed: 0,0,1,2
0,0.740343,,
1,0.805954,,
2,0.973037,,0.075404
3,0.572008,,0.060204
4,0.598004,0.781228,0.872921
5,0.122077,0.263306,0.204719
6,0.411224,0.617742,0.0993
7,0.084884,0.018445,0.446512


In [104]:
df2.dropna(thresh=2)

Unnamed: 0,0,1,2
2,0.973037,,0.075404
3,0.572008,,0.060204
4,0.598004,0.781228,0.872921
5,0.122077,0.263306,0.204719
6,0.411224,0.617742,0.0993
7,0.084884,0.018445,0.446512


## Задачи урока 5.1

1. На вход функции подаётся датафрейм, при помощи функции dropna удалите колонки в которых полностью отсутствуют значения (везде NaN)

In [47]:
import pandas as pd
import numpy as np

_df = pd.DataFrame([[0, np.nan, np.nan, 3, 4, 5, 6, 7, 8, np.nan],
                    [np.nan, 11, np.nan, 13, 14, 15, 16, 17, 18, np.nan],
                    [np.nan, np.nan, 22, 23, 24, 25, 26, 27, 28, np.nan],
                    [30, 31, 32, 33, 34, np.nan, 36, 37, 38, np.nan],
                    [40, 41, np.nan, 43, 44, 45, 46, 47, 48, np.nan],
                    [50, 51, 52, np.nan, 54, 55, np.nan, 57, 58, np.nan],
                    [60, 61, 62, 63, 64, np.nan, 66, 67, np.nan, np.nan],
                    [np.nan, 71, 72, 73, 74, 75, 76, 77, 78, np.nan],
                    [80, 81, 82, 83, 84, 85, np.nan, 87, 88, np.nan],
                    [90, 91, 92, 93, 94, 95, 96, 97, 98, np.nan]],
                   columns=["A", "B", "C", "D", "E", "F", "G", "H", "J", "K"])

_df

Unnamed: 0,A,B,C,D,E,F,G,H,J,K
0,0.0,,,3.0,4,5.0,6.0,7,8.0,
1,,11.0,,13.0,14,15.0,16.0,17,18.0,
2,,,22.0,23.0,24,25.0,26.0,27,28.0,
3,30.0,31.0,32.0,33.0,34,,36.0,37,38.0,
4,40.0,41.0,,43.0,44,45.0,46.0,47,48.0,
5,50.0,51.0,52.0,,54,55.0,,57,58.0,
6,60.0,61.0,62.0,63.0,64,,66.0,67,,
7,,71.0,72.0,73.0,74,75.0,76.0,77,78.0,
8,80.0,81.0,82.0,83.0,84,85.0,,87,88.0,
9,90.0,91.0,92.0,93.0,94,95.0,96.0,97,98.0,


In [49]:
def solution(_df):
    return _df.dropna(axis=1, how='all')

solution(_df)

Unnamed: 0,A,B,C,D,E,F,G,H,J
0,0.0,,,3.0,4,5.0,6.0,7,8.0
1,,11.0,,13.0,14,15.0,16.0,17,18.0
2,,,22.0,23.0,24,25.0,26.0,27,28.0
3,30.0,31.0,32.0,33.0,34,,36.0,37,38.0
4,40.0,41.0,,43.0,44,45.0,46.0,47,48.0
5,50.0,51.0,52.0,,54,55.0,,57,58.0
6,60.0,61.0,62.0,63.0,64,,66.0,67,
7,,71.0,72.0,73.0,74,75.0,76.0,77,78.0
8,80.0,81.0,82.0,83.0,84,85.0,,87,88.0
9,90.0,91.0,92.0,93.0,94,95.0,96.0,97,98.0


2. На вход функции подаётся датафрейм. При помощи функции dropna удалите строчки, где в ячейках А, С, D, G меньше трех значений (т.е. строки с двумя и более пропущенными значениями в ячейках А, С, D, G должны быть удалены; c одним пропуском - ок)

In [50]:
_df

Unnamed: 0,A,B,C,D,E,F,G,H,J,K
0,0.0,,,3.0,4,5.0,6.0,7,8.0,
1,,11.0,,13.0,14,15.0,16.0,17,18.0,
2,,,22.0,23.0,24,25.0,26.0,27,28.0,
3,30.0,31.0,32.0,33.0,34,,36.0,37,38.0,
4,40.0,41.0,,43.0,44,45.0,46.0,47,48.0,
5,50.0,51.0,52.0,,54,55.0,,57,58.0,
6,60.0,61.0,62.0,63.0,64,,66.0,67,,
7,,71.0,72.0,73.0,74,75.0,76.0,77,78.0,
8,80.0,81.0,82.0,83.0,84,85.0,,87,88.0,
9,90.0,91.0,92.0,93.0,94,95.0,96.0,97,98.0,


In [132]:
import pandas as pd

def solution(_df):
    return _df.dropna(subset=['A', 'C', 'D', 'G'], thresh=3)


solution(_df)

Unnamed: 0,A,B,C,D,E,F,G,H,J,K
0,0.0,,,3.0,4,5.0,6.0,7,8.0,
2,,,22.0,23.0,24,25.0,26.0,27,28.0,
3,30.0,31.0,32.0,33.0,34,,36.0,37,38.0,
4,40.0,41.0,,43.0,44,45.0,46.0,47,48.0,
6,60.0,61.0,62.0,63.0,64,,66.0,67,,
7,,71.0,72.0,73.0,74,75.0,76.0,77,78.0,
8,80.0,81.0,82.0,83.0,84,85.0,,87,88.0,
9,90.0,91.0,92.0,93.0,94,95.0,96.0,97,98.0,


3. На вход функции подаётся датафрейм, не пользуясь функцией dropna, отфильтруйте датафрейм так чтобы остались строчки, где в ячейках C и G нет пропусков.

In [133]:
_df

Unnamed: 0,A,B,C,D,E,F,G,H,J,K
0,0.0,,,3.0,4,5.0,6.0,7,8.0,
1,,11.0,,13.0,14,15.0,16.0,17,18.0,
2,,,22.0,23.0,24,25.0,26.0,27,28.0,
3,30.0,31.0,32.0,33.0,34,,36.0,37,38.0,
4,40.0,41.0,,43.0,44,45.0,46.0,47,48.0,
5,50.0,51.0,52.0,,54,55.0,,57,58.0,
6,60.0,61.0,62.0,63.0,64,,66.0,67,,
7,,71.0,72.0,73.0,74,75.0,76.0,77,78.0,
8,80.0,81.0,82.0,83.0,84,85.0,,87,88.0,
9,90.0,91.0,92.0,93.0,94,95.0,96.0,97,98.0,


In [146]:
import pandas as pd

def solution(_df):
    mask = (_df['C'].notnull()) & (_df['G'].notnull())
    return _df[mask]

solution(_df)

Unnamed: 0,A,B,C,D,E,F,G,H,J,K
2,,,22.0,23.0,24,25.0,26.0,27,28.0,
3,30.0,31.0,32.0,33.0,34,,36.0,37,38.0,
6,60.0,61.0,62.0,63.0,64,,66.0,67,,
7,,71.0,72.0,73.0,74,75.0,76.0,77,78.0,
9,90.0,91.0,92.0,93.0,94,95.0,96.0,97,98.0,


## 5.2 Проверяем данные на дубликаты и избавляемся от них

In [4]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.rand(8, 3))
df.loc[:3, 1] = np.nan
df.loc[:1, 2] = np.nan

df

Unnamed: 0,0,1,2
0,0.348479,,
1,0.621995,,
2,0.262114,,0.09692
3,0.849433,,0.720799
4,0.895799,0.080524,0.821957
5,0.934942,0.311764,0.849086
6,0.734298,0.698068,0.306827
7,0.124723,0.849055,0.705854


Не всегда пропущенные данные имеет смысл удалять, может понадобиться их просто заполнить дефолтными значениями. Функция **fillna** отлично с этим справляется

In [8]:
df.fillna(0) # все пропуски заполняются 0

Unnamed: 0,0,1,2
0,0.348479,0.0,0.0
1,0.621995,0.0,0.0
2,0.262114,0.0,0.09692
3,0.849433,0.0,0.720799
4,0.895799,0.080524,0.821957
5,0.934942,0.311764,0.849086
6,0.734298,0.698068,0.306827
7,0.124723,0.849055,0.705854


In [12]:
df.fillna({1: 100, 2: 300}) # заполняются выбранные столбцы дефолтными значениями

Unnamed: 0,0,1,2
0,0.348479,100.0,300.0
1,0.621995,100.0,300.0
2,0.262114,100.0,0.09692
3,0.849433,100.0,0.720799
4,0.895799,0.080524,0.821957
5,0.934942,0.311764,0.849086
6,0.734298,0.698068,0.306827
7,0.124723,0.849055,0.705854


Аргумент **method='ffill'** позволяет заполнить пропущенные значения передыщим значением. Можно поставить **limit** на кол-во заполнений

In [14]:
df2 = pd.DataFrame(np.random.rand(6, 3))
df2.iloc[2:, 1] = np.NaN
df2.iloc[4:, 2] = np.NaN

df2

Unnamed: 0,0,1,2
0,0.34443,0.250049,0.725987
1,0.221483,0.009385,0.969972
2,0.646746,,0.222905
3,0.402501,,0.875643
4,0.524413,,
5,0.649523,,


In [15]:
df2.fillna(method='ffill')

Unnamed: 0,0,1,2
0,0.34443,0.250049,0.725987
1,0.221483,0.009385,0.969972
2,0.646746,0.009385,0.222905
3,0.402501,0.009385,0.875643
4,0.524413,0.009385,0.875643
5,0.649523,0.009385,0.875643


In [19]:
df2.fillna(method='ffill', limit=1)

Unnamed: 0,0,1,2
0,0.34443,0.250049,0.725987
1,0.221483,0.009385,0.969972
2,0.646746,0.009385,0.222905
3,0.402501,,0.875643
4,0.524413,,0.875643
5,0.649523,,


Если требуется заполнение, но обратное, то необходимо использовать **method='bfill'**

In [22]:
df2.iloc[0, 0] = np.nan

df2

Unnamed: 0,0,1,2
0,,0.250049,0.725987
1,0.221483,0.009385,0.969972
2,0.646746,,0.222905
3,0.402501,,0.875643
4,0.524413,,
5,0.649523,,


In [23]:
df2.fillna(method='bfill')

Unnamed: 0,0,1,2
0,0.221483,0.250049,0.725987
1,0.221483,0.009385,0.969972
2,0.646746,,0.222905
3,0.402501,,0.875643
4,0.524413,,
5,0.649523,,


In [25]:
s1 = pd.Series([1, 5, np.nan, 5, np.nan])
s1

0    1.0
1    5.0
2    NaN
3    5.0
4    NaN
dtype: float64

Можно вставить любое значение, к примеру среднее по колонке:

In [28]:
df2.fillna({1: df2[1].mean()})

Unnamed: 0,0,1,2
0,,0.250049,0.725987
1,0.221483,0.009385,0.969972
2,0.646746,0.129717,0.222905
3,0.402501,0.129717,0.875643
4,0.524413,0.129717,
5,0.649523,0.129717,


Часто встречаются данные с дубликатами, работу с ними облегчает функция **duplicated**, которая возваращает серию с булевыми значениями, если строка дублирована - True, иначе False

In [29]:
df3 = pd.DataFrame({'group_name': ['A', 'B', 'A', 'B', 'A', 'B', 'B'],
                  'group_value': [10, 10, 20, 30, 30, 40, 40]})

df3

Unnamed: 0,group_name,group_value
0,A,10
1,B,10
2,A,20
3,B,30
4,A,30
5,B,40
6,B,40


In [30]:
df3.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

Чтобы удалить дублкаты используется функция **drop_duplicates**

In [31]:
df3.drop_duplicates()

Unnamed: 0,group_name,group_value
0,A,10
1,B,10
2,A,20
3,B,30
4,A,30
5,B,40


В функцию **drop_duplicates** можно передать список из столбцов, который работает след. образом см. ниже

Параметр **keep** у функции **drop_duplicates** очень важен и вы часто будете его задавать! Он определяет, какие дубликаты (если они есть) нужно сохранить. Вот значения, которые может принимать параметр keep:

* first : удалить дубликаты, кроме первого вхождения.
* last : удалить дубликаты, кроме последнего вхождения.
* False : удалить все дубликаты.

In [36]:
df3.drop_duplicates(['group_name']) # оставлет первые строки с уникальными значениями столбца group_name

Unnamed: 0,group_name,group_value
0,A,10
1,B,10


In [38]:
df3.drop_duplicates(['group_name'], keep='last') # оставлет последние строки с уникальными значениями столбца group_name

Unnamed: 0,group_name,group_value
4,A,30
6,B,40


Для преобразования данных используется функция **map**, которая принимает словарь или функцию в качестве аругмента и преобразовывает данные. Рассмотрим пример:

In [50]:
airport_data = pd.DataFrame({'airline': ['Air China', 'Jet Airways', 'Aeroflot', 'easyJet'], 'planes': [10, 4, 30, 2]})
country = {'Air China': 'China', 'Jet Airways': 'India', 'Aeroflot': 'Russia', 'easyJet': 'United Kingdom'}

airport_data

Unnamed: 0,airline,planes
0,Air China,10
1,Jet Airways,4
2,Aeroflot,30
3,easyJet,2


In [49]:
country

{'Air China': 'China',
 'Jet Airways': 'India',
 'Aeroflot': 'Russia',
 'easyJet': 'United Kingdom'}

In [56]:
airport_data['country'] = airport_data['airline'].map(country) # вытягиваем из словаря по ключу

airport_data

Unnamed: 0,airline,planes,country
0,Air China,10,China
1,Jet Airways,4,India
2,Aeroflot,30,Russia
3,easyJet,2,United Kingdom


In [59]:
airport_data['country'] = airport_data['airline'].map(lambda x: x.split())

airport_data

Unnamed: 0,airline,planes,country
0,Air China,10,"[Air, China]"
1,Jet Airways,4,"[Jet, Airways]"
2,Aeroflot,30,[Aeroflot]
3,easyJet,2,[easyJet]


## Задачи урока 5.1

1. На вход функции подается датафрейм, который содержит информацию о предпочитаемом классе в самолете для некоторых клиентов:

![1](https://ucarecdn.com/8f3477c0-48f2-4746-9f19-4d253ed866f2/)


В функцию также передается словарь, в котором лежит расшифровка каждого класса:

![2](https://ucarecdn.com/cbfbdebb-361a-419a-8385-6bccfc36b680/)

Примените функцию map для создания дополнительного столбца class-info, который расшифровывает букву класса:

![3](https://ucarecdn.com/3dfec4d8-4a1c-4734-84d2-5c13d471b160/)

In [61]:
import pandas as pd
import numpy as np

dic = {'client':['Sergey','Viktor','Pavel','Andrey','Petr'],'class':['A','B','A','C','D']}
df = pd.DataFrame(dic)
data = {'a':'business','b':'comfort','c':'econom','d':'promo'}

df

Unnamed: 0,client,class
0,Sergey,A
1,Viktor,B
2,Pavel,A
3,Andrey,C
4,Petr,D


In [62]:
data

{'a': 'business', 'b': 'comfort', 'c': 'econom', 'd': 'promo'}

In [81]:
def solution(_df, data):
    _df['class-info'] = _df['class'].map({k.upper(): v for k, v in  data.items()})
    return _df

solution(df, data)

Unnamed: 0,client,class,class_info,class-info
0,Sergey,A,business,business
1,Viktor,B,comfort,comfort
2,Pavel,A,business,business
3,Andrey,C,econom,econom
4,Petr,D,promo,promo


2. На вход функции подается датафрейм. Заполните пропуски по следующим правилам:
* Столбец А: 0
* Столбец B: среднее значение из столбца Е
* Столбец С: максимальное значение из столбца H
* Стобец F: по методу ffill
* Столбец G: по методу bfill

Дополнительно:

* Удалите столбец в котором все значения пропущены. Функцию drop не использовать!
* Удалите строки, в которых хотя бы одно значение пропущено

In [82]:
df = pd.DataFrame([[0, np.nan, np.nan, 3, 4, 5, 6, 7, 8, np.nan],
                    [np.nan, 11, np.nan, 13, 14, 15, 16, 17, 18, np.nan],
                    [np.nan, np.nan, 22, 23, 24, 25, 26, 27, 28, np.nan],
                    [30, 31, 32, 33, 34, np.nan, 36, 37, 38, np.nan],
                    [40, 41, np.nan, 43, 44, 45, 46, 47, 48, np.nan],
                    [50, 51, 52, np.nan, 54, 55, np.nan, 57, 58, np.nan],
                    [60, 61, 62, 63, 64, np.nan, 66, 67, np.nan, np.nan],
                    [np.nan, 71, 72, 73, 74, 75, 76, 77, 78, np.nan],
                    [80, 81, 82, 83, 84, 85, np.nan, 87, 88, np.nan],
                    [90, 91, 92, 93, 94, 95, 96, 97, 98, np.nan]], 
                  columns=["A", "B", "C", "D", "E", "F", "G", "H", "J", "K"])

df

Unnamed: 0,A,B,C,D,E,F,G,H,J,K
0,0.0,,,3.0,4,5.0,6.0,7,8.0,
1,,11.0,,13.0,14,15.0,16.0,17,18.0,
2,,,22.0,23.0,24,25.0,26.0,27,28.0,
3,30.0,31.0,32.0,33.0,34,,36.0,37,38.0,
4,40.0,41.0,,43.0,44,45.0,46.0,47,48.0,
5,50.0,51.0,52.0,,54,55.0,,57,58.0,
6,60.0,61.0,62.0,63.0,64,,66.0,67,,
7,,71.0,72.0,73.0,74,75.0,76.0,77,78.0,
8,80.0,81.0,82.0,83.0,84,85.0,,87,88.0,
9,90.0,91.0,92.0,93.0,94,95.0,96.0,97,98.0,


In [104]:
df.fillna({'A': 0, 'B': df['E'].mean(), 'C': df['H'].max()}, inplace=True)
df['F'].fillna(method='ffill', inplace=True)
df['G'].fillna(method='bfill', inplace=True)
df.dropna(axis=1, how='all', inplace=True)
df.dropna(inplace=True)

df

Unnamed: 0,A,B,C,D,E,F,G,H,J
0,0.0,49.0,97.0,3.0,4,5.0,6.0,7,8.0
1,0.0,11.0,97.0,13.0,14,15.0,16.0,17,18.0
2,0.0,49.0,22.0,23.0,24,25.0,26.0,27,28.0
3,30.0,31.0,32.0,33.0,34,25.0,36.0,37,38.0
4,40.0,41.0,97.0,43.0,44,45.0,46.0,47,48.0
7,0.0,71.0,72.0,73.0,74,75.0,76.0,77,78.0
8,80.0,81.0,82.0,83.0,84,85.0,96.0,87,88.0
9,90.0,91.0,92.0,93.0,94,95.0,96.0,97,98.0


3. На вход функции подается уже знакомый датафрейм с клиентами авиакомпании:

![1](https://ucarecdn.com/cf9cd201-57d9-4c14-baee-83717ddfb919/)

Оператор call-центра не проверил присутствие некоторых клиентов в списке и повторно внес информацию. Найдите все повторяющиеся записи в датафрейме. 

Функция должна вернуть новый датафрейм в котором будут оригинал записи + его дубликаты. Записи, которые не имеют дубликатов не должны попасть в новый датафрейм.

In [110]:
import pandas as pd

def solution(_df):
    return _df[_df.duplicated(keep=False)]

df = pd.DataFrame({'client': ['Sergey', 'Victor', 'Pavel', 'Andrey', 'Petr', 'Sergey'], 
                   'class': ['A', 'B', 'A', 'C', 'D', 'A']})

solution(df)

Unnamed: 0,client,class
0,Sergey,A
5,Sergey,A


## 5.3 Про замену значений и дискретизацию

Функция **replace** помогает заменить значения в датафрэйме

In [2]:
import pandas as pd
import numpy as np

temp = pd.Series([24, -9999, 22, -8888, 18, 26, -9999])

temp

0      24
1   -9999
2      22
3   -8888
4      18
5      26
6   -9999
dtype: int64

In [3]:
temp.replace(-9999, 0)

0      24
1       0
2      22
3   -8888
4      18
5      26
6       0
dtype: int64

In [5]:
temp.replace([-9999, -8888], [0, 1])

0    24
1     0
2    22
3     1
4    18
5    26
6     0
dtype: int64

In [6]:
temp.replace({-9999: 0, -8888: 1})

0    24
1     0
2    22
3     1
4    18
5    26
6     0
dtype: int64

С помощью функции **rename** можно заменить значения лэйблов строк или колонок

In [7]:
df = pd.DataFrame({'client': ['Sergey', 'Victor', 'Pavel', 'Andrey', 'Petr', 'Sergey'], 
                   'class': ['A', 'B', 'A', 'C', 'D', 'A']})

df

Unnamed: 0,client,class
0,Sergey,A
1,Victor,B
2,Pavel,A
3,Andrey,C
4,Petr,D
5,Sergey,A


In [8]:
df.rename(columns={'client': 'CLIENT'}, index={3: 'Three'})

Unnamed: 0,CLIENT,class
0,Sergey,A
1,Victor,B
2,Pavel,A
Three,Andrey,C
4,Petr,D
5,Sergey,A


Интересная функция - **cut**, которая позволяет разбить данные на категории

In [17]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100] # интервал
 
pd.cut(ages, bins)

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

Если необходимо изменить включения, применяем аргумент **right**

In [16]:
result = pd.cut(ages, bins, right=False)

result.categories

IntervalIndex([[18, 25), [25, 35), [35, 60), [60, 100)], dtype='interval[int64, left]')

In [19]:
result.codes # индекс интервала

array([0, 0, 1, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

Вычислим кол-во людей в возрастной группе:

In [20]:
result.value_counts()

[18, 25)     4
[25, 35)     4
[35, 60)     3
[60, 100)    1
Name: count, dtype: int64

Название интервалов можно изменить с помощью параметра **labels**

In [25]:
result = pd.cut(ages, bins, right=False, labels=['Young', 'Adult', 'Aged', 'Senior'])

result.value_counts()

Young     4
Adult     4
Aged      3
Senior    1
Name: count, dtype: int64

Функция **cut** достаточно умная и может сама задавать интервалы, главное указать сколько их необходимо

In [37]:
car_gas = [200, 220, 205, 207, 201, 230, 307, 310, 601, 405, 401, 302]
res = pd.cut(car_gas, 4)

res.value_counts()

(199.599, 300.25]    6
(300.25, 400.5]      3
(400.5, 500.75]      2
(500.75, 601.0]      1
Name: count, dtype: int64

Если необходимо сделать разбивку по категориям с равным кол-вом значений, то на помощь приходит функция **qcut**

In [36]:
res = pd.qcut(car_gas, 4)

res.value_counts()

(199.999, 206.5]    3
(206.5, 266.0]      3
(266.0, 332.75]     3
(332.75, 601.0]     3
Name: count, dtype: int64

## Задачи урока 5.3

1. Сегодня наш друг Николай (владелец сети кинотеатров) просит нас о помощи. Николай хочет запустить в прокат новый индийский фильм с известным актером, но пока не понимает на сколько фильм может быть успешен. Для этого он собрал группу из 50 человек и устроил для них закрытый показ. После закрытого показа каждый зритель поставил оценку от 0 до 10, где 0 - совсем плохо, 10 - отлично. Николай начинал проходить курс по основам Pandas, но остановился где-то на сериях, поэтому он подготовил серию в которой хранятся все оценки зрителей:

![1](https://ucarecdn.com/94a5a6f9-5652-44d3-ac8c-63dcc0d17675/)

И теперь он хочет разбить все оценки на три группы:

* 0-4 - Плохо
* 5-7 - Так себе
* 8-10 - Отлично

А потом посчитать по каждой группе количество оценок. Помогите Николаю посчитать результаты). Ваша функция solution должна вернуть серию в которой будут лежать названия групп (индекс) и количество оценок (значения).

In [39]:
import pandas as pd

s = [8, 9, 2, 0, 3, 8, 3, 9, 6, 5, 7, 0, 3, 0, 6, 7, 3, 9, 3, 5, 1, 4, 6, 5, 7, 5, 
     7, 6, 4, 6, 6, 1, 9, 1, 5, 8, 4, 6, 8, 5, 9, 5, 7, 9, 9, 1, 1, 0, 1, 0]

In [48]:
def solution(s1):
    result = pd.cut(s1, [0, 5, 8, 11], right=False, labels=['Плохо', 'Так себе', 'Отлично'])
    return result.value_counts()

solution(s)

Плохо       20
Так себе    19
Отлично     11
Name: count, dtype: int64

2. Костя, один из студентов нашего курса, кажется все понял про функцию map и решил применить свою функцию get_sklad_number к значениям из серии s1:

![1](https://ucarecdn.com/a37bebf2-cb34-45ea-b5d0-7cdc5ac54d90/)

Функция вытаскивает из названия склада его номер. Но у него что-то пошло не так и код не запускается. Помогите Косте исправить ошибки в коде.

In [59]:
import pandas as pd

"""
На вход функции get_sklad_number подается имя склада
Функция разбивает имя склада на слово Sklad и его номер
Номер склада преобразуется из str в int
Функция возвращает номер склада
"""
def get_sklad_number(sklad_name):
    _, sklad_number = sklad_name.split()
    number_as_int = int(sklad_number)
    return number_as_int

def solution(s1):
    result = s1.map(get_sklad_number)
    return result


solution(pd.Series(['Sklad 26', 'Sklad 18', 'Sklad 36', 'Sklad 5']))

0    26
1    18
2    36
3     5
dtype: int64

3. На вход функции подается датафрейм с наиболее популярными веб-сайтами за последний месяц в мире. У некоторых веб-сайтов не верно записано доменное имя: вместо .com -> .cm или .om, а вместо .ru -> рф. По всей видимости данные в систему вносил человек, который не очень знаком с интернетом. Замените значения в ячейках на корректные:

![1](https://ucarecdn.com/5b5bd43a-921e-4149-8894-a34faee20973/)

Условие: примените функцию replace.

In [102]:
import pandas as pd

def solution(df):
    df['Название сайта'] = df['Веб-сайт'].map(lambda x: x.split('.')[0])
    df['Домен'] = df['Веб-сайт'].map(lambda x: x.split('.')[1])
    df.replace(['r', 'рф', 'cm', 'om'], ['ru', 'ru', 'com', 'com'], inplace=True)
    df['Веб-сайт'] = df['Название сайта'] + '.' + df['Домен']
    df.drop(columns=['Название сайта', 'Домен'], inplace=True)
    return df


_df = pd.DataFrame({'Веб-сайт': ['google.com', 'youtube.com', 'facebook.cm',
                  'twitter.com', 'instagram.com', 'baidu.com', 'wikipedia.org',
                   'yandex.рф', 'yahoo.cm', 'whatsapp.om']})

solution(_df)

Unnamed: 0,Веб-сайт
0,google.com
1,youtube.com
2,facebook.com
3,twitter.com
4,instagram.com
5,baidu.com
6,wikipedia.org
7,yandex.ru
8,yahoo.com
9,whatsapp.com
