In [3]:
import numpy as np
import pandas as pd

In [2]:
data = {'city' : ['Moscow','Moscow','Moscow','Kazan','Kazan','Kazan'],
       'year' : ['2022','2021','2020','2022','2021','2020'],
       'visits' : [500, 2000, 1500, 100, 230, 200]}
data

{'city': ['Moscow', 'Moscow', 'Moscow', 'Kazan', 'Kazan', 'Kazan'],
 'year': ['2022', '2021', '2020', '2022', '2021', '2020'],
 'visits': [500, 2000, 1500, 100, 230, 200]}

In [10]:
df = pd.DataFrame(data)
df

Unnamed: 0,city,year,visits
0,Moscow,2022,500
1,Moscow,2021,2000
2,Moscow,2020,1500
3,Kazan,2022,100
4,Kazan,2021,230
5,Kazan,2020,200


In [4]:
#Пандас хранит названия наших колонок и строк в специальных контейнерах:
df.index

RangeIndex(start=0, stop=6, step=1)

In [5]:
df.columns

Index(['city', 'year', 'visits'], dtype='object')

In [7]:
#Изменить название строки/колонки обычным способом у нас не получится
df.columns[0] = 'test'

TypeError: Index does not support mutable operations

- изменим наш DataFrame. Функция reindex()

In [11]:
df

Unnamed: 0,city,year,visits
0,Moscow,2022,500
1,Moscow,2021,2000
2,Moscow,2020,1500
3,Kazan,2022,100
4,Kazan,2021,230
5,Kazan,2020,200


In [13]:
df = df.reindex(['city','visits'], axis = 1)
df

Unnamed: 0,city,visits
0,Moscow,500
1,Moscow,2000
2,Moscow,1500
3,Kazan,100
4,Kazan,230
5,Kazan,200


- создадим новую колонку

In [14]:
df = df.reindex(['city','visits','vis'], axis = 1)
df

Unnamed: 0,city,visits,vis
0,Moscow,500,
1,Moscow,2000,
2,Moscow,1500,
3,Kazan,100,
4,Kazan,230,
5,Kazan,200,


- Поработаем аналогичным образом со строками

In [16]:
df = df.reindex([0, 1,2,3,4,5,'ad'], axis = 0)
df

Unnamed: 0,city,visits,vis
0,Moscow,500.0,
1,Moscow,2000.0,
2,Moscow,1500.0,
3,Kazan,100.0,
4,Kazan,230.0,
5,Kazan,200.0,
ad,,,


- Как просто что то дропнуть. Функция drop. По умолчанию axis = 0

drop возвращает новый датафрэйм, не меняя исходный!

Если не хотите париться с осями, да и вообще иметь возможность за один раз удалить и строки, и столбцы:
У df.drop() есть параметры: 

- columns=  (туда список со столбцами для удаления)

- index= (сюда список со строками для удаления). Тогда axis прописывать НЕ нужно.

- Параметр inplace=(True/False)- изменяет именно исходный dataFrame. Но лучше все же присваивать! Т.к. если у нас нет бэкапа данных, то inplace удалит данные прям вообще. Прям совсем, прям навсегда!
Причины, почему следует избегать inplace:

https://towardsdatascience.com/why-you-should-probably-never-use-pandas-inplace-true-9f9f211849e4

https://github.com/pandas-dev/pandas/issues/16529

In [28]:
df2 = df.drop('vis', axis = 1)
df2

Unnamed: 0,city,visits
0,Moscow,500.0
1,Moscow,2000.0
2,Moscow,1500.0
3,Kazan,100.0
4,Kazan,230.0
5,Kazan,200.0
ad,,


In [29]:
df

Unnamed: 0,city,visits,vis
0,Moscow,500.0,
1,Moscow,2000.0,
2,Moscow,1500.0,
3,Kazan,100.0,
4,Kazan,230.0,
5,Kazan,200.0,
ad,,,


In [31]:
df.drop('vis', axis = 1, inplace=True)
df

Unnamed: 0,city,visits
0,Moscow,500.0
1,Moscow,2000.0
2,Moscow,1500.0
3,Kazan,100.0
4,Kazan,230.0
5,Kazan,200.0
ad,,


#### Промежуточное резюме по reindex и drop.
- reindex - передаем те строки/столбцы, которые хотим оставить
- drop - передаем те, которые хотим сисключить

#### Индексация, выборка, фильтрация

In [32]:
s1 = pd.Series([10,20,30,40,50], index = ['a', 'b', 'c','d','e'])
s1

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [33]:
s1['b']

20

In [35]:
#Серия так же поддерживает и Numpyевские индексы
s1[1]

20

In [36]:
s1[1:3]

b    20
c    30
dtype: int64

In [39]:
#Здесь так же работает прихотливая индексация
s1[['a','c','e']], s1[[0,2,4]]

(a    10
 c    30
 e    50
 dtype: int64,
 a    10
 c    30
 e    50
 dtype: int64)

In [41]:
#И вот так тоже работает. НО!!!!
s1['a':'c']

a    10
b    20
c    30
dtype: int64

- Но здесь тонкий момент: если лейблы будут в смешанном порядке, то слайсинг будет не по алфавитному порядку, а по "физическому" порядку.

In [48]:
s2 = pd.Series([10, 20, 30, 40, 50, 60], index=['c', 'd', 'e', 'a', 'f', 'b'])
s2['a':'b']

a    40
f    50
b    60
dtype: int64

In [50]:
s2['a':'c']

Series([], dtype: int64)

#### Маски

In [43]:
mask = s1 > 30
mask

a    False
b    False
c    False
d     True
e     True
dtype: bool

In [45]:
#Получим элементы по маске
s1[mask]

d    40
e    50
dtype: int64

In [47]:
#Ну или можно делать корое
s1[s1>30]

d    40
e    50
dtype: int64

#### Продолжим с DataFrame

In [55]:
df = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['Moscow', 'Vladivostok', 'Ufa', 'Kazan'], columns=['col_1', 'col_2', 'col_3', 'col_4'])

In [56]:
df

Unnamed: 0,col_1,col_2,col_3,col_4
Moscow,0,1,2,3
Vladivostok,4,5,6,7
Ufa,8,9,10,11
Kazan,12,13,14,15


In [58]:
#Вытянем один столбец
df['col_2']

Moscow          1
Vladivostok     5
Ufa             9
Kazan          13
Name: col_2, dtype: int32

In [59]:
#Вытянем два столбца с помощью листа
df[['col_2', 'col_4']]

Unnamed: 0,col_2,col_4
Moscow,1,3
Vladivostok,5,7
Ufa,9,11
Kazan,13,15


In [61]:
#Попробуем передать индексы
#У нас ничего не получается, но! см. ниже.
df[0]

KeyError: 0

In [62]:
#Со слайсингами все прекрасно работает!
df[:2]

Unnamed: 0,col_1,col_2,col_3,col_4
Moscow,0,1,2,3
Vladivostok,4,5,6,7


#### Важно помнить про слайсинг:
- если слайсинг по индексам (как у массива), то правая граница не будет взята ни в серии ни в DF
- если слайсинг по лейблам (меткам), то правая граница будет взята и в серии и в DF

In [64]:
#Что будет. если мы передадим маску
mask = [True, True, False, False]
df[mask]

Unnamed: 0,col_1,col_2,col_3,col_4
Moscow,0,1,2,3
Vladivostok,4,5,6,7


In [66]:
# зададим маску по значениям
mask = df['col_3'] > 9
df[mask]

Unnamed: 0,col_1,col_2,col_3,col_4
Ufa,8,9,10,11
Kazan,12,13,14,15


#### Реальная практическая задача
Мы хотим прогнать все значения в нашем датасэте и оставить только определенные. Которые соответствуют нашим требованиям.

- Формируем двумерную маску

In [69]:
df < 10

Unnamed: 0,col_1,col_2,col_3,col_4
Moscow,True,True,True,True
Vladivostok,True,True,True,True
Ufa,True,True,False,False
Kazan,False,False,False,False


In [71]:
#Обратимся к нашему df, передадим маску и присвоим определенное значение
df[df < 10] = 5
df

Unnamed: 0,col_1,col_2,col_3,col_4
Moscow,5,5,5,5
Vladivostok,5,5,5,5
Ufa,5,5,10,11
Kazan,12,13,14,15


In [72]:
#Теперь оставшимся значениям, присвоим что нибудь еще :)

In [73]:
mask = df < 10
df[~mask] = 666
df

Unnamed: 0,col_1,col_2,col_3,col_4
Moscow,5,5,5,5
Vladivostok,5,5,5,5
Ufa,5,5,666,666
Kazan,666,666,666,666


### Практика

Step_3.9.1 - На вход подаётся датафрейм. Проверьте, есть ли в нём строка с лейблом f 
Функция должна вернуть True если строка есть, иначе False

In [81]:
_df = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['a', 'b', 'c', 'f'], columns=['col_1', 'col_2', 'col_3', 'col_4'])

In [82]:
_df

Unnamed: 0,col_1,col_2,col_3,col_4
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
f,12,13,14,15


In [83]:
import pandas as pd

def solution(_df):
    result = 'f' in _df.index
    return result

In [84]:
solution(_df)

True

Step_3.9.2 - На вход подаётся датафрейм. Проверьте, есть ли в нём колонка user_name и строка с лейблом f 

Функция должна вернуть True если колонка и строка существуют, иначе False

In [101]:
import pandas as pd

def solution(_df):
    result = 'f' in _df.index and'user_name' in _df.columns
    return result

In [102]:
solution(_df)

False

In [103]:
#Вариант  записи с &
import pandas as pd

def solution(_df):
    result = ("f" in _df.index) & ("user_name" in _df.columns)
    return result

In [None]:
#Вариант с all
import pandas as pd

def solution(df):
    result = all(('user_name' in df.columns, 'f' in df.index))
    return result

Step_3.9.3 - На вход подаётся датафрейм:
![Картинка испарилась(((](https://ucarecdn.com/57a2d86b-3f14-4d14-badf-77a5422d9883/)
удалите из названий колонок префикс user_. Функция должна вернуть датафрейм с названием колонок без префикса user_:
![Картинка испарилась(((](https://ucarecdn.com/0c684155-a4a0-43f2-b95d-15df1fd02a17/)                   

In [173]:
data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]
_df = pd.DataFrame(data, columns=['user_name', 'user_age', 'user_clicks', 'user_balance', 'user_history'], index=list('abcdefg'))
_df

Unnamed: 0,user_name,user_age,user_clicks,user_balance,user_history
a,Ivan,25,4,50,1
b,Petr,40,9,250,8
c,Nikolay,19,12,25,1
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4
f,Ilya,20,18,15,2
g,Igor,19,2,10,1


In [174]:
import pandas as pd
import numpy as np
def solution(_df):
    _df.columns = ['name','age','clicks','balance','history']
    return _df
solution(_df)

Unnamed: 0,name,age,clicks,balance,history
a,Ivan,25,4,50,1
b,Petr,40,9,250,8
c,Nikolay,19,12,25,1
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4
f,Ilya,20,18,15,2
g,Igor,19,2,10,1


In [None]:
#Решение с replace
import pandas as pd
import numpy as np
def solution(_df):
    _df.columns = _df.columns.str.replace('user_', '')
    return _df

In [None]:
#Решение со слайсами
import pandas as pd
import numpy as np
def solution(_df):
    _df.columns =  _df.columns.str[5:]
    return _df

In [None]:
#Решение с .str.lstrip('user_')
import pandas as pd
import numpy as np
def solution(_df):
    _df.columns = _df.columns.str.lstrip('user_')
    return _df

In [None]:
#Решение с reindex
import pandas as pd
import numpy as np
def solution(_df):
    _df = _df.reindex(['name', 'age', 'clicks', 'balance', 'history'], axis=1)
    return _df

Step_3.9.5 - На вход подаётся датафрейм:
![Картинка испарилась(((](https://ucarecdn.com/8c5c6322-142b-4ddb-9eae-a2d58f380586/)
выполните реиндекс строк таким образом, чтобы остались только строчки с лейблами, которые перечислены в листе 
lst = ['a', 'f', 'g']

In [9]:
import pandas as pd

def solution(_df):
    lst = ['a', 'f', 'g']
    _df = _df.reindex(lst)
    return _df

In [10]:
solution(_df)

Unnamed: 0,name,age,clicks,balance,history
a,Ivan,25,4,50,1
f,Ilya,20,18,15,2
g,Igor,19,2,10,1


Step_3.9.6 - На вход подаётся датафрейм:
![Картинка испарилась(((](https://ucarecdn.com/8c5c6322-142b-4ddb-9eae-a2d58f380586/)
удалите из датафрейма строчки c лейблами c, f, g и колонку c лейблом history. Верните итоговый датафрейм.

In [25]:
import pandas as pd

def solution(_df):
    _df1 = _df.drop(index = ['c', 'f', 'g'], columns = 'history')
    return _df1

In [26]:
solution(_df)

Unnamed: 0,name,age,clicks,balance
a,Ivan,25,4,50
b,Petr,40,9,250
d,Sergey,33,6,115
e,Andrey,38,2,152


Step_3.9.7 - На вход подаётся датафрейм:
![Картинка испарилась(((](https://ucarecdn.com/8c5c6322-142b-4ddb-9eae-a2d58f380586/)
вытяните столбцы name, age, balance. Функция должна вернуть датафрейм
![Картинка испарилась(((](https://ucarecdn.com/a5717c4d-ff6d-4f75-bf0f-729c529ce54e/)

In [33]:
import pandas as pd

def solution(_df):
    return _df[['name','age','balance']]

In [34]:
solution(_df)

Unnamed: 0,name,age,balance
a,Ivan,25,50
b,Petr,40,250
c,Nikolay,19,25
d,Sergey,33,115
e,Andrey,38,152
f,Ilya,20,15
g,Igor,19,10


Step_3.9.9 - На вход подаётся датафрейм:
![Картинка испарилась(((](https://ucarecdn.com/8c5c6322-142b-4ddb-9eae-a2d58f380586/)
вытяните последние три строки со столбцами name и balance Функция должна вернуть итоговый датафрейм:
![Картинка испарилась(((](https://ucarecdn.com/b1684d09-593f-4334-ac24-86b581af4df6/)

In [46]:
import pandas as pd

def solution(_df):
    result = _df[['name', 'balance']][-3:]
    return result

In [47]:
solution(_df)

Unnamed: 0,name,balance
e,Andrey,152
f,Ilya,15
g,Igor,10


Step_3.9.10 - На вход подаётся датафрейм:
![Картинка испарилась(((](https://ucarecdn.com/8c5c6322-142b-4ddb-9eae-a2d58f380586/)
выведите только тех пользователей, которые старше 30 лет:
![Картинка испарилась(((](https://ucarecdn.com/d3b65da1-4763-4b12-aa0d-68c6e434a829/)
Функция должна вернуть получившийся датафрейм.

In [52]:
import pandas as pd

def solution(_df):
    result = _df[_df['age'] > 30]
    return result

In [53]:
solution(_df)

Unnamed: 0,name,age,clicks,balance,history
b,Petr,40,9,250,8
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4


Step_3.9.11 - На вход подаётся датафрейм:
![Картинка испарилась(((](https://ucarecdn.com/8c5c6322-142b-4ddb-9eae-a2d58f380586/)
выведите пользователей, которые младше 30 лет и баланс больше 20:
![Картинка испарилась(((](https://ucarecdn.com/bd74a8c0-5b69-4826-b724-87c431151d0e/)
Функция должна вернуть получившийся датафрейм.

In [91]:
import pandas as pd

def solution(_df):
    result =  _df[(_df['age'] < 30) & (_df['balance'] > 20)]
    return result

In [92]:
solution(_df)

Unnamed: 0,name,age,clicks,balance,history
a,Ivan,25,4,50,1
c,Nikolay,19,12,25,1


Step_3.9.13 - На вход подаётся датафрейм:
![Картинка испарилась(((](https://ucarecdn.com/8c5c6322-142b-4ddb-9eae-a2d58f380586/)
определите пользователей у которых баланс больше 100. Возьмите две колонки name и age, а затем отдайте получившийся датафрейм на проверку:
![Картинка испарилась(((](https://ucarecdn.com/7c1dbe58-26b0-4f2b-93fa-adccef375c06/)

In [98]:
import pandas as pd

def solution(_df):
    _df1 = _df[['name', 'age']][_df['balance'] > 100]
    return _df1

In [99]:
solution(_df)

Unnamed: 0,name,age
b,Petr,40
d,Sergey,33
e,Andrey,38


Step_3.9.14 - На вход подаётся датафрейм:
![Картинка испарилась(((](https://ucarecdn.com/8c5c6322-142b-4ddb-9eae-a2d58f380586/)
выберите из датафрейма записи, если имя пользователя Petr или Andrey. От получившегося датафрейма возьмите три столбца: name, age, balance: 
![Картинка испарилась(((](https://ucarecdn.com/55f8471b-495a-4b34-ad7b-aa58d492cb15/)

In [106]:
import pandas as pd

def solution(_df):
    _df1 = _df[['name', 'age', 'balance']][(_df['name'] == 'Petr') | (_df['name'] == 'Andrey')]
    return _df1

In [107]:
solution(_df)

Unnamed: 0,name,age,balance
b,Petr,40,250
e,Andrey,38,152


Step_3.9.15 - На вход подаётся датафрейм:
![Картинка испарилась(((](https://ucarecdn.com/8c5c6322-142b-4ddb-9eae-a2d58f380586/)
В компании было принято решение обнулить баланс для пользователей у которых баланс меньше 100. Вы были выбраны исполнителем. Отредактируйте колонку balance.
Итоговый датафрейм, который должна вернуть ваша функция:
![Картинка испарилась(((](https://ucarecdn.com/cda2748c-b149-46d6-9aa1-88822d7ffa32/)

In [191]:
data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]
_df = pd.DataFrame(data, columns=['name', 'age', 'uclicks', 'balance', 'history'], index=list('abcdefg'))
_df

Unnamed: 0,name,age,uclicks,balance,history
a,Ivan,25,4,50,1
b,Petr,40,9,250,8
c,Nikolay,19,12,25,1
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4
f,Ilya,20,18,15,2
g,Igor,19,2,10,1


In [193]:
import pandas as pd
import numpy as np
def solution(_df):
    _df['balance'][_df['balance'] < 100] = 0    
    return _df

In [194]:
solution(_df)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  _df['balance'][_df['balance'] < 100] = 0


Unnamed: 0,name,age,uclicks,balance,history
a,Ivan,25,4,0,1
b,Petr,40,9,250,8
c,Nikolay,19,12,0,1
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4
f,Ilya,20,18,0,2
g,Igor,19,2,0,1


In [195]:
#Еще один вариант
import pandas as pd
import numpy as np

def solution(_df):
    _df['balance'] = np.where(_df['balance'] < 100, 0, _df['balance'])
    return _df