In [4]:
import pandas as pd
import numpy as np
from numpy import nan as NA

In [28]:
df = pd.DataFrame(np.random.rand(8,3))

In [29]:
df.iloc[:4,1] = NA
df.iloc[:2,2] = NA

In [30]:
df

Unnamed: 0,0,1,2
0,0.746599,,
1,0.344444,,
2,0.421447,,0.816129
3,0.867264,,0.260847
4,0.455451,0.962256,0.24267
5,0.403667,0.828626,0.87456
6,0.495132,0.057837,0.170847
7,0.922443,0.588521,0.296757


- fillna() - Заменяет пропущенные значения на указанные
!ВАЖНО. Так же есть параметр inplace, чтобы изменять исходный датасэт

In [8]:
#Передадим в нее словарь, чтобы заменить значения в столбцах на необходимые нам
df.fillna({1 : -1, 2 : 0})

Unnamed: 0,0,1,2
0,0.187647,-1.0,0.0
1,0.081246,-1.0,0.0
2,0.369647,-1.0,0.603541
3,0.802042,-1.0,0.529623
4,0.605179,0.308742,0.207507
5,0.773511,0.643053,0.784463
6,0.998254,0.503943,0.434917
7,0.358057,0.222776,0.680562


## Более продвинутые способы заполнений пропущенных значений

In [10]:
df2 = pd.DataFrame(np.random.randn(6,3))
df2.iloc[2:,1] = NA
df2.iloc[4:,2] = NA
df2

Unnamed: 0,0,1,2
0,-0.005621,0.814194,0.57627
1,-0.4553,-0.749799,-0.339948
2,-0.698316,,2.178052
3,0.036292,,-1.140059
4,-0.025285,,
5,0.946751,,


- ffill - заполняет пропущенные значения "вниз/вперед"

ffill - forward fill - заполнять вперед

In [20]:
#Заполним наши пропуски существующим значение из df
#Осуществляется это с помощью ffill
df2.fillna(method='ffill')

Unnamed: 0,0,1,2
0,,0.814194,0.57627
1,-0.4553,-0.749799,-0.339948
2,-0.698316,-0.749799,2.178052
3,0.036292,-0.749799,-1.140059
4,-0.025285,-0.749799,-1.140059
5,0.946751,-0.749799,-1.140059


- limit - ограничитель заполняетмости в ffill

In [15]:
df2.fillna(method='ffill', limit=1)

Unnamed: 0,0,1,2
0,-0.005621,0.814194,0.57627
1,-0.4553,-0.749799,-0.339948
2,-0.698316,-0.749799,2.178052
3,0.036292,,-1.140059
4,-0.025285,,-1.140059
5,0.946751,,


- bfill - заполняет пропущенные значения "вверх/назад"

bfill - back fill - заполнять назад

In [21]:
#изменим DF, чтобы пропущенные значения были в начале
df2.iloc[0,0] = NA
df2

Unnamed: 0,0,1,2
0,,0.814194,0.57627
1,-0.4553,-0.749799,-0.339948
2,-0.698316,,2.178052
3,0.036292,,-1.140059
4,-0.025285,,
5,0.946751,,


In [19]:
df2.fillna(method='bfill')

Unnamed: 0,0,1,2
0,-0.4553,0.814194,0.57627
1,-0.4553,-0.749799,-0.339948
2,-0.698316,,2.178052
3,0.036292,,-1.140059
4,-0.025285,,
5,0.946751,,


- mean() - заполнение средним значением

In [33]:
df[1] = df[1].fillna(df[1].mean())

In [34]:
df

Unnamed: 0,0,1,2
0,0.746599,0.60931,
1,0.344444,0.60931,
2,0.421447,0.60931,0.816129
3,0.867264,0.60931,0.260847
4,0.455451,0.962256,0.24267
5,0.403667,0.828626,0.87456
6,0.495132,0.057837,0.170847
7,0.922443,0.588521,0.296757


## Дубликаты
- .duplicated() - Проверяет, встречалась ли строка ранее.

У функции duplicated можно поменять режим проверки дубликатов при помощи параметра keep:

keep = 'first': пометить дубликаты как True, за исключением первого вхождения. Т.е. первое значение не будет считаться дубликатом.

keep = 'last': пометить дубликаты как True, за исключением последнего вхождения. Т.е. последнее значение не будет считаться дубликатом.

keep = False : пометить все дубликаты как True. Т.е. все значения будут считаться дубликатами.

In [35]:
df = pd.DataFrame({'group_name': ['A', 'B', 'A', 'B', 'A', 'B', 'B'],
                  'group_value': [10, 10, 20, 30, 30, 40, 40]})

In [36]:
df

Unnamed: 0,group_name,group_value
0,A,10
1,B,10
2,A,20
3,B,30
4,A,30
5,B,40
6,B,40


In [39]:
#Стркоа с индексом 6 встречалась ранее
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [40]:
#Выведем дубликаты
df[df.duplicated()]

Unnamed: 0,group_name,group_value
6,B,40


- drop_duplicates

In [42]:
df.drop_duplicates()

Unnamed: 0,group_name,group_value
0,A,10
1,B,10
2,A,20
3,B,30
4,A,30
5,B,40


- Рассчет дубликатов по колонкам

In [43]:
df.drop_duplicates(['group_name'])

Unnamed: 0,group_name,group_value
0,A,10
1,B,10


In [44]:
#получим последние строки дубликатов
df.drop_duplicates(['group_name'], keep = 'last')

Unnamed: 0,group_name,group_value
4,A,30
6,B,40


### Проанализируем работу аэропорта!

- .map()

In [46]:
airport_data = pd.DataFrame({'airline': ['Air China', 'Jet Airways', 'Aeroflot',
                                         'easyJet'], 'planes': [10, 4, 30, 2]})
country = {'Air China': 'China', 'Jet Airways': 'India', 'Aeroflot': 'Russia',
           'easyJet': 'United Kingdom'}

In [47]:
airport_data

Unnamed: 0,airline,planes
0,Air China,10
1,Jet Airways,4
2,Aeroflot,30
3,easyJet,2


In [48]:
country

{'Air China': 'China',
 'Jet Airways': 'India',
 'Aeroflot': 'Russia',
 'easyJet': 'United Kingdom'}

In [49]:
#мы хотим добавить к нашему df значения стран, которым принадлежат авиакомпании
airport_data['airline'].map(country)

0             China
1             India
2            Russia
3    United Kingdom
Name: airline, dtype: object

In [52]:
#Присвоим полученную серию
airport_data['country'] = airport_data['airline'].map(country)

In [53]:
airport_data

Unnamed: 0,airline,planes,country
0,Air China,10,China
1,Jet Airways,4,India
2,Aeroflot,30,Russia
3,easyJet,2,United Kingdom


- напишем функцию, которую мы положим в .map()

In [56]:
def handle(v):
    if v == 'Aeroflot':
        return 'RU'
    else:
        return 'notRU'

In [57]:
airport_data['RU'] = airport_data['airline'].map(handle)

In [58]:
airport_data

Unnamed: 0,airline,planes,country,RU
0,Air China,10,China,notRU
1,Jet Airways,4,India,notRU
2,Aeroflot,30,Russia,RU
3,easyJet,2,United Kingdom,notRU


- Так же мы можем писать lambda функции

In [61]:
airport_data['RU2'] = airport_data['airline'].map(lambda x: 'RU' if x == 'Aeroflot' else 'notRU')
airport_data

Unnamed: 0,airline,planes,country,RU,RU2
0,Air China,10,China,notRU,notRU
1,Jet Airways,4,India,notRU,notRU
2,Aeroflot,30,Russia,RU,RU
3,easyJet,2,United Kingdom,notRU,notRU


# Практика

### Задача 5.2.12
На вход функции подается датафрейм, который содержит информацию о предпочитаемом классе в самолете для некоторых клиентов:
![](https://ucarecdn.com/8f3477c0-48f2-4746-9f19-4d253ed866f2/)
В функцию также передается словарь, в котором лежит расшифровка каждого класса:
![](https://ucarecdn.com/cbfbdebb-361a-419a-8385-6bccfc36b680/)
Примените функцию map для создания дополнительного столбца class-info, который расшифровывает букву класса:
![](https://ucarecdn.com/3dfec4d8-4a1c-4734-84d2-5c13d471b160/)

- так же прокачиваем скилл лазания по гуглу.

Регистр ключей отличается. Чтобы его изменить необходимо залететь на StackOverflow:

https://stackoverflow.com/questions/50004310/convert-python-dictionary-to-uppercase

Только надо чутка изменить)

In [63]:
dic = {'client':['Sergey','Viktor','Pavel','Andrey','Petr'],'class':['A','B','A','C','D']}
df = pd.DataFrame(dic)
data = {'a':'business','b':'comfort','c':'econom','d':'promo'}

In [73]:
import pandas as pd

def solution(df, data):
    newData = {k.upper():v.lower() for k,v in data.items()}
    df['class-info'] = df['class'].map(newData)
    return df

In [74]:
solution(df, data)
df

Unnamed: 0,client,class,class-info
0,Sergey,A,business
1,Viktor,B,comfort
2,Pavel,A,business
3,Andrey,C,econom
4,Petr,D,promo


In [None]:
#Еще один вариант решения
import pandas as pd

def solution(_df, data):
    _df['class-info'] = _df['class'].map(str.lower).map(data)
    return _df

### Задача 5.2.14
На вход функции подается датафрейм, который содержит информацию о предпочитаемом классе в самолете для некоторых клиентов:
![](https://ucarecdn.com/494dc75d-cc18-4c5a-ad7d-485966ce368d/)
Заполните пропуски по следующим правилам:

Столбец А: 0

Столбец B: среднее значение из столбца Е

Столбец С: максимальное значение из столбца H

Стобец F: по методу ffill

Столбец G: по методу bfill

Дополнительно:

Удалите столбец в котором все значения пропущены. Функцию drop не использовать!

Удалите строки, в которых хотя бы одно значение пропущено

In [77]:
df = pd.DataFrame([[0, np.nan, np.nan, 3, 4, 5, 6, 7, 8, np.nan],
                   
                    [np.nan, 11, np.nan, 13, 14, 15, 16, 17, 18, np.nan],
                   
                    [np.nan, np.nan, 22, 23, 24, 25, 26, 27, 28, np.nan],
                   
                    [30, 31, 32, 33, 34, np.nan, 36, 37, 38, np.nan],

                    [40, 41, np.nan, 43, 44, 45, 46, 47, 48, np.nan],

                    [50, 51, 52, np.nan, 54, 55, np.nan, 57, 58, np.nan],

                    [60, 61, 62, 63, 64, np.nan, 66, 67, np.nan, np.nan],

                    [np.nan, 71, 72, 73, 74, 75, 76, 77, 78, np.nan],

                    [80, 81, 82, 83, 84, 85, np.nan, 87, 88, np.nan],

                    [90, 91, 92, 93, 94, 95, 96, 97, 98, np.nan]],

                   columns=["A", "B", "C", "D", "E", "F", "G", "H", "J", "K"])
df

Unnamed: 0,A,B,C,D,E,F,G,H,J,K
0,0.0,,,3.0,4,5.0,6.0,7,8.0,
1,,11.0,,13.0,14,15.0,16.0,17,18.0,
2,,,22.0,23.0,24,25.0,26.0,27,28.0,
3,30.0,31.0,32.0,33.0,34,,36.0,37,38.0,
4,40.0,41.0,,43.0,44,45.0,46.0,47,48.0,
5,50.0,51.0,52.0,,54,55.0,,57,58.0,
6,60.0,61.0,62.0,63.0,64,,66.0,67,,
7,,71.0,72.0,73.0,74,75.0,76.0,77,78.0,
8,80.0,81.0,82.0,83.0,84,85.0,,87,88.0,
9,90.0,91.0,92.0,93.0,94,95.0,96.0,97,98.0,


In [99]:
import pandas as pd

def solution(df):
    df['A'].fillna(0, inplace = True)
    df['B'].fillna(df['E'].mean(), inplace = True)
    df['C'].fillna(df['H'].max(), inplace = True)
    df['F'].fillna(method='ffill', inplace = True)
    df['G'].fillna(method='bfill', inplace = True)
    df.dropna(axis=1, how='all', inplace = True)
    df.dropna(inplace = True)
    return df

In [100]:
solution(df)
df

Unnamed: 0,A,B,C,D,E,F,G,H,J
0,0.0,49.0,97.0,3.0,4,5.0,6.0,7,8.0
1,0.0,11.0,97.0,13.0,14,15.0,16.0,17,18.0
2,0.0,49.0,22.0,23.0,24,25.0,26.0,27,28.0
3,30.0,31.0,32.0,33.0,34,25.0,36.0,37,38.0
4,40.0,41.0,97.0,43.0,44,45.0,46.0,47,48.0
7,0.0,71.0,72.0,73.0,74,75.0,76.0,77,78.0
8,80.0,81.0,82.0,83.0,84,85.0,96.0,87,88.0
9,90.0,91.0,92.0,93.0,94,95.0,96.0,97,98.0


### Задача 5.2.16
На вход функции подается уже знакомый датафрейм с клиентами авиакомпании:

![](https://ucarecdn.com/cf9cd201-57d9-4c14-baee-83717ddfb919/)

Оператор call-центра не проверил присутствие некоторых клиентов в списке и повторно внес информацию. Найдите все повторяющиеся записи в датафрейме. 

Функция должна вернуть новый датафрейм в котором будут оригинал записи + его дубликаты. Записи, которые не имеют дубликатов не должны попасть в новый датафрейм.

In [None]:
В этой задаче как раз надо использовать метод keep=False

In [105]:
df = pd.DataFrame({'client': ['Sergey', 'Victor', 'Pavel', 'Andrey', 'Petr', 'Sergey'], 
                   'class': ['A', 'B', 'A', 'C', 'D', 'A']})
df

Unnamed: 0,client,class
0,Sergey,A
1,Victor,B
2,Pavel,A
3,Andrey,C
4,Petr,D
5,Sergey,A


In [117]:
import pandas as pd

def solution(df):
    df = df[df.duplicated(keep=False)]
    return df

In [118]:
solution(df)

Unnamed: 0,client,class
0,Sergey,A
5,Sergey,A
