In [1]:
import pandas as pd
import numpy as np

- Вспомним про проущенные данные, они отображаются, как NaN (Not A Number).

In [3]:
np.nan

nan

In [4]:
s1 = pd.Series(['abc', 'def', np.nan, 'gik'])
s1

0    abc
1    def
2    NaN
3    gik
dtype: object

- .isnull() - проверяет данные на пропуски

In [6]:
#по сути мы получаем булевую маску, которую можем использовать
s1.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [7]:
#Стандартный питоновский None отображается иначе, проверим его
s1[0] = None
s1

0    None
1     def
2     NaN
3     gik
dtype: object

In [8]:
#Значения с индексами 0 и 2 являются пропусками.
s1.isnull()

0     True
1    False
2     True
3    False
dtype: bool

- .notnull()

In [9]:
#Отфильтруем серию маской, так мы получим только нулевые значения
s1[s1.isnull()]

0    None
2     NaN
dtype: object

In [10]:
#Мы моежм инвертировать нашу маску
s1[~s1.isnull()]

1    def
3    gik
dtype: object

In [13]:
#Или мы можем использовать .notnull() в качестве такой маски
s1[s1.notnull()]

1    def
3    gik
dtype: object

- .dropna() - удаляет пропущенные значения
- ВАЖНО! Функция не редактирует существующую серию, а возвращает новую!
- Если вы не хотите чтобы функция dropna возвращала результат, а провела изменения в существующем датафрейме, тогда передайте в функцию уже знакомый вам параметр inplace=True

In [16]:
#Импортируем из numpy пропуск и присвоим ему другое имя через алиас
from numpy import nan as NA

In [17]:
s2 = pd.Series([10, NA, 30, NA, 100])

In [18]:
s2

0     10.0
1      NaN
2     30.0
3      NaN
4    100.0
dtype: float64

In [19]:
s2.dropna()

0     10.0
2     30.0
4    100.0
dtype: float64

In [21]:
#Серия не была изменена
s2

0     10.0
1      NaN
2     30.0
3      NaN
4    100.0
dtype: float64

- Работа с Датафрэймом

In [22]:
df = pd.DataFrame([[1,7,9],[2, NA, NA],[NA, NA, NA],[NA, 10, 4]])
df

Unnamed: 0,0,1,2
0,1.0,7.0,9.0
1,2.0,,
2,,,
3,,10.0,4.0


In [23]:
#.dropna() Идет построчно и удаляет каждую строку, в которой хотябы 1 раз встречается NaN
df2 = df.dropna()
df2

Unnamed: 0,0,1,2
0,1.0,7.0,9.0


In [25]:
#чтобы удалить только полностью пустые строки:
df3 = df.dropna(how='all')
df3

Unnamed: 0,0,1,2
0,1.0,7.0,9.0
1,2.0,,
3,,10.0,4.0


- .dropna() может удалять NaN по столбцам. Стандартный параметр axis

In [26]:
#Добавим столбец с пропущенными значениями, а затем удалим его)

df[4] = NA
df

Unnamed: 0,0,1,2,4
0,1.0,7.0,9.0,
1,2.0,,,
2,,,,
3,,10.0,4.0,


In [28]:
df4 = df.dropna(how='all',axis=1)
df4

Unnamed: 0,0,1,2
0,1.0,7.0,9.0
1,2.0,,
2,,,
3,,10.0,4.0


Разница между drop и dropna заключается в том, что в drop вам надо явно указать колонки, которые содержат пропущенные значения. Если датафрейм большой, то у вас займет это не мало времени. Гораздо удобнее воспользоваться dropna.

 

Кстати, если вы хотите ограничить функцию dropna только определенными колонками, тогда воспользуйтесь параметром subset. Например, если у нас в датафрейме четыре столбца: A, B, C, D и мы хотим удалять только строчки, где в столбцах A и B пропуски, а на C и D не обращать внимание, тогда следует воспользоваться параметром subset:

df.dropna(subset=['A', 'B'], how='all')  - для случаев, когда и в А и в B есть пропуск

df.dropna(subset=['A', 'B'], how='any') или df.dropna(subset=['A', 'B']) - для случаем, когда или в А или в B есть пропуск

Допустим нам необходимо удалять только строки в которых количество пропущенных значений не более определенного числа.

Параметром thresh мы можем сообщать функции dropna сколько не пустых значений должно быть в нашей строке/колонке. Например, если thresh=3, то функция dropna будет проверять чтобы в строке/колонке было минимум 3 непропущенных значения. Если больше, то хорошо, а вот если меньше, то такая строка будет удалена.

In [29]:
df2 = pd.DataFrame(np.random.rand(8,3))

In [31]:
df2.iloc[:4,1] = NA
df2.iloc[:2,2] = NA

In [32]:
df2

Unnamed: 0,0,1,2
0,0.083011,,
1,0.094171,,
2,0.045593,,0.864747
3,0.067166,,0.462799
4,0.263511,0.278353,0.066694
5,0.613977,0.624202,0.117423
6,0.830599,0.404709,0.865439
7,0.695595,0.990885,0.028966


In [33]:
df2.dropna()

Unnamed: 0,0,1,2
4,0.263511,0.278353,0.066694
5,0.613977,0.624202,0.117423
6,0.830599,0.404709,0.865439
7,0.695595,0.990885,0.028966


In [34]:
df2.dropna(thresh=2)

Unnamed: 0,0,1,2
2,0.045593,,0.864747
3,0.067166,,0.462799
4,0.263511,0.278353,0.066694
5,0.613977,0.624202,0.117423
6,0.830599,0.404709,0.865439
7,0.695595,0.990885,0.028966


# Практика

## Задача 5.1.10
На вход функции подаётся датафрейм:
![](https://ucarecdn.com/39f06ef8-57e7-4432-bb22-ff8db88058cc/)
При помощи функции dropna удалите колонки в которых полностью отсутствуют значения (везде NaN)

In [63]:
df = pd.DataFrame([[0, np.nan, np.nan, 3, 4, 5, 6, 7, 8, np.nan],
                    [np.nan, 11, np.nan, 13, 14, 15, 16, 17, 18, np.nan],
                    [np.nan, np.nan, 22, 23, 24, 25, 26, 27, 28, np.nan],
                    [30, 31, 32, 33, 34, np.nan, 36, 37, 38, np.nan],
                    [40, 41, np.nan, 43, 44, 45, 46, 47, 48, np.nan],
                    [50, 51, 52, np.nan, 54, 55, np.nan, 57, 58, np.nan],
                    [60, 61, 62, 63, 64, np.nan, 66, 67, np.nan, np.nan],
                    [np.nan, 71, 72, 73, 74, 75, 76, 77, 78, np.nan],
                    [80, 81, 82, 83, 84, 85, np.nan, 87, 88, np.nan],
                    [90, 91, 92, 93, 94, 95, 96, 97, 98, np.nan]],
                   columns=["A", "B", "C", "D", "E", "F", "G", "H", "J", "K"])

In [42]:
import pandas as pd

def solution(df):
    df = df.dropna(axis=1, how='all')
    return df

In [44]:
solution(df)


Unnamed: 0,A,B,C,D,E,F,G,H,J
0,0.0,,,3.0,4,5.0,6.0,7,8.0
1,,11.0,,13.0,14,15.0,16.0,17,18.0
2,,,22.0,23.0,24,25.0,26.0,27,28.0
3,30.0,31.0,32.0,33.0,34,,36.0,37,38.0
4,40.0,41.0,,43.0,44,45.0,46.0,47,48.0
5,50.0,51.0,52.0,,54,55.0,,57,58.0
6,60.0,61.0,62.0,63.0,64,,66.0,67,
7,,71.0,72.0,73.0,74,75.0,76.0,77,78.0
8,80.0,81.0,82.0,83.0,84,85.0,,87,88.0
9,90.0,91.0,92.0,93.0,94,95.0,96.0,97,98.0


## Задача 5.1.12
На вход функции подаётся датафрейм:
![](https://ucarecdn.com/39f06ef8-57e7-4432-bb22-ff8db88058cc/)
При помощи функции dropna удалите строчки, где в ячейках А, С, D, G меньше трех значений (т.е. строки с двумя и более пропущенными значениями в ячейках А, С, D, G должны быть удалены; c одним пропуском - ок)

Интересная задача, помогает прокачать навыки чтения документации Pandas.
Из нее мы узнаем о методе subset

column label or sequence of labels, optional
Labels along other axis to consider, e.g. if you are dropping rows these would be a list of columns to include.

Крч, если нам нужно выбросить данные, по каким то конкретным столбцам, то необходимо передать названия столбцов в этот параметр.

In [61]:
import pandas as pd

def solution(df):
    df.dropna(subset = ['A', 'C', 'D', 'G'], thresh = 3, inplace=True)
    return df

In [62]:
solution(df)

Unnamed: 0,A,B,C,D,E,F,G,H,J,K
0,0.0,,,3.0,4,5.0,6.0,7,8.0,
2,,,22.0,23.0,24,25.0,26.0,27,28.0,
3,30.0,31.0,32.0,33.0,34,,36.0,37,38.0,
4,40.0,41.0,,43.0,44,45.0,46.0,47,48.0,
6,60.0,61.0,62.0,63.0,64,,66.0,67,,
7,,71.0,72.0,73.0,74,75.0,76.0,77,78.0,
8,80.0,81.0,82.0,83.0,84,85.0,,87,88.0,
9,90.0,91.0,92.0,93.0,94,95.0,96.0,97,98.0,


## Задача 5.1.14
На вход функции подаётся датафрейм:
![](https://ucarecdn.com/39f06ef8-57e7-4432-bb22-ff8db88058cc/)
Не пользуясь функцией dropna, отфильтруйте датафрейм так чтобы остались строчки, где в ячейках C и G нет пропусков.



In [64]:
import pandas as pd

def solution(df):
    df[df.isnull()]
    return df

Unnamed: 0,A,B,C,D,E,F,G,H,J,K
0,0.0,,,3.0,4,5.0,6.0,7,8.0,
1,,11.0,,13.0,14,15.0,16.0,17,18.0,
2,,,22.0,23.0,24,25.0,26.0,27,28.0,
3,30.0,31.0,32.0,33.0,34,,36.0,37,38.0,
4,40.0,41.0,,43.0,44,45.0,46.0,47,48.0,
5,50.0,51.0,52.0,,54,55.0,,57,58.0,
6,60.0,61.0,62.0,63.0,64,,66.0,67,,
7,,71.0,72.0,73.0,74,75.0,76.0,77,78.0,
8,80.0,81.0,82.0,83.0,84,85.0,,87,88.0,
9,90.0,91.0,92.0,93.0,94,95.0,96.0,97,98.0,
