In [1]:
import pandas as pd
import numpy as np

people = {
    'first': ['Corey', 'Jane', 'John', 'Chris', np.nan, None, 'NA'], 
    'last': ['Schafer', 'Doe', 'Doe', 'Schafer', np.nan, np.nan, 'Missing'], 
    'email': ['CoreyMSchafer@gmail.com', 'JaneDoe@email.com', 'JohnDoe@email.com', None, np.nan, 'Anonymous@email.com', 'NA'],
    'age': ['33', '55', '63', '36', None, None, 'Missing']
}

In [4]:
df = pd.DataFrame(people)
df

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
3,Chris,Schafer,,36
4,,,,
5,,,Anonymous@email.com,
6,,Missing,,Missing


In [5]:
df.dropna()

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
6,,Missing,,Missing


In [7]:
# тоже самое, что и df.dropna(), параметры по умолчанию
# axis на индекс и how=any -> т.е. drop по индексу если хоть в одной из колонок отсутствует значение
df.dropna(axis='index', how='any')

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
6,,Missing,,Missing


In [8]:
# how=all - удалить строки, если во всех колонках отсутствуют значения
df.dropna(axis='index', how='all')

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
3,Chris,Schafer,,36
5,,,Anonymous@email.com,
6,,Missing,,Missing


In [9]:
# тоже самое, но по столбцам
df.dropna(axis='columns', how='all')

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
3,Chris,Schafer,,36
4,,,,
5,,,Anonymous@email.com,
6,,Missing,,Missing


In [10]:
df.dropna(axis='columns', how='any')
# все значения будут пустыми, т.к. во всех колонках присутствуют np.nan или None значения

0
1
2
3
4
5
6


In [11]:
# удалить строки, где нет значений в столбце email
# при how=all будет такой же результат, т.к. есть аргумент subset
df.dropna(axis='index', how='any', subset=['email'])

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
5,,,Anonymous@email.com,
6,,Missing,,Missing


In [12]:
# drop тех строк, где и last и email имеют None
# inplace=True для сохранения в экземпляре класса
df.dropna(axis='index', how='all', subset=['last', 'email'])

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
3,Chris,Schafer,,36
5,,,Anonymous@email.com,
6,,Missing,,Missing


In [13]:
# заменить значения NA и Missing на np.nan и сохранить в экземпляре класса df
df.replace('NA', np.nan, inplace=True)
df.replace('Missing', np.nan, inplace=True)

In [17]:
# вернет таблицу со значениями True или False
df.isna()

Unnamed: 0,first,last,email,age
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,True,False
4,True,True,True,True
5,True,True,False,True
6,True,True,True,True


In [19]:
# заменить все значения NaN, None на 'Missing'
df.fillna('MISSING')
df.fillna(0)

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
3,Chris,Schafer,0,36
4,0,0,0,0
5,0,0,Anonymous@email.com,0
6,0,0,0,0


In [20]:
# все колонки являются объектами, в пандас это тип - строка
df.dtypes

first    object
last     object
email    object
age      object
dtype: object

In [23]:
# df['age'].mean()
# TypeError: can only concatenate str (not "int") to str

# df['age'] = df['age'].astype(int)
# int() argument must be a string, a bytes-like object or a number, not 'NoneType'

TypeError: int() argument must be a string, a bytes-like object or a number, not 'NoneType'

In [22]:
type(np.nan)  # float

float

In [24]:
# изменить тип столбца age на float
df['age'] = df['age'].astype(float)

In [26]:
df.dtypes
# age теперь float64

first     object
last      object
email     object
age      float64
dtype: object

In [27]:
# метод mean() считает "среднее значение" тех объектов, которые имеют значения
# т.е. в колонке age 7 значений (строк), но т.к. в трех из них np.na или None, то mean() считывает среднее значений по 4 строкам
df['age'].mean()

46.75

In [None]:
# метод astype() приводит объекты в нужный тип
# df.astype()