In [56]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

## Удаление столбцов и строк. Отсутствующие значения.

In [57]:
df = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6], "C": [7, 8, np.nan]})
df

Unnamed: 0,A,B,C
0,1,4,7.0
1,2,5,8.0
2,3,6,


Проверка на NaN-ы:

In [58]:
df.isna()

Unnamed: 0,A,B,C
0,False,False,False
1,False,False,False
2,False,False,True


In [59]:
df.isna().sum()

A    0
B    0
C    1
dtype: int64

Удалять строки и столбцы с пустыми значениями можно с помощию функции `dropna`. Обратите внимание, что применение функции без присваивания создает новый объект, а не меняет *df*.

In [60]:
df.dropna()

Unnamed: 0,A,B,C
0,1,4,7.0
1,2,5,8.0


Как и у многих других функций библиотек `numpy` и `pandas` есть аргумент `axis`, который отвечает за выбор: просмотр строк или просмотр столбцов:

In [61]:
df.dropna(axis = 0)

Unnamed: 0,A,B,C
0,1,4,7.0
1,2,5,8.0


In [62]:
df.dropna(axis = 1)

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


Пропущенные значения можно не только удалить, но и заполнить:

In [63]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, np.nan],
                   [np.nan, 3, np.nan, 4]],
                columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


Заполнить можно значением:

In [64]:
df.fillna(value=0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,0.0
3,0.0,3.0,0.0,4.0


Словарем значений:

In [65]:
values = {"A": 0, "B": 1, "C": 2, "D": 3}
df.fillna(value=values)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,2.0,1.0
2,0.0,1.0,2.0,3.0
3,0.0,3.0,2.0,4.0


Методом заполнения вперед:

In [66]:
df.fillna(method="ffill")

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,3.0,4.0,,1.0
3,3.0,3.0,,4.0


Методом заполенения назад:

In [67]:
df.fillna(method="bfill")

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0.0
1,3.0,4.0,,1.0
2,,3.0,,4.0
3,,3.0,,4.0


И, конечно, нужно уметь удалять ненужные столбцы. Для этого есть функция `drop`. Здесь мы уже не обращаем внимание на наличие или отсутствие пустых значений. Параметрами подаются список названий колонок для удаления, и часто указывается `axis=1`, т.к. по умолчанию считается axis=0, в этом случае поиск будет по индексам строк.

In [68]:
df.drop(["C"], axis = 1)

Unnamed: 0,A,B,D
0,,2.0,0.0
1,3.0,4.0,1.0
2,,,
3,,3.0,4.0


In [69]:
df.fillna(method="bfill").drop(["A", "C"], axis = 1)

Unnamed: 0,B,D
0,2.0,0.0
1,4.0,1.0
2,3.0,4.0
3,3.0,4.0


Функция `drop` также не изменяет исходный объект, а создает новый. Для изменения исходного объекта нужно присвоить ему этот результат:

In [70]:
df = df.fillna(method="bfill").drop(["A", "C"], axis = 1)

In [71]:
df

Unnamed: 0,B,D
0,2.0,0.0
1,4.0,1.0
2,3.0,4.0
3,3.0,4.0


Еще пара способов:

In [72]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, np.nan],
                   [np.nan, 3, np.nan, 4]],
                columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [73]:
df.mean()

A    3.000000
B    3.000000
C         NaN
D    1.666667
dtype: float64

In [74]:
df.fillna(df.mean())

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0.0
1,3.0,4.0,,1.0
2,3.0,3.0,,1.666667
3,3.0,3.0,,4.0


In [75]:
df.fillna(df.min())

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0.0
1,3.0,4.0,,1.0
2,3.0,2.0,,0.0
3,3.0,3.0,,4.0


In [76]:
df.fillna(df.min()).fillna(df.max().min())

Unnamed: 0,A,B,C,D
0,3.0,2.0,3.0,0.0
1,3.0,4.0,3.0,1.0
2,3.0,2.0,3.0,0.0
3,3.0,3.0,3.0,4.0


**Упражнение 1.** Объясните, как работает ячейка выше.

In [77]:
print('Исходная таблица:')
ddf=df
print(ddf)
print('',end='\n')
print('Таблица, в которой элементы = NaN в каждом столбце заменены на минимальные элементы в этом столбце:')
ddf=ddf.fillna(df.min())
print(ddf)
print('',end='\n')
print('Минимальные элементы в каждом столбце:')
print(ddf.min())
print('',end='\n')
print('Таблица, в которой элементы = NaN в каждом столбце заменены на максимальные элементы из списка минимальных элементов в каждом столбце:')
ddf=ddf.fillna(df.max().min())
print(ddf)

Исходная таблица:
     A    B   C    D
0  NaN  2.0 NaN  0.0
1  3.0  4.0 NaN  1.0
2  NaN  NaN NaN  NaN
3  NaN  3.0 NaN  4.0

Таблица, в которой элементы = NaN в каждом столбце заменены на минимальные элементы в этом столбце:
     A    B   C    D
0  3.0  2.0 NaN  0.0
1  3.0  4.0 NaN  1.0
2  3.0  2.0 NaN  0.0
3  3.0  3.0 NaN  4.0

Минимальные элементы в каждом столбце:
A    3.0
B    2.0
C    NaN
D    0.0
dtype: float64

Таблица, в которой элементы = NaN в каждом столбце заменены на максимальные элементы из списка минимальных элементов в каждом столбце:
     A    B    C    D
0  3.0  2.0  3.0  0.0
1  3.0  4.0  3.0  1.0
2  3.0  2.0  3.0  0.0
3  3.0  3.0  3.0  4.0


**Упражнение 2.** Дан датафрейм в ячейке ниже, состоящий из 4 единиц на диагонали и nan-ов. Заполнить его так, чтобы в нем было 8 единиц и 8 двоек. Использовать только `fillna`.

In [78]:
df = pd.DataFrame([[1, np.nan, np.nan, np.nan],
                   [np.nan, 1, np.nan, np.nan],
                   [np.nan, np.nan, 1, np.nan],
                   [np.nan, np.nan, np.nan, 1]],
                columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,1.0,,,
1,,1.0,,
2,,,1.0,
3,,,,1.0


In [79]:
print('Исходная таблица:')
print(df)
ddf=df
print('',end='\n')
print('Таблица, в которой элементы = NaN заменены на: в 1-ом столбце на "1", во 4-ом и 3-ем на "2":')
values={"A":1,"B":np.nan,"C":2,"D":2}
ddf=ddf.fillna(value=values)
print(ddf)
print('',end='\n')
print('Таблица, в которой элемент = NaN во 2-ом столбце и 1-ой строке заменен на "1":')
ddf=ddf.fillna(method='bfill')
print(ddf)
print('',end='\n')
print('Таблица, в которой элементы = NaN во 2-ом столбце заменен на "2":')
ddf=ddf.fillna(value=2)
print(ddf)


Исходная таблица:
     A    B    C    D
0  1.0  NaN  NaN  NaN
1  NaN  1.0  NaN  NaN
2  NaN  NaN  1.0  NaN
3  NaN  NaN  NaN  1.0

Таблица, в которой элементы = NaN заменены на: в 1-ом столбце на "1", во 4-ом и 3-ем на "2":
     A    B    C    D
0  1.0  NaN  2.0  2.0
1  1.0  1.0  2.0  2.0
2  1.0  NaN  1.0  2.0
3  1.0  NaN  2.0  1.0

Таблица, в которой элемент = NaN во 2-ом столбце и 1-ой строке заменен на "1":
     A    B    C    D
0  1.0  1.0  2.0  2.0
1  1.0  1.0  2.0  2.0
2  1.0  NaN  1.0  2.0
3  1.0  NaN  2.0  1.0

Таблица, в которой элементы = NaN во 2-ом столбце заменен на "2":
     A    B    C    D
0  1.0  1.0  2.0  2.0
1  1.0  1.0  2.0  2.0
2  1.0  2.0  1.0  2.0
3  1.0  2.0  2.0  1.0


**Упражнение 3.** Из полученного датафрейма удалить столбец (или столбцы) с минимальной суммой значений.

In [80]:
print('Исходная таблица:')
print(ddf)
print('',end='\n')
print('Сумма значений в каждом столбце:')
print(ddf.sum())
dddf=ddf.sum()
print('',end='\n')
k=min(dddf)
print('Минимальная сумма значений = ',k)
print('',end='\n')
print('Таблица без столбцов с минимальной суммой значений:')
ddf.drop(columns=ddf.columns[ddf.sum()==k],inplace=True,axis=1)
print(ddf)





Исходная таблица:
     A    B    C    D
0  1.0  1.0  2.0  2.0
1  1.0  1.0  2.0  2.0
2  1.0  2.0  1.0  2.0
3  1.0  2.0  2.0  1.0

Сумма значений в каждом столбце:
A    4.0
B    6.0
C    7.0
D    7.0
dtype: float64

Минимальная сумма значений =  4.0

Таблица без столбцов с минимальной суммой значений:
     B    C    D
0  1.0  2.0  2.0
1  1.0  2.0  2.0
2  2.0  1.0  2.0
3  2.0  2.0  1.0


## Еще работа с данными. Пассажиры Титаника.

In [81]:
df = pd.read_csv('train.csv') #поменять путь на актуальный для вас

In [82]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [83]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [84]:
df.shape

(891, 12)

**Упражнение 4.** Найдите средний возраст пассажиров

In [85]:
print(df["Age"].mean())

29.69911764705882


**Упражнение 5.** Выведите имя самого молодого пассажира.

In [86]:
k=df["Age"].min()
a, b =df.shape
for i in range(a):
    if df.loc[i, "Age"]==k:
        print(df.loc[i, "Name"])

Thomas, Master. Assad Alexander


**Упражнение 6.** Посчитайте доли пассажиров по классам обслуживания (Pclass)

In [87]:
df.groupby(["Pclass"]).agg({"Pclass": "count"})["Pclass"]/a

Pclass
1    0.242424
2    0.206510
3    0.551066
Name: Pclass, dtype: float64

**Упражнение 7.** Найдите средние возраста пассажиров по классам обслуживания.

In [88]:
df.groupby(["Pclass"]).agg({"Age": "mean"})

Unnamed: 0_level_0,Age
Pclass,Unnamed: 1_level_1
1,38.233441
2,29.87763
3,25.14062


**Упражнение 8.** Удалите столбец с наибольшим числом пропусков.

In [89]:
m =0
for i in df.columns.unique():
    k=df[i].isna().sum()
    if k>m: m=k
print(m)
for i in df.columns.unique():
    if df[i].isna().sum()==m:
        df=df.drop([i],axis=1)
df       
       

687


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C


**Упражнение 9.** Удалите столбцы с наибольшим числом уникальных значений.

In [90]:
m =0
for i in df.columns:
    c=len(df[i].unique())
    if c>m:
        m=c
for i in df.columns:
    if len(df[i].unique())==m:
        df=df.drop(i, axis = 1)
df

    

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,0,3,male,22.0,1,0,A/5 21171,7.2500,S
1,1,1,female,38.0,1,0,PC 17599,71.2833,C
2,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,S
3,1,1,female,35.0,1,0,113803,53.1000,S
4,0,3,male,35.0,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,211536,13.0000,S
887,1,1,female,19.0,0,0,112053,30.0000,S
888,0,3,female,,1,2,W./C. 6607,23.4500,S
889,1,1,male,26.0,0,0,111369,30.0000,C


**Упражнение 10.** Найдите доли выживших среди мужчин, среди женщин и среди всех пассажиров.

In [108]:
m = df[df["Sex"] == "male"].shape[0]
print("male", df[(df["Sex"] == "male")&(df["Survived"] == 1)].shape[0]/m)
f = df[df["Sex"] == "male"].shape[0]
print("female", df[(df["Sex"] == "female")&(df["Survived"] == 1)].shape[0]/f)
ob = df.shape[0]
print("all", df[df["Survived"] == 1].shape[0]/ob)

male 0.18890814558058924
female 0.4038128249566724
all 0.3838383838383838


**Упражнение 11.** Найдите доли выживших по классам обслуживания.

In [103]:
ddf=df.groupby(['Pclass']).agg({'Survived':'mean'})
ddf

Unnamed: 0_level_0,Survived
Pclass,Unnamed: 1_level_1
1,0.62963
2,0.472826
3,0.242363


**Упражнение 12.** Найдите доли выживших среди возрастных категорий 18-, 18-60, 60+.

In [121]:
m = df[df["Age"]<18].shape[0]
print("(18-)", df[(df["Age"]<18)&(df["Survived"] == 1)].shape[0]/m)
f = df[(df["Age"]<=60)&(df["Age"]>=18)].shape[0]
print("(18-60)", df[((df["Age"]<=60)&(df["Age"]>=18))&(df["Survived"] == 1)].shape[0]/f)
ost = df[df["Age"]>60].shape[0]
print("(60+)", df[(df["Age"]>60)&(df["Survived"] == 1)].shape[0]/ost)

(18-) 0.5398230088495575
(18-60) 0.38687392055267705
(60+) 0.22727272727272727
