In [89]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

## Удаление столбцов и строк. Отсутствующие значения.

In [90]:
df = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6], "C": [7, 8, np.nan]})
df

Unnamed: 0,A,B,C
0,1,4,7.0
1,2,5,8.0
2,3,6,


Проверка на NaN-ы:

In [91]:
df.isna()

Unnamed: 0,A,B,C
0,False,False,False
1,False,False,False
2,False,False,True


In [92]:
df.isna().sum()

A    0
B    0
C    1
dtype: int64

Удалять строки и столбцы с пустыми значениями можно с помощию функции `dropna`. Обратите внимание, что применение функции без присваивания создает новый объект, а не меняет *df*.

In [93]:
df.dropna()

Unnamed: 0,A,B,C
0,1,4,7.0
1,2,5,8.0


Как и у многих других функций библиотек `numpy` и `pandas` есть аргумент `axis`, который отвечает за выбор: просмотр строк или просмотр столбцов:

In [94]:
df.dropna(axis = 0)

Unnamed: 0,A,B,C
0,1,4,7.0
1,2,5,8.0


In [95]:
df.dropna(axis = 1)

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


Пропущенные значения можно не только удалить, но и заполнить:

In [96]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, np.nan],
                   [np.nan, 3, np.nan, 4]],
                columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


Заполнить можно значением:

In [97]:
df.fillna(value=0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,0.0
3,0.0,3.0,0.0,4.0


Словарем значений:

In [98]:
values = {"A": 0, "B": 1, "C": 2, "D": 3}
df.fillna(value=values)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,2.0,1.0
2,0.0,1.0,2.0,3.0
3,0.0,3.0,2.0,4.0


Методом заполнения вперед:

In [99]:
df.fillna(method="ffill")

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,3.0,4.0,,1.0
3,3.0,3.0,,4.0


Методом заполенения назад:

In [100]:
df.fillna(method="bfill")

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0.0
1,3.0,4.0,,1.0
2,,3.0,,4.0
3,,3.0,,4.0


И, конечно, нужно уметь удалять ненужные столбцы. Для этого есть функция `drop`. Здесь мы уже не обращаем внимание на наличие или отсутствие пустых значений. Параметрами подаются список названий колонок для удаления, и часто указывается `axis=1`, т.к. по умолчанию считается axis=0, в этом случае поиск будет по индексам строк.

In [101]:
df.drop(["C"], axis = 1)

Unnamed: 0,A,B,D
0,,2.0,0.0
1,3.0,4.0,1.0
2,,,
3,,3.0,4.0


In [102]:
df.fillna(method="bfill").drop(["A", "C"], axis = 1)

Unnamed: 0,B,D
0,2.0,0.0
1,4.0,1.0
2,3.0,4.0
3,3.0,4.0


Функция `drop` также не изменяет исходный объект, а создает новый. Для изменения исходного объекта нужно присвоить ему этот результат:

In [103]:
df = df.fillna(method="bfill").drop(["A", "C"], axis = 1)

In [104]:
df

Unnamed: 0,B,D
0,2.0,0.0
1,4.0,1.0
2,3.0,4.0
3,3.0,4.0


Еще пара способов:

In [105]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, np.nan],
                   [np.nan, 3, np.nan, 4]],
                columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [106]:
df.mean()

A    3.000000
B    3.000000
C         NaN
D    1.666667
dtype: float64

In [107]:
df.fillna(df.mean())

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0.0
1,3.0,4.0,,1.0
2,3.0,3.0,,1.666667
3,3.0,3.0,,4.0


In [108]:
df.fillna(df.min())

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0.0
1,3.0,4.0,,1.0
2,3.0,2.0,,0.0
3,3.0,3.0,,4.0


In [109]:
df.fillna(df.min()).fillna(df.max().min())

Unnamed: 0,A,B,C,D
0,3.0,2.0,3.0,0.0
1,3.0,4.0,3.0,1.0
2,3.0,2.0,3.0,0.0
3,3.0,3.0,3.0,4.0


**Упражнение 1.** Объясните, как работает ячейка выше.

df.max() - dataSeries => df.max().min() - число => мы заполняем пустующие ячейки минимальным значением из максимальных по строкам

**Упражнение 2.** Дан датафрейм в ячейке ниже, состоящий из 4 единиц на диагонали и nan-ов. Заполнить его так, чтобы в нем было 8 единиц и 8 двоек. Использовать только `fillna`.

In [110]:
df = pd.DataFrame([[1, np.nan, np.nan, np.nan],
                   [np.nan, 1, np.nan, np.nan],
                   [np.nan, np.nan, 1, np.nan],
                   [np.nan, np.nan, np.nan, 1]],
                columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,1.0,,,
1,,1.0,,
2,,,1.0,
3,,,,1.0


In [111]:

df2 = df.fillna(pd.DataFrame(np.array([[1, 2, 2, 2],
                          [2, 1, 2, 2], 
                          [2, 2, 1, 1],
                          [1, 1, 1, 1]]), columns=list("ABCD")))
df2

Unnamed: 0,A,B,C,D
0,1.0,2.0,2.0,2.0
1,2.0,1.0,2.0,2.0
2,2.0,2.0,1.0,1.0
3,1.0,1.0,1.0,1.0


**Упражнение 3.** Из полученного датафрейма удалить столбец (или столбцы) с минимальной суммой значений.

In [112]:
df2.drop(["A", "B", "C", "D"], axis = 1)

0
1
2
3


## Еще работа с данными. Пассажиры Титаника.

In [113]:
df = pd.read_csv(r'train.csv') #поменять путь на актуальный для вас

In [114]:
df.head(105)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
100,101,0,3,"Petranec, Miss. Matilda",female,28.0,0,0,349245,7.8958,,S
101,102,0,3,"Petroff, Mr. Pastcho (""Pentcho"")",male,,0,0,349215,7.8958,,S
102,103,0,1,"White, Mr. Richard Frasar",male,21.0,0,1,35281,77.2875,D26,S
103,104,0,3,"Johansson, Mr. Gustaf Joel",male,33.0,0,0,7540,8.6542,,S


In [115]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [116]:
df.shape

(891, 12)

**Упражнение 4.** Найдите средний возраст пассажиров

In [117]:
df["Age"].mean()

29.69911764705882

**Упражнение 5.** Выведите имя самого молодого пассажира.

In [118]:
df[df["Age"] == df["Age"].min()]["Name"]

803    Thomas, Master. Assad Alexander
Name: Name, dtype: object

**Упражнение 6.** Посчитайте доли пассажиров по классам обслуживания (Pclass)

In [119]:
df["count"] = 1
df.groupby(["Pclass"]).agg({"count": "sum"}) / df['count'].sum()


Unnamed: 0_level_0,count
Pclass,Unnamed: 1_level_1
1,0.242424
2,0.20651
3,0.551066


**Упражнение 7.** Найдите средние возраста пассажиров по классам обслуживания.

In [120]:
df.groupby(["Pclass"]).agg({"Age":"mean"})

Unnamed: 0_level_0,Age
Pclass,Unnamed: 1_level_1
1,38.233441
2,29.87763
3,25.14062


**Упражнение 8.** Удалите столбец с наибольшим числом пропусков.

In [121]:
print(df.isna().sum())
df.drop(['Cabin'], axis=1)


PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
count            0
dtype: int64


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,count
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,S,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,S,1
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,S,1
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,S,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,S,1
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C,1


**Упражнение 9.** Удалите столбцы с наибольшим числом уникальных значений.

In [122]:
df3 = pd.DataFrame([0])
for i in df.columns:
    df3[i] = len(df.loc[:,i].unique())
print(df3)
df.drop(["Name", 'PassengerId'], axis=1)

   0  PassengerId  Survived  Pclass  Name  Sex  Age  SibSp  Parch  Ticket  \
0  0          891         2       3   891    2   89      7      7     681   

   Fare  Cabin  Embarked  count  
0   248    148         4      1  


Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,count
0,0,3,male,22.0,1,0,A/5 21171,7.2500,,S,1
1,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S,1
3,1,1,female,35.0,1,0,113803,53.1000,C123,S,1
4,0,3,male,35.0,0,0,373450,8.0500,,S,1
...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,211536,13.0000,,S,1
887,1,1,female,19.0,0,0,112053,30.0000,B42,S,1
888,0,3,female,,1,2,W./C. 6607,23.4500,,S,1
889,1,1,male,26.0,0,0,111369,30.0000,C148,C,1


**Упражнение 10.** Найдите доли выживших среди мужчин, среди женщин и среди всех пассажиров.

In [135]:
df2 = df.groupby('Sex').agg({'Survived' : 'sum', 'count' : 'sum'})
df2.loc['All'] = [df2["Survived"].sum(), df2['count'].sum()]
df2['dolya'] = df2['Survived'] / df2['count']
df2

Unnamed: 0_level_0,Survived,count,dolya
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,233,314,0.742038
male,109,577,0.188908
All,342,891,0.383838


**Упражнение 11.** Найдите доли выживших по классам обслуживания.

In [139]:
df3 = df.groupby('Pclass').agg({'Survived' : 'sum', 'count' : 'sum'})
df3['dolya'] = df3['Survived'] / df3['count']
df3

Unnamed: 0_level_0,Survived,count,dolya
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,136,216,0.62963
2,87,184,0.472826
3,119,491,0.242363


**Упражнение 12.** Найдите доли выживших среди возрастных категорий 18-, 18-60, 60+.

In [142]:
sur = [df[df['Age'] < 18]['Survived'].sum(),
           df[(df['Age'] <= 60) & (df['Age'] >= 18)]['Survived'].sum(),
           df[df['Age'] > 60]['Survived'].sum()]
cou = [df[df['Age'] < 18]['count'].sum(),
           df[(df['Age'] <= 60) & (df['Age'] >= 18)]['count'].sum(),
           df[df['Age'] > 60]['count'].sum()]
d = {'Survived' : sur, 'Count' : cou}
df3 = pd.DataFrame(data=d, index=['18-', '18-60', '60+'])
df3['Dolya'] = df3['Survived'] / df3['Count']
df3


Unnamed: 0,Survived,Count,Dolya
18-,61,113,0.539823
18-60,224,579,0.386874
60+,5,22,0.227273
