In [3]:
import pandas as pd
import numpy as np

df = pd.read_csv("beer.tsv", delimiter=" ")
df['id'].astype('int')
df['ame'].astype('string')
df['calories'].astype('int')
df['sodium'].astype('int')
df['alcohol_min'].astype('float')
df['alcohol_max'].astype('float')
df['cost'].astype('float')

0     0.43
1     0.43
2     0.48
3     0.73
4     0.77
5     0.28
6     0.40
7     0.42
8     0.43
9     0.40
10    0.44
11    0.46
12    0.50
13    0.76
14    0.79
15    0.38
16    0.43
17    0.43
18    0.46
19    0.47
Name: cost, dtype: float64

In [4]:
#2.2 вывод первых 5 элементов таблицы
print(df.head(5))

   id          ame  calories  sodium  alcohol_min  alcohol_max  cost
0   1    Budweiser       144      15          4.7          5.0  0.43
1   2      Schlitz       151      19          4.9          5.5  0.43
2   3    Lowenbrau       157      15          0.9          2.0  0.48
3   4  Kronenbourg       170       7          5.2          6.0  0.73
4   5     Heineken       152      11          5.0          6.0  0.77


In [6]:
#2.3 вывод последних 5 элементов таблицы
print(df.tail(5))

    id                  ame  calories  sodium  alcohol_min  alcohol_max  cost
15  16    Pabst_Extra_Light        68      15          2.3          3.0  0.38
16  17                Hamms       139      19          4.4          5.0  0.43
17  18  Heilemans_Old_Style       144      24          4.9          5.3  0.43
18  19  Olympia_Goled_Light        72       6          2.9          4.0  0.46
19  20        Schlitz_Light        97       7          4.2          5.0  0.47


In [7]:
# 2.4 использовать функцию describe()
print(df.describe(include=[np.number])["cost"])

count    20.000000
mean      0.494500
std       0.144858
min       0.280000
25%       0.427500
50%       0.435000
75%       0.485000
max       0.790000
Name: cost, dtype: float64


In [8]:
#2.5 считывание значения конкретной ячейки
print(df["cost"].values[3])
print(df.at[3, 'cost'])
print(df.loc[3]['cost'])

0.73
0.73
0.73


In [9]:
#2.6 фильтрация строк по диапазону индекса
print(df.filter(items=range(5, 10), axis=0))

   id                   ame  calories  sodium  alcohol_min  alcohol_max  cost
5   6         Old_Milwaukee       145      23          4.6          5.5  0.28
6   7            Augsberger       175      24          5.5          6.0  0.40
7   7  Srohs_Bohemian_Style       149      27          4.7          5.2  0.42
8   8           Miller_Lite        99      10          4.3          5.0  0.43
9   9       Budweiser_Light       113       8          3.7          5.0  0.40


In [10]:
# 2.7 фильтрация набора данных по какому-либо условию
print(df[df["calories"] > 150])

   id          ame  calories  sodium  alcohol_min  alcohol_max  cost
1   2      Schlitz       151      19          4.9          5.5  0.43
2   3    Lowenbrau       157      15          0.9          2.0  0.48
3   4  Kronenbourg       170       7          5.2          6.0  0.73
4   5     Heineken       152      11          5.0          6.0  0.77
6   7   Augsberger       175      24          5.5          6.0  0.40


In [11]:
#2.8 работа с пропущенными значениями
df.iloc[1, 6] = np.nan
print("has empty columns:{}".format(df.isnull().values.any()))
print("remsolving empty values")
for i in df.columns[df.isnull().any(axis=0)]:
    df[i].fillna(df[i].mean(), inplace=True)
print("has empty columns:{}".format(df.isnull().values.any()))

has empty columns:True
remsolving empty values
has empty columns:False


In [12]:
#2.9 создание нового поля вычисленного на основе значений других полей

print("\n2.9.1 через выражение на базе имеющихся колонок")
df["avg_alcohol"] = (df["alcohol_min"] + df["alcohol_max"]) / 2
print(df["avg_alcohol"])

print("\n2.9.2 через DataFrame.apply")
df["avg_alcohol_apply"] = df.apply(lambda row: (row.alcohol_min + row.alcohol_max) / 2, axis=1)
print(df["avg_alcohol_apply"])

print("\n2.9.3 через Series.apply")
df["name_normal"] = df["ame"].apply(lambda ame: ame.split("_")[0])
print(df["name_normal"])


2.9.1 через выражение на базе имеющихся колонок
0     4.85
1     5.20
2     1.45
3     5.60
4     5.50
5     5.05
6     5.75
7     4.95
8     4.65
9     4.35
10    4.75
11    4.55
12    4.60
13    4.85
14    5.50
15    2.65
16    4.70
17    5.10
18    3.45
19    4.60
Name: avg_alcohol, dtype: float64

2.9.2 через DataFrame.apply
0     4.85
1     5.20
2     1.45
3     5.60
4     5.50
5     5.05
6     5.75
7     4.95
8     4.65
9     4.35
10    4.75
11    4.55
12    4.60
13    4.85
14    5.50
15    2.65
16    4.70
17    5.10
18    3.45
19    4.60
Name: avg_alcohol_apply, dtype: float64

2.9.3 через Series.apply
0       Budweiser
1         Schlitz
2       Lowenbrau
3     Kronenbourg
4        Heineken
5             Old
6      Augsberger
7           Srohs
8          Miller
9       Budweiser
10          Coors
11          Coors
12       Michelob
13          Becks
14          Kirin
15          Pabst
16          Hamms
17      Heilemans
18        Olympia
19        Schlitz
Name: name_normal, dty

In [16]:
#2.10 сортировка по какому-либо из полей
df.sort_values(by=["avg_alcohol"], ignore_index=True, inplace=True)
print(df["avg_alcohol"])

0     1.45
1     2.65
2     3.45
3     4.35
4     4.55
5     4.60
6     4.60
7     4.65
8     4.70
9     4.75
10    4.85
11    4.85
12    4.95
13    5.05
14    5.10
15    5.20
16    5.50
17    5.50
18    5.60
19    5.75
Name: avg_alcohol, dtype: float64


In [17]:
#2.11 вычислить несколько статистик по колонкам
print("Средней стоимости")
srDf = df.loc[(df['cost'] >= 0.4) & (df['cost'] <= 0.7)]
print(srDf)

print("\n2.12 .value_counts()")
print("openings count:{}".format(df["name_normal"].value_counts()))

Средней стоимости
    id                   ame  calories  sodium  alcohol_min  alcohol_max  \
0    3             Lowenbrau       157      15          0.9          2.0   
2   19   Olympia_Goled_Light        72       6          2.9          4.0   
3    9       Budweiser_Light       113       8          3.7          5.0   
4   11           Coors_Light       102      15          4.1          5.0   
5   12        Michelob_Light       135      11          4.2          5.0   
6   20         Schlitz_Light        97       7          4.2          5.0   
7    8           Miller_Lite        99      10          4.3          5.0   
8   17                 Hamms       139      19          4.4          5.0   
9   10                 Coors       140      18          4.6          4.9   
11   1             Budweiser       144      15          4.7          5.0   
12   7  Srohs_Bohemian_Style       149      27          4.7          5.2   
14  18   Heilemans_Old_Style       144      24          4.9          5

In [18]:
#2.13 Вывод уникальных значений колонки
print("Уникальных id")
print(df["id"].unique())

Уникальных id
[ 3 16 19  9 11 12 20  8 17 10 15  1  7  6 18  2  5  4]


In [19]:
#2.14 Удалите текущий индекс и создайте новый индекс на базе новой колонки
df.reset_index(drop=True, inplace=True)
df.set_index('id', inplace=True)
print(df)

                     ame  calories  sodium  alcohol_min  alcohol_max  \
id                                                                     
3              Lowenbrau       157      15          0.9          2.0   
16     Pabst_Extra_Light        68      15          2.3          3.0   
19   Olympia_Goled_Light        72       6          2.9          4.0   
9        Budweiser_Light       113       8          3.7          5.0   
11           Coors_Light       102      15          4.1          5.0   
12        Michelob_Light       135      11          4.2          5.0   
20         Schlitz_Light        97       7          4.2          5.0   
8            Miller_Lite        99      10          4.3          5.0   
17                 Hamms       139      19          4.4          5.0   
10                 Coors       140      18          4.6          4.9   
15                 Becks       150      19          4.7          5.0   
1              Budweiser       144      15          4.7         