In [1]:
import pandas as pd

In [2]:
# DataFrame – это двумерная структура (таблица), которая объединяет несколько колонок (Series) общим индексом

In [3]:
# Создадим DataFrame из словаря
# На практике эти данные будут читаться из файла, но для тренировки создадим микро табличку вручную
input_data = {
    'A':   [ 0.5,      None,     1.2,         0.9,             1.3,        2.0        ],
    'B':   [ 3,        2,        None,        4,               3.5,        1.9        ],
    'C':   [ 7,        4.5,      2,           None,            5.0,        4.9        ],
}
data = pd.DataFrame(input_data, index = ['basalt', 'basalt', 'tholeiite', 'alkali basalt', 'picrite', 'peridotite'])
data

# Первая колонка это индекс
# Остальные колонки – это данные
# Видим что у индекса есть label(название), так и у колонок есть названия

Unnamed: 0,A,B,C
basalt,0.5,3.0,7.0
basalt,,2.0,4.5
tholeiite,1.2,,2.0
alkali basalt,0.9,4.0,
picrite,1.3,3.5,5.0
peridotite,2.0,1.9,4.9


In [7]:
# Аналогично Series мы можем получить доступ к записям через .iloc и .loc
print(data.iloc[0])        # доступ к записям по index location
print("------")
print(data.loc["basalt"])  # доступ к записям по index label

A    0.5
B    3.0
C    7.0
Name: basalt, dtype: float64
------
          A    B    C
basalt  0.5  3.0  7.0
basalt  NaN  2.0  4.5


In [10]:
# Можем проверить тип возвращаемых данных
print(type(data.iloc[0]))
print(type(data.loc["basalt"]))     # тут несколько записей
print(type(data.loc["peridotite"])) # тут всего одна запись

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [14]:
# Мы можем запрашивать данные сразу по нескольким осям: по строкам и колонкам
# Ниже мы хотим получить строки, которые относятся к basalt (index label), но нас итрересует только колонка B (column name)
result = data.loc["basalt", "B"]
print(result)
print(type(result))

basalt    3.0
basalt    2.0
Name: B, dtype: float64
<class 'pandas.core.series.Series'>


In [20]:
# Вопрос: что делать если мы хотим запросить данные по колонкам А и B одновременно?
# Ответ: где ожидается имя колонки нужно передать список имен
data.loc["basalt", ["A", "B"]]

Unnamed: 0,A,B
basalt,0.5,3.0
basalt,,2.0


In [21]:
# Аналогично можно выбрать сразу несколько типов пород (index label)
data.loc[["basalt", "tholeiite"], "A"]

basalt       0.5
basalt       NaN
tholeiite    1.2
Name: A, dtype: float64

In [22]:
# Ну и конечно же можно передать списки для index label и для column name
data.loc[["basalt", "tholeiite"], ["A", "C"]]

Unnamed: 0,A,C
basalt,0.5,7.0
basalt,,4.5
tholeiite,1.2,2.0


In [27]:
# Вопрос: что делать если нужно оставить только одну колонку, а все остальные игнорировать/выбросить?
# Ответ: использовать : в качестве индекса
data.loc[:, "A"]

basalt           0.5
basalt           NaN
tholeiite        1.2
alkali basalt    0.9
picrite          1.3
peridotite       2.0
Name: A, dtype: float64

In [31]:
# Вопрос: что делать если нужно выбрать сразу несколько колонок, а остальные игнорировать/выбросить?
# Ответ: там где раньше ожидалось имя колонки нужно передать список имен
# Это важный пример. Все должны понимать почему там двойные квадратные скобки
data.loc[:, ["A", "B"]]

# Код ниже приведет к ошибке. Важно чтобы каждый понял почему он не работает
# Это не случайность, что он не работает
#data.loc[:, "A", "B"]

# Важно чтобы студенты увидели связь с индексированием списков и строк из ноутбука day_2_builtin_types

Unnamed: 0,A,B
basalt,0.5,3.0
basalt,,2.0
tholeiite,1.2,
alkali basalt,0.9,4.0
picrite,1.3,3.5
peridotite,2.0,1.9


In [33]:
# Для записи выше есть более короткий вариант
# data.loc[:, ["A", "B"]]
data[["A", "B"]] # Наличие двойных квадратных скобочек также важно и тут

Unnamed: 0,A,B
basalt,0.5,3.0
basalt,,2.0
tholeiite,1.2,
alkali basalt,0.9,4.0
picrite,1.3,3.5
peridotite,2.0,1.9


In [34]:
# В примерах выше мы указывали какие колонки выбрать/оставить
# иногда удобнее указать какие именно колонки убрать
data.drop("C", axis=1) # axis=1 указывает что "С" – это имя колонки а не строки

Unnamed: 0,A,B
basalt,0.5,3.0
basalt,,2.0
tholeiite,1.2,
alkali basalt,0.9,4.0
picrite,1.3,3.5
peridotite,2.0,1.9


In [35]:
# можно выкидывать строки аналогичным образом
data.drop("basalt", axis=0) # axis=0 указывает что "basalt" – это index label, т.е. выбрасывать будем строки

Unnamed: 0,A,B,C
tholeiite,1.2,,2.0
alkali basalt,0.9,4.0,
picrite,1.3,3.5,5.0
peridotite,2.0,1.9,4.9


In [37]:
# есть вспомогательный метод очистки данных, который выкинет строки где отсутствуют данные
# попробуйте аналогичное сделать в Excel. LoL ))
data.dropna()

Unnamed: 0,A,B,C
basalt,0.5,3.0,7.0
picrite,1.3,3.5,5.0
peridotite,2.0,1.9,4.9


## Маски

In [45]:
# Задание: проанализировать результат
#        какой тип имеет результат
mask = data.isna()
mask

Unnamed: 0,A,B,C
basalt,False,False,False
basalt,True,False,False
tholeiite,False,True,False
alkali basalt,False,False,True
picrite,False,False,False
peridotite,False,False,False


In [48]:
# Задание проанализировать результат
row_mask = mask.any(axis=1)
row_mask

basalt           False
basalt            True
tholeiite         True
alkali basalt     True
picrite          False
peridotite       False
dtype: bool

In [49]:
# Задание: проанализировать результат
~row_mask

basalt            True
basalt           False
tholeiite        False
alkali basalt    False
picrite           True
peridotite        True
dtype: bool

In [51]:
# Маски можно использовать как индекс
# Задание: что ожидается в результате?
data[~row_mask]

Unnamed: 0,A,B,C
basalt,0.5,3.0,7.0
picrite,1.3,3.5,5.0
peridotite,2.0,1.9,4.9


In [53]:
# Задание: получить все строки где есть отсутствующие данные
missed_values = data[mask.any(axis=1)]
missed_values

Unnamed: 0,A,B,C
basalt,,2.0,4.5
tholeiite,1.2,,2.0
alkali basalt,0.9,4.0,
