In [1]:
import numpy as np
import pandas as pd

# Преобразование данных с помощью функции или отображения

# Методы аpply, map (applymap), replace

    Содержание
    
    Пример 1 - Универсальные функции NumPy (поэлементные методы массивов)
    Пример 2 - Применение функции, определенной для одномерных массивов, к каждому столбцу или строке. Метод apply
    Пример 3 - Функция, переданная в apply, может вернуть объект Series, содержащий несколько значений
    Пример 4 - Метод map() + поэлементные функции Python
    Пример 5 - Метод map() + отображение (словарь)
    Пример 6 - Метод map() + пользовательская функция
    Пример 7 - Метод replace - базовое использование
    Пример 8 - Метод replace - замена нескольких значений на одно
    Пример 9 - Метод replace - если для каждого заменяемого значения нужно свое заменяющее 
    Пример 10 - Метод replace + словарь

In [2]:
df = pd.DataFrame(np.random.standard_normal((4, 3)),
                     columns=['январь', 'февраль', 'март'],
                     index=['Москва', 'Уфа', 'Казань', 'Тюмень'])
df

Unnamed: 0,январь,февраль,март
Москва,1.073046,-2.405266,-0.414564
Уфа,-0.610728,0.738783,0.978141
Казань,-2.024713,0.239889,-1.033114
Тюмень,0.654694,-1.492626,1.324239


### Пример 1 - универсальные функции NumPy (поэлементные методы массивов)

In [3]:
# Универсальные функции (или ufunc) — это функции, которые выполняют поэлементные операции над данными массива.
# используем функцию abs() для получения абсолютного значения

np.abs(df)

Unnamed: 0,январь,февраль,март
Москва,1.073046,2.405266,0.414564
Уфа,0.610728,0.738783,0.978141
Казань,2.024713,0.239889,1.033114
Тюмень,0.654694,1.492626,1.324239


### Пример 2 - Применение функции, определенной для одномерных массивов, к каждому столбцу или строке. Используем метод apply

In [4]:
# Cоздаем функцию f1, которая вычисляет разность между максимальным и минимальным значением Series
def f1(x):
    """вычисляет разность между максимальным и минимальным значением Series"""
    return x.max() - x.min()

In [5]:
# функция f1 вызывается один раз для каждого столбца DataFrame

df.apply(f1)

январь     3.097758
февраль    3.144049
март       2.357352
dtype: float64

In [6]:
# функция f1 вызывается один раз для каждой строки DataFrame, если аргумент axis=1 (axis='columns')

df.apply(f1, axis=1)

Москва    3.478312
Уфа       1.588870
Казань    2.264602
Тюмень    2.816864
dtype: float64

### Пример 3 - Функция, переданная в apply, может вернуть объект Series, содержащий несколько значений

In [7]:
# Многие из наиболее распространенных статистик массивов – методы DataFrame

display(df.sum(), # сумма значений
        df.mean(), # среднее значение
        df.min(), # минимальное значение
        df.max()) # максимальное значение

январь    -0.907701
февраль   -2.919219
март       0.854702
dtype: float64

январь    -0.226925
февраль   -0.729805
март       0.213676
dtype: float64

январь    -2.024713
февраль   -2.405266
март      -1.033114
dtype: float64

январь     1.073046
февраль    0.738783
март       1.324239
dtype: float64

In [8]:
# Функция, передаваемая методу apply, не обязана возвращать скалярное значение
# Функция может вернуть и объект Series, содержащий несколько значений

def f2(x):
    """возвращает Series с минимальным и максимальным значением"""
    return pd.Series([x.min(), x.max()], index=["min", "max"])

In [9]:
# находим мин. и макс. значение по каждому столбцу df (по каждому месяцу) 
# применяем функцию f2 с параметром axis=1, находим мин. и макс. значение по строкам (по каждому городу)

display(df.apply(f2),
        df.apply(f2, axis=1))

Unnamed: 0,январь,февраль,март
min,-2.024713,-2.405266,-1.033114
max,1.073046,0.738783,1.324239


Unnamed: 0,min,max
Москва,-2.405266,1.073046
Уфа,-0.610728,0.978141
Казань,-2.024713,0.239889
Тюмень,-1.492626,1.324239


# Метод map()

### Пример 4 - Можем использовать и поэлементные функции Python. Используем метод map

In [10]:
# требуется вычислить форматированную строку для каждого элемента датафрейма df с плавающей точкой

def my_format(x):
    return f"{x:.2f}"

In [11]:
df.map(my_format)

Unnamed: 0,январь,февраль,март
Москва,1.07,-2.41,-0.41
Уфа,-0.61,0.74,0.98
Казань,-2.02,0.24,-1.03
Тюмень,0.65,-1.49,1.32


In [12]:
# Deprecated since version 2.1.0: DataFrame.applymap has been deprecated. Use DataFrame.map instead.

df.applymap(my_format)

  df.applymap(my_format)


Unnamed: 0,январь,февраль,март
Москва,1.07,-2.41,-0.41
Уфа,-0.61,0.74,0.98
Казань,-2.02,0.24,-1.03
Тюмень,0.65,-1.49,1.32


## Метод map() + отображение (словарь)

### Пример 5

In [13]:
food = pd.DataFrame({"продукт": ["баклажаны", "клубника", "морковь","яблоки", "груши", 
                                 "ежевика","капуста", "картофель", "петрушка"],
                     "ккал/100гр.": [24, 43, 33, 46, 42, 33, 28, 83, 45]})
food

Unnamed: 0,продукт,ккал/100гр.
0,баклажаны,24
1,клубника,43
2,морковь,33
3,яблоки,46
4,груши,42
5,ежевика,33
6,капуста,28
7,картофель,83
8,петрушка,45


In [14]:
food_types = {
    "баклажаны": "овощи",
    "клубника": "ягоды",
    "морковь": "овощи",
    "яблоки": "фрукты",
    "груши": "фрукты",
    "ежевика": "ягоды",
    "капуста": "овощи",
    "картофель": "овощи",
    "петрушка": "зелень"
}

In [15]:
food["категория"] = food["продукт"].map(food_types)
food

Unnamed: 0,продукт,ккал/100гр.,категория
0,баклажаны,24,овощи
1,клубника,43,ягоды
2,морковь,33,овощи
3,яблоки,46,фрукты
4,груши,42,фрукты
5,ежевика,33,ягоды
6,капуста,28,овощи
7,картофель,83,овощи
8,петрушка,45,зелень


## Метод map() + функция

### Пример 6

In [16]:
def get_food_type(x):
    return food_types[x]

food["продукт"].map(get_food_type)

0     овощи
1     ягоды
2     овощи
3    фрукты
4    фрукты
5     ягоды
6     овощи
7     овощи
8    зелень
Name: продукт, dtype: object

# Замена значений. Метод replace

In [17]:
data = pd.Series([1., -999., 2., -999., -1000., 3.])
data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

### Пример 7

In [18]:
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

### Пример 8

In [19]:
data.replace([-999, -1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

### Пример 9

In [20]:
# если для каждого заменяемого значения нужно свое заменяющее

data.replace([-999, -1000], [np.nan, 0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

### Пример 10

In [21]:
data.replace({-999: np.nan, -1000: 0})

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

### data.replace – не то же самое, что метод data.str.replace