# Задачи по pandas

Задача 1
Как найти евклидово расстояние между двумя Series (точками) a и b, не используя встроенную формулу?

In [1]:
import pandas as pd
import numpy as np

In [2]:
a = pd.Series([2, 4, 6, 8])
b = pd.Series([1, 3, 5, 7])

In [3]:
# Решение 
sum((a - b)**2)**.5

# Решение (с использованием функции из NumPy)
np.linalg.norm(a-b)

2.0

Задача 2
Как найти максимально возможное абсолютное значение корреляции каждого столбца с другими столбцами в df?

In [4]:
df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4), columns=list('efgh'), index=list('abcd'))

In [5]:
# Решение
abs_corr = np.abs(df.corr())
max_corr = abs_corr.apply(lambda x: sorted(x)[-2])
print('Максимальное значение корреляции для каждого столбца: ', np.round(max_corr.tolist(), 2))

Максимальное значение корреляции для каждого столбца:  [0.92 0.81 0.83 0.92]


Задача 3
Как нормализовать все столбцы в DataFrame?

Нормализуйте все столбцы df путём вычитания среднего значения столбца и деления на стандартное отклонение.
Сделайте так, чтобы все значения в df находились в диапазоне от 0 до 1.

In [6]:
# Ввод
df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4))

In [7]:
# Первая часть решения
part1 = df.apply(lambda x: ((x - x.mean()) / x.std()).round(2))
print('Первая часть\n', part1)

# Вторая часть решения
part2 = df.apply(lambda x: ((x.max() - x) / (x.max() - x.min())).round(2))
print('Вторая часть\n', part2)

Первая часть
       0     1     2     3
0 -0.66  0.93  0.45  1.39
1 -0.38 -0.90  0.57 -0.94
2  1.49  0.80  0.49 -0.42
3 -0.45 -0.83 -1.50 -0.04
Вторая часть
       0     1     2     3
0  1.00  0.00  0.06  0.00
1  0.87  1.00  0.00  1.00
2  0.00  0.07  0.04  0.78
3  0.90  0.97  1.00  0.61


Задача 4
Как объединить два DataFrame по двум столбцам так, чтобы остались только общие строки?

Объедините df1 и df2 по столбцам fruit-frukt и weight-ves.

In [8]:
df1 = pd.DataFrame({'fruit': ['apple', 'banana', 'orange'] * 3,
                    'weight': ['low', 'medium', 'high'] * 3,
                    'price': np.random.randint(0, 100, 9)})

df2 = pd.DataFrame({'frukt': ['apple', 'banana', 'melon'] * 2,
                    'ves': ['low', 'high'] * 3,
                    'price': np.random.randint(0, 100, 6)})

In [9]:
# Решение
pd.merge(df1, df2, how='inner', left_on=['fruit', 'weight'], right_on=['frukt', 'ves'], suffixes=['_left', '_right'])

Unnamed: 0,fruit,weight,price_left,frukt,ves,price_right
0,apple,low,85,apple,low,82
1,apple,low,3,apple,low,82
2,apple,low,45,apple,low,82


Задача 5
Как узнать частоту уникальных значений во всём DataFrame?

In [10]:
df = pd.DataFrame(np.random.randint(1, 10, 16).reshape(4, 4), columns=list('abcd'))

In [11]:
# Решение
pd.value_counts(df.values.ravel())

3    5
8    2
7    2
2    2
1    2
6    1
5    1
4    1
dtype: int64

Задача 6
Как создать новый столбец, который содержит номера ближайших по евклидовому расстоянию столбцов?

In [12]:
# Ввод
df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4), columns=list('efgh'), index=list('abcd'))

In [13]:
# Инициализация выводов
nearest_rows = []
nearest_distance = []

# Проход по строкам
for i, row in df.iterrows():
    curr = row
    rest = df.drop(i)
    dists = {}  # инициализируем словарь для евклидовых расстояния для текущей строки
    # проходим по оставшимся строкам текущей строки
    for j, contestant in rest.iterrows():
        # вычисляем евклидово расстояние и обновляем dists
        
        dists.update({j: round(np.linalg.norm(curr.values - contestant.values))})
    # приравниваем текущую строку к ближайшей и записываем значение расстояния=
    nearest_rows.append(max(dists, key=dists.get))
    nearest_distance.append(max(dists.values()))

df['nearest_row'] = nearest_rows
df['dist'] = nearest_distance

# Задачи по NumPy

Задача 7
Как поменять местами две строки в двумерном массиве NumPy? Поменяйте местами строки 1 и 3 массива a.

In [14]:
a = np.arange(9).reshape(3,3)

In [15]:
# Решение
a[[2, 1, 0], :]

array([[6, 7, 8],
       [3, 4, 5],
       [0, 1, 2]])

Задача 8
Как найти количество уникальных значений в массиве NumPy? Найдите уникальные значения и их количество в столбце species таблицы iris.

In [16]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')

In [17]:
# Решение
# Извлекаем столбец species как массив
species = np.array([row.tolist()[4] for row in iris])

# Получаем уникальные значения и их количество
np.unique(species, return_counts=True)

(array([b'Iris-setosa', b'Iris-versicolor', b'Iris-virginica'],
       dtype='|S15'),
 array([50, 50, 50], dtype=int64))

Задача 9
Как найти второе максимальное значение в массиве, который сгруппирован по другому массиву? Найдите значение второго самого длинного petallength вида setosa в таблице iris.

In [18]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')

In [19]:
# Решение
# Извлекаем столбцы вида и длины лепестков
setosa_petal_len = iris[iris[:, 4] == b'Iris-setosa', [2]].astype('float')

# Получаем второе значение с конца
np.unique(np.sort(setosa_petal_len))[-2]

1.7

Задача 10
Как отранжировать элементы массива NumPy?
Ожидаемый вывод:

[2 3 6 4 8 9 5 1 7 0]

In [20]:
a = np.random.randint(100, size=10)
print(a)
# [9 15 64 28 89 93 29 8 73 0]

[19 76 36 55 85 15 40 42 85 37]


In [21]:

# Решение
print(a.argsort().argsort())

[1 7 2 6 8 0 4 5 9 3]


Задача 11
Как найти результат деления минимального значения на максимальное в каждой строке двумерного массива?

In [22]:
# Ввод
np.random.seed(10)
a = np.random.randint(1, 10, [3, 3])

In [23]:
# Решение
np.apply_along_axis(lambda x: np.min(x) / np.max(x), arr=a, axis=1)

array([0.2       , 0.11111111, 0.11111111])

Задача 12
Как найти повторяющиеся значения в массиве NumPy? Найдите повторяющиеся значения (начиная со второго вхождения) в заданном массиве и отметьте их как True. Первое вхождение отмечайте как False.

In [24]:
# Ввод
np.random.seed(10)
a = np.random.randint(0, 7, 10)

In [25]:
# Решение

# Создаём массив с True
out = np.full(a.shape[0], True)

# Находим индексы уникальных элементов
pos = np.unique(a, return_index=True)[1]

# Помечаем их как False
out[pos] = False

print(out)

[False False False False  True False  True  True  True  True]


Задача 13
Как удалить из массива NumPy строки, которые содержат nan?

In [26]:
# Ввод
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0, 1, 2, 3])
iris[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

In [27]:
# Решение
# Способ 1:
nan_in_row = np.array([~np.any(np.isnan(row)) for row in iris])
iris[nan_in_row][:5]

# Способ 2:
iris[np.sum(np.isnan(iris), axis = 1) == 0][:5]

array([[4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4]])