#**Задачи с Tproger** - https://tproger.ru/articles/data-science-tasks

#**Задачи по pandas**

---
## **1. Задача**
 Как найти евклидово расстояние между двумя Series (точками) a и b, не используя встроенную формулу?

In [5]:
import pandas as pd
import numpy as np
from numpy. linalg import norm

a = np.array([2, 4, 6, 8])
b = np.array([1, 3, 5, 7])

print(norm(a-b))

2.0


---
## **2. Задача**
Как найти максимально возможное абсолютное значение корреляции каждого столбца с другими столбцами в df?

In [17]:
df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4),
                  columns=list('efgh'),
                  index=list('abcd'))

abs_corr = np.abs(df.corr())
max_corr = abs_corr.apply(lambda x: sorted(x)[-2])
print(np.round(max_corr.tolist(), 2))

[0.58 0.77 0.77 0.72]


---
## **3. Задача**
Как нормализовать все столбцы в DataFrame?

1. Нормализуйте все столбцы df путём вычитания среднего значения столбца и деления на стандартное отклонение.
2. Сделайте так, чтобы все значения в df находились в диапазоне от 0 до 1.

In [25]:
df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4))

# нормализуем все столбцы
df_normalized = (df - df.mean()) / df.std()
print(df_normalized)

# масштабируем значения в диапазоне от 0 до 1
df_scaled = (df_normalized - df_normalized.min()) / (df_normalized.max() - df_normalized.min())
print(df_scaled)

          0         1         2         3
0 -0.062286  1.461243  0.320121 -0.891618
1  1.432584 -0.803684  0.011039 -0.838387
2 -0.635320 -0.292249 -1.357756  0.811771
3 -0.734978 -0.365311  1.026596  0.918233
          0         1         2         3
0  0.310345  1.000000  0.703704  0.000000
1  1.000000  0.000000  0.574074  0.029412
2  0.045977  0.225806  0.000000  0.941176
3  0.000000  0.193548  1.000000  1.000000


---
# **4. Задача**

Как объединить два DataFrame по двум столбцам так, чтобы остались только общие строки?

Объедините df1 и df2 по столбцам fruit-frukt и weight-ves.

In [39]:
import pandas as pd

df1 = pd.DataFrame({'fruit': ['apple', 'banana', 'orange'] * 3,
                    'weight': ['low', 'medium', 'high'] * 3,
                    'price': np.random.randint(0, 100, 9)})

df2 = pd.DataFrame({'frukt': ['apple', 'banana', 'melon'] * 2,
                    'ves': ['low', 'high'] * 3,
                    'price': np.random.randint(0, 100, 6)})


df = pd.merge(df1, df2, left_on=['fruit', 'weight'], right_on=['frukt', 'ves'] )
df

Unnamed: 0,fruit,weight,price_x,frukt,ves,price_y
0,apple,low,1,apple,low,90
1,apple,low,87,apple,low,90
2,apple,low,1,apple,low,90


# **5. Задача**

Как узнать частоту уникальных значений во всём DataFrame?

In [52]:
df = pd.DataFrame(np.random.randint(1, 10, 16).reshape(4, 4), columns=list('abcd'))
print(df.head())

for col in df.columns:
    print(f"Частота уникальных значений в столбце {col}:")
    print(df[col].value_counts())

   a  b  c  d
0  2  3  9  4
1  7  4  2  3
2  8  7  1  9
3  6  6  9  6
Частота уникальных значений в столбце a:
a
2    1
7    1
8    1
6    1
Name: count, dtype: int64
Частота уникальных значений в столбце b:
b
3    1
4    1
7    1
6    1
Name: count, dtype: int64
Частота уникальных значений в столбце c:
c
9    2
2    1
1    1
Name: count, dtype: int64
Частота уникальных значений в столбце d:
d
4    1
3    1
9    1
6    1
Name: count, dtype: int64


# **6. Задача**

Как создать новый столбец, который содержит номера ближайших по евклидовому расстоянию столбцов?

In [56]:
from scipy.spatial import distance

df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4), columns=list('efgh'), index=list('abcd'))


dist_matrix = distance.cdist(df.T, df.T, 'euclidean')
nearest_cols = np.argmin(dist_matrix, axis=1)
df['nearest'] = [df.columns[i] for i in nearest_cols]
print(df)

    e   f   g   h nearest
a  53  10  83  22       e
b  27  37  47  26       f
c  82  56  37  85       g
d  22  66   6  10       h


# **Задачи по NumPy**

---
# **7. Задача**

Как поменять местами две строки в двумерном массиве NumPy? Поменяйте местами строки 1 и 3 массива a.

In [61]:
a = np.arange(9).reshape(3,3)

a[[2, 1, 0], :]

array([[6, 7, 8],
       [3, 4, 5],
       [0, 1, 2]])

---
# **8. Задача**

Как найти количество уникальных значений в массиве NumPy? Найдите уникальные значения и их количество в столбце species таблицы iris.

In [63]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')

species = np.array([row.tolist()[4] for row in iris])
np.unique(species, return_counts=True)

(array([b'Iris-setosa', b'Iris-versicolor', b'Iris-virginica'],
       dtype='|S15'),
 array([50, 50, 50]))

# **9. Задача**

Как найти второе максимальное значение в массиве, который сгруппирован по другому массиву? Найдите значение второго самого длинного petallength вида setosa в таблице iris.

In [64]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')

setosa_petal_len = iris[iris[:, 4] == b'Iris-setosa', [2]].astype('float')
np.unique(np.sort(setosa_petal_len))[-2]

1.7

# **10. Задача**

Как отранжировать элементы массива NumPy?

In [67]:
a = np.random.randint(100, size=10)

print(a.argsort().argsort())

[0 2 5 9 8 1 4 6 7 3]
