Добрый день!

Решение задач из материала "Задачи по Data Science от Tproger и GeekBrains"  
https://tproger.ru/articles/data-science-tasks/

In [1]:
import numpy as np
import pandas as pd 

---

### Задача 1

Как найти евклидово расстояние между двумя Series (точками) a и b, не используя встроенную формулу?

In [2]:
a = pd.Series([2, 4, 6, 8])
b = pd.Series([1, 3, 5, 7])

#### Решение

Евклидово расстояние - расстояние между двумя точками, т. е. квадратный корень из скалярного произведения разностей векторов. Оно вычисляет наименьшее расстояние по теореме Пифагора: в прямоугольном треугольнике квадрат гипотенузы равен сумме квадратов катетов. 

$$
d_2(a,b) = \sqrt{(a-b,a-b)} = \sqrt{(x_2-x_1)^2+(y_2-y_1)^2}
$$

In [3]:
### Переведем Series в вектор (array)

a = np.array(a)
b = np.array(b)

### Применим формулу 

d = np.dot(a-b, a-b)**0.5

print('Еквлидово расстоние между двумя векторами = {}'.format(d))

Еквлидово расстоние между двумя векторами = 2.0


---

### Задача 2

Как найти максимально возможное абсолютное значение корреляции каждого столбца с другими столбцами в df?

In [4]:
df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4), columns=list('efgh'), index=list('abcd'))

#### Решение  

In [5]:
### Найдем все абсолютные значения корреляции

abs_corr = np.abs(df.corr())

### Отсортируем значения корреляции по возрастанияю и возьмем второй элемент с конца 
### (наибольшие/последние значения будут равны единице)

max_corr = np.around(abs_corr.apply(lambda x: sorted(x)[-2]), 3)

### Выведем результат

print('Максимальное абсолютное значение корреляции для каждого столбца:')
print(max_corr)

Максимальное абсолютное значение корреляции для каждого столбца:
e    0.802
f    0.658
g    0.802
h    0.658
dtype: float64


---

### Задача 3

Как нормализовать все столбцы в DataFrame?

1. Нормализуйте все столбцы df путём вычитания среднего значения столбца и деления на стандартное отклонение.
2. Сделайте так, чтобы все значения в df находились в диапазоне от 0 до 1.

In [6]:
df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4))

In [7]:
df

Unnamed: 0,0,1,2,3
0,90,66,68,14
1,34,25,87,10
2,82,40,40,8
3,84,35,4,90


#### Решение

In [8]:
### Первый вопрос

temp_1 = df.apply(lambda x: ((x - x.mean()) / x.std()).round(3))
temp_1

Unnamed: 0,0,1,2,3
0,0.676,1.401,0.506,-0.415
1,-1.487,-0.944,1.032,-0.516
2,0.367,-0.086,-0.27,-0.566
3,0.444,-0.372,-1.267,1.497


In [9]:
### Второй вопрос

### Решение 1

temp_2 = df.apply(lambda x: ((x.max() - x) / (x.max() - x.min())).round(2))
temp_2

Unnamed: 0,0,1,2,3
0,0.0,0.0,0.23,0.93
1,1.0,1.0,0.0,0.98
2,0.14,0.63,0.57,1.0
3,0.11,0.76,1.0,0.0


In [10]:
### решение 2

from sklearn.preprocessing import MinMaxScaler

mm = MinMaxScaler()

temp_3 = pd.DataFrame(mm.fit_transform(df))

temp_3

Unnamed: 0,0,1,2,3
0,1.0,1.0,0.771084,0.073171
1,0.0,0.0,1.0,0.02439
2,0.857143,0.365854,0.433735,0.0
3,0.892857,0.243902,0.0,1.0


---

### Задача 4

Как объединить два DataFrame по двум столбцам так, чтобы остались только общие строки?

Объедините df1 и df2 по столбцам fruit-frukt и weight-ves.

In [11]:
df1 = pd.DataFrame({'fruit': ['apple', 'banana', 'orange'] * 3,
                    'weight': ['low', 'medium', 'high'] * 3,
                    'price': np.random.randint(0, 100, 9)})

df2 = pd.DataFrame({'frukt': ['apple', 'banana', 'melon'] * 2,
                    'ves': ['low', 'high'] * 3,
                    'price': np.random.randint(0, 100, 6)})

#### Решение


Воспользуемся методом merge() и оставим столбцы с требуемыми общими значениями.

In [12]:
temp_df = df1.merge(df2, how='inner', 
                    left_on=['fruit', 'weight'], right_on=['frukt', 'ves'], suffixes=['_df1', '_df2'])

temp_df

Unnamed: 0,fruit,weight,price_df1,frukt,ves,price_df2
0,apple,low,69,apple,low,9
1,apple,low,52,apple,low,9
2,apple,low,71,apple,low,9


---

### Задача 5

Как узнать частоту уникальных значений во всём DataFrame?

In [13]:
df = pd.DataFrame(np.random.randint(1, 10, 16).reshape(4, 4), columns=list('abcd'))

#### Решение  

Дополнительно отсортируем частоту вхождения значений по убыванию

In [14]:
temp = pd.Series(df.values.ravel()).value_counts()

temp.sort_values(ascending=False)

3    5
4    3
2    2
6    2
9    2
1    1
8    1
dtype: int64

---

### Задача 6

Как создать новый столбец, который содержит номера ближайших по евклидовому расстоянию столбцов?

In [15]:
df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4), columns=list('efgh'), index=list('abcd'))
df

Unnamed: 0,e,f,g,h
a,53,12,14,6
b,41,77,25,3
c,12,60,15,35
d,18,82,79,80


#### Решение

In [16]:
### Импортируем построение Евклидова расстояния из scipy

from scipy.spatial import distance

### Создадим список векторов из первичного фрейма, но транспонированный. 
### Теперь строка - это столбец исходного фрейма, в последствии станет вектором

vect = df.T

### Нам понадобится список расстояний и список столбцов

best_cols = []
best_distance = []

### Так же смотрим строки

for i, row in vect.iterrows():
    curr = row
    rest = vect.drop(i)
    dists = {}  
 
### Высчитываем Евклидово расстояние

    for j, contestant in rest.iterrows():
        
        dists.update({j: distance.euclidean(curr.values, contestant.values)})
    
    best_cols.append(max(dists, key=dists.get))
    best_distance.append(np.around((max(dists.values())),3))
vect['best_column'] = best_cols
vect['distance'] = best_distance

vect

Unnamed: 0,a,b,c,d,best_column,distance
e,53,41,12,18,f,96.835
f,12,77,60,82,e,96.835
g,14,25,15,79,e,74.209
h,6,3,35,80,e,89.588


---

### Задача 7

Как поменять местами две строки в двумерном массиве NumPy? Поменяйте местами строки 1 и 3 массива a.

In [17]:
a = np.arange(9).reshape(3,3)

#### Решение

In [18]:
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [19]:
a_1 = a[[2,1,0]]
a_1

array([[6, 7, 8],
       [3, 4, 5],
       [0, 1, 2]])

---

### Задача 8

Как найти количество уникальных значений в массиве NumPy? Найдите уникальные значения и их количество в столбце species таблицы iris.

In [20]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')

#### Решение

In [21]:
iris[:5]

array([[b'5.1', b'3.5', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.9', b'3.0', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.7', b'3.2', b'1.3', b'0.2', b'Iris-setosa'],
       [b'4.6', b'3.1', b'1.5', b'0.2', b'Iris-setosa'],
       [b'5.0', b'3.6', b'1.4', b'0.2', b'Iris-setosa']], dtype=object)

Нам необходимо выделить пятое значение в векторах и посчитать их количество. Обратимся к Series и value_counts.

In [22]:
pd.Series(iris[:, 4]).value_counts()

b'Iris-virginica'     50
b'Iris-versicolor'    50
b'Iris-setosa'        50
dtype: int64

---

### Задача 9

Как найти второе максимальное значение в массиве, который сгруппирован по другому массиву?  
Найдите значение второго самого длинного petallength вида setosa в таблице iris.

In [23]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')

#### Решение

In [24]:
iris[:5]

array([[b'5.1', b'3.5', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.9', b'3.0', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.7', b'3.2', b'1.3', b'0.2', b'Iris-setosa'],
       [b'4.6', b'3.1', b'1.5', b'0.2', b'Iris-setosa'],
       [b'5.0', b'3.6', b'1.4', b'0.2', b'Iris-setosa']], dtype=object)

Мы не знаем, какое из значений векторов отвечает за petallength (длину лепестка).  
Загрузим нормально сет Iris и посмотрим на столбцы.

In [25]:
from sklearn.datasets import load_iris

In [26]:
iris_1 = load_iris()
iris_1.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

Искомое значение лежит в третьем столбце

In [27]:
### Сортируем массивы по столбцу с названиями классов, выбираем тольно длину лепестка (столбец с индексом 2)
pl = pd.Series(iris[iris[:, 4] == b'Iris-setosa',2].astype('str'))

second_largest_petal = pl.sort_values().unique()[-2]

print('Второе максимальное значение длины лепестка класса Sentosa = {}'.format(
                                                        second_largest_petal))

Второе максимальное значение длины лепестка класса Sentosa = 1.7


---

### Задача 10

Как отранжировать элементы массива NumPy?

In [28]:
a = np.random.randint(100, size=10)

#### Решение

In [29]:
a

array([62, 90, 98, 32, 94, 51, 33,  3, 49, 62])

In [30]:
ind = a.argsort()
ind

array([7, 3, 6, 8, 5, 0, 9, 1, 4, 2], dtype=int64)

In [31]:
### Простое ранжирование элементов

a[ind]

array([ 3, 32, 33, 49, 51, 62, 62, 90, 94, 98])

In [32]:
#### Ранжирование по уточнению задания

ind_1 = a.argsort().argsort()
ind_1

array([5, 7, 9, 1, 8, 4, 2, 0, 3, 6], dtype=int64)

---

### Задача 11

Как найти результат деления минимального значения на максимальное в каждой строке двумерного массива?

In [33]:
np.random.seed(10)
a = np.random.randint(1, 10, [3, 3])

#### Решение

In [34]:
a

array([[5, 1, 2],
       [1, 2, 9],
       [1, 9, 7]])

In [35]:
temp = []

for i in range(len(a)):
    res = np.around(a[i].min() / a[i].max(), 2)
    temp.append(res)
               
temp

[0.2, 0.11, 0.11]

---

### Задача 12

Как найти повторяющиеся значения в массиве NumPy? Найдите повторяющиеся значения (начиная со второго вхождения) в заданном массиве и отметьте их как True. Первое вхождение отмечайте как False.

In [36]:
np.random.seed(10)
a = np.random.randint(0, 7, 10)

#### Решение

In [37]:
a

array([1, 5, 4, 0, 1, 3, 4, 1, 5, 0])

In [38]:
# Массив с True значениями
true = np.full(len(a), True)

# Находим индексы уникальных элементов
false = np.unique(a, return_index=True)[1]

# Помечаем их как False
true[false] = False

print(true)

[False False False False  True False  True  True  True  True]


In [39]:
np.full(len(a), True)

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True])

---

### Задача 13

Как удалить из массива NumPy строки, которые содержат nan?

In [40]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0, 1, 2, 3])
iris[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

#### Решение

In [41]:
mask = ~np.any(np.isnan(iris), axis=1)

iris = iris[mask]

iris[:5]

array([[4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4]])

---

Изучение datatable пока в процессе.