Введение в pandas. У любой задачи может быть несколько способов решения

Задача 1. найти евклидово расстояние между двумя Series (точками) a и b, не используя встроенную формулу

In [1]:
import countries as countries
import pandas as pd
import numpy as np

a = pd.Series([2, 4, 6, 8])
b = pd.Series([1, 3, 5, 7])
#2.0

In [3]:
#Ваш код
dist = np.sqrt(np.sum([(x-y)*(x-y) for x, y in zip(a, b)]))
print(dist)

Задача 2. найти максимально возможное абсолютное значение корреляции каждого столбца с другими столбцами в df

In [4]:
df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4), columns=list('efgh'), index=list('abcd'))

In [9]:
#Ваш код
print("Data Frame")
print(df)
print()

print("Correlation Matrix")
print(df.corr())
print()

def get_redundant_pairs(df):
    pairs_to_drop = set()
    cols = df.columns
    for i in range(0, df.shape[1]):
        for j in range(0, i+1):
            pairs_to_drop.add((cols[i], cols[j]))
    return pairs_to_drop

def get_abs_correlations(df, n=5):
    au_corr = df.corr().abs().unstack()
    labels_to_drop = get_redundant_pairs(df)
    au_corr = au_corr.drop(labels=labels_to_drop).sort_values(ascending=False)
    return au_corr[0:n]

print("Absolute Correlations")
print(get_abs_correlations(df))

Data Frame
    e   f   g   h
a  67  25  34  85
b  86  50  53   3
c  79  30  35  40
d  43  87  64  14

Correlation Matrix
          e         f         g         h
e  1.000000 -0.698781 -0.526601 -0.023005
f -0.698781  1.000000  0.966877 -0.689306
g -0.526601  0.966877  1.000000 -0.789185
h -0.023005 -0.689306 -0.789185  1.000000

Top Absolute Correlations
f  g    0.966877
g  h    0.789185
e  f    0.698781
f  h    0.689306
e  g    0.526601
dtype: float64


Задача 3. нормализовать все столбцы в DataFrame:

    1. Нормализуйте все столбцы df путём вычитания среднего значения столбца и деления на стандартное отклонение.
    2. Сделайте так, чтобы все значения в df находились в диапазоне от 0 до 1.


In [12]:
df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4))

In [17]:
#Ваш код
#1
normalized_df=(df-df.mean())/df.std()
print(normalized_df)

#2
normalized_df=(df-df.min())/(df.max()-df.min())
print(normalized_df)

          0         1         2         3
0 -0.149002  0.273434  0.057618 -0.944282
1 -0.111752  1.025379  1.312414 -0.306585
2  1.341020 -1.367172 -1.094745  1.410291
3 -1.080266  0.068359 -0.275287 -0.159424
          0         1         2         3
0  0.384615  0.685714  0.478723  0.000000
1  0.400000  1.000000  1.000000  0.270833
2  1.000000  0.000000  0.000000  1.000000
3  0.000000  0.600000  0.340426  0.333333


Задача 4. объединить два DataFrame по двум столбцам так, чтобы остались только общие строки : df1 и df2 по столбцам fruit-frukt и weight-ves.

In [None]:
df1 = pd.DataFrame({'fruit': ['apple', 'banana', 'orange'] * 3,
                    'weight': ['low', 'medium', 'high'] * 3,
                    'price': np.random.randint(0, 100, 9)})

df2 = pd.DataFrame({'frukt': ['apple', 'banana', 'melon'] * 2,
                    'ves': ['low', 'high'] * 3,
                    'price': np.random.randint(0, 100, 6)})

In [None]:
#Ваш код
pd.merge(df1, df2, how='inner', left_on=['fruit', 'weight'], right_on=['frukt', 'ves'], suffixes=['_left', '_right'])

Задача 5. Вывести число уникальных значений во всём DataFrame

In [24]:
df = pd.DataFrame(np.random.randint(1, 10, 25).reshape(5, 5), columns=list('abcde'))

In [33]:
#Ваш код
df1 = df.apply(pd.Series.value_counts)
df1['Count'] = df1.sum(axis=1)
df1 = df1.reset_index().rename(columns={'index':'Value'}).drop(columns=list(df))
print(df1)

   Value  Count
0      1    2.0
1      2    1.0
2      3    4.0
3      4    2.0
4      5    6.0
5      6    3.0
6      7    3.0
7      8    1.0
8      9    3.0


Задача 6. создать новый столбец, который содержит номера ближайших по евклидовому расстоянию столбцов.

In [40]:
import pandas as pd
import numpy as np

In [41]:
df = pd.DataFrame(np.random.randint(1, 100, 25).reshape(5, 5), columns=list('abcde'), index=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
a,71,92,98,85,59
b,81,40,27,78,12
c,85,31,28,80,5
d,45,13,77,54,23
e,60,9,88,4,99


In [42]:
#Ожидаемый вывод:
df

Unnamed: 0,a,b,c,d,e
a,71,92,98,85,59
b,81,40,27,78,12
c,85,31,28,80,5
d,45,13,77,54,23
e,60,9,88,4,99


In [43]:
#Ваш код
nearest_rows = []
nearest_distance = []

for i, row in df.iterrows():
    curr = row
    rest = df.drop(i)
    dists = {}
    for j, contestant in rest.iterrows():
        dists.update({j: round(np.linalg.norm(curr.values - contestant.values))})

    nearest_rows.append(max(dists, key=dists.get))
    nearest_distance.append(max(dists.values()))

df['nearest_row'] = nearest_rows
df['dist'] = nearest_distance

Задача 7. Поменяйте местами 2 и 5 строки  массива x.

In [50]:
x = np.arange(25).reshape(5,5)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


In [51]:
#Ваш код
a = 2-1
b = 5-1
x[[a, b], :] = x[[b, a], :]

[[ 0  1  2  3  4]
 [20 21 22 23 24]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [ 5  6  7  8  9]]


Задача 8. Найдите уникальные значения и их количество в столбце species таблицы iris.

In [53]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')

OSError: https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data not found.

In [54]:
#Ваш код
species = np.array([row.tolist()[4] for row in iris])
np.unique(species, return_counts=True)

NameError: name 'iris' is not defined

Задача 9. 
Найдите значение второго самого длинного petallength вида setosa в таблице iris.

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')

In [None]:
#Ваш код

setosa_petal_len = iris[iris[:, 4] == b'Iris-setosa', [2]].astype('float')

np.unique(np.sort(setosa_petal_len))[-2]

Задача 10. Найдите повторяющиеся значения (начиная со второго вхождения) в заданном массиве и отметьте их как True. Первое вхождение отмечайте как False.

In [56]:
import pandas as pd
np.random.seed(10)
a = np.random.randint(0, 7, 10)
print(a)

[1 5 4 0 1 3 4 1 5 0]


In [61]:
#Ваш код
idx = pd.Index(a)
print(idx.duplicated(keep = 'first'))

[False False False False  True False  True  True  True  True]


Задача 11. Очистка данных. Преобразовать данные или удалить строки, которые содержат nan.

In [86]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0, 1, 2, 3])
iris[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

OSError: https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data not found.

In [87]:
#Ваш код
#1
iris[[not np.isnan(x) for x in iris]]

#2
nan_in_row = np.array([~np.any(np.isnan(row)) for row in iris])
iris[nan_in_row][:5]

NameError: name 'iris' is not defined

Задача 12. Получение данных Всемирного банка.
Получить статистику по некоторым индикаторам по России. 
 + 1. по продолжительности жизни. 
 + 2. по населению (population)
 + 3. по ВВП (GDP)


In [65]:
# импортируем пакет pandas_datareader
import pandas as pd
pd.core.common.is_list_like = pd.api.types.is_list_like
import pandas_datareader as pdr

from pandas_datareader import wb
# извлекаем все индикаторы
all_indicators = pdr.wb.get_indicators()


In [66]:
# выводим первые 5 индикаторов
all_indicators.iloc[:5,:2]

Unnamed: 0,id,name
0,1.0.HCount.1.90usd,Poverty Headcount ($1.90 a day)
1,1.0.HCount.2.5usd,Poverty Headcount ($2.50 a day)
2,1.0.HCount.Mid10to50,Middle Class ($10-50 a day) Headcount
3,1.0.HCount.Ofcl,Official Moderate Poverty Rate-National
4,1.0.HCount.Poor4uds,Poverty Headcount ($4 a day)


In [8]:
# поиск индикаторов, связанных с продолжительностью жизни
le_indicators = pdr.wb.search("life expectancy")
# выводим первые три строки и первые два столбца
le_indicators.iloc[:5,:2]

Unnamed: 0,id,name
10356,SE.SCH.LIFE,"School life expectancy, primary to tertiary, b..."
10357,SE.SCH.LIFE.FE,"School life expectancy, primary to tertiary, f..."
10358,SE.SCH.LIFE.MA,"School life expectancy, primary to tertiary, m..."
11852,SP.DYN.LE00.FE.IN,"Life expectancy at birth, female (years)"
11853,SP.DYN.LE00.IN,"Life expectancy at birth, total (years)"


In [67]:
# получаем данные о продолжительности жизни 
# для всех стран с 1980 по 2018 годы
le_data_all = pdr.wb.download(indicator="SP.DYN.LE00.IN", 
                          start='1980', 
                          end='2018')
le_data_all

Unnamed: 0_level_0,Unnamed: 1_level_0,SP.DYN.LE00.IN
country,year,Unnamed: 2_level_1
Canada,2018,81.948780
Canada,2017,81.948780
Canada,2016,81.900000
Canada,2015,81.900000
Canada,2014,81.800000
...,...,...
United States,1984,74.563415
United States,1983,74.463415
United States,1982,74.360976
United States,1981,74.009756


In [95]:
le_data_all.info()

le_data_all.describe()
le_data_all.index.levels[0]

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 117 entries, ('Canada', '2018') to ('United States', '1980')
Data columns (total 1 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   SP.DYN.LE00.IN  117 non-null    float64
dtypes: float64(1)
memory usage: 2.9+ KB


Index(['Canada', 'Mexico', 'United States'], dtype='object', name='country')

Задание 12.1. Получить данные о продолжительности жизни в России с 1985 по 2018 годы. Определить мин. и макс. показатели. Построить график.

In [98]:
#Ваш код
rus_data = le_data_all.index.levels[0] == 'Russia Federation'

print(rus_data)

[False False False]


Задание 12.2. Получить данные о продолжительности жизни в России с 1960 по 2018 годы. Определить мин. и макс. показатели. Построить график.


In [16]:
# поиск индикаторов, связанных с численностью населения
pa_indicators = pdr.wb.search("population")
#SP.POP.TOTL
#Ваш код

Задание 12.3. Получить данные о ВВП в России с 1991 по 2018 годы. Определить мин. и макс. показатели. Построить график.

In [7]:
# поиск индикаторов, связанных с ВВП
ga_indicators = pdr.wb.search("GDP")
# NY.GDP.MKTP.CD

In [10]:
#Ваш код
