# Занятие 1. Основные библиотеки Python для работы с данными.

## Pandas

### pandas.Series

Векторы (данные с одним столбцом) описываются в pandas с помощью класса Series. 

In [9]:
import pandas as pd

data = [1, 2, 3, 4, 5]

pd_series = pd.Series(data)
pd_series

0    1
1    2
2    3
3    4
4    5
dtype: int64

Арифметические операции над `pd.Series` выполняются поэлементно. То есть, если мы напишем `series = series + 1`, то единица прибавится ко всем элементам вектора. Аналогично для остальных операций.

In [10]:
print(pd_series + 1)
print(pd_series - 5)
print(pd_series * 4)
print(pd_series / 10)

0    2
1    3
2    4
3    5
4    6
dtype: int64
0   -4
1   -3
2   -2
3   -1
4    0
dtype: int64
0     4
1     8
2    12
3    16
4    20
dtype: int64
0    0.1
1    0.2
2    0.3
3    0.4
4    0.5
dtype: float64


Если у нас есть два объекта `pd.Series` **ОДИНАКОВОЙ ДЛИНЫ**, то с ними можно проводить совместные арифметические операции. Они будут также происходить поэлементно. Например, 

$$
    \vec{1, 2, 3}
$$

In [11]:
s_1 = pd.Series([1, 2, 3, 4, 5])
s_2 = pd.Series([-1, 1, 0, 1, -1])

print(s_1 + s_2)
print(s_1 - s_2)
print(s_1 * s_2)
print(s_2 / s_1)

0    0
1    3
2    3
3    5
4    4
dtype: int64
0    2
1    1
2    3
3    3
4    6
dtype: int64
0   -1
1    2
2    0
3    4
4   -5
dtype: int64
0   -1.00
1    0.50
2    0.00
3    0.25
4   -0.20
dtype: float64


У объектов класса `pd.Series` есть множество методов. Вот наиболее важные из них:

* `pd.Series.sum()` — сумма элементов вектора;
* `pd.Series.mean()` — среднее арифметическое элементов вектора;
* `pd.Series.std()` — стандартное отклонение элементов вектора;
* `pd.Series.var()` — дисперсия элементов вектора;
* `pd.Series.min()` — минимальный элемент вектора;
* `pd.Series.max()` — максимальный элемент вектора;
* `pd.Series.median()` — медиана элементов вектора;
* `pd.Series.quantile()` — квантиль элементов вектора;
* `pd.Series.mode()` — мода элементов вектора;
* `pd.Series.describe()` — описательная статистика вектора.

Всего методов гораздо больше. При необходимости можно посмотреть их все в документации. Перед тем, как придумывать какие-то методы, стоит посмотреть, нет ли уже готового решения.


In [22]:
s = pd.Series([2, 4, 6, 8, 10, 100])
print(f"Max value: {s.max()}")
print(f"Min value: {s.min()}")
print(f"Mean value: {s.mean()}")
print(f"Median value: {s.median()}")

Max value: 100
Min value: 2
Mean value: 21.666666666666668
Median value: 7.0


In [23]:
s.describe()

count      6.000000
mean      21.666667
std       38.479432
min        2.000000
25%        4.500000
50%        7.000000
75%        9.500000
max      100.000000
dtype: float64

Гораздо чаще работают не с векторами, а с таблицами. В pandas такие таблицы называются `pd.DataFrame`.

Таблицы можно создавать из разных источников. Например, из словаря:

In [26]:
data_dict = {
    "Name"   : ["Alex", "Paula", "George"],
    "Age"    : [69, 42, 20],
    "City"   : ["NY", "Madrid", "NY"],
    "Salary" : [148800, 100500, 226622]
}

data = pd.DataFrame(data_dict)
data

Unnamed: 0,Name,Age,City,Salary
0,Alex,69,NY,148800
1,Paula,42,Madrid,100500
2,George,20,NY,226622


In [27]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      object
 1   Age     3 non-null      int64 
 2   City    3 non-null      object
 3   Salary  3 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 224.0+ bytes


In [28]:
data.describe()

Unnamed: 0,Age,Salary
count,3.0,3.0
mean,43.666667,158640.666667
std,24.54248,63634.257765
min,20.0,100500.0
25%,31.0,124650.0
50%,42.0,148800.0
75%,55.5,187711.0
max,69.0,226622.0


Чтобы выделить столбец из таблицы, можно использовать квадратные скобки: 

In [29]:
print(data["Name"])

0      Alex
1     Paula
2    George
Name: Name, dtype: object


In [31]:
print(data.Salary)

0    148800
1    100500
2    226622
Name: Salary, dtype: int64


Также можно добавить столбец к уже существующей таблице:

In [32]:
data["Surname"] = ["Smith", "Robertson", "O`Niel"]
data

Unnamed: 0,Name,Age,City,Salary,Surname
0,Alex,69,NY,148800,Smith
1,Paula,42,Madrid,100500,Robertson
2,George,20,NY,226622,O`Niel


Со столбцами таблицы можно работать так же, как и с векторами. Вычислять среднее, сумму, медиану и т.д.

In [33]:
data["Age"].sum()

131

Как и в `pandas.Series`, столбцы таблицы ведут себя как вектора. Арифметические операции над столбцами таблицы происходят поэлементно.

In [55]:
mean_salary = data["Salary"].mean()
std_salary = data["Salary"].std()

scaled_salary = (data["Salary"] - mean_salary) / std_salary
data["Scaled Salary"] = scaled_salary
data

Unnamed: 0,Name,Age,City,Salary,Surname,Age_group,Scaled Salary
0,Alex,69,NY,148800,Smith,Old,-0.154644
1,Paula,42,Madrid,100500,Robertson,Middle-aged,-0.913669
2,George,20,NY,226622,O`Niel,Young,1.068313


Часто нужно провести какое-то преобразование над всем столбцом таблицы. Если под это преобразование нет встроенного метода, то можно использовать метод `apply`. Это полезный способ создания новых столбцов.

In [36]:
def get_age_group(age):
    if age < 18:
        return "Child"
    elif 18 <= age < 35:
        return "Young"
    elif 35 <= age < 55:
        return "Middle-aged"
    else:
        return "Old"


data["Age_group"] = data["Age"].apply(get_age_group)
data

Unnamed: 0,Name,Age,City,Salary,Surname,Age_group
0,Alex,69,NY,148800,Smith,Old
1,Paula,42,Madrid,100500,Robertson,Middle-aged
2,George,20,NY,226622,O`Niel,Young


Также может быть полезно считать статистики внутри каждой группы. Например, средний возраст в каждом городе. Для этого можно использовать метод `groupby`.

In [37]:
mean_age_per_city = data.groupby("City")["Age"].mean()
mean_age_per_city

City
Madrid    42.0
NY        44.5
Name: Age, dtype: float64

В pandas есть ещё много возможностей. Совет такой же как и в случае с `pd.Series`: гуглите методы, которые вам нужны: высока вероятность, что они уже есть.

Часто нам нужно загрузить данные из файла. Обычно таблицы хранятся в формате CSV. В pandas для этого есть функция `pd.read_csv`. Сейчас мы загрузим пробную таблицу с данными и потренируемся с ней работать.

Данные относятся к домам, найденным в данном районе Калифорнии, и к некоторым сводным статистическим данным о них, основанным на данных переписи населения 1990 года. Имейте в виду, что данные не очищены, поэтому требуется выполнить некоторые предварительные действия по обработке! Ниже приведены столбцы:

* longitude -- долгота

* latitude -- широта

* housing_median_age -- средний возраст домов

* total_rooms -- общее количество комнат

* total_bedrooms -- общее количество спален

* population -- население

* households -- общее количество домовладений

* median_income -- медианный доход

* median_house_value -- медианная стоимость дома

* ocean_proximity -- близость к океану








In [38]:
housing_data = pd.read_csv("housing.csv")
housing_data.head(10) # вывести первые 10 столбцов таблицы

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,NEAR BAY
6,-122.25,37.84,52.0,2535.0,489.0,1094.0,514.0,3.6591,299200.0,NEAR BAY
7,-122.25,37.84,52.0,3104.0,687.0,1157.0,647.0,3.12,241400.0,NEAR BAY
8,-122.26,37.84,42.0,2555.0,665.0,1206.0,595.0,2.0804,226700.0,NEAR BAY
9,-122.25,37.84,52.0,3549.0,707.0,1551.0,714.0,3.6912,261100.0,NEAR BAY


In [39]:
housing_data.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


In [40]:
housing_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


Иногда в данных есть пропущенные значения. В pandas есть специальные методы для работы с пропущенными значениями.

Чтобы посмотреть, есть ли пропущенные значения в таблице, можно использовать метод `isna()`.

In [41]:
housing_data.isna().sum()

longitude               0
latitude                0
housing_median_age      0
total_rooms             0
total_bedrooms        207
population              0
households              0
median_income           0
median_house_value      0
ocean_proximity         0
dtype: int64

Мы видим, что в таблице довольно мало пропущенных значений. В этом случае мы можем просто удалить строки с пропущенными значениями. Для этого есть метод `dropna()`.

In [47]:
housing_data = housing_data.dropna()

Часто в таблицах встречаются категориальные переменные. Например, в нашей таблице есть переменная `ocean_proximity`. Чтобы посмотреть, какие значения принимает эта переменная, можно использовать метод `unique()`.












In [48]:
housing_data["ocean_proximity"].unique()

array(['NEAR BAY', '<1H OCEAN', 'INLAND', 'NEAR OCEAN', 'ISLAND'],
      dtype=object)

Бывает необходимо отфильтровать данные по какому-то условию.

In [49]:
island_data = housing_data[housing_data["ocean_proximity"] == "ISLAND"]
island_data

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
8314,-118.32,33.35,27.0,1675.0,521.0,744.0,331.0,2.1579,450000.0,ISLAND
8315,-118.33,33.34,52.0,2359.0,591.0,1100.0,431.0,2.8333,414700.0,ISLAND
8316,-118.32,33.33,52.0,2127.0,512.0,733.0,288.0,3.3906,300000.0,ISLAND
8317,-118.32,33.34,52.0,996.0,264.0,341.0,160.0,2.7361,450000.0,ISLAND
8318,-118.48,33.43,29.0,716.0,214.0,422.0,173.0,2.6042,287500.0,ISLAND


In [50]:
mean_price = housing_data["median_house_value"].mean()
cheap_housing_data = housing_data[housing_data["median_house_value"] < mean_price]
cheap_housing_data

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
13,-122.26,37.84,52.0,696.0,191.0,345.0,174.0,2.6736,191300.0,NEAR BAY
14,-122.26,37.85,52.0,2643.0,626.0,1212.0,620.0,1.9167,159200.0,NEAR BAY
15,-122.26,37.85,50.0,1120.0,283.0,697.0,264.0,2.1250,140000.0,NEAR BAY
16,-122.27,37.85,52.0,1966.0,347.0,793.0,331.0,2.7750,152500.0,NEAR BAY
17,-122.27,37.85,52.0,1228.0,293.0,648.0,303.0,2.1202,155500.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


## Семинар 1.

### Задание 1.

Проведите min-max scaling для переменной `median_income` в таблице `housing_data`. Запишите результат в новую переменную `scaled_median_income`.

min-max scaling:

$$
    x_{scaled} = \frac{x - x_{min}}{x_{max} - x_{min}}
$$









In [56]:
# Ваш код

### Задание 2.

С помощью метода `apply` создайте новую колонку "ocean_proximity_in_russian", которая будет содержать перевод значений из колонки "ocean_proximity" на русский язык.


In [None]:
def translate_ocean_proximity(ocean_proximity:str):
    # your code here
    return

housing_data["ocean_proximity_in_russian"] = # Your code here
    


52.0

### Задание 3. 

С помощью метода `groupby` найдите среднюю стоимость домов в зависимости от их расположения (по колонке `ocean_proximity`).


In [None]:
# Your code here

In [None]:
smarts_data = {
    "major_group" : [
        "amino acids, peptide-like, peptides",
        "steroids",
        "nucleotides",
        "nucleotides",
        "nucleozides",
        "nucleozides",
        "nucleotide bases",
        "nucleotide bases",
        "nucleotide bases",
        "nucleotide bases",
        "nucleotide bases",
        "sugars",
        "sugars",
        "sugars",
        "sugars",
        "sugars",
        "sugars",
        "sugars",
        "macrocycles",
        "organometallics",
        "lipides",
        "lipides",
        "lipides",
        "lipides",
        "lipides"


    ],
    "local_group" : [
        "alpha_amino_acids",
        "steroids",
        "pyrimidine-nucleotide",
        "purine-nucleotide",
        "pyrimidine-nucleozide",
        "purine-nucleozide",
        "adenine",
        "guanine",
        "cytosine",
        "thymine",
        "uracil",
        "aldose pyranose",
        "ketose pyranose",
        "pentose pyranose",
        "ketose furanose",
        "aldose furanose",
        "pentose furanose",
        "desoxy-pentose furanose",
        "cycles with >7 members",
        "at least 3 carbons + metal",
        "fatty acids/esters (>8 carbons chain)",
        "triglyceride (ester)",
        "triglyceride (ether)",
        "phospholipid",
        "lipide-like"
        
    ],
    "smarts" : [
        "[OH1][CX3](=[OX1])[CX4]([#1,#6])([#1,#6])[NH2,$([NH1]([#6])[#6])&!$([NH1](CC(=O)[OH1])[CX3]=[OX1,SX1])]",
        "[#6]12-[#6]-[#6]-[#6]-[#6]-[#6]-1-[#6]1-[#6](-[#6]3-[#6]-[#6]-[#6]-[#6]-3-[#6]-[#6]-1)-[#6]-[#6]-2",
        "[#7,#8]1C(COP)C(O)CC1-[#7]2:[#6]:[#6]:[#6]:[#7]:[#6](=[#8])2",
        "[#7,#8]1C(COP)C(O)CC1-[#7]2:[#6]:[#7]:[#6]3:[#6]2:[#7]:[#6]:[#7]:[#6]3",
        "[#7,#8]1C(C[OH])C(O)CC1-[#7]2:[#6]:[#6]:[#6]:[#7]:[#6](=[#8])2",
        "[#7,#8]1C(C[OH])C(O)CC1-[#7]2:[#6]:[#7]:[#6]3:[#6]2:[#7]:[#6]:[#7]:[#6]3",
        "[#7]-[#6]1:[#7]:[#6]:[#7]:[#6]2:[#6]:1:[#7]:[#6]:[#7H]:2",
        "[#7]-[#6]1:[#7H]:[#6](:[#6]2:[#6](:[#7]:1):[#7H]:[#6]:[#7]:2)=[#8]",
        "[#8]=[#6]1:[#7]:[#6](-[#7]):[#6]:[#6]:[#7H]:1",
        "[#8]=[#6]1:[#7]:[#6H]:[#6](-[CH3]):[#6](=[#8]):[#7H]:1",
        "[#8]=[#6]1:[#7]:[#6H]:[#6H]:[#6](=[#8]):[#7H]:1",
        "[#7,#8]1C([#7,#8])C([#7,#8])C([#7,#8])C([#7,#8])C(CO)1",
        "[#7,#8]1C(CO)C([#7,#8])C([#7,#8])C([#7,#8])C1",
        "[#7,#8]1C([#7,#8])C([#7,#8])C([#7,#8])C([#7,#8])C1",
        "[#7,#8]1C([#7,#8])(CO)C([#7,#8])C([#7,#8])C(CO)1",
        "[#7,#8]1C([#7,#8])C([#7,#8])C([#7,#8])C(C(O)CO)1",
        "[#7,#8]1C([#7,#8])C([#7,#8])C([#7,#8])C(CO)1",
        "[#7,#8]1C([#7,#8])[#6H2]C([#7,#8])C(CO)1",
        "[r;!r3;!r4;!r5;!r6;!r7]",
        "[#6].[#6].[#6].[Li,Na,K,Cu,Ag,Au,Mg,Ca,Zn,Ba,Cr,Mn,Fe,Co,Ni,Pd,Pt]",
        "[O][#6](=[O])~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]",
        "[#6]([O][#6](=[O])~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6])[#6]([O][#6](=[O])~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6])[#6]([O][#6](=[O])~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6])",
        "[#6]([O][#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6])[#6]([O][#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6])[#6]([O][#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6])",
        "[#6]([O][P](=[O])([O])[O])[#6]([O][#6](=[O])~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6])[#6]([O][#6](=[O])~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6])",
        "[#6]([#6,#7,#8][$(C=O),$(C)]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6])[#6]([#6,#7,#8][$(C=O),$(C)]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6]~[#6])[#6][#6,#7,#8]"        
    ]   
}