# Вопросы из Слака

### Вопрос 1
Можно ли из array или другого типа данных сделать dataframe? Как создать DF c нуля, а не импортировать.

Основные методы перечислены в [документации](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html).

In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame(
    {
        'date': ['2021-03-01', '2021-03-02', '2021-03-03'], 
        'cost': [100, 150, 130]
    }
)
df

Unnamed: 0,date,cost
0,2021-03-01,100
1,2021-03-02,150
2,2021-03-03,130


### Вопрос 2
Метод read_html - как вытащить таблицу с сайта, если она не зашита в html, а подтягивается на сайт из внешних источников через JS?
- вариант 1 - библиотека Beautiful Soup ([примеры](https://python-scripts.com/beautifulsoup-html-parsing) и [документация](https://beautiful-soup-4.readthedocs.io/en/latest/))
- вариант 2 - библиотека Selenium https://selenium-python.com/

### Вопрос 3
```python
data[new_row_name] = data[row_name] + 1
```
А можно добавить новый столбец, не использую данные существующих столбцов?

In [5]:
from random import random

In [6]:
df = pd.DataFrame({'date': ['2021-03-01', '2021-03-02', '2021-03-03'], 'cost': [100, 150, 130]})
df

Unnamed: 0,date,cost
0,2021-03-01,100
1,2021-03-02,150
2,2021-03-03,130


In [7]:
df['random_value'] = df.apply(lambda x: random(), axis=1)
df

Unnamed: 0,date,cost,random_value
0,2021-03-01,100,0.398826
1,2021-03-02,150,0.011052
2,2021-03-03,130,0.483895


In [8]:
df['value'] = 100
df

Unnamed: 0,date,cost,random_value,value
0,2021-03-01,100,0.398826,100
1,2021-03-02,150,0.011052,100
2,2021-03-03,130,0.483895,100


### Вопрос 4
Если мы получаем результат в формате 1.23E+05, как перевести в обычный числовой формат?

1.23E+05 = 1.23 * 10**5

1.23E+05
1.23E+08

123000
12300000000

1.23E-15
0.0000000000000000123

In [9]:
result = 1.23E+05
result

123000.0

In [10]:
print('Результат {:.3f}'.format(result))

Результат 123000.000


# Основы pandas

In [None]:
import pandas as pd

Пример забора данных с сайтов

In [3]:
pd.read_html('http://www.cbr.ru')[0]

ValueError: No tables found

In [4]:
pd.read_html('https://rosstat.gov.ru/opendata/7708234640-ca1502036', encoding='utf-8')[0]

Unnamed: 0,№,Характеристика,Значение
0,1,Оцените востребованность набора,
1,2,Идентификационный номер (код) набора данных,7708234640-ca1502036
2,3,Наименование набора данных,Реестр вакансий Территориального органа Федера...
3,4,Описание набора данных,Перечень вакансий Хабаровскстата и основные да...
4,5,Владелец набора данных,Федеральная служба государственной статистики
5,6,Ответственное лицо,Волкова Валентина Владимировна
6,7,Телефон ответственного лица,+74956073012
7,8,Адрес электронной почты ответственного лица,volkova@gks.ru
8,9,Гиперссылка (URL) на набор,data-20201109-structure-20150401.csv
9,10,Формат набора открытых данных,CSV


In [None]:
page_url = 'https://www.finanz.ru/valyuty/usd-rub'

# Импортируем нужную нам страницу в df
# attrs = {'class': 'news_table'} ---> указываем какой именно блок нам нужен
# encoding='utf-8' ---> указываем кодировку страниц для корректного отображения кириллицы
df = pd.read_html(page_url, attrs = {'class': 'news_table'}, encoding='utf-8')

In [None]:
df[:5]

Импорт данных из файла

In [13]:
data = pd.read_csv('power.csv', skiprows=10)
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [None]:
data[pd.isnull]

data[pd.isna(data['year'])]

In [None]:
sep='\t'

In [12]:
?pd.read_csv

In [None]:
data.tail()

In [None]:
type(data)

In [None]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = '\t', header=0)
# data.head()

In [None]:
# количество строк в датафрейме

len(data)

In [None]:
# или так

data.shape

Простые вычисления для нового столбца

In [None]:
data['year_plus_one'] = data['year'] + 1
data.head()

### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

### Основные сведения о датафрейме

In [20]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1189482 entries, 0 to 1189481
Data columns (total 4 columns):
country     1189482 non-null object
year        1189482 non-null int64
quantity    1189482 non-null float64
category    1189482 non-null int64
dtypes: float64(1), int64(2), object(1)
memory usage: 36.3+ MB


In [15]:
# немного статистики

data.describe()

Unnamed: 0,year,quantity,category
count,1189482.0,1189482.0,1189482.0
mean,2002.852,184264.8,36.24763
std,7.167345,15856630.0,18.09968
min,1990.0,-864348.0,1.0
25%,1997.0,14.0,24.0
50%,2003.0,189.0,35.0
75%,2009.0,2265.0,51.0
max,2014.0,6680329000.0,71.0


### Отдельный столбец (тип Series)

In [21]:
data['year'].head()

0    1996
1    1995
2    2014
3    2013
4    2012
Name: year, dtype: int64

In [None]:
# или так

data.year.head()

In [22]:
type(data['year'])

pandas.core.series.Series

In [None]:
data.head()

In [23]:
# уникальные значения в столбце

data['category'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 13, 12, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71])

In [None]:
len(data['category'].unique())

In [None]:
data['category'].head()

In [26]:
# распределение количества строк по значениям столбца

results = data['category'].value_counts().head(10)
results

67    133916
27     97645
24     75132
42     64161
37     62156
39     53198
25     52032
21     50229
51     43466
31     42307
Name: category, dtype: int64

In [28]:
results.index[0]

67

In [30]:
results.values[0]

133916

In [None]:
data['category'].value_counts(normalize=True).head()

### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

# Фильтры

In [None]:
data = pd.read_csv('power.csv')
data.head()

In [None]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

In [None]:
# или так

data[['country', 'quantity']].head()

### Отфильтруем строки с потреблением выше среднего

In [None]:
average_level = data['quantity'].mean()
average_level

In [None]:
'quantity > {}'.format(average_level)

In [None]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head()

In [None]:
# самый популярный способ

data[ data.quantity > average_level ].head()

### Как определить используемый вариант названия страны?

In [None]:
data['country'].unique()

In [None]:
# найдем как называется Россия и Беларусь в этом датафрейме
# фильтр на подстроку - смотрим все страны, содержащие в названии 'us'

data[ data['country'].str.contains('us', case=False) ]['country'].unique()

In [None]:
# фильтр на несколько условий сразу
# | - условие ИЛИ
# & AND
# () | (() | () & ())
filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

filtered_countries.head()

In [None]:
filtered_countries['country'].unique()

In [None]:
# фильтры на номер строки

data.loc[1000:1005]

# Сортировка

In [None]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

In [None]:
# сортировка по убыванию

data.sort_values('quantity', ascending=False).head()

In [None]:
# сортировка по нескольким столбцам

data.sort_values(by=['year', 'country', 'quantity'], ascending=[False, True, False]).head(50)

### Параметр inplace

In [None]:
data.head()

In [None]:
data.sort_values('country', ascending=True, inplace=rewrite)

In [None]:
data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 