# Машинное обучение

# Тема 1. Введение

* [1. Библиотека pandas](#chapter1)
* [2. Загрузка данных](#chapter2)
* [3. Именованные ссылки и копирование](#chapter3)
* [4. Вывод строк, столбцов и значений](#chapter4)
* [5. Информация о датафрейме](#chapter5)
* [6. Загрузка данных с веб-страниц](#chapter6)

## 1. Библиотека pandas <a class="anchor" id="chapter1"></a>

**Pandas** — программная библиотека на языке Python для обработки и анализа данных. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временными рядами. Название библиотеки происходит от эконометрического термина «панельные данные», используемого для описания многомерных структурированных наборов информации.

Библиотека pandas содержит набор модулей и функций, которые облегчают выполнения некоторых операций с использованием языка программирования Python. В нашем случае использование библиотеки облегчит предварительную обработку данных и последующий их анализ. Позволит получить хорошо структурированные и наглядные таблицы, содержащие статистические показатели, рассчитанные на основе данных.

[Шпаргалка по pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

Преимущества pandas:
- удобное представление таблиц;
- много готовых методов для работы с данными;
- простота использования;
- простой синтаксис;
- строенные визуализации;
- работает с разными форматами хранения начальных данных.

Недостатки pandas:
- высокое потребление памяти;
- медленная работа с очень большими данными.

При импортировании библиотеки pandas мы её переименовываем в **pd**, и в дальнейшем будем к ней обращаться по названию pd.

In [2]:
import pandas as pd

В pandas реализованы типы данных с разным числом измерений: 
- одномерный тип (просто ряд) — Series,
- двумерный (таблица) — DataFrame, 
- трёхмерный — Panel. 

## 2. Загрузка данных <a class="anchor" id="chapter2"></a>

Откроем файл с названием **brics**, у него разрешение **csv** (сomma-separated values). Для этого используем метод **read_csv**. Для открытия других типов файлов используются соответствующие методы:

- **read_excel** для файлов созданных в MS Excel и имеющих разрешения xls или xlsx;
- **read_html** для веб-страниц, написанных на языке HTML;
- **read_stata** для файлов, созданных в Stata и имеющих разрешение dta, и т.д.

Наряду с названием файла методу **read_csv** можно передать ряд параметров, определяющих порядок обработки данных при считывании из файла. Подробнее про параметры метода можно прочесть по [ссылке]( https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)


Считываем содержимое файла, в дальнейшем будем к нему обращаться по имени df. Файл находится в той же директории, что и текущий ноутбук.

In [2]:
df = pd.read_csv("brics.csv")

Функция `type()` возвращает тип объекта.

In [3]:
type(df)

pandas.core.frame.DataFrame

Создан объект `DataFrame`. Отразим его содержимое.

In [4]:
df

Unnamed: 0,id,country,capital,area,population
0,BR,Brasil,Brazilia,8.516,212.6
1,RU,Russia,Moscow,17.13,144.1
2,IN,India,New Delhi,3.287,1380.0
3,CH,China,Beijing,9.597,1402.0
4,SA,South Africa,Pretoria,1.221,59.31


Первая строка из файла автоматически становится индексами столбцов. У строк по умолчанию нет индексов, и им присваиваются номера начиная с 0 (левая колонка). Можно было бы загрузить файл так, чтобы первый столбец рассматривался как столбец с именами строк (индексами), для этого надо передать **pd.read_csv()** параметр **index_col** с номером нужного столбца.

In [5]:
df = pd.read_csv("brics.csv", index_col=0)  # указали, что первая колонка станет индексами строк
df

Unnamed: 0_level_0,country,capital,area,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


Теперь столбец слева (индекс) состоит не из последовательных чисел, а из строк.

In [6]:
df = pd.read_csv("brics.csv")
df

Unnamed: 0,id,country,capital,area,population
0,BR,Brasil,Brazilia,8.516,212.6
1,RU,Russia,Moscow,17.13,144.1
2,IN,India,New Delhi,3.287,1380.0
3,CH,China,Beijing,9.597,1402.0
4,SA,South Africa,Pretoria,1.221,59.31


Можно поменять индекс строк не на этапе считывания данных из файла, а позднее.

In [7]:
df = df.set_index('id')
df

Unnamed: 0_level_0,country,capital,area,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


Строка датафрейма называется «наблюдением» (observation), а столбец — «переменной» (variable). Данные в столбце должны быть однородны (например, может быть столбец, состоящий только из чисел или только из строк (string), но не может быть столбца, в котором есть и текстовые, и числовые значения), а в отдельной сроке таблицы данные могут быть разнородны.

## 3. Именованные ссылки и копирование <a class="anchor" id="chapter3"></a>

#### Ситуация 1: несколько имён у одного датафрейма

У нас есть объект DataFrame c именованной ссылкой на него `df`. То есть, `df` - это имя объекта, у объекта может быть несколько имён. В этом случае, для обращения к нему можно использовать любое из них.

In [8]:
df = pd.read_csv("brics.csv", index_col=0) 
df

Unnamed: 0_level_0,country,capital,area,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


In [9]:
df2 = df  # у объекта df появляется второе имя (именованная ссылка на него) df2

In [10]:
id(df)

5150015760

In [11]:
id(df2)

5150015760

Идентификаторы объектов одинаковые.

In [12]:
df2

Unnamed: 0_level_0,country,capital,area,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


In [13]:
df2['new'] = 'new'  # меняем объект используя имя df2

In [14]:
df2  # выводим содержимое изменённого объекта

Unnamed: 0_level_0,country,capital,area,population,new
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
BR,Brasil,Brazilia,8.516,212.6,new
RU,Russia,Moscow,17.13,144.1,new
IN,India,New Delhi,3.287,1380.0,new
CH,China,Beijing,9.597,1402.0,new
SA,South Africa,Pretoria,1.221,59.31,new


In [15]:
df  # при обращении к объекту по имени df мы получаем тот же самый уже изменённый объект

Unnamed: 0_level_0,country,capital,area,population,new
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
BR,Brasil,Brazilia,8.516,212.6,new
RU,Russia,Moscow,17.13,144.1,new
IN,India,New Delhi,3.287,1380.0,new
CH,China,Beijing,9.597,1402.0,new
SA,South Africa,Pretoria,1.221,59.31,new


#### Ситуация 2: копирование датафрейма с присвоением копии другого имени  

Мы можем на основе существующего объекта создать его копию (второй объект). У них будут разные имена, и модификация одного из объектов не повлияет на другой.

In [16]:
df = pd.read_csv("brics.csv", index_col=0)  # заново считываем файл

In [17]:
df

Unnamed: 0_level_0,country,capital,area,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


In [18]:
df3 = df.copy()  # создаём копию датафрейма присваивая ей имя df3

In [19]:
id(df)

5150462672

In [20]:
id(df3)

5150292624

Идентификаторы объектов разные.

In [21]:
df3

Unnamed: 0_level_0,country,capital,area,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


In [22]:
df3['new'] = 0  # меняем датафрейм, имеющий имя df3

In [23]:
df3

Unnamed: 0_level_0,country,capital,area,population,new
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
BR,Brasil,Brazilia,8.516,212.6,0
RU,Russia,Moscow,17.13,144.1,0
IN,India,New Delhi,3.287,1380.0,0
CH,China,Beijing,9.597,1402.0,0
SA,South Africa,Pretoria,1.221,59.31,0


In [24]:
df  # объект с именем df не поменялся

Unnamed: 0_level_0,country,capital,area,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


## 4. Вывод строк, столбцов и значений <a class="anchor" id="chapter4"></a>

Можно вывести один столбце в виде ряда (series), указав его названия в одинарных квадратных скобках.

In [25]:
df

Unnamed: 0_level_0,country,capital,area,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


In [26]:
df['area']

id
BR     8.516
RU    17.130
IN     3.287
CH     9.597
SA     1.221
Name: area, dtype: float64

In [27]:
type(df['area'])

pandas.core.series.Series

При использовании двойных квадратных скобок выводится таблица (`dataframe`).

In [28]:
df[['area']]

Unnamed: 0_level_0,area
id,Unnamed: 1_level_1
BR,8.516
RU,17.13
IN,3.287
CH,9.597
SA,1.221


In [29]:
type(df[['area']])

pandas.core.frame.DataFrame

Можно вывести несколько столбцов, указав их индексы в любом порядке. При этом один столбец можно вывести несколько раз. 

In [30]:
df[['area', 'country', 'area']]

Unnamed: 0_level_0,area,country,area
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BR,8.516,Brasil,8.516
RU,17.13,Russia,17.13
IN,3.287,India,3.287
CH,9.597,China,9.597
SA,1.221,South Africa,1.221


Можно вывести строку, указав её индекс, при этом нужно использовать метод `loc`.

In [31]:
df.loc[['RU']]

Unnamed: 0_level_0,country,capital,area,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
RU,Russia,Moscow,17.13,144.1


Можно вывести несколько строк, перечислив их индексы. При этом можно вывести одну и ту же строку несколько раз.

In [32]:
df.loc[['RU', 'SA', 'BR', 'RU']]

Unnamed: 0_level_0,country,capital,area,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
RU,Russia,Moscow,17.13,144.1
SA,South Africa,Pretoria,1.221,59.31
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1


Метод `at` позволяет обратиться к конкретному элементу таблицы по индексу строки и столбца. Сначала передаётся индекс строки, а потом индекс столбца. Работает быстрее, чем loc(), если нужно найти одно значение.

In [33]:
df.at['RU', 'capital'] 

'Moscow'

То же самое можно получить с помощью метода `loc`.

In [34]:
df.loc['RU', 'capital']  

'Moscow'

Ещё один вариант получения значения на пересечении столбца и строки.

In [35]:
df['capital']['RU'] 

'Moscow'

Методу `loc` можно передать список из нескольких столбцов и строк.

In [36]:
df.loc[['RU', 'BR'], ['capital', 'population']]

Unnamed: 0_level_0,capital,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1
RU,Moscow,144.1
BR,Brazilia,212.6


In [37]:
df.loc[['RU', 'BR'], :]  # вместо списка столбцов можно передать :, что означает "все столбцы"

Unnamed: 0_level_0,country,capital,area,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
RU,Russia,Moscow,17.13,144.1
BR,Brasil,Brazilia,8.516,212.6


In [38]:
df.loc[:, ['capital', 'population']]  # вместо списка строк можно передать :, что означает "все строки"

Unnamed: 0_level_0,capital,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1
BR,Brazilia,212.6
RU,Moscow,144.1
IN,New Delhi,1380.0
CH,Beijing,1402.0
SA,Pretoria,59.31


Метод `loc` работает с установленными индексами строк и столбцов, а если необходимо использовать их порядковые номера, то используется метод `iloc`.

In [39]:
df.iloc[[1]]  # вторая строка

Unnamed: 0_level_0,country,capital,area,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
RU,Russia,Moscow,17.13,144.1


In [40]:
df.iloc[1, 2]  # ячейка во второй строке, третьем столбце

17.13

Аналогично метод `at` позволяет найти значение по установленным индексам строки и столбца. А методу `iat` передаются порядковые номера строки и столбца.  

In [41]:
df

Unnamed: 0_level_0,country,capital,area,population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


In [42]:
df.at['RU', 'capital']

'Moscow'

In [43]:
df.iat[1, 1]  # второй столбец, вторая строка

'Moscow'

Узнать индекс строки.

In [44]:
print(df.index.get_loc('RU'))
print(df.index.get_loc('CH'))

1
3


Узнать индекс столбца.

In [45]:
print(df.columns.get_loc('capital'))
print(df.columns.get_loc('population'))

1
3


### Работа с индексами столбцов и строк

Можно вывести индексы столбцов и строк в виде списка.

In [46]:
df.index  # вывести индексы строк

Index(['BR', 'RU', 'IN', 'CH', 'SA'], dtype='object', name='id')

In [47]:
df.columns  # вывести индексы столбцов

Index(['country', 'capital', 'area', 'population'], dtype='object')

Можно изменить индексы столбцов

In [48]:
df.columns = ['country_new', 'capital_new', 'area_old', 'populat_new'] 
df

Unnamed: 0_level_0,country_new,capital_new,area_old,populat_new
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


Слово id при отображении датафрейма — имя столбца с индексами. Можно его удалить

In [49]:
df.index.name = None  # убрать имя столбца с индексами

In [50]:
df

Unnamed: 0,country_new,capital_new,area_old,populat_new
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


### Срезы

In [51]:
df

Unnamed: 0,country_new,capital_new,area_old,populat_new
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


Срез осуществляется по срокам на основе числовых индексов. Нумерация начинается с 0, последний элемент не включается в вывод.

In [52]:
df[2:4]  # с 3-ей по 4-ую строки

Unnamed: 0,country_new,capital_new,area_old,populat_new
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0


In [53]:
df['RU':'CH']  # срез по срокам на основе текстовых индексов, крайние элементы включены в вывод

Unnamed: 0,country_new,capital_new,area_old,populat_new
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0


In [54]:
df[0:1]  # первая строка

Unnamed: 0,country_new,capital_new,area_old,populat_new
BR,Brasil,Brazilia,8.516,212.6


In [55]:
df[:3]  # первые три строки, начальный элемент среза не указан

Unnamed: 0,country_new,capital_new,area_old,populat_new
BR,Brasil,Brazilia,8.516,212.6
RU,Russia,Moscow,17.13,144.1
IN,India,New Delhi,3.287,1380.0


In [56]:
df[-3:]  # последние три строки

Unnamed: 0,country_new,capital_new,area_old,populat_new
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


In [57]:
df[2:]  # последние три строки

Unnamed: 0,country_new,capital_new,area_old,populat_new
IN,India,New Delhi,3.287,1380.0
CH,China,Beijing,9.597,1402.0
SA,South Africa,Pretoria,1.221,59.31


## 5. Информация о датафрейме <a class="anchor" id="chapter5"></a>

### Файл с данными про ноутбуки

[Источник данных](https://www.kaggle.com/datasets/bhavikjikadara/brand-laptops-dataset)

The dataset presents a collection of 991 unique laptops sourced from the 'Smartprix' website. Enriched with 22 features including laptop name, price in Indian rupees, processor, GPU, and more, it provides valuable insights for building robust price prediction models and effective recommendation systems. Updated as of January 14, 2024, this dataset is a reliable foundation for exploring the intricate landscape of laptop pricing dynamics and consumer preferences.

Описание переменных:

- Brand: The name of the laptop brand.
- Model: The specific model or series of the laptop.
- Price: The price of the laptop in Indian rupees.
- Rating: The rating assigned to each laptop based on its specifications.
- Processor brand: The brand of the processor used in the laptop.
- Processor tier: The performance tier or category of the processor.
- Number of Cores: The number of processing cores in the processor.
- Number of Threads: The number of threads supported by the processor.
- Ram memory: The amount of RAM used in the laptop.
- Primary storage type: The type of primary storage (e.g., HDD, SSD).
- Primary storage capacity: The capacity of the primary storage in the laptop.
- Secondary storage type: The type of secondary storage, if available.
- Secondary storage capacity: The capacity of the secondary storage in the laptop.
- GPU brand: The brand of the graphics processing unit (GPU).
- GPU type: The type of the GPU.
- Is Touch screen: Indicates whether the laptop has a touch screen feature.
- Display size: The size of the laptop display in inches.
- Resolution width: The width resolution of the display.
- Resolution height: The height resolution of the display.
- OS: The operating system installed on the laptop.
- Year of warranty: The duration of the warranty provided for the laptop, usually in years

In [58]:
df = pd.read_csv("laptops.csv") 

In [59]:
df

Unnamed: 0,index,brand,Model,Price,Rating,processor_brand,processor_tier,num_cores,num_threads,ram_memory,...,secondary_storage_type,secondary_storage_capacity,gpu_brand,gpu_type,is_touch_screen,display_size,resolution_width,resolution_height,OS,year_of_warranty
0,1,tecno,Tecno Megabook T1 Laptop (11th Gen Core i3/ 8G...,23990,63,intel,core i3,2,4,8,...,No secondary storage,0,intel,integrated,False,15.6,1920,1080,windows,1
1,2,tecno,Tecno Megabook T1 Laptop (11th Gen Core i7/ 16...,35990,67,intel,core i7,4,8,16,...,No secondary storage,0,intel,integrated,False,15.6,1920,1080,windows,1
2,3,hp,HP Victus 15-fb0157AX Gaming Laptop (AMD Ryzen...,51100,73,amd,ryzen 5,6,12,8,...,No secondary storage,0,amd,dedicated,False,15.6,1920,1080,windows,1
3,4,acer,Acer Extensa EX214-53 Laptop (12th Gen Core i5...,39990,62,intel,core i5,12,16,8,...,No secondary storage,0,intel,integrated,False,14.0,1920,1080,windows,1
4,5,lenovo,Lenovo V15 82KDA01BIH Laptop (AMD Ryzen 3 5300...,28580,62,amd,ryzen 3,4,8,8,...,No secondary storage,0,amd,integrated,False,15.6,1920,1080,windows,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
986,998,asus,Asus Vivobook Pro 15 M6500QC-HN542WS Laptop (R...,65990,68,amd,ryzen 5,6,12,16,...,No secondary storage,0,nvidia,dedicated,False,15.6,1920,1080,windows,1
987,999,msi,MSI Thin GF63 12VE-070IN Gaming Laptop (12th G...,91990,73,intel,core i7,10,16,16,...,No secondary storage,0,nvidia,dedicated,False,15.6,1920,1080,windows,2
988,1000,asus,Asus Vivobook Go 15 2023 E1504FA-NJ522WS Lapto...,44990,59,amd,ryzen 5,4,8,8,...,No secondary storage,0,amd,integrated,False,15.6,1920,1080,windows,1
989,1001,asus,Asus Zenbook 14 2023 UM3402YA-KP541WS Laptop (...,67990,68,amd,ryzen 5,6,12,16,...,No secondary storage,0,amd,integrated,False,14.0,2560,1600,windows,1


Метод `info()` возвращает сводную информацию о числе строк и столбцов, названиях столбцов и типах данных в них, числе ненулевых значений в каждом столбце.

In [60]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 991 entries, 0 to 990
Data columns (total 22 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   index                       991 non-null    int64  
 1   brand                       991 non-null    object 
 2   Model                       991 non-null    object 
 3   Price                       991 non-null    int64  
 4   Rating                      991 non-null    int64  
 5   processor_brand             991 non-null    object 
 6   processor_tier              991 non-null    object 
 7   num_cores                   991 non-null    int64  
 8   num_threads                 991 non-null    int64  
 9   ram_memory                  991 non-null    int64  
 10  primary_storage_type        991 non-null    object 
 11  primary_storage_capacity    991 non-null    int64  
 12  secondary_storage_type      991 non-null    object 
 13  secondary_storage_capacity  991 non

In [61]:
df['year_of_warranty'].value_counts()

1                 900
2                  63
No information     18
3                  10
Name: year_of_warranty, dtype: int64

В выводе выше указано, что в датафрейме содержаться 991 строка (991 entries) и 22 колонки (22 columns). Указаны названия колонок, их тип и число ненулевых значений в каждой колонке. Для строковых переменных тип данных object, для столбцов, содержащих целые числа - типа данных int64, а для столбцов, содержащих числа с плавающей точкой - тип данных float64.

In [62]:
df.head()  # отобразить первые пять записей

Unnamed: 0,index,brand,Model,Price,Rating,processor_brand,processor_tier,num_cores,num_threads,ram_memory,...,secondary_storage_type,secondary_storage_capacity,gpu_brand,gpu_type,is_touch_screen,display_size,resolution_width,resolution_height,OS,year_of_warranty
0,1,tecno,Tecno Megabook T1 Laptop (11th Gen Core i3/ 8G...,23990,63,intel,core i3,2,4,8,...,No secondary storage,0,intel,integrated,False,15.6,1920,1080,windows,1
1,2,tecno,Tecno Megabook T1 Laptop (11th Gen Core i7/ 16...,35990,67,intel,core i7,4,8,16,...,No secondary storage,0,intel,integrated,False,15.6,1920,1080,windows,1
2,3,hp,HP Victus 15-fb0157AX Gaming Laptop (AMD Ryzen...,51100,73,amd,ryzen 5,6,12,8,...,No secondary storage,0,amd,dedicated,False,15.6,1920,1080,windows,1
3,4,acer,Acer Extensa EX214-53 Laptop (12th Gen Core i5...,39990,62,intel,core i5,12,16,8,...,No secondary storage,0,intel,integrated,False,14.0,1920,1080,windows,1
4,5,lenovo,Lenovo V15 82KDA01BIH Laptop (AMD Ryzen 3 5300...,28580,62,amd,ryzen 3,4,8,8,...,No secondary storage,0,amd,integrated,False,15.6,1920,1080,windows,1


In [63]:
df.head(7)  # отобразить первые 7 записей

Unnamed: 0,index,brand,Model,Price,Rating,processor_brand,processor_tier,num_cores,num_threads,ram_memory,...,secondary_storage_type,secondary_storage_capacity,gpu_brand,gpu_type,is_touch_screen,display_size,resolution_width,resolution_height,OS,year_of_warranty
0,1,tecno,Tecno Megabook T1 Laptop (11th Gen Core i3/ 8G...,23990,63,intel,core i3,2,4,8,...,No secondary storage,0,intel,integrated,False,15.6,1920,1080,windows,1
1,2,tecno,Tecno Megabook T1 Laptop (11th Gen Core i7/ 16...,35990,67,intel,core i7,4,8,16,...,No secondary storage,0,intel,integrated,False,15.6,1920,1080,windows,1
2,3,hp,HP Victus 15-fb0157AX Gaming Laptop (AMD Ryzen...,51100,73,amd,ryzen 5,6,12,8,...,No secondary storage,0,amd,dedicated,False,15.6,1920,1080,windows,1
3,4,acer,Acer Extensa EX214-53 Laptop (12th Gen Core i5...,39990,62,intel,core i5,12,16,8,...,No secondary storage,0,intel,integrated,False,14.0,1920,1080,windows,1
4,5,lenovo,Lenovo V15 82KDA01BIH Laptop (AMD Ryzen 3 5300...,28580,62,amd,ryzen 3,4,8,8,...,No secondary storage,0,amd,integrated,False,15.6,1920,1080,windows,1
5,6,apple,Apple MacBook Air 2020 MGND3HN Laptop (Apple M...,70990,45,apple,m1,8,8,8,...,No secondary storage,0,apple,apple,False,13.3,2560,1600,mac,1
6,7,infinix,Infinix INBook Y2 Plus Laptop (11th Gen Core i...,34990,56,intel,core i5,4,8,16,...,No secondary storage,0,intel,integrated,False,15.6,1920,1080,windows,1


In [64]:
df.tail()  # отобразить последние 5 записей

Unnamed: 0,index,brand,Model,Price,Rating,processor_brand,processor_tier,num_cores,num_threads,ram_memory,...,secondary_storage_type,secondary_storage_capacity,gpu_brand,gpu_type,is_touch_screen,display_size,resolution_width,resolution_height,OS,year_of_warranty
986,998,asus,Asus Vivobook Pro 15 M6500QC-HN542WS Laptop (R...,65990,68,amd,ryzen 5,6,12,16,...,No secondary storage,0,nvidia,dedicated,False,15.6,1920,1080,windows,1
987,999,msi,MSI Thin GF63 12VE-070IN Gaming Laptop (12th G...,91990,73,intel,core i7,10,16,16,...,No secondary storage,0,nvidia,dedicated,False,15.6,1920,1080,windows,2
988,1000,asus,Asus Vivobook Go 15 2023 E1504FA-NJ522WS Lapto...,44990,59,amd,ryzen 5,4,8,8,...,No secondary storage,0,amd,integrated,False,15.6,1920,1080,windows,1
989,1001,asus,Asus Zenbook 14 2023 UM3402YA-KP541WS Laptop (...,67990,68,amd,ryzen 5,6,12,16,...,No secondary storage,0,amd,integrated,False,14.0,2560,1600,windows,1
990,1002,hp,HP Chromebook 15a-na0008TU Laptop (Intel Celer...,20990,37,intel,celeron,2,2,4,...,No secondary storage,0,intel,integrated,False,15.6,1366,768,chrome,1


In [65]:
df.tail(7)  # отобразить последние 7 записей

Unnamed: 0,index,brand,Model,Price,Rating,processor_brand,processor_tier,num_cores,num_threads,ram_memory,...,secondary_storage_type,secondary_storage_capacity,gpu_brand,gpu_type,is_touch_screen,display_size,resolution_width,resolution_height,OS,year_of_warranty
984,996,asus,Asus Vivobook 16 2023 M1605YA-MB541WS Laptop (...,59990,64,amd,ryzen 5,6,12,16,...,No secondary storage,0,amd,integrated,False,16.0,1920,1200,windows,1
985,997,acer,Acer Nitro 5 AN515-47 NH.QL3SI.003 Gaming Lapt...,75500,67,amd,ryzen 7,8,16,8,...,No secondary storage,0,nvidia,dedicated,False,15.6,1920,1080,windows,1
986,998,asus,Asus Vivobook Pro 15 M6500QC-HN542WS Laptop (R...,65990,68,amd,ryzen 5,6,12,16,...,No secondary storage,0,nvidia,dedicated,False,15.6,1920,1080,windows,1
987,999,msi,MSI Thin GF63 12VE-070IN Gaming Laptop (12th G...,91990,73,intel,core i7,10,16,16,...,No secondary storage,0,nvidia,dedicated,False,15.6,1920,1080,windows,2
988,1000,asus,Asus Vivobook Go 15 2023 E1504FA-NJ522WS Lapto...,44990,59,amd,ryzen 5,4,8,8,...,No secondary storage,0,amd,integrated,False,15.6,1920,1080,windows,1
989,1001,asus,Asus Zenbook 14 2023 UM3402YA-KP541WS Laptop (...,67990,68,amd,ryzen 5,6,12,16,...,No secondary storage,0,amd,integrated,False,14.0,2560,1600,windows,1
990,1002,hp,HP Chromebook 15a-na0008TU Laptop (Intel Celer...,20990,37,intel,celeron,2,2,4,...,No secondary storage,0,intel,integrated,False,15.6,1366,768,chrome,1


In [66]:
df.shape  # число строк и столбцов

(991, 22)

In [67]:
df.shape[0] #число строк

991

In [68]:
df.dtypes  # тип данных в каждом столбце

index                           int64
brand                          object
Model                          object
Price                           int64
Rating                          int64
processor_brand                object
processor_tier                 object
num_cores                       int64
num_threads                     int64
ram_memory                      int64
primary_storage_type           object
primary_storage_capacity        int64
secondary_storage_type         object
secondary_storage_capacity      int64
gpu_brand                      object
gpu_type                       object
is_touch_screen                  bool
display_size                  float64
resolution_width                int64
resolution_height               int64
OS                             object
year_of_warranty               object
dtype: object

## 6. Загрузка данных с веб-страниц <a class="anchor" id="chapter6"></a>

In [3]:
df = pd.read_html('https://cbr.ru/currency_base/daily/')[0]
df.head()

Unnamed: 0,Цифр. код,Букв. код,Единиц,Валюта,Курс
0,36,AUD,1,Австралийский доллар,529127
1,944,AZN,1,Азербайджанский манат,450305
2,12,DZD,100,Алжирских динаров,592374
3,51,AMD,100,Армянских драмов,202059
4,764,THB,10,Батов,245760
