# **Основы работы с функцией read_csv()**

Pandas предоставляет простой и удобный интерфейс для работы с табличными данными. Одним из наиболее распространенных форматов данных, с которыми мы сталкиваемся, являются CSV-файлы (Comma-Separated Values), где данные представлены в виде таблицы, разделенной запятыми.  Для этого в Pandas есть функция read_csv(), которую мы будем использовать. Она позволяет загружать данные из файлов CSV и создавать объекты DataFrame, основной структуры данных в Pandas.

Синтаксис:

In [None]:
df = pd.read_csv('data.csv') # 'data.csv' - путь к файлу.

По умолчанию Pandas сам определяет заголовки (параметр header='infer'), если же они определены неверно, можно указать их явно через параметр header (header=n, где n - номер строки). Если нужно, чтобы Pandas вообще не пытался считать заголовок, надо указать значение параметра header=None.

Еще одним важным моментом чтения файлов CSV является указание разделителя столбцов. По умолчанию Pandas ожидает, что столбцы будут разделены запятыми, но иногда файлы CSV могут использовать другие разделители, такие как табуляция или точка с запятой. В таком случае мы можем указать разделитель с помощью **параметра sep**:

In [None]:
df = pd.read_csv('data.csv', sep='\t')

**Параметр encoding** в функции read_csv() в библиотеке Pandas используется для указания кодировки, используемой при чтении файла CSV.

Кодировка определяет способ представления символов и текста в файле. Различные языки и регионы могут использовать различные кодировки, и если файл CSV содержит текст, записанный в определенной кодировке, необходимо указать соответствующую кодировку при чтении файла.

Параметр encoding принимает строку, содержащую имя кодировки. Некоторые распространенные кодировки, которые могут быть использованы, включают:
* `utf-8`: Самая распространенная кодировка для текстовых файлов. Она поддерживает широкий набор символов и является стандартом веба.
* `latin-1`: Также известная как ISO-8859-1, она поддерживает большинство европейских языков.
* `utf-16`: Кодировка, использующая 16-битное представление символов. Часто используется для мультиязычных данных.
* `cp1252`: Расширение кодировки latin-1 с дополнительными символами и символами Windows.

In [None]:
df = pd.read_csv('data.csv', encoding='utf-8')

Pandas автоматически определяет кодировку исходя из того, какая кодировка используется в системе (в подавляющем большинстве случаев utf-8).

**Параметр names** в функции read_csv() в библиотеке Pandas используется для явного указания имен столбцов при чтении файла CSV.

По умолчанию Pandas ожидает, что первая строка в файле CSV содержит заголовки столбцов. Однако, иногда файлы CSV могут не содержать заголовков, или заголовки могут быть некорректными или неполными. В таких случаях мы можем использовать параметр names для явного указания имен столбцов при чтении файла CSV.

Параметр names принимает список или массив строк, где каждая строка представляет собой имя столбца. Количество элементов в списке names должно соответствовать количеству столбцов в файле CSV.

In [None]:
df = pd.read_csv('data.csv', names=['Имя', 'Возраст', 'Город'])

Использование параметра names особенно полезно при работе с файлами CSV, которые не содержат заголовков или имеют некорректные заголовки. Это позволяет явно задавать имена столбцов и обеспечивает точное соответствие данных.

**Параметр index_col** в функции read_csv() в библиотеке Pandas используется для указания столбца, который следует использовать в качестве индекса (метки строк) при чтении файла CSV.

По умолчанию Pandas создает числовой индекс (0, 1, 2, и так далее) для каждой строки DataFrame. Однако, в некоторых случаях удобно использовать значения определенного столбца в качестве индекса, особенно если эти значения являются уникальными и идентифицируют каждую строку набора данных.

Параметр index_col может принимать различные значения:

* `Целое число`: Если указать целое число, то столбец с соответствующим индексом будет использован в качестве индекса. Например, index_col=0 означает, что первый столбец будет использован в качестве индекса.
* `Имя столбца`: Если указать имя столбца (строку), то столбец с этим именем будет использован в качестве индекса. Например, index_col='ID' означает, что столбец с именем "ID" будет использован в качестве индекса.
* `Список столбцов`: Если указать список столбцов (с целыми числами или именами столбцов), то Pandas будет использовать комбинацию значений из указанных столбцов в качестве составного индекса (мультииндекса).

In [None]:
df = pd.read_csv('data.csv', index_col='ID')

**Параметр skiprows** в функции read_csv() в библиотеке Pandas используется для пропуска определенного числа строк при чтении файла CSV.

Иногда файлы CSV могут содержать строковые заголовки или метаинформацию, которые не являются частью набора данных, и нам необходимо пропустить эти строки при загрузке данных. В таких случаях мы можем использовать параметр skiprows для указания количества строк, которые следует пропустить.

Параметр skiprows принимает целое число или список целых чисел, представляющих номера строк, которые следует пропустить. Нумерация строк начинается с 0, то есть первая строка имеет номер 0, вторая - 1 и так далее. Можно указывать несколько строк для пропуска, передавая их в виде списка.

In [None]:
df = pd.read_csv('data.csv', skiprows=1) # пропустится первая строка
df = pd.read_csv('data.csv', skiprows=2) # пропустятся первые две строки
df = pd.read_csv('data.csv', skiprows=[0, 2]) # пропустятся первая и третья строки

**Параметр skipfooter** в функции read_csv() в библиотеке Pandas используется для пропуска определенного числа строк в конце файла CSV при чтении.

В некоторых случаях файлы CSV могут содержать строковые или метаданные строки в конце файла, которые не являются частью набора данных и не должны быть загружены. В таких случаях мы можем использовать параметр skipfooter для указания количества строк, которые следует пропустить в конце файла.

Параметр skipfooter принимает целое число, которое указывает количество строк, которые следует пропустить. При чтении файла CSV Pandas будет пропускать указанное количество строк в конце файла.

In [None]:
df = pd.read_csv('data.csv', skipfooter=2) # пропустятся последние две строки

Параметр skipfooter также имеет дополнительное требование: при использовании этого параметра Pandas не будет использовать быстрый алгоритм чтения CSV-файла, и это может сказаться на производительности при чтении больших файлов. Поэтому рекомендуется быть осторожным при использовании skipfooter с крупными файлами данных.

**Параметр na_values** в функции read_csv() в библиотеке Pandas используется для указания значений, которые следует рассматривать как пропущенные данные (NA, NaN, null) при чтении файла CSV.

В файле CSV могут быть явно указанные значения, которые представляют собой пропущенные или отсутствующие данные. Эти значения могут быть обозначены различными способами, например, как "NA", "NaN", "null", или любым другим пользовательским значением.

Параметр na_values позволяет указать такие значения, чтобы Pandas мог корректно распознать и обрабатывать их как пропущенные данные при чтении файла CSV. Параметр na_values может принимать различные форматы:

* `Строка`: Можно передать строку, содержащую одно или несколько значений, разделенных запятыми или пробелами. Например, na_values='NA' или na_values='NA, --, NULL'.
* `Список`: Можно передать список значений, которые следует рассматривать как пропущенные. Например, na_values=['NA', '--', 'NULL'].
* `Словарь`: Можно передать словарь, где ключами являются имена столбцов, а значениями - значения, которые следует рассматривать как пропущенные для соответствующих столбцов. Например, na_values={'column1': ['NA', '--'], 'column2': ['NULL']}.

In [None]:
df = pd.read_csv('data.csv', na_values='NA')

В этом примере все значения "NA" в файле CSV будут рассматриваться как пропущенные данные и будут заменены на NaN в объекте DataFrame df.

## **Парсинг дат с помощью функции read_csv()**

Параметр функции read_csv(), позволяющий парсить даты - parse_dates.

Параметр parse_dates может принимать несколько значений:

1. Дата в определенной колонке.
2. Дата в нескольких колонках.
3. Дата в нестандартном формате.

In [None]:
# пример парсинга даты в определённой колонке
df = pd.read_csv("file.csv", parse_dates=["date"])

# пример парсинга даты в нескольких колонках
df = pd.read_csv("file.csv", parse_dates=["date", "time"])

# пример парсинга даты в нестандартном формате (год-месяц-день-час-минута-секунда)
df = pd.read_csv("file.csv", parse_dates=["date"], 
     date_parser=lambda x: datetime.strptime(x, '%Y-%m-%d-%H-%M-%S'))

Функция pd.to_datetime() и функция datetime.strptime() модуля datetime, могут использоваться в качестве фиксированных обработчиков дат в параметре date_parser.

Подробнее про работу этих функций в файле 'extra'.

In [None]:
# ещё пример. Допустим, есть csv-файл, содержащий даты в формате 'dd-mm-yyyy'
# чтобы прочитать этот файл с помощью параметра date_parser, можно использовать datetime.strptime() и создать функцию, которая принимает дату как строку и возвращает объект datetime
import pandas as pd
from datetime import datetime

def custom_date_parser(date_str): 
    return datetime.strptime(date_str, '%d-%m-%Y') 

df = pd.read_csv('data.csv', parse_dates=['date'],date_parser=custom_date_parser)

In [None]:
# пример использования функции pd.to_datetime() для парсинга даты из csv_файла
import pandas as pd

df = pd.read_csv('data.csv') 
df['date'] = pd.to_datetime(df['date'], format='%d-%m-%Y')

print(df['date'])

# **Чтение больших файлов csv**

При работе с большими CSV-файлами может возникнуть проблема из-за ограничений по памяти. С помощью Pandas можно обрабатывать большие файлы, не загружая их полностью в память.

## **Метод pd.read_csv() с параметром chunksize**

Один из способов снижения использования нагрузки на память при работе с большими данными - загрузка и обработка данных по частям. Для этого можно использовать вызов функции pd.read_csv() с параметром chunksize. Параметр chunksize позволяет считывать данные из CSV-файла кусками (chunks) заданного размера. Это может быть особенно полезно, когда нужно обработать огромный по по размеру файл, но ресурсы оперативной памяти ограничены.

In [None]:
# пример синтаксиса и работы параметра chunksize
import pandas as pd

filename = "large_file.csv" 
chunksize = 1000 # Задаем размер части (куска) 
# Считываем куски данных из файла 
chunks = pd.read_csv(filename, chunksize=chunksize) 
# Обрабатываем каждый кусок 
for chunk in chunks: 
    # Здесь можно выполнять любые операции обработки данных 
    print(chunk.head())

В данном случае chunks, возвращаемый функцией read_csv() является итератором (или генератором), который разбивает весь набор данных из файла, который считывается, на равные части. Каждая часть имеет заданный размер chunksize, что значительно упрощает обработку больших данных с помощью Pandas, так как не нужно загружать весь набор данных в оперативную память за один раз. Каждый раз, когда происходит итерация по объекту chunks, получается часть данных размером chunksize (или меньше, если конец данных) в виде DataFrame. С этим фрагментом данных можно выполнять различные операции, обрабатывая его частями, чтобы работать с большими файлами на слабых компьютерах или при ограниченной доступности памяти.

## **Оптимизация использования памяти**

Кроме использования chunksize и iterator, можно оптимизировать потребление памяти при чтении больших CSV-файлов, задавая специфические преобразования и типы данных. Как например, конвертация дат и времени с помощью параметра parse_dates. Это преобразует строковые представления дат и времени в соответствующие объекты `datetime`.

Также можно явно задавать типы данных столбцов с помощью параметра dtype. Это особенно полезно для столбцов с категориальными данными или столбцов с большим количеством нулевых значений. Также параметр dtype бывает полезен при большом количестве пропусков.

In [None]:
# пример синтаксиса явного задания типов
pd.read_csv("large_file.csv", dtype={"category_column": "category", "nullable_column": "Int64"})

# **Запись данных в файл с помощью функции to_csv()**

Функция to_csv в библиотеке Pandas используется для записи данных из объекта DataFrame в файл формата CSV. Она имеет множество параметров, позволяющих настраивать режим записи в файл, включая разделитель, наличие индексов и заголовков, а также многое другое.

Основные параметры:
- `path_or_buf`: путь к сохраняемому файлу или файлоподобному объекту (file-like), если хотите сохранять данные в буфер памяти
- `sep`: разделитель для значений в CSV-файле. По умолчанию ','.
- `header`: указывает выводить ли заголовки колонок DataFrame в файл CSV. Если True, заголовок будет выведен. Если False, заголовок не будет выведен. Если передана последовательность строк, то он будет использован в качестве заголовков столбцов вместо отображения названий столбцов DataFrame. По умолчанию True.
- `index`: указывает выводить ли индексы в файл CSV. Если True, индексы будут выведены. Если False, индексы не будут выведены. По умолчанию True.
- `mode`: режим записи файла, поддерживаемые значения - 'w' (замена), 'a' (дозапись), 'x' (запись в новый файл). По умолчанию 'w'.
- `encoding`: кодировка выходного файла. По умолчанию 'utf-8'.
- `line_terminator`: строка завершения записи. По умолчанию, как на вашей системе '\n'.
- `date_format`: формат даты и времени для записи, например, '%Y-%m-%d' для год-месяц-день. Если не указан, будут использоваться настройки базы данных и UTC для преобразования дат и времени.
- `compression`: Этот параметр позволяет выбрать тип сжатия, например, 'gzip' или 'bz2'. Вышеупомянутые параметры могут быть использованы, чтобы настроить содержимое файла CSV при сохранении DataFrame.

In [1]:
# пример экспорта в csv
import pandas as pd 

data = { 'Name': ['Alice', 'Bob', 'Carol'], 'Age': [30, 25, 40], 
         'Height': [155.2, 175.5, 163.8], 'Weight': [60.5, 80.2, 65.7] } 
df = pd.DataFrame(data) 

df.to_csv('my_data.csv', index=False) # сохранится в открытую папку в visual code studio

In [2]:
# пример экспорта в буфер обмена
import io 
import pandas as pd

data = { 'Name': ['Alice', 'Bob', 'Carol'], 'Age': [30, 25, 40], 
         'Height': [155.2, 175.5, 163.8], 'Weight': [60.5, 80.2, 65.7] }
df = pd.DataFrame(data)

buffer = io.StringIO()
df.to_csv(buffer, index=False)

print(buffer.getvalue()) # и скопировать отсюда

Name,Age,Height,Weight
Alice,30,155.2,60.5
Bob,25,175.5,80.2
Carol,40,163.8,65.7



# **Функция pandas.read_table() и ее возможности**

Функция pandas.read_table позволяет читать данные из различных форматов файлов. Она может работать с текстовыми файлами, такими как CSV, TSV, TXT, а также с файлами Excel, JSON, HTML и другими.

*TSV (Tab-Separated Values) - это формат для хранения табличных данных, в котором столбцы разделены символами табуляции (Tabs), а строки - символами перехода на новую строку. TSV-файлы часто используются для экспорта и импорта данных из различных программ, в частности, они являются стандартным форматом данных в электронных таблицах программ Microsoft Excel и Google Sheets. TSV-файлы подобны CSV-файлам, но вместо запятых в качестве разделителей используется символ табуляции. Использование символа табуляции вместо запятой позволяет создавать более структурированные и читаемые табличные данные, так как обычно запятые могут использоваться внутри значений ячеек в качестве разделителей различных значений.*


В целом все форматы файлов, которые можно использовать для хранения структурированных данных, могут быть прочитаны с помощью pandas.read_table.

Однако, для корректного парсинга файла с помощью этой функции следует учитывать несколько важных требований:

1. Файл должен быть в текстовом формате.
2. Файл должен содержать структурированные данные, представленные в виде таблицы.
3. Данные в файле должны быть разделены определенным символом - разделителем (обычно символ табуляции, запятая или точка с запятой).
4. Для корректного отображения и анализа данных, файл должен содержать заголовок или имена столбцов.
5. Файл должен быть легко читаем в буфер памяти, иными словами, размер файла не должен быть слишком большим для системы.

Функция pandas.read_table используется для чтения данных из текстовых файлов в формате таблицы, таких как CSV или TSV. Ниже приводятся основные параметры этой функции:

- `filepath_or_buffer`: путь к файлу или объекту, содержащему данные для чтения. Этот параметр обязателен.
- `sep:` разделитель столбцов в файле. По умолчанию это ‘\t’ - символ табуляции.
- `delimiter`: аналогичен предыдущему параметру.
- `header`: номер строки, содержащей имена столбцов. Если не задан, то имена автоматически будут сгенерированы.
- `index_col`: номер столбца, который будет использован в качестве индекса таблицы. Если не задан, то индекс будет сгенерирован автоматически.
- `usecols`: список столбцов, которые нужно загрузить в таблицу. Если не задан, то загружаются все столбцы.
- `dtype`: словарь, указывающий тип данных для каждого столбца. Если не задан, то pandas попытается определить типы данных автоматически.
- `na_values`: список значений, которые следует считать отсутствующими в данных.
- `parse_dates`: список столбцов, содержащих даты, которые должны быть преобразованы в тип данных pandas datetime.
- `skiprows`: количество строк, которые нужно пропустить в начале файла.
- `nrows`: количество строк, которые нужно загрузить из файла.


# **Загрузка JSON файлов в Pandas**

JSON (JavaScript Object Notation) - формат обмена данными, основанный на JavaScript. Он представляет собой легкий, текстовый формат, который используется для хранения и передачи данных между клиентом и сервером. Файлы в формате JSON имеют расширение - .json. JSON файлы имеют простую и понятную структуру, которая состоит из двух основных элементов: пар ключ-значение и массивов. Пары ключ-значение представляют собой объекты, которые содержат имена и значения. Массивы представляют собой упорядоченные наборы значений, разделенные запятыми. Ключ-значение представлено в формате:  "ключ": "значение" (примерно аналогично словарю в Python).

Массивы в JSON представлены в формате: 

`{ "fruits": ["apple", "banana", "orange"] }`

Это представляет объект fruits, который является массивом из трех элементов: "apple", "banana", "orange". JSON используется практически везде, где нужно обмениваться данными, включая web-приложения, сервисы, базы данных, мобильные приложения и другие программы. В Python для работы с JSON используется стандартная библиотека json. С помощью нее можно конвертировать данные в формате JSON в python объекты и наоборот.

Pandas для загрузки данных из JSON файлов предоставляет функцию read_json(). Эта функция загружает данные из файла в формате JSON и создает объект DataFrame. Метод принимает следующие параметры:

- `path_or_buf`: имя файла или фалоподобного объекта (например URL-адрес файла из сети Интернет), из которого нужно загрузить данные.
- `orient`: определяет ориентацию таблицы (Указывает ожидаемый формата строки JSON). Возможные значения, например: 'split', 'records', 'index', 'columns', 'values'. По умолчанию ориентация определяется автоматически.
- `typ`: определяет тип объекта, который нужно создать. Может принимать значения: 'frame', 'series'.
- `convert_dates`: определяет нужно ли конвертировать значения в формат datetime.

Использование параметра **orient**:
- `'columns'`: В этой ориентации каждый ключ верхнего уровня в JSON-файле соответствует столбцу в DataFrame, а значения - это данные в соответствующих столбцах.
- `'index'`: В этой ориентации каждый ключ верхнего уровня в JSON-файле соответствует индексу в DataFrame, а значения - это данные в соответствующих строках.
- `'records'`: В этой ориентации каждый объект в JSON-файле представляет собой отдельную запись (строку) в DataFrame.
- `'split'`: В этой ориентации данные разделены на отдельные части.


# **Функция pandas.read_html()**

HTML (HyperText Markup Language) - это язык разметки, используемый для создания веб-страниц и их структурирования. Он состоит из набора тегов (элементов), которые определяют структуру и содержимое веб-страницы.

Основная цель HTML состоит в том, чтобы описывать содержимое веб-страницы, такое как текст, изображения, ссылки, таблицы и другие элементы. Когда браузер открывает HTML-страницу, он интерпретирует и отображает содержимое согласно указанным тегам.

основные компоненты:

* `<!DOCTYPE html>`: Объявление типа документа, в данном случае HTML5.
* `<html>`: Корневой элемент, обозначающий начало и конец HTML-документа.
* `<head>`: Содержит метаданные о веб-странице, такие как заголовок (`<title>`) и подключение стилей или скриптов.
* `<body>`: Определяет содержимое веб-страницы, отображаемое в браузере.
* `<h1>`: Заголовок первого уровня.
* `<p>`: Параграф с текстом.
* `<img>`: Изображение.
* `<a>`: Гиперссылка (ссылка).
* `<table>`: Таблица, содержащая строки (`<tr>`) и ячейки (`<td>`).

HTML предоставляет широкий набор тегов для создания различных элементов на веб-странице. Каждый тег имеет свое собственное значение и атрибуты, которые могут использоваться для настройки внешнего вида или поведения элемента.

Функция read_html() из библиотеки Pandas предназначена для загрузки данных таблиц из HTML-файлов, HTML-страниц или HTML-кода и преобразования их в объекты DataFrame.

Функция read_html() из библиотеки Pandas использует парсеры HTML (такие как lxml или beautifulsoup4), чтобы анализировать HTML-код и находить таблицы.

Внутри read_html() происходит следующий процесс:

1. Функция получает HTML-код из указанного источника (файл, URL или HTML-строка).
2. Используя выбранный парсер (по умолчанию это lxml), read_html() анализирует HTML-код и создает объекты, представляющие структуру документа.
3. Затем read_html() применяет соответствующие правила и эвристики для определения, какие части HTML-кода считать таблицами.
4. Функция ищет теги `<table>` в HTML-коде и анализирует их содержимое, чтобы создать объекты DataFrame, представляющие таблицы.
5. Если в HTML-коде присутствует несколько таблиц, read_html() возвращает список объектов DataFrame, каждый из которых соответствует одной таблице.

Точность и эффективность работы read_html() может зависеть от структуры и качества HTML-кода. В некоторых случаях, если HTML-код не является хорошо организованным или имеет неточности, может потребоваться дополнительная обработка данных после загрузки таблицы с помощью read_html().

**Парсеры HTML** - это программные инструменты, которые анализируют HTML-код и позволяют извлекать данные из него. Они разбирают HTML-документ и создают структурированное объектное представление его содержимого, что облегчает поиск, извлечение и обработку данных.

HTML-код представляет собой набор тегов и текстового содержимого, описывающего структуру и содержание веб-страницы. Парсеры HTML сканируют этот код, идентифицируют различные элементы и атрибуты, а затем создают объекты, представляющие эти элементы. Это позволяет программам обрабатывать и взаимодействовать с HTML-кодом.

Некоторые из популярных парсеров HTML в языке программирования Python:

1. `lxml`: Это быстрый и гибкий парсер, основанный на библиотеке C для обработки XML и HTML. Он предоставляет API для поиска и извлечения данных из HTML-кода, а также для внесения изменений в структуру документа. Библиотека lxml широко используется в Python для парсинга HTML-кода.
2. `Beautiful Soup`: Это библиотека Python, предназначенная для извлечения данных из HTML и XML. Она предоставляет простой и интуитивно понятный API, который позволяет выполнять поиск и манипулирование элементами HTML-кода. Beautiful Soup поддерживает разные парсеры, включая lxml, html.parser, html5lib и другие.
3. `html.parser`: Это встроенный в стандартную библиотеку Python парсер HTML. Он реализован на языке Python и обеспечивает базовые функции для анализа и обработки HTML-кода. В отличие от некоторых других парсеров, html.parser не требует дополнительной установки.

Каждый парсер имеет свои особенности и возможности. Они предоставляют API для поиска, извлечения и манипулирования элементами HTML-кода.

**Для использования функции read_html() из библиотеки Pandas требуется установить библиотеки lxml и beautifulsoup4.**

Параметры функции read_html():
* `io`: Обязательный параметр. Может быть путем к HTML-файлу, URL-адресом или объектом, содержащим HTML-код.
* `match`: По умолчанию ".+". Определяет регулярное выражение для поиска таблиц в HTML-коде. По умолчанию найдутся все таблицы.
* `flavor`: По умолчанию None. Указывает на используемую библиотеку для парсинга HTML. Допустимые значения: 'bs4' (BeautifulSoup 4) и 'lxml'.
* `header`: По умолчанию None. Указывает номер строки для использования в качестве заголовков столбцов. Если не указано, заголовки будут автоматически определены.
* `index_col`: По умолчанию None. Указывает номер столбца для использования в качестве индекса строк. Если не указано, индексы строк будут автоматически определены.
* `skiprows`: По умолчанию None. Указывает номера строк для пропуска при загрузке таблицы.
* `attrs`: По умолчанию None. Список атрибутов HTML-тега для использования в качестве фильтра при поиске таблиц.
* `parse_dates`: По умолчанию False. Указывает, нужно ли парсить значения столбцов как даты.
* `thousands`: По умолчанию ','. Определяет разделитель тысячных.
* `encoding`: По умолчанию None. Указывает кодировку файла.
* `decimal`: По умолчанию '.'. Определяет символ десятичного разделителя.
* `converters`: По умолчанию None. Словарь, который определяет пользовательские функции преобразования для столбцов.
* `na_values`: По умолчанию None. Список значений, которые должны быть распознаны как пропущенные значения.
* `keep_default_na`: По умолчанию True. Определяет, должны ли использоваться значения по умолчанию для распознавания пропущенных значений.
* `displayed_only`: По умолчанию True. Указывает, следует ли извлекать только видимые данные таблицы.


In [None]:
# пример загрузки данных из локального html-файла
import pandas as pd

table_data = pd.read_html('путь_к_файлу.html')
data_frame = table_data[0]

print(data_frame.head())

In [None]:
# пример загрузки данных из HTML-страницы по URL-адресу
import pandas as pd

url = 'https://www.example.com/table.html'
table_data = pd.read_html(url)
data_frame = table_data[0]

print(data_frame.head())

In [None]:
# пример загрузки данных с использованием фильтра атрибутов HTML-тега
import pandas as pd

url = 'https://www.example.com/table.html'
table_data = pd.read_html(url, attrs={'class': 'table-class'})
data_frame = table_data[0]

print(data_frame.head())

In [None]:
# пример загрузки данных с парсингом дат и пользовательскими функциями преобразования
import pandas as pd

table_data = pd.read_html('путь_к_файлу.html', parse_dates=True, converters={'column_name': pd.to_numeric})
data_frame = table_data[0]

print(data_frame.head())