# **Основы работы с функцией read_csv()**

Pandas предоставляет простой и удобный интерфейс для работы с табличными данными. Одним из наиболее распространенных форматов данных, с которыми мы сталкиваемся, являются CSV-файлы (Comma-Separated Values), где данные представлены в виде таблицы, разделенной запятыми.  Для этого в Pandas есть функция read_csv(), которую мы будем использовать. Она позволяет загружать данные из файлов CSV и создавать объекты DataFrame, основной структуры данных в Pandas.

Синтаксис:

In [None]:
df = pd.read_csv('data.csv') # 'data.csv' - путь к файлу.

По умолчанию Pandas сам определяет заголовки (параметр header='infer'), если же они определены неверно, можно указать их явно через параметр header (header=n, где n - номер строки). Если нужно, чтобы Pandas вообще не пытался считать заголовок, надо указать значение параметра header=None.

Еще одним важным моментом чтения файлов CSV является указание разделителя столбцов. По умолчанию Pandas ожидает, что столбцы будут разделены запятыми, но иногда файлы CSV могут использовать другие разделители, такие как табуляция или точка с запятой. В таком случае мы можем указать разделитель с помощью **параметра sep**:

In [None]:
df = pd.read_csv('data.csv', sep='\t')

**Параметр encoding** в функции read_csv() в библиотеке Pandas используется для указания кодировки, используемой при чтении файла CSV.

Кодировка определяет способ представления символов и текста в файле. Различные языки и регионы могут использовать различные кодировки, и если файл CSV содержит текст, записанный в определенной кодировке, необходимо указать соответствующую кодировку при чтении файла.

Параметр encoding принимает строку, содержащую имя кодировки. Некоторые распространенные кодировки, которые могут быть использованы, включают:
* utf-8: Самая распространенная кодировка для текстовых файлов. Она поддерживает широкий набор символов и является стандартом веба.
* latin-1: Также известная как ISO-8859-1, она поддерживает большинство европейских языков.
* utf-16: Кодировка, использующая 16-битное представление символов. Часто используется для мультиязычных данных.
* cp1252: Расширение кодировки latin-1 с дополнительными символами и символами Windows.

In [None]:
df = pd.read_csv('data.csv', encoding='utf-8')

Pandas автоматически определяет кодировку исходя из того, какая кодировка используется в системе (в подавляющем большинстве случаев utf-8).

**Параметр names** в функции read_csv() в библиотеке Pandas используется для явного указания имен столбцов при чтении файла CSV.

По умолчанию Pandas ожидает, что первая строка в файле CSV содержит заголовки столбцов. Однако, иногда файлы CSV могут не содержать заголовков, или заголовки могут быть некорректными или неполными. В таких случаях мы можем использовать параметр names для явного указания имен столбцов при чтении файла CSV.

Параметр names принимает список или массив строк, где каждая строка представляет собой имя столбца. Количество элементов в списке names должно соответствовать количеству столбцов в файле CSV.

In [None]:
df = pd.read_csv('data.csv', names=['Имя', 'Возраст', 'Город'])

Использование параметра names особенно полезно при работе с файлами CSV, которые не содержат заголовков или имеют некорректные заголовки. Это позволяет явно задавать имена столбцов и обеспечивает точное соответствие данных.

**Параметр index_col** в функции read_csv() в библиотеке Pandas используется для указания столбца, который следует использовать в качестве индекса (метки строк) при чтении файла CSV.

По умолчанию Pandas создает числовой индекс (0, 1, 2, и так далее) для каждой строки DataFrame. Однако, в некоторых случаях удобно использовать значения определенного столбца в качестве индекса, особенно если эти значения являются уникальными и идентифицируют каждую строку набора данных.

Параметр index_col может принимать различные значения:

Целое число: Если указать целое число, то столбец с соответствующим индексом будет использован в качестве индекса. Например, index_col=0 означает, что первый столбец будет использован в качестве индекса.

Имя столбца: Если указать имя столбца (строку), то столбец с этим именем будет использован в качестве индекса. Например, index_col='ID' означает, что столбец с именем "ID" будет использован в качестве индекса.

Список столбцов: Если указать список столбцов (с целыми числами или именами столбцов), то Pandas будет использовать комбинацию значений из указанных столбцов в качестве составного индекса (мультииндекса).

In [None]:
df = pd.read_csv('data.csv', index_col='ID')

**Параметр skiprows** в функции read_csv() в библиотеке Pandas используется для пропуска определенного числа строк при чтении файла CSV.

Иногда файлы CSV могут содержать строковые заголовки или метаинформацию, которые не являются частью набора данных, и нам необходимо пропустить эти строки при загрузке данных. В таких случаях мы можем использовать параметр skiprows для указания количества строк, которые следует пропустить.

Параметр skiprows принимает целое число или список целых чисел, представляющих номера строк, которые следует пропустить. Нумерация строк начинается с 0, то есть первая строка имеет номер 0, вторая - 1 и так далее. Можно указывать несколько строк для пропуска, передавая их в виде списка.

In [None]:
df = pd.read_csv('data.csv', skiprows=1) # пропустится первая строка
df = pd.read_csv('data.csv', skiprows=2) # пропустятся первые две строки
df = pd.read_csv('data.csv', skiprows=[0, 2]) # пропустятся первая и третья строки

**Параметр skipfooter** в функции read_csv() в библиотеке Pandas используется для пропуска определенного числа строк в конце файла CSV при чтении.

В некоторых случаях файлы CSV могут содержать строковые или метаданные строки в конце файла, которые не являются частью набора данных и не должны быть загружены. В таких случаях мы можем использовать параметр skipfooter для указания количества строк, которые следует пропустить в конце файла.

Параметр skipfooter принимает целое число, которое указывает количество строк, которые следует пропустить. При чтении файла CSV Pandas будет пропускать указанное количество строк в конце файла.

In [None]:
df = pd.read_csv('data.csv', skipfooter=2) # пропустятся последние две строки

Параметр skipfooter также имеет дополнительное требование: при использовании этого параметра Pandas не будет использовать быстрый алгоритм чтения CSV-файла, и это может сказаться на производительности при чтении больших файлов. Поэтому рекомендуется быть осторожным при использовании skipfooter с крупными файлами данных.

**Параметр na_values** в функции read_csv() в библиотеке Pandas используется для указания значений, которые следует рассматривать как пропущенные данные (NA, NaN, null) при чтении файла CSV.

В файле CSV могут быть явно указанные значения, которые представляют собой пропущенные или отсутствующие данные. Эти значения могут быть обозначены различными способами, например, как "NA", "NaN", "null", или любым другим пользовательским значением.

Параметр na_values позволяет указать такие значения, чтобы Pandas мог корректно распознать и обрабатывать их как пропущенные данные при чтении файла CSV. Параметр na_values может принимать различные форматы:

Строка: Можно передать строку, содержащую одно или несколько значений, разделенных запятыми или пробелами. Например, na_values='NA' или na_values='NA, --, NULL'.

Список: Можно передать список значений, которые следует рассматривать как пропущенные. Например, na_values=['NA', '--', 'NULL'].

Словарь: Можно передать словарь, где ключами являются имена столбцов, а значениями - значения, которые следует рассматривать как пропущенные для соответствующих столбцов. Например, na_values={'column1': ['NA', '--'], 'column2': ['NULL']}.

In [None]:
df = pd.read_csv('data.csv', na_values='NA')

В этом примере все значения "NA" в файле CSV будут рассматриваться как пропущенные данные и будут заменены на NaN в объекте DataFrame df.

## **Парсинг дат с помощью функции read_csv()**

Параметр функции read_csv(), позволяющий парсить даты - parse_dates.

Параметр parse_dates может принимать несколько значений:

1. Дата в определенной колонке.
2. Дата в нескольких колонках.
3. Дата в нестандартном формате.

In [None]:
# пример парсинга даты в определённой колонке
df = pd.read_csv("file.csv", parse_dates=["date"])

# пример парсинга даты в нескольких колонках
df = pd.read_csv("file.csv", parse_dates=["date", "time"])

# пример парсинга даты в нестандартном формате (год-месяц-день-час-минута-секунда)
df = pd.read_csv("file.csv", parse_dates=["date"], 
     date_parser=lambda x: datetime.strptime(x, '%Y-%m-%d-%H-%M-%S'))

Функция pd.to_datetime() и функция datetime.strptime() модуля datetime, могут использоваться в качестве фиксированных обработчиков дат в параметре date_parser.

Подробнее про работу этих функций в файле 'extra'.

In [None]:
# ещё пример. Допустим, есть csv-файл, содержащий даты в формате 'dd-mm-yyyy'
# чтобы прочитать этот файл с помощью параметра date_parser, можно использовать datetime.strptime() и создать функцию, которая принимает дату как строку и возвращает объект datetime
import pandas as pd
from datetime import datetime

def custom_date_parser(date_str): 
    return datetime.strptime(date_str, '%d-%m-%Y') 

df = pd.read_csv('data.csv', parse_dates=['date'],date_parser=custom_date_parser)

In [None]:
# пример использования функции pd.to_datetime() для парсинга даты из csv_файла
import pandas as pd

df = pd.read_csv('data.csv') 
df['date'] = pd.to_datetime(df['date'], format='%d-%m-%Y')

print(df['date'])