# Чтение данных из различных форматов

## Работа со структурированными файлами CSV

​
Что такое файл CSV?
Файл CSV (файл значений, разделенных запятыми) — это тип простого текстового файла, который использует определенную структуру для организации табличных данных. Поскольку это обычный текстовый файл, он может содержать только фактические текстовые данные - печатные символы ASCII или Unicode.

Структура CSV-файла определяется его именем. Обычно файлы CSV используют запятую для разделения каждого конкретного значения данных. Вот как выглядит эта структура:

```
column 1 name,column 2 name, column 3 name
first row data 1,first row data 2,first row data 3
second row data 1,second row data 2,second row data 3
...
```

Обратите внимание, как каждый фрагмент данных отделяется запятой. Обычно первая строка идентифицирует каждую часть данных, другими словами, имя столбца данных. Каждая последующая строка является фактическими данными и ограничивается только ограничениями размера файла.

В общем случае символ-разделитель называется разделителем, и запятая используется не только в нем. Другие популярные разделители включают символы табуляции ( \t), двоеточия ( :) и точки с запятой ( ;). Для правильного разбора CSV-файла нам необходимо знать, какой разделитель используется.

CSV-файлы широко используются в приложениях электронной коммерции, поскольку их очень легко передавать и обрабатывать. Примеры областей, где используется формат .csv:

- импорт и экспорт списка данных о клиентах;
- импорт и экспорт списка продукции;
- экспорт списка заказов;
- экспорт аналитических отчетов по электронной коммерции.
​

<img src="https://github.com/SerjiEvg/data-analysis/raw/main/images/%D1%84%D0%B5%D0%B4%D0%B5%D1%80%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F%20%D1%81%D0%BB%D1%83%D0%B6%D0%B1%D0%B0%20%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B8.png" width="900"/>

### Откуда берутся файлы CSV?

Файлы CSV создаются программами, обрабатывающими большие объемы данных. Это удобный способ экспортировать данные из электронных таблиц и баз данных, а также импортировать или использовать их в других программах. 

Например, мы можем экспортировать результаты программы интеллектуального анализа данных в файл CSV, а затем импортировать его в электронную таблицу для анализа данных, создания графиков для презентации или подготовки отчета к публикации.

С файлами CSV очень легко работать программно. Любой язык, поддерживающий ввод текстовых файлов и работу со строками (например, Python), может напрямую работать с CSV-файлами.

Для обработки файлов CSV в Python имеется встроенная библиотека. Библиотека предоставляет функции как для чтения, так и для записи в файлов CSV.Библиотека csv содержит объекты и код для чтения, записи и обработки данных из файлов CSV и записи в них. Но мы будем использовать исключительно библиотеку Pandas, в которой есть методы обработки файлов этого типа.

Для изучения работы с данными в формате CSV мы воспользуемся готовыми наборами с сайта открытых данных.

<img src="https://github.com/SerjiEvg/data-analysis/raw/main/images/data_gov.png" width="900"/>

​
### Чтение файлов CSV с помощью Pandas

Для примера рассмотрим готовый CSV файл **Реестр наборов открытых данных**, доступный по [ссылке](https://data.gov.ru/opendata/export/csv). Он содержит данные о спортивных объектах. Этот файл мы поместили в репозиторий GitHub под именем dataset-registry.csv. Скачиваемый по ссылке файл называется dataset-registry.csv и имеет следующее содержимое в кодировке UTF-8 (дан фрагмент):

```
"Название набора";"Идентификатор набор";"Описание набора данных";"Владелец набораданных";"Контактное лицо";"Телефонный номер ответственного лица";"Адрес электронной почты ответственного лица";Формат;"Дата актуальности набора";"Дата первой публикации набора";"Дата последнего внесения изменений";"Содержание последенего изменения";Рубрика;"Уровень власти ответственного органа - владельца набора";"Количество просмотров";"Количество скачиваний";"Ключевые слова";"Общая сумма пользовательских оценок";"Положительные пользовательские оценки";"Негативные пользовательские оценки";"Ссылка на версию набора";"Ссылка на структуру набора"
"Список МФЦ";7710349494-mfclist;"Список сайтов органов государственной власти разных уровней с указанием наименования органа государственной власти, адреса официального сайта и короткого названия";"Министерство экономического развития Российской Федерации";"Дергачева Виктория Сергеевна";"8 495 870 29 21 (10931)";dergachevavs@economy.gov.ru;csv;31-05-2022;01-12-2012;28-04-2022;"Обновление данных";Government;Федеральные;19792;"адрес МФЦ, многофункциональные центры, реестр МФЦ, Список МФЦ";1410;57;413;-356;https://xn--d1achjhdicc8bh4h.xn--p1ai/opendata/7710349494-mfclist/data-20220427T1701-structure-20160329T1700.csv;http://data.gov.ru/opendata/7710349494-mfclist/structure-20190311T0825.csv
"Перечень подведомственных организаций";7710474375-perechenpodved;"Сведения из перечня подведомственных организаций";"Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации";"Бондарь Игорь Викторович, заместитель начальника отдела информационных систем Департамента реализации законодательных инициатив Минкомсвязи России";"+7 495 771-80-00, доб. 8331";i.bondar@minsvyaz.ru;csv;16-12-2019;21-06-2013;15-08-2018;"Первоночальное размещение";Government;Федеральные;4484;"Перечень подведомственных организаций, подведомственные организации";167;-27;270;-297;http://data.gov.ru/opendata/7710474375-perechenpodved/data-20200115T1030-structure-20200113T1445.csv;http://data.gov.ru/opendata/7710474375-perechenpodved/structure-20200113T1445.csv

...
```

​

In [18]:
from urllib.request import urlretrieve
import pandas as pd

urlretrieve('https://github.com/SerjiEvg/data-analysis/raw/main/data/dataset-sport-objects.csv', 'dataset-sport-objects.csv')
df = pd.read_csv('dataset-sport-objects.csv')
print(df)

              id:                                        Название:  \
0             208      Крытый плавательный бассейн «Садко» СДЮСШОР   
1             214                  Спортивный зал для мини-футбола   
2             221                            Ледовый дворец спорта   
3             227        Спортивный центр с плавательным бассейном   
4             234  Спортивный центр с универсальным игровым залом    
..            ...                                              ...   
924         28783                      СДЮСШОР «Динамо» по футболу   
925         28786                          Судакская районная ДЮСШ   
926         28794                              Гребной канал «Дон»   
927         28803                       Гребной канал «Крылатское»   
928  ВСЕГО (928):                                              NaN   

                                Название (in english): Активный:  \
0                                 Indoor swimming pool         Y   
1                      

Вот несколько моментов, на которые стоит обратить внимание:

- Во- первых, pandasраспознал, что первая строка CSV содержит имена столбцов, и использовал их автоматически. Это действительно круто.
- Однако pandas используются целые индексы с отсчетом от нуля в DataFrame. Это потому, что мы не сообщили, каким должен быть наш индекс.
- Кроме того, если мы посмотрим на типы данных столбцов, то увидим, что столбцы c датами  не преобразованы в нужный формат. Это легко проверить в следующим вызовом:

In [23]:
print(type(df['Дата начала строительства / реконструкции:'][0]))

<class 'str'>


Давайте решать эти проблемы по очереди. Чтобы использовать другой столбец в качестве индекса DataFrame, добавим необязательный параметр index_col:

In [22]:
df = pd.read_csv('dataset-sport-objects.csv', index_col='id:')
print(df)

                                                    Название:  \
id:                                                             
208               Крытый плавательный бассейн «Садко» СДЮСШОР   
214                           Спортивный зал для мини-футбола   
221                                     Ледовый дворец спорта   
227                 Спортивный центр с плавательным бассейном   
234           Спортивный центр с универсальным игровым залом    
...                                                       ...   
28783                             СДЮСШОР «Динамо» по футболу   
28786                                 Судакская районная ДЮСШ   
28794                                     Гребной канал «Дон»   
28803                              Гребной канал «Крылатское»   
ВСЕГО (928):                                              NaN   

                                         Название (in english): Активный:  \
id:                                                                         


Теперь поле id является нашим индексом DataFrame.

Далее давайте исправим тип данных поля **Дата начала строительства / реконструкции:**. Мы можем принудительно читать данные pandas как даты с помощью необязательного параметра parse_dates, который определяется как список имен столбцов для приведения типа:

In [24]:
df = pd.read_csv('dataset-sport-objects.csv', index_col='id:', parse_dates=['Дата начала строительства / реконструкции:', 'Дата завершения строительства / реконструкции:'])
print(df)

                                                    Название:  \
id:                                                             
208               Крытый плавательный бассейн «Садко» СДЮСШОР   
214                           Спортивный зал для мини-футбола   
221                                     Ледовый дворец спорта   
227                 Спортивный центр с плавательным бассейном   
234           Спортивный центр с универсальным игровым залом    
...                                                       ...   
28783                             СДЮСШОР «Динамо» по футболу   
28786                                 Судакская районная ДЮСШ   
28794                                     Гребной канал «Дон»   
28803                              Гребной канал «Крылатское»   
ВСЕГО (928):                                              NaN   

                                         Название (in english): Активный:  \
id:                                                                         


Указанные столбцы с датами теперь отформатированы правильно, что легко проверить вызовом:

In [25]:
print(type(df['Дата начала строительства / реконструкции:'][0]))

<class 'pandas._libs.tslibs.timestamps.Timestamp'>


### Запись файлов CSV с помощью pandas

Конечно, если мы не можем сохранить свои данные в pandas, то ее использование не принесет нам особой пользы. Записать DataFrame в CSV-файл так же просто, как и прочитать его. Давайте запишем данные с новыми именами столбцов в новый CSV-файл:

In [28]:
df = pd.read_csv('dataset-sport-objects.csv', usecols=['id:', 'Название:', 'E-mail:', 'URL сайта:'])

df.to_csv('dataset-sport-objects-modified.csv')

Единственная разница между этим кодом и приведенным выше кодом чтения заключается в том, что print(df)вызов был заменен на df.to_csv(), предоставляя имя файла. Мы использовали необязательный параметр usecols для того, чтобы указать список необходимых нам столбцов. 