# Расширения

Данный jupiter блокнот о работе с различными типами расширений файлов в python с использованием библиотеки pandas

## Работа с CSV таблицами 

CSV - это сокращение от "Comma-Separated Values" (значения, разделенные запятыми), формат файла, используемый для хранения и передачи табличных данных в виде текстового файла.

CSV-файл содержит данные в виде таблицы, где каждая строка представляет отдельную запись, а каждый столбец представляет конкретное поле данных. Значения в каждой ячейке таблицы разделены запятой или другим разделителем (например, точкой с запятой), что позволяет легко читать и записывать данные.

CSV-файлы широко используются для обмена данными между различными программами и системами, так как они являются универсальным форматом для представления табличных данных и могут быть прочитаны большинством приложений для обработки данных, таких как Microsoft Excel, Google Sheets и др.

In [14]:
import pandas as pd
import csv
import os
import codecs as cs

In [None]:
data = pd.DataFrame({
    'Имя': ['Alex', 'Max', 'Ann'],
    'Возраст': [25, 10, 18],
    'Email': ['alex@example.com', 'max@example.com', 'ann@example.com']
})

# Запись данных в CSV-файл
data.to_csv('file.csv', index=False)


df = pd.read_csv('file.csv')
print(df)

In [20]:
os.remove('file.csv')

## Работа с TSV таблицами

TSV (Tab-Separated Values) - это формат данных, в котором значения разделены символом табуляции (\t). Этот формат очень похож на *CSV*, но вместо запятых используются табуляции для разделения значений.

Файлы TSV могут содержать таблицы данных, где каждая строка представляет собой запись, а каждый столбец - отдельное поле данных. Файлы TSV могут использоваться для хранения и обмена данными между различными программами и системами.

In [None]:
data = pd.DataFrame({
    'Имя': ['Alex', 'Max', 'Ann'],
    'Возраст': [25, 10, 18],
    'Email': ['alex@example.com', 'max@example.com', 'ann@example.com']
})

df.to_csv('data.tsv', sep='\t', index=False)
df = pd.read_csv('data.tsv', delimiter='\t')
print(df)

In [24]:
os.remove('data.tsv')

## Работа с JSON файлами

JSON (JavaScript Object Notation) - это формат обмена данными, который используется для представления структурированных данных. Он был создан на основе языка JavaScript, но может использоваться практически на любой платформе и в любом языке программирования.

JSON-данные представляют собой набор пар ключ-значение, записанных в фигурных скобках. Ключи являются строками, а значения могут быть строками, числами, логическими значениями, массивами или вложенными объектами.

In [25]:
import json

In [None]:
# Загрузка JSON-данных из строки
json_str = '{"name": "John", "age": 30, "isStudent": false}'
data = json.loads(json_str)

print(data)

In [None]:
# агрузка JSON-данных из строки
data = {
    'name': 'John',
    'age': 30,
    'isStudent': False
}

json_str = json.dumps(data)

print(json_str)

In [None]:
# Чтение файлов JSON
data = {
    'name': 'John',
    'age': 30,
    'isStudent': False
}

with open('data.json', 'w') as f:
    json.dump(data, f)

with open('data.json', 'r') as f:
    data = json.load(f)

print(data)

In [33]:
os.remove('data.json')

# Работа с XML

XML (eXtensible Markup Language) - это язык разметки, используемый для описания и структурирования данных. Он представляет собой набор правил, которые позволяют описывать данные в формате, который может быть прочитан как компьютерами, так и людьми.

XML-документы состоят из элементов, которые могут иметь атрибуты и содержимое. Элементы могут быть вложенными, что позволяет описывать иерархические структуры данных. XML-документы также могут содержать комментарии и инструкции обработки.

Для работы с XML в Python существуют стандартные модули xml.etree.ElementTree и xml.dom.minidom. Они позволяют разбирать XML-документы и создавать их.

In [34]:
import xml.etree.ElementTree as ET

In [37]:
# Создаем XML-документ
root = ET.Element('root')
child = ET.SubElement(root, 'child')
child.text = 'Hello, World!'
tree = ET.ElementTree(root)
tree.write('data.xml')

# Читаем XML-документ
tree = ET.parse('data.xml')
root = tree.getroot()
print(root.tag)  # 'root'
print(root[0].tag)  # 'child'
print(root[0].text)  # 'Hello, World!'

root
child
Hello, World!


In [None]:
os.remove('data.xml')