Автоматическое определение кодировки файла

In [1]:
from chardet.universaldetector import UniversalDetector # Импортируем субмодуль chardet.universaldetector
detector = UniversalDetector()
with open('data/ErrorEnCoding.csv', 'rb') as fh:
    for line in fh:
        detector.feed(line)
        if detector.done:
            break

detector.close()

print(detector.result)

{'encoding': 'KOI8-R', 'confidence': 0.8773902118791048, 'language': 'Russian'}


Сохранение файлов в архив на лету

In [6]:
import pandas as pd
data = pd.DataFrame([[1, 2], [3, 4]], columns = ['col1', 'col2'])
compression_opts = dict(method='zip', archive_name='out.csv') # Определяем параметры архивирования — метод сжатия, имя файл в архиве
data.to_csv('data/out.zip', index=False, compression=compression_opts)

Чтение из файлов Excel

Пакеты для работы с Excel:
* **openpyxl** — рекомендуемый пакет для чтения и записи файлов Excel 2010+ (например, xlsx);
* **xlsxwriter** — альтернативный пакет для записи данных, информации о форматировании и, в частности, диаграмм в формате Excel 2010+ (например, xlsx);
* **pyxlsb** — пакет позволяет читать файлы Excel в xlsb-формате;
* **pylightxl** — пакет позволяет читать xlsx- и xlsm-файлы и записывать xlsx-файлы;
* **xlrd** — пакет предназначен для чтения данных и информации о форматировании из старых файлов Excel (например, xls);
* **xlwt** — пакет предназначен для записи данных и информации о форматировании в старые файлы Excel (например, xls).

In [9]:
grades = pd.read_excel('data/grades.xlsx', sheet_name='ML')
display(grades.head(2))

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,7
1,2,Катя,5


Сохранение в Excel

In [10]:
# Сохраняем данные из DataFrame grades в файл grades_new.xlsx (на листе 'Example') в папке data
grades.to_excel('data/grades_new.xlsx', sheet_name='Example', index=False)

Загрузка JSON

In [15]:
import json
from pprint import pprint
with open('C:/Users/lm137/Desktop/DS/Data/recipes.json') as f: # Открываем файл и связываем его с объектом "f"
    recipes = json.load(f) # Загружаем содержимое открытого файла в переменную recipes
pprint(recipes[0])

{'cuisine': 'greek',
 'id': 10259,
 'ingredients': ['romaine lettuce',
                 'black olives',
                 'grape tomatoes',
                 'garlic',
                 'pepper',
                 'purple onion',
                 'seasoning',
                 'garbanzo beans',
                 'feta cheese crumbles']}


In [17]:
df = pd.DataFrame(recipes) # Создаём объект DataFrame из списка recipes
display(df.head(3))

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."


In [19]:
df = pd.read_json('C:/Users/lm137/Desktop/DS/Data/recipes.json') # Создаём объект DataFrame, загружая содержимое файла recipes.json
display(df.head(3)) # Выводим на экран первые строки полученного DataFrame

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."


In [29]:
def check_ingredient(ingridient_list):
    return 1 if ingredient in ingridient_list else 0
    
all_ingredients = set()
for ind, row in df.iterrows():
    for ingredient in row.ingredients:
        all_ingredients.add(ingredient)

for ingredient in all_ingredients:
    df[ingredient] = df['ingredients'].apply(check_ingredient)

df['ingredients'] = df['ingredients'].apply(len)
display(df.head(3))

Unnamed: 0,id,cuisine,ingredients,romano cheese,chopped fresh chives,uncooked rigatoni,dijon mustard,fresh herbs,chopped fresh sage,bacon slices,...,banana squash,green pepper,whole nutmegs,ranch dressing,parsley leaves,gingerroot,turbinado,corn syrup,cream of chicken soup,cauliflower
0,10259,greek,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,25693,southern_us,11,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,20130,filipino,12,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Запись в JSON

In [30]:
import json # Импорт модуля json
new_recipes = json.dumps({}) # Функция dumps() модуля json сериализирует объект Python в строку формата JSON. 
with open("data/new_recipes.json", "w") as write_file: # Откроем файл new_recipes.json для записи
    write_file.write(new_recipes) # Записываем содержимое подготовленные данные в файл

Чтение XML

In [33]:
import xml.etree.ElementTree as ET # Импортируем модуль ElementTree
tree = ET.parse('data/menu.xml')
root = tree.getroot() # корень дерева
display(list(root)) # потомки

[<Element 'dish' at 0x0000028878FB5270>,
 <Element 'dish' at 0x0000028878FB5090>]

In [34]:
display(root[0].attrib) # получение аттрибутов узла

{'name': 'Кура'}

In [35]:
display(root[0][0].text) # значение узла

'40'

In [36]:
display(root.tag) # наименование тега

'menu'

In [39]:
import xml.etree.ElementTree as ET
tree = ET.parse('data/menu.xml')
root = tree.getroot()

import pandas as pd
column_names = ['name', 'price', 'weight', 'class']
df_list = []

for dish in root:
    row = [dish.attrib['name'], dish[0].text, dish[1].text, dish[2].text]
    df_list.append(row)
    df = pd.DataFrame(df_list, columns=column_names)
display(df)

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


Запись в XML

In [43]:
import xml.etree.ElementTree as ET

new_root = ET.Element('menu')
dish1 = ET.SubElement(new_root, 'dish', name='Кура')
dish2 = ET.SubElement(new_root, 'dish', name='Греча')

price1 = ET.SubElement(dish1, "price").text = "40"
weight1 = ET.SubElement(dish1, "weight").text = "300"
class1 = ET.SubElement(dish1, "class").text = "Мясо"

price2 = ET.SubElement(dish2, "price").text = "20"
weight2 = ET.SubElement(dish2, "weight").text = "200"
class2 = ET.SubElement(dish2, "class").text = "Крупа"

with open("data/new_menu.xml", "wb") as f:
    ET.ElementTree(new_root).write('data/new_menu.xml', encoding="utf-8")