# Выгрузка данных из разных форматов файлов

## Работа с текстовыми файлами

### Функция READ_TABLE()

In [None]:
import pandas as pd 
countries_data = pd.read_csv('data/countries.csv', sep=';') # Загружаем данные из файла в переменную, создавая объект DataFrame
countries_data.to_csv('data/countries.txt', index=False, sep=' ') # Выгружаем данные из DataFrame в CSV-файл и сохраняем файл в папке data

Считаем данные из файла countries.txt в переменную txt_df  (объект DataFrame),
<br>применив функцию read_table() с параметрами <b>sep=' '</b>  и  <b>index_col=['country']</b>
<br>(так мы избавимся от столбца с индексом и присвоим названия строкам, используя данные одного из столбцов).
<br>Выводим на экран полученный результат:

In [None]:
txt_df = pd.read_table('data/countries.txt', sep=' ', index_col=['country'])# Загружаем данные из файла в переменную, создавая объект DataFrame
display(txt_df) # Выводим содержимое DataFrame на экран

При считывании данных из ранее сохранённого в папке data файла melb_data_ps.csv указать значение параметра header=None, то первая строка исходного файла не будет восприниматься как строка заголовка и будет отнесена к области данных DataFrame

In [None]:
countries_data = pd.read_csv('data/countries.csv', sep=';', header=None) # Загружаем данные из файла в переменную, создавая объект DataFrame
display(countries_data) # Выводим содержимое DataFrame на экран

Проблема с кодировкой исходных данных

In [None]:
data=pd.read_csv('data/ErrorEnCoding.csv', header=None ) # Считываем данные из файла с неизвестной кодировкой в переменную, создавая объект DataFrame
display(data) # Выводим содержимое DataFrame на экран

In [None]:
# определяем кодировку файла


from chardet.universaldetector import UniversalDetector # Импортируем субмодуль chardet.universaldetector
detector = UniversalDetector()
with open('data/ErrorEnCoding.csv', 'rb') as fh:
    for line in fh:
        detector.feed(line)
        if detector.done:
            break
detector.close()

In [None]:
 # Создаем DataFrame из файла, явно указав кодировку символов, и выводим его содержимое на экран
data=pd.read_csv('data/ErrorEnCoding.csv', encoding='koi8-r', header=None )
display(data)

Чтение файла по ссылке URL

In [None]:
import pandas as pd
data = pd.read_table('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv', sep=',')
display(data)
display(len(data))

Чтение и запись архивированных CSV-файлов
<br> Важно!!! В архиве должен быть один файл. Если несколько, то работа с архивом будет отличаться

In [None]:
data = pd.read_csv('data/students_performance.zip')
display(data)

In [None]:
# Архивируем CSV-файл

compression_opts = dict(method='zip', archive_name='out.csv') # Определяем параметры архивирования — метод сжатия, имя файл в архиве
data.to_csv('data/out.zip', index=False, compression=compression_opts)

### Чтение и запись в Excel: *read_excel()* и *to_excel()* из библиотеки *pandas*.

In [None]:
import pandas as pd
grades = pd.read_excel('data/grades.xlsx')
display(grades)
# display(grades.head())


Чтение по ссылке URL

In [9]:

import pandas as pd
#data = pd.read_excel('https://github.com/asaydn/test/raw/master/january.xlsx')
data = pd.read_excel('data/january.xlsx')
display(data)

Unnamed: 0,January 2020 Sales,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,Global Sales Report,,,,,
1,,,,,,
2,Location,Oranges,Apples,Bananas,Blueberries,Total
3,Toronto,7651,4422,8580,3679,24332
4,Los Angeles,273,2998,9890,7293,20454
5,Atlanta,3758,6752,4599,4149,19258
6,New York,4019,8796,8486,9188,30489


Основные параметры метода read_excel()

- io — первый параметр, в который мы передаём адрес файла, который хотим прочитать. Кроме адреса на диске, можно передавать адрес в интернете.
- sheet_name —  ссылка на лист в Excel-файле (возможные значения данного параметра: 0 — значение по умолчанию, загружается первый лист; 'Sheet1' — можно передать название листа; обычно листы называются 'SheetX', где X — номер листа, но могут использоваться и другие названия; [0, 1, 'Sheet3'] — список, содержащий номера или названия листов; в таком случае Pandas вернёт словарь, в котором ключами будут номера или названия листов, а значениями — их содержимое в виде DataFrame; None — если передать такое значение, то pandas прочитает все листы и вернёт их в виде словаря, как в предыдущем пункте).
- na_values — список значений, которые будут считаться пропусками ( ‘’, ‘#N/A’, ‘ N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’).

По умолчанию в DataFrame читается информация из первого листа, однако read_excel()  позволяет выбрать, из какого именно листа загружать данные. Сделать это можно с помощью параметра sheet_name (рус. имя_листа). Например, чтобы прочесть данные из второго листа (ML) файла, выполним код:

In [10]:
grades = pd.read_excel('data/grades.xlsx', sheet_name='Maths')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


Задание 3.3
<br>Считайте данные из двух листов файла ratings+movies.xlsx в разные DataFrame, объедините в один, запишите данные из полученного DataFrame в файл. Сколько строк (включая строку заголовков) в результирующем файле?
<br>Для выполнения следующего задания вам потребуется файл ratings+movies.xlsx, содержащий два листа с данными: ratings (таблица с информацией о выставленных оценках) и movies (таблица c расшифровками идентификаторов кинофильмов). Скачайте его и посмотрите, как он выглядит.

In [None]:
ratings_df = pd.read_excel('data/ratings+movies.xlsx', sheet_name='ratings')
movies_df = pd.read_excel('data/ratings+movies.xlsx', sheet_name='movies')

display(ratings_df.info())
display(movies_df.info())

new_df = ratings_df.merge(
movies_df,
on='movieId',
how='inner'
)

display(new_df.info())

In [None]:
# Дополнительно для КПР
#import pandas as pd
#kvartal_df = pd.read_excel('KPR/kvartal_big.xlsx')
#kvartal_df.info()

#kvartal_df.to_excel('KPR/new_file_kvartal.xlsx')

### Открываем JSON
<br>Чтобы перевести данные из формата JSON в формат, который можно обрабатывать инструментами Python, необходимо выполнить процедуру, которая называется десериализация (декодирование данных). Обратный процесс, связанный с переводом структур данных Python в формат JSON, называется сериализацией.
<br>Для выполнения десериализации мы воспользуемся методом load() (от англ. загрузить) модуля json, который принимает на вход ссылку на открытый JSON-файл:

In [None]:
import json
from pprint import pprint

with open('data/recipes.json') as f: # Открываем файл и связываем его с объектом "f"
    recipes = json.load(f) # Загружаем содержимое открытого файла в переменную recipes
    
'''Отлично! Теперь содержимое нашего файла загружено в переменную recipes.
Давайте выведем его на экран с помощью функции pprint() из одноимённого модуля:'''
pprint(recipes) # Выводим на экран содержимое переменной recipes, используя функция pprint()

recipes[0]['id']
recipes[0]['ingredients']
len(recipes[0]['ingredients'])


'''
Задание 5.2   К какой кухне относится блюдо с id = 13121?
'''

for i in recipes: # начинаем перебор всех блюд входящих в список
    if i['id'] == 13121: # если id текущего блюда равен заданному для поиска
        print(i['cuisine']) # выводим на экран наименование кухни, к которой относится блюдо
        break # прерываем выполнение цикла, т.к. нужное блюдо найдено

Задание 5.3
<br>На практике также иногда возникают задачи по извлечению из JSON-файла обобщённой информации. Давайте попробуем решить две такие задачи.
<br>Какое количество уникальных национальных кухонь присутствуют в нашем наборе данных?
<br>
- ВАРИАНТ РЕШЕНИЯ С ИСПОЛЬЗОВАНИЕМ СПИСКА
<br>
Чтобы извлечь эту информацию, нам нужно создать пустой список и последовательно заполнять его уникальными значениями, доступными по ключу 'cuisine' в каждом из словарей, содержащих информацию о рецептах. Поскольку словари объединены в список recipes, не получится применить известный нам метод unique() (этот метод неприменим к словарям), и для извлечения всех уникальных значений нужно перебирать элементы списка в цикле с параметром.
<br><br>
- ВАРИАНТ РЕШЕНИЯ С ИСПОЛЬЗОВАНИЕМ МНОЖЕСТВА
<br>
Другой способ решения этой же задачи — использование для хранения данных о разных кухнях не списка, а множества (set). Множество содержит только уникальные элементы, поэтому при работе с ним нет необходимости проверять, содержится ли там тот или иной элемент. Если элемент (в нашем примере — название типа кухни) уже есть, то команда "добавить во множество такое же значение" будет проигнорирована компьютером.

In [None]:
import json
from pprint import pprint

with open('data/recipes.json') as f: # Открываем файл и связываем его с объектом "f"
    recipes = json.load(f) # Загружаем содержимое открытого файла в переменную recipes
    
    
    # если значения нет в списке то добавляем его как новое
    uniq_1 = []
    for i in recipes:
        if not(i['cuisine'] in uniq_1):
            uniq_1.append(i['cuisine'])
    print('Первое решение', len(uniq_1))
    
    # добавляем все значения в set все повторяющиеся значения будут игнорироваться
    uniq_set = set()
    for i in recipes:
        uniq_set.add(i['cuisine'])
    print('Второе решение', len(uniq_set))
    
    # добавляем все значения в список потом преобразуем в set и оставим уникальные значения
    uniq_list = list()
    for i in recipes:
        uniq_list.append(i['cuisine'])
    uniq_list_set = set(uniq_list)
    print('Третье решение', len(uniq_list_set))
    
    

Задание 5.4
<br>Какой из национальных кухонь принадлежит самое большое количество рецептов?
<br>Возможный алгоритм действий:
<br>Импортируем необходимые модули.
<br>1. Загружаем содержимое открытого файла в переменную recipes.
<br>2. Создаём список уникальных значений кухонь.
<br>3. Создаём словарь для хранения информации о количестве рецептов в каждой кухне (ключ cuisine, значение — количество рецептов) и заполняем.
<br>4. Определяем ключ с максимальным значением количества.

In [None]:
import pandas as pd
import json
from pprint import pprint

with open('data/recipes.json') as f: # Открываем файл и связываем его с объектом "f"
    recipes = json.load(f) # Загружаем содержимое открытого файла в переменную recipes
    
    cuisines = [] # создаем пустой список для ловли уникальных значений кухонь
    for i in recipes:
        if not(i['cuisine'] in cuisines): # проверяем есть ли значение в списке
            cuisines.append(i['cuisine'])
    
# Пустой словарь для подсчета рецептов по каждой кухне
cnt = {}

# Перебор списка кухонь циклом
for item in cuisines:
    cnt[item] = 0 # Каждое значение в списке превращаем в ключ словаря и присваиваем значение ноль 0
    
for j in recipes: # Перебираем название кухонь циклом
    cnt[j['cuisine']] += 1 # Увеличиваем значение по ключу-кухня на один как только она встречается в исходном файле
    
# Извлекаем значения для всех ключей используя метод get(), выбираем самое максимальное значение
# (при наличии одинаковых значений будет выбрано первое в словаре) и выводим на экран ключ максимального значения
print(max(cnt, key=cnt.get))

print(cnt['italian'])

# Преобразовали в таблицу
# df = pd.DataFrame(cnt, index=[0])
#display(df.head())

Pandas считываение JSON и формирование DATA FRAME
<br>Pandas может считывать файл напрямую

In [None]:
import pandas as pd
import json
from pprint import pprint

with open('data/recipes.json') as f:
    recipes = json.load(f)

# Первый способ
df = pd.DataFrame(recipes)
display(df.head())

#Второй способ (продвинутый) через метод read_json
df_2 = pd.read_json('data/recipes.json') # Считываем файл через библиотеку Pandas напрямую - указывает path к файлу
display(df_2.info)

- Каждая строка соответствует одному рецепту, в столбце id хранится его идентификационный номер, в столбце cuisine — тип кухни, а столбец ingredients содержит список, в котором перечислены ингредиенты, необходимые для приготовления блюда.

- Такая структура не очень практична, поскольку она не позволяет осуществлять группировку данных и выполнять многие другие операции, связанные с исследованием ингредиентов разных блюд. Например, представьте, что вы хотите отфильтровать блюда, состоящие не более чем из пяти ингредиентов, или блюда, не содержащие мяса. Сделать это, когда ингредиенты блюд хранятся в списках, не очень просто.

- Для полноценной работы с данными нам необходимо иметь возможность хранить информацию о каждом ингредиенте в отдельном столбце

- Работу над преобразованием DataFrame начнём с создания и заполнения столбцов, содержащих сведения о наличии или отсутствии каждого ингредиента в рецепте. Процесс заполнения выполним в два этапа:

- 1 Создадим функцию для заполнения значения в каждой ячейке. Функция будет проверять наличие конкретного ингредиента в столбце ingredients для текущего блюда и возвращать 1, если ингредиент есть в рецепте, и 0, если он отсутствует.

- 2 Организуем цикл, в котором будем перебирать наименования всех ингредиентов DataFrame (для этого потребуется создать реестр, то есть некий список, который содержит уникальные наименования ингредиентов). Для каждого ингредиента создадим в DataFrame столбец с соответствующим названием и заполним его единицами и нулями, применив к DataFrame, а точнее к столбцу ingredients функцию, созданную нами на предыдущем этапе.

In [None]:
import pandas as pd
import json
from pprint import pprint

with open('data/recipes.json') as f:
    recipes = json.load(f)
    
all_ingredients = set() # создали пустой set, чтобы записать значение всех уникальных ингридиентов
for recipe in recipes: # перебираем циклом все рецепты
    for ingredient in recipe['ingredients']: # вложенным циклом перебираем все ингридиенты в текущем рецепте
        all_ingredients.add(ingredient) # в set будем добавлять все ингридиенты, т.к. set, то сохранятся только уникальные значения
            
#print(len(all_ingredients))

df = pd.DataFrame(recipes) # Создаем объект DataFrame из списка recipes
#display(df.head())

#- Определим функцию contains(), с помощью которой мы будем проверять наличие
#конкретного ингредиента ingredient_name в рецепте текущего блюда, который представлен
#списком ingredient_list (значение в ячейке столбца ingredients текущего рецепта).
#- Функция будет возвращать 1, если ингредиент есть в рецепте, и 0, если он отсутствует

def contains(ingredient_list): # Определяем имя функции и передаваемые аргументы
    if ingredient_name in ingredient_list: # Если ингредиент есть в текущем блюде,
        return 1 # возвращаем значение 1
    else: # Если ингредиента нет в текущем блюде,
        return 0 # возвращаем значение 0
    

#Перебираем все ингредиенты из ранее созданного реестра all_ingredients с помощью цикла  for  и создать в DataFrame столбец
#с соответствующим названием, заполнив его единицами и нулями. Для этого применим к DataFrame, а точнее, к столбцу ingredients функцию contains()

for ingredient_name in all_ingredients: # Последовательно перебираем ингредиенты в реестре all_ingredients
    df[ingredient_name] = df['ingredients'].apply(contains) # В DataFrame cоздаем столбец с именем текущего ингредиента и
    #заполняем его единицами и нулями, используя ранее созданную функцию contains
    
df['ingredients'] = df['ingredients'].apply(len) # Заменяем список ингредиентов в рецепте, на их количество
#display(df.info)

df.to_csv('data/recipes.csv', index = False)

Обратная сериализация DATA FRAME  в JSON

Задание 7.1
<br>Напишите код для создания списка id всех блюд, нужны только уникальные значения представленных в DataFrame.<br>Строки импорта библиотек в поле для ответа загружать не нужно. Результирующий список занесите в переменную ids.

In [63]:
import json # Импорт модуля json
df = pd.read_csv('data/recipes.csv') # Создаём DataFrame, читаем данные из файла в переменную df

ids = list(df['id'].unique()) # создаем список (list) уникальных id рецептов

Задание 7.2
<br>Напишите код для создания списка ингредиентов всех блюд, представленных в DataFrame.<br>Результирующий список занесите в переменную ingredients.

In [64]:
ingredients = list(df.columns)[3:]

Задание 7.3
<br>Напишите код функции make_list(), которая принимает на вход одну строку DataFrame, содержащую данные об одном рецепте, и возвращает перечень ингредиентов этого блюда в виде списка.

In [65]:
def make_list(row): # Определяем имя функции и передаваемые аргументы
    ingredient_list=[] # Создаем пустой список ингредиентов текущего блюда
    for i in ingredients: # Последовательно перебираем ингредиенты из реестра
        if row[i].item()==1: # Если текущий ингредиент входит в состав текущего блюда
            ingredient_list.append(i) # Добавляем ингредиент в список ингредиентов текущего блюда
    return ingredient_list # Возвращаем сформированный список ингредиентов


new_recipes = [] # Создаём пустой список для хранения итоговой структуры
for current_id in ids: # Организуем цикл с параметром current_id
    cuisine = df[df['id'] == current_id]['cuisine'].iloc[0] # Получаем значение соответствующей кухни,
                                                             #применив фильтр по текущему значению параметра цикла к DataFrame;
    current_ingredients = make_list(df[df['id'] == current_id]) # Получаем перечень ингредиентов, входящих в состав текущего блюда
    current_recipe = {'cuisine': cuisine, 'id': int(current_id), 'ingredients': current_ingredients} # Создаём текущий словарь
    new_recipes.append(current_recipe) # Добавляем созданный словарь к списку
    
    
    
new_recipes = json.dumps(new_recipes) # Функция dumps() модуля json сериализирует объект Python в строку формата JSON. 
with open("data/new_recipes.json", "w") as write_file: # Откроем файл new_recipes.json для записи
    write_file.write(new_recipes) # Записываем содержимое подготовленные данные в файл

### Открываем XML

Чтение XML

In [None]:
import xml.etree.ElementTree as ET
tree = ET.parse('data/menu.xml')
root = tree.getroot()
display(root) #Посмотрим на корневой узел - menu
display(type(root)) # Посмотрим тип узла
display(list(root)) #Возвращаем перечень потомков
display(len(list(root))) # Можно посчитать кол-во потомков через len()
display(list(root[1])) # Возвращаем перечень потомков от второго потомка dish. Индексация как и всегд а с нуля.
display(root[0].attrib) #Вернет атрибут первого блюда из меню
display(root[0][0]) # Возвражаем первый атрибут первого блюда, но пока не само значение атрибута
display(root[0][0].text) # А теперь через TEXT вернули само значение первого атрибута первого блюда
display(root.tag) # Вернем наименование тега конкретного узла через TAG
display(root[0][2].tag) # Вернем наименование тега третьего (индексация с нуля!) узла из первого узла от корня


# Обход всего дерева циклом  for
for i in root:
    for j in i:
        print(i.attrib['name'], j.tag, j.text)
    print()

ЗАГРУЖАЕМ ДАННЫЕ ИЗ XML-ФАЙЛА В DATAFRAME
<br><br>
Реализуем следующий алгоритм:
<br>
<br>1. Загрузить XML-структуру файла menu.xml в переменную root.
<br>2. Создать пустой список df_list (в него будем добавлять строчки итоговой таблицы).
<br>3. Заранее создать список column_names с именами столбцов — название блюда (name), его цена (price), вес (weight) и класс (class).
<br>4. В цикле организовать обход xml-дерева из корня по всем потомкам.
<br>5.На каждой итерации цикла сформировать в виде списка строку таблицы, содержащую информацию: наименование блюда (атрибут name узла dish) и значения потомков этого узла — узлов price, weight, class.
<br>6.Добавить сформированную строку в список df_list, используя метод append().
<br>7. Сформировать из вложенного списка DataFrame. Имена для столбцов взять из списка column_names.

In [89]:
import pandas as pd
import xml.etree.ElementTree as ET
tree = ET.parse('data/menu.xml')
root = tree.getroot() # Загружаем дерево

column_names = ['name', 'price', 'weight', 'class'] # Список для наименование столбцов
df_list = [] # Создали пустой список

for dish in root: # Обходи всех потомков
    row = [dish.attrib['name'], dish[0].text, dish[1].text, dish[2].text] # Описываем листья текущего потомка
    df_list.append(row) # Сформированную выше строку добавляем в список, делаем многоуровневый большой список
    print(df_list) # Показ многоуровнивости списка
    
df = pd.DataFrame(df_list, columns=column_names) # Формируем таблицу из многоуровневого списка, наименование столбцов из переменной column_names
display(df)
    


[['Кура', '40', '300', 'Мясо']]
[['Кура', '40', '300', 'Мясо'], ['Греча', '20', '200', 'Крупа']]


Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


### Создание XML файла
воссоздадим структуру с нуля

In [7]:
import xml.etree.ElementTree as ET

# Создаем корень дерева menu
new_root = ET.Element('menu')

# создаем первую и второю ветки dish1 и dish2 от корня
dish1 = ET.SubElement(new_root, 'dish', name='Кура')
dish2 = ET.SubElement(new_root, 'dish', name='Греча')

# Создаем ветки-листья (price, weight, class) для веток
price1 = ET.SubElement(dish1, 'price').text='40'
weight1 = ET.SubElement(dish1, 'weight').text='300'
class1 = ET.SubElement(dish1, 'class').text='Мясо'
display(list(dish1))

price2 = ET.SubElement(dish2, 'price').text='20'
weight2 = ET.SubElement(dish2, 'weight').text='200'
class2 = ET.SubElement(dish2, 'class').text='Крупа'
display(list(dish2))


#Сохраняем новый XML-файл

ET.ElementTree(new_root).write('data/new_menu_good.xml', encoding="utf-8") # Используем класс ElementTree, что бы решить вопрос кодировки

# Альтернативное сохранение
new_root_string = ET.tostring(new_root)
with open('data/new_menu.xml', 'wb') as f:
    f.write(new_root_string)


[<Element 'price' at 0x0000027087EFC770>,
 <Element 'weight' at 0x0000027087EEF310>,
 <Element 'class' at 0x00000270869E5720>]

[<Element 'price' at 0x0000027087211E00>,
 <Element 'weight' at 0x00000270873A9F90>,
 <Element 'class' at 0x0000027087EF70E0>]