## Работа с файлами. Чтение из файла с pandas
Данные, представленные в виде таблицы обычно хранятся в файле .xlsx или .csv.
Работать с данными, записанными в файлы такого типа, будем с помощью пакета pandas,
в нем нам понадобится функция
### pandas.read_excel
pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True, mangle_dupe_cols=True, storage_options=None)

Подробности смотрите здесь:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html


## Пример 1
Прочитать данные из файла 'animals.xlsx' и вывести их на экран.

Рекомендуется открыть файл и посмотреть на содержимое. Обратите внимание, что в таблице есть названия строк и столбцов, сами эти названия не являются данными, это только названия для удобства пользователя.

Считаем из файла и выведем на экран все содержимое 'animals.xlsx'.

In [None]:
from google.colab import files
import pandas as pd

In [None]:
uploaded = files.upload() # загружаем нужные файлы, обращаться к ним будем по имени
for key in uploaded.keys():
    print(f'Загружен файл {key}')

Saving animals.xlsx to animals.xlsx
Загружен файл animals.xlsx


Укажем, что первый столбец является названиями строк (index_col), это нужно сделать, поскольку по умолчанию считается, что подписей к строкам нет.

In [None]:
animals_from_excel = pd.read_excel('animals.xlsx', index_col=0)
print(animals_from_excel)

                                                        Animal  \
Top 20 Tallest Animals (Body Height)                             
Tallest terrestrial animal                             Giraffe   
Tallest elephant                              African Elephant   
Tallest bird                                           Ostrich   
Tallest camel                                        Dromedary   
Tallest cattle                                            Gaur   
Tallest horse                                      Shire Horse   
Tallest deer                                             Moose   
Tallest cattle                                  American bison   
2nd tallest cattle                    Holstein friesian cattle   
Tallest rhinoceros                                 White rhino   
Tallest hippo                                     Hippopotamus   
Talles zebra                                     Grévy's zebra   
Tallest animal of prey                              Polar bear   
3rd talles

Содержимое файла загружено в переменную animals_from_excel, представляющую собой особый вид данных. В нашей переменной animals_from_excel есть названия строк, столбцов и собственно данные. Выделить эти части считанной из файла информации можно так:


```
animals_from_excel.index
animals_from_excel.columns
animals_from_excel.values
```


**Замечание.** Вместо .values лучше использовать .to_numpy()

## Пример 2
Выведем на экран названия строк и столбцов файла 'animals.xlsx' и данные, записанные в этот файл.

In [None]:
print(f"""index: {animals_from_excel.index},
columns: {animals_from_excel.columns},
values: {animals_from_excel.values}
shape: {animals_from_excel.values.shape}""")

index: Index(['Tallest terrestrial animal', 'Tallest elephant', 'Tallest bird',
       'Tallest camel', 'Tallest cattle', 'Tallest horse', 'Tallest deer',
       'Tallest cattle', '2nd tallest cattle', 'Tallest rhinoceros',
       'Tallest hippo', 'Talles zebra', 'Tallest animal of prey',
       '3rd tallest cattle', 'Tallest donkey', 'Tallest wildebeest',
       '2nd tallest camel', 'Tallest feline predator', 'Tallest dog',
       'Tallest animal of prey'],
      dtype='object', name='Top 20 Tallest Animals (Body Height)'),
columns: Index(['Animal', 'Body Height'], dtype='object'),
values: [['Giraffe' '19.6 feet (6 meters)']
 ['African Elephant' '12.9 feet (3.96 meters)']
 ['Ostrich' '9.1 feet (2.8 meters)']
 ['Dromedary' '7.8 feet (2.4 meters)']
 ['Gaur' '7.2 feet (2.2 meters)']
 ['Shire Horse' '6.8 feet (2.1 meters)']
 ['Moose' '6.8 feet (2.1 meters)']
 ['American bison' '6.6 feet (2.01 meters)']
 ['Holstein friesian\xa0cattle' '6.2 feet (1.9 meters)']
 ['White rhino' '6.1 feet (1.8

Обратим внимание, что мы считали данные только из первого листа 'tallest' нашего файла. Для считывания отдельного листа нужно указать его имя:


```
longest_animals_from_excel = pd.read_excel('animals.xlsx', sheet_name='longest', index_col=0)
```

Для того, чтобы не выводить все длинные списки и таблицы, будем пользоваться срезами, указывая в квадратных скобках диапазон номеров элементов, которые нам нужны:



In [None]:
longest_animals_from_excel = pd.read_excel('animals.xlsx', sheet_name='longest', index_col=0)
print(f"""longest_animals:
index: {longest_animals_from_excel.index[:4]},
columns: {longest_animals_from_excel.columns},
values: {longest_animals_from_excel.values[:4, :4]}""")

longest_animals:
index: Index(['Longest animal', 'Longest cnidarian', 'Longest whale',
       '2nd longest invertebrate'],
      dtype='object', name='Top 20 Longest Animals (Body Length)'),
columns: Index(['Animal', 'Body Length'], dtype='object'),
values: [['Giant ribbon worm L. longissimus *' '180.4 feet (55 meters)']
 ['Siphonophore P. dubia **' '164 feet (50 meters)']
 ['Blue whale' '109.97 feet (33.52 meters)']
 ['Giant squid' '60 feet (18.30 meters)']]


## Запись в файл
Для записи в файл используется метод to_excel класса DataFrame из pandas.
```
df.to_excel(file_name)
```
Здесь df это DataFrame из pandas, этот объект нам нужно создать на основе наших данных, указав при необходимости надписи строк и столбцов.

Самый простой способ:

In [None]:
M = [[1, 2, 3], [4, 5, 6]]
df = pd.DataFrame(M)
file_name = "M_1.xlsx"
df.to_excel(file_name)
files.download(file_name)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Если нам нужно, чтобы подписи столбцов были a, b, c, а подписи строк A и B, нужно сделать так:

In [None]:
index_1 = ['A', 'B']
columns_1 = ['a', 'b', 'c']
df = pd.DataFrame(M, index=index_1, columns=columns_1)
file_name = "M_2.xlsx"
df.to_excel(file_name)
files.download(file_name)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Если нужно, чтобы не было подписей строк в файле, нужно это указать в df.to_excel:

In [None]:
file_name = "M_3.xlsx"
df.to_excel(file_name, index=False)
files.download(file_name)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Если нужно, чтобы не было подписей столбцов в файле, то в df.to_excel пишем header=False.

In [None]:
file_name = "M_4.xlsx"
df.to_excel(file_name, header=False)
files.download(file_name)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Запись на отдельные листы
Если нужно расположить данные на отдельных листах файла xlsx, то используется такая конструкция:


```
with pd.ExcelWriter(file_name) as writer:
    df1.to_excel(writer, sheet_name='df1_name')
    df2.to_excel(writer, sheet_name='df2_name')
    ...
```

In [None]:
file_name = "M_5.xlsx"
df1 = animals_from_excel
df2 = longest_animals_from_excel
with pd.ExcelWriter(file_name) as writer:
    df1.to_excel(writer, sheet_name='tallest')
    df2.to_excel(writer, sheet_name='longest')
files.download(file_name)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Если нужно записать много листов, то будем делать это в цикле, для этого составим кортеж или список из имен листов и кортеж или список из данных.
```
sheet_names = ('name_1', 'name_2', ...)
dfs = (df1, df2, ...)
with pd.ExcelWriter(file_name) as writer:
    for df, name in zip(dfs, sheet_names):
        df.to_excel(writer, sheet_name=name)
```
Можно составлять списки с помощью списочных выражений.
## Обработка данных, извлеченных из файла xlsx
Данные, извлеченные из файла, выделенные с помощью атрибута values, представляют собой двумерную структуру. Можно выделять из нее строки, столбцы, отдельные элементы примерно так, как из двумерных списков.
## Пример 3
Выведем на экран столбец с названиями животных с листа 'longest', затем 3 строку и элемент 3-й строки последнего столбца.

In [None]:
data = longest_animals_from_excel.values
print(f"""Столбец с названиями животных с листа 'longest':
{data[:, 0]}
3 строка:
{data[3, :]}
элемент 3-й строки последнего столбца:
{data[3, -1]}""")

Столбец с названиями животных с листа 'longest':
['Giant ribbon worm L. longissimus *' 'Siphonophore P. dubia **'
 'Blue whale' 'Giant squid' 'Sperm whale' 'Whale shark' 'Orca'
 'Reticulated python' 'White shark' 'King cobra' 'Beluga'
 'Southern elephant seal' 'Siberian tiger' 'Polar bear, Kodiak bear ***'
 'Komodo dragon' 'Leatherback turtle' 'Chinese giant salamander'
 'Giant mussel T. gigas']
3 строка:
['Giant squid' '60 feet (18.30 meters)']
элемент 3-й строки последнего столбца:
60 feet (18.30 meters)


## Пример 4
Создадим на основе последнего столбца с листа 'longest' два отдельных столбца с числами - длиной в футах и длиной в метрах.

In [None]:
def rep_my(s):
    for item in (' feet (', ' meters)'):
        s = s.replace(item, ' ')
    return [float(item) for item in s.split()]

long = pd.read_excel('animals.xlsx', sheet_name='longest', index_col=0)

long_len = [rep_my(item) for item in long.values[:, -1]]
print(f"""longest:
{long_len}""")

longest:
[[180.4, 55.0], [164.0, 50.0], [109.97, 33.52], [60.0, 18.3], [59.0, 18.0], [41.6, 12.7], [32.15, 9.8], [22.8, 6.95], [19.6, 6.0], [18.7, 5.7], [19.6, 6.0], [22.4, 6.85], [10.9, 3.3], [10.17, 3.1], [9.97, 3.04], [8.39, 2.56], [5.9, 1.8], [3.93, 1.2]]


## Пример 5
Счтаем из файла 'animals.xlsx' листы 'tallest' и 'longest'
Запишем в файл 'animals_new.xlsx' на листы 'height' и 'length' два отдельных столбца с числами - длиной в футах и длиной в метрах, остальное как в исходном файле.

In [None]:
file_name = "animals.xlsx"
tall, long = [pd.read_excel(file_name,
                            sheet_name=name,
                            index_col=0) for name in ('tallest', 'longest')]

tall_len, long_len = [[rep_my(item) for item in data.values[:, -1]] for data in (tall, long)]

file_name = file_name[:-5] + '_new'+ file_name[-5:]
columns = ['feet', 'meters']
with pd.ExcelWriter(file_name) as writer:
    for name, item, sheet in zip(('height', 'length'),
                                 (tall_len, long_len),
                                 (tall, long)):
        df = pd.DataFrame(data=item, index=sheet.index, columns=columns)
        df.to_excel(writer, sheet_name=name)
files.download(file_name)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Чтение текстовых файлов: повторение
https://docs.python.org/3/library/functions.html#open

Файл можно создать, открыть, записать в него данные, дописать данные в имеющийся файл или обновить данные в файле, можно закрыть файл.

Если нужно записать данные в файл, которого пока нет, то вначале создаем файл, открываем его, записываем, закрываем. Обязательно нужно следить за тем, чтобы к моменту завершения программы все открытые файлы были закрыты. При нормальной работе программы, когда она не завершается аварийно с сообщением об ошибке, достаточно, чтобы в коде было предусмотрено закрытие всех файлов. Однако не всегда возможно предусмотреть все варианты данных, используемых программой (например, если в ней есть пользовательский ввод) и обработать все возможные ошибки программно, могут произойти сбои в системе и т.п. Для автоматизации контроля закрытия файлов будем сразу пользоваться конструкцией
```
with open(file_name, mode='w', encoding='utf-8') as f:
    f.write(data)
```
В данном случае выбран режим перезаписи данных  mode='w' (используется по умолчанию), в этом случае данные, которые уже были записаны в файл, стираются, замещаясь новыми данными data.

Другие режимы открытия файла:

'r' чтение

'x' открытие для создания не существующего файла, выдающее ошибку, если файл уже существует

'a' дописывание данных в файл после уже имеющихся в нем данных

'b' бинарный режим

't' текстовый режим (по умолчанию)

'+' и чтение и запись

Режимы отрытия файла "суммируются", т.е. можно одновременно использовать несколько режимов, например, 'w+' (чтение и запись, при записи старые данные стираются) 'r+' (чтение и запись, при записи новые данные записываются после старых)
# Загрузка файлов в colab.research
```
from google.colab import files

files.upload()
```
# Скачивание файлов в colab.research
```
files.download(file_name)
```
## Особенности чтения файлов.
Файл читается так, как если бы текст был записан на одной длинной строке, по которой передвигается от начала к концу считывающее утройство. Например, если считаны первые 10 символов файла, то при попытке считать еще 5 символов будут считаны символы с 11 по 15 включительно. Если все символы файла прочитаны, то больше ничего не удастся считать, если только не переместиться в начало файла или в определенную позицию.