# Курс "Python для анализа данных"

---
#2.9.4 Форматы файлов, кодировки и сохранение данных. Работа с файлами и каталогами

## Где мы сейчас?


<html>
 <head>
  <meta charset="utf-8">
 </head>
 <body>
  <ul>
    <li>1. Введение в анализ данных и разработку на языке Python </li>
    <li>2. <strong>Основы языка</strong> <i><- Вот в этой главе!</i>
     <ul>
      <li>2.1 - 2.7</li>
      <li>2.8 Объектно-ориентированное программирование</li>
      <li><strong>2.9 Обзор стандартной библиотеки языка Python</strong> <i><- Вот в этом параграфе!</i></li>
       <ul>
        <li>2.9.1 Математические вычисления и числа, алгоритмы и типы коллекций</li>
        <li>2.9.2 Работа с аргументами командной строки, время и дата</li>
        <li>2.9.3 Обработка строк, регулярные выражения</li>
        <li><strong>2.9.4 Форматы файлов, кодировки и сохранение данных. Работа с файлами и каталогами</strong><i> <- Вот в этом пункте!</i></li>
       </ul>
     </ul>
    </li>   
  </ul>
 </body>
</html>

## О чем будем говорить?


О наиболее распространенных типах файлов для хранения данных в разных формах и кодировках. Также познакомимся со средствами стандартной библиотеки для работы с каталогами и файлами.


## Ключевые слова, понятия и выражения






*   файл
*   директория
*   типы ```txt, json, pickle```
*   кодировки ```UTF-8, UTF-16, Windows-1251```
*   модули ```os, sys```



## Материал

### Типы файлов и кодировок

#### Встроенный метод ```open```

Режимы открытия файлов с помощью встроенной функции ```open```.

![alt text](https://drive.google.com/uc?id=1RsVkilFsZZ_CUVu7S7vTNVIdTjwF_rIX)

In [0]:
# Создадим файл
f = open('Hello.txt', 'w')
f.close()

In [0]:
# Проверим, что в директории
!ls

Hello.txt  sample_data


In [0]:
# Допишем некоторую информацию в файл
f = open('Hello.txt', 'w')
f.write('Hello world!')
f.close()

In [0]:
# Считаем информацию из файла
f = open('Hello.txt', 'r')
data = f.read()
f.close()

print(data)

0
1
2
3
4
5
6
7
8
9
10



In [0]:
# Перезапишем файл
f = open('Hello.txt', 'w')
for i in range(5): 
  f.write(str(i) + '\n')
f.close()

In [0]:
# Прочитаем файл построчно
f = open('Hello.txt', 'r')
for line in f:
  print(line)
f.close()


0

1

2

3

4

Привет всем!


In [0]:
# Допишем файл
f = open('Hello.txt', 'a')
for i in range(5,11): 
  f.write(str(i) + '\n')
f.close()

In [0]:
# Дозапишем файл с русскими буквами
f = open('Hello.txt', 'a')
f.write('Привет всем!')
f.close()

#### Кодировки

In [0]:
# Читаем в различной кодировке 
# UTF-8
f = open('Hello.txt','r',encoding='utf-8')
data=f.read()
f.close()
print(data)

0
1
2
3
4
Привет всем!


In [0]:
# cp1251
f = open('Hello.txt','r',encoding='cp1251')
data=f.read()
f.close()
print(data)

0
1
2
3
4
РџСЂРёРІРµС‚ РІСЃРµРј!


In [0]:
# UTF-16
f = open('Hello.txt','r',encoding='utf-16')
data=f.read()
f.close()
print(data)

UnicodeError: ignored

In [0]:
# ASCII
f = open('Hello.txt','r',encoding='ASCII')
data=f.read()
f.close()
print(data)

UnicodeDecodeError: ignored

In [0]:
# Перезапись файла в нужной
f = open('Hello.txt','r',encoding='utf-8')
data=f.read()
f.close()

f_utf16 = open('Hello_UTF16.txt','w',encoding='utf-16')
f_utf16.write(data)
f.close()

f = open('Hello_UTF16.txt','r',encoding='utf-16')
data=f.read()
f.close()
print(data)

0
1
2
3
4
Привет всем!


#### Файлы ```json```

In [0]:
import json

obj = {'one':123, 'two':[1,2,3,]}
data = json.dumps(obj)
print(type(data))
print(data)

with open('data.json', 'w') as f:
  f.write(data)

with open('data.json','r') as f:
  new_data = f.read()
print(new_data)

new_data = json.loads(new_data)
print(type(new_data))
print(new_data.keys())

<class 'str'>
{"one": 123, "two": [1, 2, 3]}
{"one": 123, "two": [1, 2, 3]}
<class 'dict'>
dict_keys(['one', 'two'])


#### Файлы ```pickle```

In [0]:
# Подключаем модуль pickle
import pickle
obj = {'one':123, 'two':[1,2,3,]}

with open('data.pkl', 'wb') as f:
  pickle.dump(obj, f, 2)


In [0]:
!ls

data.json  data.pkl  Hello.txt	Hello_UTF16.txt  sample_data


In [0]:
# Считаем информацию из файла
with open('data.pkl','rb') as f:
  data=f.read()
  new_obj=pickle.loads(data)
print(type(new_obj))
print(new_obj)

<class 'dict'>
{'one': 123, 'two': [1, 2, 3]}


### Работа с файловой системой

In [0]:
# Подключение модуля
import os

In [0]:
# Просмотр текущего каталога 
os.getcwd()

'/content'

In [0]:
# Проверка наличия файла в рабочем каталоге
os.path.exists('data.json')

True

In [0]:
# Размер файла
os.path.getsize('data.json')

30

In [0]:
# Вывод файлов и подкаталогов для данного каталога
print(os.listdir())
print(os.listdir('sample_data'))

['.config', 'Hello_UTF16.txt', 'data.pkl', 'Hello.txt', 'data.json', 'sample_data']
['README.md', 'anscombe.json', 'mnist_train_small.csv', 'california_housing_test.csv', 'mnist_test.csv', 'california_housing_train.csv']


In [0]:
# Обход методом os.walk
tree = os.walk(os.getcwd())

# tree = (Название каталога, Список подкаталогов, Список файлов)
for i in tree:
  print(i)

('/content', ['.config', 'sample_data'], ['Hello_UTF16.txt', 'data.pkl', 'Hello.txt', 'data.json'])
('/content/.config', ['configurations', 'logs'], ['.last_update_check.json', 'active_config', '.last_survey_prompt.yaml', 'config_sentinel', 'gce', '.metricsUUID'])
('/content/.config/configurations', [], ['config_default'])
('/content/.config/logs', ['2019.12.18'], [])
('/content/.config/logs/2019.12.18', [], ['16.52.31.147337.log', '16.52.34.414154.log', '16.52.05.166856.log', '16.52.35.435000.log', '16.52.20.616768.log'])
('/content/sample_data', [], ['README.md', 'anscombe.json', 'mnist_train_small.csv', 'california_housing_test.csv', 'mnist_test.csv', 'california_housing_train.csv'])


In [0]:
# Просмотр путей всех файлов 
tree = os.walk(os.getcwd())
for address, dirs, files in tree:
  for file in files:
    print(address + '/' + file)

/content/Hello_UTF16.txt
/content/data.pkl
/content/Hello.txt
/content/data.json
/content/.config/.last_update_check.json
/content/.config/active_config
/content/.config/.last_survey_prompt.yaml
/content/.config/config_sentinel
/content/.config/gce
/content/.config/.metricsUUID
/content/.config/configurations/config_default
/content/.config/logs/2019.12.18/16.52.31.147337.log
/content/.config/logs/2019.12.18/16.52.34.414154.log
/content/.config/logs/2019.12.18/16.52.05.166856.log
/content/.config/logs/2019.12.18/16.52.35.435000.log
/content/.config/logs/2019.12.18/16.52.20.616768.log
/content/sample_data/README.md
/content/sample_data/anscombe.json
/content/sample_data/mnist_train_small.csv
/content/sample_data/california_housing_test.csv
/content/sample_data/mnist_test.csv
/content/sample_data/california_housing_train.csv


In [0]:
# Создание директории с поддиректориями
os.makedirs('Fld1/Fld2/Fld3')
!ls

 data.json   Fld1	       Hello.txt	 sample_data
 data.pkl   'Fld1\Fld2\Fld3'   Hello_UTF16.txt


In [0]:
# Удаление директории
os.removedirs('Fld1/Fld2/Fld3')
!ls

data.json  data.pkl  Hello.txt	Hello_UTF16.txt  sample_data


In [0]:
# Корректное формирование пути с учетом операционной системы
os.path.join('Fld1','Fld2','Fld3')

'Fld1/Fld2/Fld3'

## За рамками материала



*   сериализация объектов собственных класса
*   глубокое погружение в модули ```sys``` и ```os```



## Дополнительные материалы и литература



*   Саммерфилд М., Программирование на Python 3. Подробное руководство. - Пер. с англ. - СПб.: Символ-Плюс, 2009. - 608 с, ил., ISBN: 978-5-93286-161-5 С. 334.