In [1]:
# Импорт библиотеки pandas — при выполнении последовательно всех примеров ниже, импорт библиотеки pandas 
# выполняется один раз.
import pandas as pd
countries_data = pd.read_csv('data/countries.csv', sep=';')# Загружаем данные из файла в переменную, создавая объект DataFrame.
countries_data.to_csv('data/countries.txt', index=False, sep=' ')# Выгружаем данные из DataFrame в CSV-файл и сохраняем файл в папке data.

# Считаем данные из файла countries.txt в переменную txt_df  (объект DataFrame), применив функцию read_table() с параметрами sep=' ',  
# и index_col=['country'] (так мы избавимся от столбца с индексом и присвоим названия строкам, используя данные одного из столбцов). 
# Выводим на экран полученный результат:
# Загружаем данные из файла в переменную, создавая объект DataFrame.
txt_df = pd.read_table('data/countries.txt', sep=' ', index_col=['country'])
txt_df # Выводим содержимое DataFrame на экран.

Unnamed: 0_level_0,population,square
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Англия,56.29,133396
Канада,38.05,9984670
США,322.28,9826630
Россия,146.24,17125191
Украина,45.5,603628
Беларусь,9.5,207600
Казахстан,17.04,2724902


In [2]:
# ПРИМЕНЕНИЕ ПАРАМЕТРА HEADER

# Используя параметр header, при создании DataFrame мы учитываем наличие/отсутствие строки заголовков в исходном файле данных.

# Например, если при считывании данных из ранее сохранённого в папке data файла melb_data_ps.csv указать значение параметра header=None, 
# то первая строка исходного файла не будет восприниматься как строка заголовка и будет отнесена к области данных DataFrame:

melb_data = pd.read_csv('data/melb_data_ps.csv', header=None) # Загружаем данные из файла в переменную, создавая объект DataFrame
melb_data # Выводим содержимое DataFrame на экран

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
1,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
2,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
3,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
4,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13576,13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,...,2,652.0,126.0,1981,,-37.90562,145.16761,South-Eastern Metropolitan,7392,"-37.90562, 145.16761"
13577,13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,...,2,333.0,133.0,1995,,-37.85927,144.87904,Western Metropolitan,6380,"-37.85927, 144.87904"
13578,13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,...,4,436.0,126.0,1997,,-37.85274,144.88738,Western Metropolitan,6380,"-37.85274, 144.88738"
13579,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,5,866.0,157.0,1920,,-37.85908,144.89299,Western Metropolitan,6380,"-37.85908, 144.89299"


In [3]:
# РЕШАЕМ ПРОБЛЕМУ С КОДИРОВКОЙ ИСХОДНЫХ ДАННЫХ

# При считывании файла и создании DataFrame может возникнуть проблема — при выводе на экран 
# данные будут отображаться в виде нечитаемых символов. Это связано с кодировкой символов в исходном файле.

# Для решения проблемы выполним следующие действия:
# узнаем, какая кодировка символов используется в считываемом файле 
# (для этого обратимся к субмодулю chardet.universaldetector библиотеки Universal Encoding Detector);
# при считывании файла и создании DataFrame будем использовать 
# параметр encoding  —  указывает, какой тип кодировки символов используется в считываемом файле. 

# ЛОКАЛИЗУЕМ ПРОБЛЕМУ

# Считываем файл и создаем DataFrame без использования параметра encoding:
# Считываем данные из файла с неизвестной кодировкой в переменную, создавая объект DataFrame&
data=pd.read_csv('data/ErrorEnCoding.csv', header=None ) 
data # Выводим содержимое DataFrame на экран

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 33: invalid continuation byte

In [6]:
# ОПРЕДЕЛЯЕМ КОДИРОВКУ ФАЙЛА

# Приведённый ниже код поможет нам определить используемую кодировку в файле, степень достоверности, используемый язык.
import chardet
from chardet.universaldetector import UniversalDetector # Импортируем субмодуль chardet.universaldetector
detector = UniversalDetector()
with open('data/ErrorEnCoding.csv', 'rb') as fh:
    for line in fh:
        detector.feed(line)
        if detector.done:
            break
detector.close()

ModuleNotFoundError: No module named 'chardet'