# <center> 16. Как выгружать файлы из разных фарматов

## 16.2 Работа с текстовыми файлами

In [1]:
import pandas as pd

In [4]:
# Считаем DF и пересохраним его как .txt
data = pd.read_csv('data/countries.csv', sep=';')
display(data.head())
data.to_csv('data/countries.txt', index=False, sep=' ')

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628


In [6]:
# Применим функцию read_table() для чтения txt файла
data_txt = pd.read_table('data/countries.txt', sep=' ', index_col=['country']) 
# index_col=['country'] (так мы избавимся от столбца с индексом и присвоим названия строкам, используя данные одного из столбцов)
display(data_txt.head())

Unnamed: 0_level_0,population,square
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Англия,56.29,133396
Канада,38.05,9984670
США,322.28,9826630
Россия,146.24,17125191
Украина,45.5,603628


In [10]:
# Если указать header=None то первая строка не будет определяться как заголовок
melb_data = pd.read_csv('/Data science/IDE/skillfactory/PY_12 Продвинутый Pandas/data/melb_data_fe.csv', header=None)
display(melb_data)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
0,Suburb,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,...,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,StreetType,Weekend
1,Abbotsford,2,house,1480000.0,S,Biggin,2016-03-12,2.5,3067,2,...,144.9984,Northern Metropolitan,4019,25.2,-0.23170731707317074,3,46,5,St,1
2,Abbotsford,2,house,1035000.0,S,Biggin,2016-04-02,2.5,3067,2,...,144.9934,Northern Metropolitan,4019,15.8,-0.3276595744680851,4,116,5,St,1
3,Abbotsford,3,house,1465000.0,SP,Biggin,2017-04-03,2.5,3067,3,...,144.9944,Northern Metropolitan,4019,18.75,0.056338028169014086,4,117,0,St,0
4,Abbotsford,3,house,850000.0,PI,Biggin,2017-04-03,2.5,3067,3,...,144.9969,Northern Metropolitan,4019,15.75,0.14545454545454545,4,47,0,other,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13576,other,4,house,1245000.0,S,Barry,2017-08-26,16.7,3150,4,...,145.16761,South-Eastern Metropolitan,7392,12.6,-0.6760925449871465,8,36,5,Cr,1
13577,Williamstown,3,house,1031000.0,SP,Williams,2017-08-26,6.8,3016,3,...,144.87904,Western Metropolitan,6380,16.625,-0.4291845493562232,8,22,5,Dr,1
13578,Williamstown,3,house,1170000.0,S,Raine,2017-08-26,6.8,3016,3,...,144.88738,Western Metropolitan,6380,15.75,-0.5516014234875445,8,20,5,St,1
13579,Williamstown,4,house,2500000.0,PI,Sweeney,2017-08-26,6.8,3016,4,...,144.89299,Western Metropolitan,6380,17.444444444444443,-0.6930596285434996,8,97,5,St,1


### Решаем проблему с кодировкой исходных данных (когда не правильно читаются символы)

In [13]:
# Н.р. считаем фаил без решения проблемы
data=pd.read_csv('data/ErrorEnCoding.csv', header=None, encoding='latin-1')
display(data)

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,éÖÅ×ÓË
1,User_908,Advismowr@mail.ru,éÖÅ×ÓË
2,User_962,Anachso@ukr.net,ëÒÁÓÎÏÄÁÒ
3,User_973,Antecia@inbox.ru,ðÅÒÍØ
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,ôÀÍÅÎØ
96,User_901,V2artierso@mail.ru,áÒÚÁÎÇÅÌÔÓË
97,User_970,Vashoterlo@bk.ru,÷ÏÒÏÎÅÖ
98,User_965,Visuareda@yahoo.com,÷ÏÒÏÎÅÖ


In [16]:
# Для коректного чтения нужно определить кодировку
from chardet.universaldetector import UniversalDetector

detector = UniversalDetector()
with open('data/ErrorEnCoding.csv', 'rb') as fh:
    for line in fh:
        detector.feed(line)
        if detector.done:
            break
detector.close()
# с увереностью в 80% тип кодировки koi8-r

{'encoding': 'KOI8-R', 'confidence': 0.8773902118791048, 'language': 'Russian'}

In [17]:
# Считаем файл указав кодировку
data = pd.read_csv('data/ErrorEnCoding.csv', encoding='koi8-r', header=None)
data

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,Тюмень
96,User_901,V2artierso@mail.ru,Арзангелтск
97,User_970,Vashoterlo@bk.ru,Воронеж
98,User_965,Visuareda@yahoo.com,Воронеж


### ЧТЕНИЕ ФАЙЛА ПО ССЫЛКЕ, ИСПОЛЬЗУЯ ФУНКЦИЮ READ_TABLE()


In [19]:
data = pd.read_table('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv', sep=',')
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


### ЧТЕНИЕ/ЗАПИСЬ АРХИВИРОВАННЫХ CSV-ФАЙЛОВ

In [20]:
data_zip = pd.read_csv('data/students_performance.zip')
display(data_zip)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


In [21]:
# Обратно заархивируев из кода
compression_opts = dict(method='zip', archive_name = 'out.csv')
data.to_csv('data/out.zip', index=False, compression=compression_opts)

### Немного об Excel

In [23]:
# Для чтени фаило excel исп функция pandas read_excel()
data = pd.read_excel('data/grades.xlsx')
display(data)

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8
5,6,Оля,9
6,7,Витя,8
7,8,Дима,7
8,9,Витя,5


In [24]:
data = pd.read_excel('https://github.com/asaydn/test/raw/master/january.xlsx')
display(data)

Unnamed: 0,January 2020 Sales,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,Global Sales Report,,,,,
1,,,,,,
2,Location,Oranges,Apples,Bananas,Blueberries,Total
3,Toronto,7651,4422,8580,3679,24332
4,Los Angeles,273,2998,9890,7293,20454
5,Atlanta,3758,6752,4599,4149,19258
6,New York,4019,8796,8486,9188,30489


In [25]:
# Чтобы считать информацию со 2 листа нужно использовать параметр sheet_name=
data = pd.read_excel('data/grades.xlsx', sheet_name='ML')
display(data)

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,7
1,2,Катя,5
2,3,Маша,9
3,4,Миша,8
4,5,Женя,9
5,6,Оля,9
6,7,Витя,7
7,8,Дима,4
8,9,Витя,5


In [27]:
# Для сохранения DF в excel используется метод to_excel()
data.to_excel('data/grades_new.xlsx')

# В этом случае будет создан один лист с именем по умолчанию "Sheet1". 
# Также мы сохраним и индекс — в данных будет находиться лишний столбец. 
# Чтобы создать лист с определённым именем (например, Example) и не сохранять индекс,
# в метод  to_excel() необходимо передать параметры sheet_name='Example' 

data.to_excel('data/grades_new.xlsx', index=False, sheet_name='Example')

In [28]:
df_ratings = pd.read_excel('data/ratings+movies.xlsx', sheet_name='ratings')
display(df_ratings)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931
...,...,...,...,...
100831,610,166534,4.0,1493848402
100832,610,168248,5.0,1493850091
100833,610,168250,5.0,1494273047
100834,610,168252,5.0,1493846352


In [29]:
df_movie = pd.read_excel('data/ratings+movies.xlsx', sheet_name='movies')
display(df_movie)

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


In [31]:
merged = df_movie.merge(
    df_ratings,
    on='movieId',
    how='right'
)
display(merged)

Unnamed: 0,movieId,title,genres,userId,rating,timestamp
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,1,4.0,964982703
1,3,Grumpier Old Men (1995),Comedy|Romance,1,4.0,964981247
2,6,Heat (1995),Action|Crime|Thriller,1,4.0,964982224
3,47,Seven (a.k.a. Se7en) (1995),Mystery|Thriller,1,5.0,964983815
4,50,"Usual Suspects, The (1995)",Crime|Mystery|Thriller,1,5.0,964982931
...,...,...,...,...,...,...
100831,166534,Split (2017),Drama|Horror|Thriller,610,4.0,1493848402
100832,168248,John Wick: Chapter Two (2017),Action|Crime|Thriller,610,5.0,1493850091
100833,168250,Get Out (2017),Horror,610,5.0,1494273047
100834,168252,Logan (2017),Action|Sci-Fi,610,5.0,1493846352


In [32]:
merged.to_excel('data/ratings+movie_new.xlsx', index=False, sheet_name='Example')