In [1]:
import pandas as pd
from chardet.universaldetector import UniversalDetector
import openpyxl

In [2]:
countries_data = pd.read_csv('data/countries.csv', sep=';')
countries_data.to_csv('data/countries.txt', index=False, sep=' ')# Выгружаем данные из DataFrame в CSV-файл и сохраняем файл в папке data

In [3]:
txt_df = pd.read_table('data/countries.txt', sep=' ', index_col=['country'])
print(txt_df)

           population    square
country                        
Англия          56.29    133396
Канада          38.05   9984670
США            322.28   9826630
Россия         146.24  17125191
Украина         45.50    603628
Беларусь         9.50    207600
Казахстан       17.04   2724902


При считывании файла и создании DataFrame может возникнуть проблема — при выводе на экран данные будут отображаться в виде нечитаемых символов. Это связано с кодировкой символов в исходном файле.

In [4]:
data=pd.read_csv('data/ErrorEnCoding.csv', header=None ) # Считываем данные из файла с неизвестной кодировкой в переменную, создавая объект DataFrame
print(data) # Выводим содержимое DataFrame на экран

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 33: invalid continuation byte

In [5]:
detector = UniversalDetector()
with open('data/ErrorEnCoding.csv', 'rb') as fh:
    for line in fh:
        detector.feed(line)
        if detector.done:
            break
detector.close()

{'encoding': 'KOI8-R', 'confidence': 0.8402412806602051, 'language': 'Russian'}

При открытии файла использовалась конструкция with ... as ... (с англ. «с... как...»). Эта конструкция применяется для гарантии того, что критические функции и методы (в данном случае метод .close() закрывает открытый ранее файл) будут выполнены в любом случае.

In [6]:
data=pd.read_csv('data/ErrorEnCoding.csv', header=None, encoding='KOI8-R' ) # Считываем данные из файла с неизвестной кодировкой в переменную, создавая объект DataFrame
print(data) # Выводим содержимое DataFrame на экран

            0                           1             2
0   User_943         Accumanst@gmail.com         Ижевск
1   User_908           Advismowr@mail.ru         Ижевск
2   User_962             Anachso@ukr.net      Краснодар
3   User_973            Antecia@inbox.ru          Пермь
4   User_902          Balliaryva@ukr.net               
..        ...                         ...           ...
95  User_959    UpdatesCurious@yahoo.com         Тюмень
96  User_901          V2artierso@mail.ru    Арзангелтск
97  User_970            Vashoterlo@bk.ru        Воронеж
98  User_965         Visuareda@yahoo.com        Воронеж
99  User_921                Aavast@ya.ru         Ижевск

[100 rows x 3 columns]


# ЧТЕНИЕ ФАЙЛА ПО ССЫЛКЕ, ИСПОЛЬЗУЯ ФУНКЦИЮ READ_TABLE()

In [8]:
data = pd.read_table('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv', sep=',')
data #read_table работает и с .csv

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


In [9]:
data.shape[0]

18396

# ЧТЕНИЕ/ЗАПИСЬ АРХИВИРОВАННЫХ CSV-ФАЙЛОВ

In [10]:
data = pd.read_csv('data/students_performance.zip')
data

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


In [11]:
compression_opts = dict(method='zip', archive_name='out.csv')# Определяем параметры архивирования — метод сжатия, имя файл в архиве
data.to_csv('data/out.zip', index=False, compression=compression_opts)

# СЧИТЫВАНИЕ ДАННЫХ ИЗ ФАЙЛА EXCEL

In [13]:
grades = pd.read_excel('data/grades.xlsx')
grades.head()

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


In [15]:
data = pd.read_excel('https://github.com/asaydn/test/raw/master/january.xlsx')
print(data)

    January 2020 Sales Unnamed: 1 Unnamed: 2 Unnamed: 3   Unnamed: 4  \
0  Global Sales Report        NaN        NaN        NaN          NaN   
1                  NaN        NaN        NaN        NaN          NaN   
2             Location    Oranges     Apples    Bananas  Blueberries   
3              Toronto       7651       4422       8580         3679   
4          Los Angeles        273       2998       9890         7293   
5              Atlanta       3758       6752       4599         4149   
6             New York       4019       8796       8486         9188   

  Unnamed: 5  
0        NaN  
1        NaN  
2      Total  
3      24332  
4      20454  
5      19258  
6      30489  


In [17]:
grades = pd.read_excel('data/grades.xlsx', sheet_name='Maths')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


In [19]:
grades.to_excel('data/grades_new.xlsx', sheet_name='Example', index=False) # Сохраняем данные из DataFrame grades в файл grades_new.xlsx (на листе 'Example') в папке data

In [20]:
ratings = pd.read_excel('data/ratings+movies.xlsx', sheet_name='ratings')
movies = pd.read_excel('data/ratings+movies.xlsx', sheet_name='movies')
ratings.merge(movies, on='movieId')

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,1,4.0,964982703,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,5,1,4.0,847434962,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,7,1,4.5,1106635946,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
3,15,1,2.5,1510577970,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
4,17,1,4.5,1305696483,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
...,...,...,...,...,...,...
100831,610,160341,2.5,1479545749,Bloodmoon (1997),Action|Thriller
100832,610,160527,4.5,1479544998,Sympathy for the Underdog (1971),Action|Crime|Drama
100833,610,160836,3.0,1493844794,Hazard (2005),Action|Drama|Thriller
100834,610,163937,3.5,1493848789,Blair Witch (2016),Horror|Thriller


# JSON