In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

__Исследование CSV-файла__

In [4]:
# с помощью модуля csv посмотрим на первые пять строк CSV файла 
import csv
with open('./msft.csv') as file:
    reader = csv.reader(file, delimiter = ',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
['7/17/2014', '84.35', '84.63', '83.33', '83.63', '1974000']
['7/16/2014', '83.77', '84.91', '83.66', '84.91', '1755600']
['7/15/2014', '84.3', '84.38', '83.2', '83.58', '1874700']


__Чтение CSV файла в DataFrame__

In [5]:
# считываем csv в DataFrame
msft = pd.read_csv('./msft.csv')
msft.head(5)

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000
3  7/16/2014  83.77  84.91  83.66  84.91  1755600
4  7/15/2014  84.30  84.38  83.20  83.58  1874700

__Указание индекса столбца при чтении CSV файла__

In [7]:
# используем столбец Date в качестве индекса
msft = pd.read_csv('./msft.csv', index_col=0)
msft.head(5)

            Open   High    Low  Close   Volume
Date                                          
7/21/2014  83.46  83.53  81.81  81.93  2359300
7/18/2014  83.30  83.40  82.52  83.35  4020800
7/17/2014  84.35  84.63  83.33  83.63  1974000
7/16/2014  83.77  84.91  83.66  84.91  1755600
7/15/2014  84.30  84.38  83.20  83.58  1874700

__Вывод и спецификация типа данных__

In [9]:
# исследуем типы столбцов в нашем датафрейме
msft.dtypes 

Open      float64
High      float64
Low       float64
Close     float64
Volume      int64
dtype: object

In [11]:
# чтобы принудительно задать тип столбца, воспользуйтесь параметром dtype функции pd.read_csv(). Следующий программный код
# преобразует стобец Volume в тип float.64 
msft = pd.read_csv('./msft.csv',
                   dtype = {'Volume' : np.float64})
msft.dtypes 

Date       object
Open      float64
High      float64
Low       float64
Close     float64
Volume    float64
dtype: object

__Указание имен столбцов__

In [12]:
# Можно указать имена столбцов во время чтения данных, воспользовавшись параметром names 
# header = 0 задаёт строку заголовков, если этого не сделать pandas предположит, что первая строка является частью данных
# и это в дальнейшем вызовет некоторые проблемы при обработке информации
df = pd.read_csv('./msft.csv', 
                header = 0,
                names = ['date', 'open', 'high', 'low', 'close', 'volume'])
df.head(5)

        date   open   high    low  close   volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000
3  7/16/2014  83.77  84.91  83.66  84.91  1755600
4  7/15/2014  84.30  84.38  83.20  83.58  1874700

__Указание конкретных столбцов для загрузки__

In [13]:
# можно указать какие столбцы нужно загружать при чтении файла с помощью параметра usecols
df2 = pd.read_csv('./msft.csv', usecols = ['Date', 'Close'], index_col = ['Date'])
df2[:5]

           Close
Date            
7/21/2014  81.93
7/18/2014  83.35
7/17/2014  83.63
7/16/2014  84.91
7/15/2014  83.58

__Сохранение датафрейма в CSV файл__

In [14]:
# с помощью метода .to_csv() объект DataFrame можно сохранить в CSV файл 
df2.to_csv('./msft_modified.csv', index_label = 'date')

In [15]:
with open('./msft_modified.csv') as file:
    reader = csv.reader(file, delimiter = ',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['date', 'Close']
['7/21/2014', '81.93']
['7/18/2014', '83.35']
['7/17/2014', '83.63']
['7/16/2014', '84.91']
['7/15/2014', '83.58']


__Работа с данными, в которых используются разделители полей__

In [16]:
# Библиотека Pandas предлагает функцию pd.read_table() для упрощения чтения данных с разделителями полей
df = pd.read_table('./msft.csv', sep = ',')
df[:5]

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000
3  7/16/2014  83.77  84.91  83.66  84.91  1755600
4  7/15/2014  84.30  84.38  83.20  83.58  1874700

In [17]:
# у библиотеки pandas нет метода .to_table() аналогично методу .to_csv(). Однако метод .to_csv() можно применить
# для записи данных с разделителями полей, в том числе и в тех случаях, когда в качестве разделителя вместо запятой
# используется другой символ
df.to_csv('./msft_piped.txt', sep = '|')

In [18]:
# смотрим как произошло сохранение
with open('./msft_piped.txt') as file:
    reader = csv.reader(file, delimiter = ',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['|Date|Open|High|Low|Close|Volume']
['0|7/21/2014|83.46|83.53|81.81|81.93|2359300']
['1|7/18/2014|83.3|83.4|82.52|83.35|4020800']
['2|7/17/2014|84.35|84.63|83.33|83.63|1974000']
['3|7/16/2014|83.77|84.91|83.66|84.91|1755600']
['4|7/15/2014|84.3|84.38|83.2|83.58|1874700']


__Обработка загрязненных данных, в которых используются разделители полей__

In [19]:
# смотрим первые 6 наблюдений файла msft2.csv
with open('./msft2.csv') as file:
    reader = csv.reader(file, delimiter = ',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 6):
            break

['This is fun because the data does not start on the first line', '', '', '', '', '']
['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['', '', '', '', '', '']
['And there is space between the header row and data', '', '', '', '', '']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
['7/17/2014', '84.35', '84.63', '83.33', '83.63', '1974000']


In [22]:
# эту ситуацию можно разрешить с помощью параметра skiprows 
# считываем данные пропуская строки 0,2,3
df = pd.read_csv('./msft2.csv', skiprows = [0, 2, 3])
df[:5]

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000
3  7/16/2014  83.77  84.91  83.66  84.91  1755600
4  7/15/2014  84.30  84.38  83.20  83.58  1874700

In [23]:
# смотрим файл msft_with_footer.csv
with open('./msft_with_footer.csv') as file:
    reader = csv.reader(file, delimiter = ',')
    for i,row in enumerate(reader):
        print(row)
        

['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
[]
['Uh oh', ' there is stuff at the end.']


In [26]:
# считываем пропустив две последние строки skip_footer
df = pd.read_csv('./msft_with_footer.csv',
                 skipfooter = 2,
                 engine = 'python')
df

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800

In [27]:
# чтобы не читать файл целиком и не занимать ресурсы, можно прочитать только несколько строк
# считаем только первые 3 строчки
pd.read_csv('./msft.csv', nrows = 3)

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000

In [28]:
# кроме того можно пропустить некторое число строк, а затем прочитать лишь какую то часть данных
# пропускаем 100 строк, а затем считыыаем следующие 5 строк
pd.read_csv('./msft.csv',
            skiprows = 100,
            nrows = 5,
            header = 0,
            names = ['data', 'open', 'high', 'low', 'close', 'volume'])

        data   open   high    low  close   volume
0   3/3/2014  80.35  81.31  79.91  79.97  5004100
1  2/28/2014  82.40  83.42  82.17  83.42  2853200
2  2/27/2014  84.06  84.63  81.63  82.00  3676800
3  2/26/2014  82.92  84.03  82.43  83.81  2623600
4  2/25/2014  83.80  83.80  81.72  83.08  3579100