<a href="https://colab.research.google.com/github/dm-fedorov/pandas_basic/blob/master/%D0%BA%D0%B5%D0%B9%D1%81%D1%8B%20%D0%BF%D0%BE%20%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D1%83%20%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85/COVID-19.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory" target="_blank"></a>

In [3]:
import numpy as np
import pandas as pd

С помощью модуля csv взглянем на первые 5 строк CSV-файла:

In [4]:
import csv 
with open('../data/orders.csv') as file:
    reader = csv.reader(file)
    for i, row in enumerate(reader):
        print(row)
        if i >= 5:
            break

['id', 'order_date', 'ship_mode', 'customer_id', 'sales']
['100006', '2014-09-07', 'Standard', 'DK-13375', '377.97']
['100090', '2014-07-08', 'Standard', 'EB-13705', '699.192']
['100293', '2014-03-14', 'Standard', 'NF-18475', '91.056']
['100328', '2014-01-28', 'Standard', 'JC-15340', '3.928']
['100363', '2014-04-08', 'Standard', 'JM-15655', '21.376']


### Считывание CSV-файла в датафрейм

Датасеты лежат [здесь](https://github.com/dm-fedorov/pandas_basic/tree/master/data).

In [5]:
orders = pd.read_csv('../data/orders.csv')
orders.head()

Unnamed: 0,id,order_date,ship_mode,customer_id,sales
0,100006,2014-09-07,Standard,DK-13375,377.97
1,100090,2014-07-08,Standard,EB-13705,699.192
2,100293,2014-03-14,Standard,NF-18475,91.056
3,100328,2014-01-28,Standard,JC-15340,3.928
4,100363,2014-04-08,Standard,JM-15655,21.376


### Указание индекса столбца при считывании CSV-файла 

Используем столбец 0 в качестве индекса:

In [6]:
orders = pd.read_csv('../data/orders.csv', index_col=0)
orders.head()

Unnamed: 0_level_0,order_date,ship_mode,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
100006,2014-09-07,Standard,DK-13375,377.97
100090,2014-07-08,Standard,EB-13705,699.192
100293,2014-03-14,Standard,NF-18475,91.056
100328,2014-01-28,Standard,JC-15340,3.928
100363,2014-04-08,Standard,JM-15655,21.376


### Вывод и спецификация типа данных

Исследуем типы столбцов в этом датафрейме:

In [7]:
orders.dtypes

order_date      object
ship_mode       object
customer_id     object
sales          float64
dtype: object

Если это не так! указываем, что столбец sales должен иметь тип float64:

In [8]:
orders = pd.read_csv('../data/orders.csv', 
                      dtype={'sales': np.float64})
orders.dtypes

id               int64
order_date      object
ship_mode       object
customer_id     object
sales          float64
dtype: object

### Указание имен столбцов

Задаем новый набор имен для столбцов, все имеют нижний регистр, header=0 задает строку заголовков:

In [9]:
df = pd.read_csv('../data/orders.csv', 
                 header=0,
                 names=['1', '2', '3', '4', '5'])
df.head()

Unnamed: 0,1,2,3,4,5
0,100006,2014-09-07,Standard,DK-13375,377.97
1,100090,2014-07-08,Standard,EB-13705,699.192
2,100293,2014-03-14,Standard,NF-18475,91.056
3,100328,2014-01-28,Standard,JC-15340,3.928
4,100363,2014-04-08,Standard,JM-15655,21.376


### Указание конкретных столбцов для загрузки

Считываем в данных только столбцы Date и Close и индексируем по столбцу Date:

In [11]:
df2 = pd.read_csv("../data/customers.csv", 
                  usecols=['id', 'name'], 
                  index_col=['id'])
df2.head()

Unnamed: 0_level_0,name
id,Unnamed: 1_level_1
CG-12520,Claire Gute
DV-13045,Darrin Van Huff
SO-20335,Sean O'Donnell
BH-11710,Brosina Hoffman
AA-10480,Andrew Allen


### Сохранение датафрейма в CSV-файл

Сохраняем датафрейм df2 в новый csv-файл задаем имя индекса как id:

In [14]:
df2.to_csv("../data/customers_modified.csv", index_label='id') # index_label

С помощью модуля csv взглянем на первые 5 строк CSV-файла:

In [15]:
with open('../data/customers_modified.csv') as file:
    reader = csv.reader(file)
    for i,row in enumerate(reader):
        print(row)
        if i >= 5:
            break

['id', 'name']
['CG-12520', 'Claire Gute']
['DV-13045', 'Darrin Van Huff']
['SO-20335', "Sean O'Donnell"]
['BH-11710', 'Brosina Hoffman']
['AA-10480', 'Andrew Allen']


### Работа с данными, в которых используются разделители полей

Используем функцию read_table с параметром sep=',', чтобы прочитать CSV-файл:

In [16]:
df = pd.read_table("../data/orders.csv", sep=',')
df.head()

Unnamed: 0,id,order_date,ship_mode,customer_id,sales
0,100006,2014-09-07,Standard,DK-13375,377.97
1,100090,2014-07-08,Standard,EB-13705,699.192
2,100293,2014-03-14,Standard,NF-18475,91.056
3,100328,2014-01-28,Standard,JC-15340,3.928
4,100363,2014-04-08,Standard,JM-15655,21.376


Сохраняем как данные, в которых разделителем является вертикальная черта:

In [17]:
df.to_csv("../data/orders_piped.txt", sep='|')

Смотрим, как сработал программный код:

In [20]:
with open('../data/orders_piped.txt') as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if i >= 5:
            break

['|id|order_date|ship_mode|customer_id|sales']
['0|100006|2014-09-07|Standard|DK-13375|377.97']
['1|100090|2014-07-08|Standard|EB-13705|699.192']
['2|100293|2014-03-14|Standard|NF-18475|91.056']
['3|100328|2014-01-28|Standard|JC-15340|3.928']
['4|100363|2014-04-08|Standard|JM-15655|21.375999999999998']


### Обработка загрязненных данных, в которых используются разделители полей

Смотрим первые 6 наблюдений файла msft2.csv:

In [21]:
with open('../data/msft2.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if i >= 6:
            break

['This is fun because the data does not start on the first line', '', '', '', '', '']
['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['', '', '', '', '', '']
['And there is space between the header row and data', '', '', '', '', '']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
['7/17/2014', '84.35', '84.63', '83.33', '83.63', '1974000']


Считываем данные, пропустив строки 0, 2 и 3:

In [22]:
df = pd.read_csv("../data/msft2.csv", skiprows=[0, 2, 3])
df[:5]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800
2,7/17/2014,84.35,84.63,83.33,83.63,1974000
3,7/16/2014,83.77,84.91,83.66,84.91,1755600
4,7/15/2014,84.3,84.38,83.2,83.58,1874700


Смотрим файл msft_with_footer.csv:

In [24]:
with open('../data/msft_with_footer.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for row in reader:
        print(row)

['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
[]
['Uh oh', ' there is stuff at the end.']


Считываем, пропустив две строки в конце файла:

In [25]:
df = pd.read_csv("../data/msft_with_footer.csv", 
                 skipfooter=2,
                 engine='python')
df

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800


Считаем только первые три строки:

In [26]:
pd.read_csv("../data/orders.csv", nrows=3)

Unnamed: 0,id,order_date,ship_mode,customer_id,sales
0,100006,2014-09-07,Standard,DK-13375,377.97
1,100090,2014-07-08,Standard,EB-13705,699.192
2,100293,2014-03-14,Standard,NF-18475,91.056


Пропускаем 100 строк, а затем считываем следующие 5 строк:

In [27]:
pd.read_csv("../data/orders.csv", skiprows=100, nrows=5) 

Unnamed: 0,107524,2014-03-02,Standard,KN-16705,47.76
0,107573,2014-12-12,Standard,PB-19150,23.472
1,107594,2014-07-02,Standard,EH-13945,79.56
2,107706,2014-02-14,Second,ST-20530,16.176
3,107755,2014-02-07,Standard,CK-12760,115.36
4,107769,2014-10-28,Standard,BT-11395,257.98


### Чтение и запись данных в формате Excel

Считываем файл Excel, считываем только данные первого рабочего листа (msft в данном случае):

In [28]:
df = pd.read_excel("../data/stocks.xlsx")
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2014-07-21,83.46,83.53,81.81,81.93,2359300
1,2014-07-18,83.3,83.4,82.52,83.35,4020800
2,2014-07-17,84.35,84.63,83.33,83.63,1974000
3,2014-07-16,83.77,84.91,83.66,84.91,1755600
4,2014-07-15,84.3,84.38,83.2,83.58,1874700


Считываем данные рабочего листа aapl:

In [29]:
aapl = pd.read_excel("../data/stocks.xlsx", sheet_name='aapl')
aapl.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2014-07-21,94.99,95.0,93.72,93.94,38887700
1,2014-07-18,93.62,94.74,93.02,94.43,49898600
2,2014-07-17,95.03,95.28,92.57,93.09,57152000
3,2014-07-16,96.97,97.1,94.74,94.78,53396300
4,2014-07-15,96.8,96.85,95.03,95.32,45477900


Сохраняем XLS-файл в рабочем листе 'Sheet1':

In [30]:
df.to_excel("../data/stocks2.xls")

Записываем, задав имя рабочего листа MSFT:

In [31]:
df.to_excel("../data/stocks_msft.xls", sheet_name='MSFT')

Записываем несколько рабочих листов, требуется класс ExcelWriter:

In [32]:
from pandas import ExcelWriter

with ExcelWriter("../data/all_stocks.xls") as writer:
    aapl.to_excel(writer, sheet_name='AAPL')
    df.to_excel(writer, sheet_name='MSFT')

Записываем в xlsx:

In [33]:
df.to_excel("../data/msft2.xlsx")

### Чтение и запись JSON-файлов

Записываем данные Excel в JSON-файл:

In [34]:
df.head().to_json("../data/stocks.json")

Теперь взглянем на JSON-файл:

In [35]:
import json
from pprint import pprint

with open('../data/stocks.json') as data_file:    
    data = json.load(data_file)

pprint(data)

{'Close': {'0': 81.93, '1': 83.35, '2': 83.63, '3': 84.91, '4': 83.58},
 'Date': {'0': 1405900800000,
          '1': 1405641600000,
          '2': 1405555200000,
          '3': 1405468800000,
          '4': 1405382400000},
 'High': {'0': 83.53, '1': 83.4, '2': 84.63, '3': 84.91, '4': 84.38},
 'Low': {'0': 81.81, '1': 82.52, '2': 83.33, '3': 83.66, '4': 83.2},
 'Open': {'0': 83.46, '1': 83.3, '2': 84.35, '3': 83.77, '4': 84.3},
 'Volume': {'0': 2359300,
            '1': 4020800,
            '2': 1974000,
            '3': 1755600,
            '4': 1874700}}


Считываем данные в формате JSON:

In [36]:
df_from_json = pd.read_json("../data/stocks.json")
df_from_json.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2014-07-21,83.46,83.53,81.81,81.93,2359300
1,2014-07-18,83.3,83.4,82.52,83.35,4020800
2,2014-07-17,84.35,84.63,83.33,83.63,1974000
3,2014-07-16,83.77,84.91,83.66,84.91,1755600
4,2014-07-15,84.3,84.38,83.2,83.58,1874700


### Чтение HTML-файлов из Интернета

Задаем URL-адрес HTML-файла:

In [37]:
url = "http://rating.unecon.ru/index.php?&y=2019&k=1&f=1&up=12259&s=2&upp=all&sort=fio&ball=hide&g=12450"

In [37]:
students = pd.read_html(url, encoding='utf8')

Проверяем, как была прочитана часть первой таблицы:

In [38]:
students[0][0:5].iloc[:,0:2]

Unnamed: 0_level_0,№,"Фамилия, имя, отчество"
Unnamed: 0_level_1,№,"Фамилия, имя, отчество"
0,1,Абзалов Никита Фаргатович
1,2,Архипова Анна Дмитриевна
2,3,Ахтариев Альберт Марсельевич
3,4,Беляева Яна Сергеевна
4,5,Бондаренко Руслан Александрович


Считываем данные о котировках акций:

In [39]:
df = pd.read_excel("../data/stocks.xlsx")

Записываем первые две строки в HTML:

In [40]:
df.head(2).to_html("../data/stocks.html")

Смотрим HTML-файл в браузере:

In [41]:
import webbrowser
webbrowser.open("../data/stocks.html")

True

### Загрузка данных из Интернета и облака

In [43]:
df = pd.read_csv(
    "https://raw.githubusercontent.com/arthur-e/swc-workshop/master/data/ecology-plots.csv",
    encoding='utf8')
df.head()

Unnamed: 0,plot_id,plot_type
0,1,Spectab exclosure
1,2,Control
2,3,Long-term Krat Exclosure
3,4,Control
4,5,Rodent Exclosure


### Чтение из базы данных SQL и запись в базу данных SQL

.to_sql() создаст базу SQL для хранения датафрейма в указанной таблице.  

if_exists задает действие, которое нужно выполнить в том случае, если таблица уже существует
