<a href="https://colab.research.google.com/github/dm-fedorov/pandas_basic/blob/master/кейсы%20по%20анализу%20данных/Загрузка_данных.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory" target="_blank"></a>

In [None]:
import numpy as np
import pandas as pd

Датасеты для скачивания лежат [здесь](https://github.com/dm-fedorov/pandas_basic/tree/master/data).

С помощью модуля csv взглянем на первые 5 строк CSV-файла:

In [None]:
import csv 
with open('../data/orders.csv') as file:
    reader = csv.reader(file)
    for i, row in enumerate(reader):
        print(row)
        if i >= 5:
            break

### Считывание CSV-файла в датафрейм

In [None]:
orders = pd.read_csv('../data/orders.csv')
orders.head()

### Указание индекса столбца при считывании CSV-файла 

Используем столбец 0 в качестве индекса:

In [None]:
orders = pd.read_csv('../data/orders.csv', index_col=0)
orders.head()

### Вывод и спецификация типа данных

Исследуем типы столбцов в этом датафрейме:

In [None]:
orders.dtypes

Можно преобразовывать типы данных, если требуется, в момент загрузки:

In [None]:
orders = pd.read_csv('../data/orders.csv', 
                      dtype={'sales': np.str})
orders.dtypes

Указываем, что столбец order_date должен иметь тип datetime:

In [None]:
orders = pd.read_csv('../data/orders.csv', 
                      parse_dates=["order_date"])
orders.dtypes

### Указание имен столбцов

Задаем новый набор имен для столбцов, все имеют нижний регистр, header=0 задает строку заголовков:

In [None]:
df = pd.read_csv('../data/orders.csv', 
                 header=0,
                 names=['1', '2', '3', '4', '5'])
df.head()

### Указание конкретных столбцов для загрузки

Считываем в данных только столбцы Date и Close и индексируем по столбцу Date:

In [None]:
df2 = pd.read_csv("../data/customers.csv", 
                  usecols=['id', 'name'], 
                  index_col=['id'])
df2.head()

### Сохранение датафрейма в CSV-файл

Сохраняем датафрейм df2 в новый csv-файл задаем имя индекса как id:

In [None]:
df2.to_csv("../data/customers_modified.csv", index_label='id') 

С помощью модуля csv взглянем на первые 5 строк CSV-файла:

In [None]:
with open('../data/customers_modified.csv') as file:
    reader = csv.reader(file)
    for i,row in enumerate(reader):
        print(row)
        if i >= 5:
            break

### Работа с данными, в которых используются разделители полей

Используем функцию read_table с параметром sep=',', чтобы прочитать CSV-файл:

In [None]:
df = pd.read_table("../data/orders.csv", sep=',')
df.head()

Сохраняем как данные, в которых разделителем является вертикальная черта:

In [None]:
df.to_csv("../data/orders_piped.txt", sep='|')

Смотрим, как сработал программный код:

In [None]:
with open('../data/orders_piped.txt') as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if i >= 5:
            break

### Обработка загрязненных данных, в которых используются разделители полей

Смотрим первые 6 наблюдений файла [msft2.csv](https://github.com/dm-fedorov/pandas_basic/tree/master/data):

In [None]:
with open('../data/msft2.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if i >= 6:
            break

Считываем данные, пропустив строки 0, 2 и 3:

In [None]:
df = pd.read_csv("../data/msft2.csv", skiprows=[0, 2, 3])
df[:5]

Смотрим файл [msft_with_footer.csv](https://github.com/dm-fedorov/pandas_basic/tree/master/data):

In [None]:
with open('../data/msft_with_footer.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for row in reader:
        print(row)

Считываем, пропустив две строки в конце файла:

In [None]:
df = pd.read_csv("../data/msft_with_footer.csv", 
                 skipfooter=2,
                 engine='python')
df

Считаем только первые три строки:

In [None]:
pd.read_csv("../data/orders.csv", nrows=3)

Пропускаем 100 строк, а затем считываем следующие 5 строк:

In [None]:
pd.read_csv("../data/orders.csv", skiprows=100, nrows=5) 

In [None]:
pd.read_csv("../data/orders.csv", skiprows=100, nrows=5,
           header=0,
           names=["id", "order_date", "ship_mode", "customer_id", "sales"]) 

### Чтение и запись данных в формате Excel

Считываем файл Excel, считываем только данные первого рабочего листа о котировках акций (msft в данном случае):

In [None]:
df = pd.read_excel("../data/stocks.xlsx")
df.head()

Считываем данные рабочего листа aapl:

In [None]:
aapl = pd.read_excel("../data/stocks.xlsx", sheet_name='aapl')
aapl.head()

Параметры совпадают с read_csv.

Сохраняем XLS-файл в рабочем листе 'Sheet1':

In [None]:
df.to_excel("../data/stocks2.xls")

Записываем, задав имя рабочего листа MSFT:

In [None]:
df.to_excel("../data/stocks_msft.xls", sheet_name='MSFT')

Записываем несколько рабочих листов, требуется класс ExcelWriter:

In [None]:
from pandas import ExcelWriter

with ExcelWriter("../data/all_stocks.xls") as writer:
    aapl.to_excel(writer, sheet_name='AAPL')
    df.to_excel(writer, sheet_name='MSFT')

Записываем в xlsx:

In [None]:
df.to_excel("../data/msft2.xlsx")

### Дополнительная литература:

- [Автоматизация Excel с помощью Python](https://medium.com/nastia-shu/%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B5-%D0%BD%D0%B5-%D0%BD%D1%83%D0%B6%D0%BD%D0%BE-%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D0%B2%D0%B0%D1%82%D1%8C-%D1%81%D0%BE%D1%82%D0%BD%D0%B8-%D1%84%D0%B0%D0%B9%D0%BB%D0%BE%D0%B2-%D0%B2-excel-e0a1f5a9e9a7)

### Чтение и запись JSON-файлов

Записываем данные Excel в JSON-файл:

In [None]:
df.head().to_json("../data/stocks.json")

Теперь взглянем на JSON-файл:

In [None]:
import json
from pprint import pprint

with open('../data/stocks.json') as data_file:    
    data = json.load(data_file)

pprint(data)

Считываем данные в формате JSON:

In [None]:
df_from_json = pd.read_json("../data/stocks.json")
df_from_json.head()

### Чтение HTML-файлов из Интернета

Задаем URL-адрес HTML-файла:

In [None]:
url = "https://rating.unecon.ru/index.php?&y=2019&k=1&f=1&up=12270&g=all&upp=all&sort=fio&ball=hide&s=1"

In [None]:
df = pd.read_html(url, header=1, index_col="№", encoding="utf8")

Проверяем, как была прочитана таблица:

In [None]:
df[0].head()

Считываем данные о котировках акций:

In [None]:
df = pd.read_excel("../data/stocks.xlsx")

Записываем первые две строки в HTML:

In [None]:
df.head(2).to_html("../data/stocks.html")

Смотрим HTML-файл в браузере:

In [None]:
import webbrowser
webbrowser.open("../data/stocks.html")

### Загрузка данных из Интернета и облака

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/orders.csv")
df.head()

### Чтение из базы данных SQL и запись в базу данных SQL

In [None]:
orders = pd.read_csv("../data/orders.csv")
orders.head()

In [None]:
customers = pd.read_csv("../data/customers.csv")
customers.head()

In [None]:
import sqlite3

# создаем подключение
connection = sqlite3.connect("../data/stocks.sqlite")

# .to_sql() создаст базу SQL для хранения датафрейма в указанной таблице
orders.to_sql("MY_DATA", connection, if_exists="replace") # if_exists задает действие, которое нужно выполнить в том случае, если таблица уже существует
customers.to_sql("MY_DATA", connection, if_exists="replace")

# подтверждаем отправку данных в базу и закрываем подключение
connection.commit()
connection.close()

In [None]:
# подключаемся к файлу базы данных
connection = sqlite3.connect("../data/stocks.sqlite")

Запрос всех записей в MY_DATA возвращает датафрейм index_col и задает столбец, который нужно сделать индексом датафрейма:

In [None]:
stocks = pd.io.sql.read_sql("SELECT * FROM MY_DATA;", 
                             connection, index_col='index')

# закрываем подключение
connection.close()

In [None]:
stocks.head()

### Взаимодействие с MSSQL

In [None]:
# https://groups.google.com/forum/#!topic/pymssql/CLXHtLKBWig
# https://docs.microsoft.com/ru-ru/sql/connect/odbc/microsoft-odbc-driver-for-sql-server?view=sql-server-ver15

In [None]:
import pyodbc

server = 'vpngw.avalon.ru'
database = 'TSQL'
username = 'tester'
password = 'Pa$$w0rd'

driver= '{ODBC Driver 17 for SQL Server}'
cnxn = pyodbc.connect('DRIVER='+driver+';SERVER='+server+';PORT=1433;DATABASE='+database+';UID='+username+';PWD='+ password)
cursor = cnxn.cursor()
cursor.execute("SELECT * FROM TSQL")
row = cursor.fetchone()
while row:
    print(str(row[0]) + " " + str(row[1]))
    row = cursor.fetchone()

In [None]:
#!pip3 install pymssql

In [None]:
# https://docs.microsoft.com/ru-ru/sql/connect/python/pymssql/step-3-proof-of-concept-connecting-to-sql-using-pymssql?view=sql-server-ver15

In [None]:
import pymssql  
conn = pymssql.connect(server='vpngw.avalon.ru', user='tester', password='Pa$$w0rd')

In [None]:
conn

In [None]:
cursor = conn.cursor()  
cursor.execute('SELECT name FROM sys.databases')  
row = cursor.fetchone()  
while row:  
    print(str(row[0]) + " " + str(row[1]) + " " + str(row[2]))     
    row = cursor.fetchone()

In [None]:
#conn = pymssql.connect(server, user, password, "tempdb")

In [None]:
cursor = conn.cursor()
cursor.execute('SELECT name FROM sys.databases') 

for row in cursor:
    print(f'{row}')

In [None]:
# https://pymssql.readthedocs.io/en/stable/pymssql_examples.html

In [None]:
cursor = conn.cursor()
cursor.execute("""select *
from INFORMATION_SCHEMA.COLUMNS
where TABLE_NAME='AdventureWorks';""")
               
print(cursor)
for row in cursor:
    print(f'{row}')

In [None]:
cursor = conn.cursor()

cursor.execute("""SELECT * FROM TestDB""")
               
print(cursor)
for row in cursor:
    print(f'{row}')

In [None]:
conn.close()

### Дополнительная литература:

1. https://proglib.io/p/rabotaem-s-sql-server-s-pomoshchyu-python-2020-04-18?fbclid=IwAR1pH9SA_7j5OEuqlQTRAh9rJvwyfb8CB3mLUQWu8qhYjBLSjC8uZdXRRvc

2. https://gist.github.com/hunterowens/08ebbb678255f33bba94?fbclid=IwAR1HKg3UkBurfcr7W8RKGY4Q1iMs0wboXBsovPowS1hrbI6nKlgPxnUlKD4