# Industry 4.0 의 중심, BigData

<div align='right'><font size=2 color='gray'>Data Processing Based Python @ <font color='blue'><a href='https://www.facebook.com/jskim.kr'>FB / jskim.kr</a></font>, 김진수</font></div>
<hr>

## <font color='brown'>데이터베이스, DB SQL</font>
>  
> - 데이터베이스 및 테이블 생성
> - 데이터 생성, INSERT
> - 데이터 조회, SELECT
> - 데이터 갱신, UPDATE
> - 데이터 삭제, DELETE

## SQLITE3

In [1]:
import sqlite3  

db_name = './database/my_books.db'

### 테이블 생성

In [2]:
def create_table(db_name, db_sql):
    """
    데이터베이스 테이블을 생성하는 함수
    Args:
        db_name : Database Name
        db_sql  : Query for creating Table
    Returns : 
        is_success : Boolean 
    """
    is_success = True
    
    try :
        # 데이터베이스 커넥션 생성
        conn = sqlite3.connect(db_name)  

        # 커서 확보
        cur = conn.cursor()  

        # 테이블 생성
        cur.execute(db_sql)
    
    # except OperationalError as e:
    #     is_success = False
    #     print('Error:', e)
        
    except:
        is_success = False
        print("Database Error!")
        
    finally :        
        if is_success:
            # 데이터베이스 반영
            conn.commit()  
        else:
            # 데이터베이스 철회
            conn.rollback()
            
        # 데이터베이스 커넥션 닫기
        # print('Finish process of function.')
        conn.close()
    
    return is_success

# if __name__ == "__main__":  # 외부에서 호출 시
#     create_table()          # 테이블 생성 함수 호출


In [3]:
if create_table(db_name, db_sql=None):
    print('테이블이 성공적으로 생성되었습니다.')
else :
    print('테이블이 생성되지 않았습니다.')

Database Error!
테이블이 생성되지 않았습니다.


In [4]:
db_sql  = '''
CREATE TABLE my_books (
    title text,
    published_date text,
    publisher text,
    pages integer,
    recommendation integer
)
'''

if create_table(db_name, db_sql):
    print('테이블이 성공적으로 생성되었습니다.')
else :
    print('테이블이 생성되지 않았습니다')

테이블이 성공적으로 생성되었습니다.


### 데이터 등록

In [5]:
import sqlite3  

# 데이터 입력 함수
def insert_books(db_name):
    """
    데이터베이스 테이블에 데이터를 등록하는 함수
    Args:
        db_name : Database Name
    Returns : 
        is_success : Boolean 
    """
    is_success = True
    
    try:
        # 데이터베이스 커넥션 생성
        conn = sqlite3.connect(db_name) 

        # 커서 확보
        cur = conn.cursor()  

        # 데이터 입력 SQL1
        db_sql = "INSERT INTO my_books VALUES ('메가트랜드', '2002.03.02','A', 200, 0)"
        cur.execute(db_sql)

        # 데이터 입력 SQL2
        db_sql = 'INSERT INTO my_books VALUES (?, ?, ?, ?, ?)'
        cur.execute(db_sql, ('인더스트리 4.0', '2016.07.09','B', 584, 1))

        # # 데이터 입력 SQL3
        books = [
            ('유니콘 스타트업', '2011.07.15','A', 248, 1),
            ('빅데이터 마케팅', '2012.08.25','A', 296, 1),
            ('사물인터넷 전망', '2013.08.22','B', 526, 0)
        ]
        cur.executemany(db_sql, books)
          
    except:
        is_success = False
        print("Database Error!")
        
    finally :      
        if is_success:
            # 데이터베이스 반영
            conn.commit()  
        else:
            # 데이터베이스 철회
            conn.rollback()
            
        # 데이터베이스 커넥션 닫기
        # print('Finish process of function.')
        conn.close()
    
    return is_success    
    
# if __name__ == "__main__":          # 외부에서 호출 시
#     insert_books()                  # 데이터 입력 함수 호출


In [6]:
if insert_books(db_name):
    print('데이터가 성공적으로 등록되었습니다.')
else :
    print('데이터가 등록되지 않았습니다')

데이터가 성공적으로 등록되었습니다.


### 데이터 조회

In [7]:
import pandas as pd

def getBooksDF(books):
    ret_df = pd.DataFrame()
    
    title          = list()
    published_date = list()
    publisher      = list()
    pages          = list()
    recommendation = list()

    column_name = ['title', 'published_date', 'publisher', 'pages', 'recommendation']
    for book in books:
        # print(book)
        # for value in book:
        #     print(value, end=" | ")
        title         .append(book[0])
        published_date.append(book[1])
        publisher     .append(book[2])
        pages         .append(book[3])
        recommendation.append(book[4])

    data = {
        'title'          : title         ,
        'published_date' : published_date,
        'publisher'      : publisher     ,
        'pages'          : pages         ,
        'recommendation' : recommendation
    }

    ret_df = pd.DataFrame(data, columns=column_name)
    
    return ret_df


In [8]:
import sqlite3
import pandas as pd

def select_all_books(db_name):
    """
    전체 데이터를 조회하는 함수
    Args:
        db_name : Database Name
    Returns :
        is_success : Boolean 
        ret_df : DataFrame of books
    """
    ret_df = pd.DataFrame()
    is_success = True
    
    try:
        # 데이터베이스 커넥션 생성
        conn = sqlite3.connect(db_name) 

        # 커서 확보
        cur = conn.cursor()  

        # 조회용 SQL 실행
        db_sql = "SELECT * FROM my_books"
        cur.execute(db_sql) 

        # 조회한 데이터 불러오기
        print('[1] 전체 데이터 출력하기')
        books = cur.fetchall()                          

        ret_df = getBooksDF(books)
        
        # 데이터 출력하기
        # for book in books:                              
        #     print(book)
     
    except:
        is_success = False
        print("Database Error!")
        
    finally : 
        # 데이터베이스 커넥션 닫기
        conn.close()
        
    return is_success, ret_df


# if __name__ == "__main__":       # 외부에서 호출 시
#     select_all_books()           # 전체 조회용 함수 호출
#     print('=============================================')


In [9]:
is_success, books_df = select_all_books(db_name)
if is_success:
    print('조회된 데이터는 총 %d 건 입니다.'%len(books_df))
else :
    print('데이터를 조회하지 못했습니다')

books_df

[1] 전체 데이터 출력하기
조회된 데이터는 총 5 건 입니다.


Unnamed: 0,title,published_date,publisher,pages,recommendation
0,메가트랜드,2002.03.02,A,200,0
1,인더스트리 4.0,2016.07.09,B,584,1
2,유니콘 스타트업,2011.07.15,A,248,1
3,빅데이터 마케팅,2012.08.25,A,296,1
4,사물인터넷 전망,2013.08.22,B,526,0


In [10]:
# 일부 조회용 함수
def select_some_books(db_name, number):
    """
    일부 데이터를 조회하는 함수
    Args:
        db_name : Database Name
        number  : Count of data to query
    Returns : 
        is_success : Boolean 
        ret_df : DataFrame of books
    """
    ret_df = pd.DataFrame()
    is_success = True
    
    try:
        # 데이터베이스 커넥션 생성
        conn = sqlite3.connect(db_name) 

        # 커서 확보
        cur = conn.cursor()  

        # 조회용 SQL 실행
        db_sql = "SELECT * FROM my_books"
        cur.execute(db_sql) 

        # 조회한 데이터 일부 불러오기
        print('[2] 데이터 일부 출력하기')
        books = cur.fetchmany(number)                   

        ret_df = getBooksDF(books)
     
    except:
        is_success = False
        print("Database Error!")
        
    finally : 
        # 데이터베이스 커넥션 닫기
        conn.close()
        
    return is_success, ret_df                                

# if __name__ == "__main__":         # 외부에서 호출 시
#     select_some_books(3)           # 일부 조회용 함수 호출
#     print('=============================================')


In [11]:
# select_some_books(db_name, number=3)

is_success, books_df = select_some_books(db_name, number=3)
if is_success:
    print('조회된 데이터는 총 %d 건 입니다.'%len(books_df))
else :
    print('데이터를 조회하지 못했습니다')

books_df


[2] 데이터 일부 출력하기
조회된 데이터는 총 3 건 입니다.


Unnamed: 0,title,published_date,publisher,pages,recommendation
0,메가트랜드,2002.03.02,A,200,0
1,인더스트리 4.0,2016.07.09,B,584,1
2,유니콘 스타트업,2011.07.15,A,248,1


In [12]:
# 1개 조회용 함수
def select_one_book(db_name):
    """
    최상단 하나의 데이터를 조회하는 함수
    Args:
        db_name : Database Name
    Returns : 
        is_success : Boolean 
        ret_df : DataFrame of books
    """
    ret_df = pd.DataFrame()
    is_success = True
    
    try:
        # 데이터베이스 커넥션 생성
        conn = sqlite3.connect(db_name) 

        # 커서 확보
        cur = conn.cursor()  

        # 조회용 SQL 실행
        db_sql = "SELECT * FROM my_books "
        cur.execute(db_sql) 

        # 데이터 한개 출력하기
        print('[3] 1개 데이터 출력하기')
        # print(cur.fetchone())                          
        book = cur.fetchone()
        books = [book]
        ret_df = getBooksDF(books)
     
    except:
        is_success = False
        print("Database Error!")
        
    finally : 
        # 데이터베이스 커넥션 닫기
        conn.close()
        
    return is_success, ret_df                                      

# if __name__ == "__main__":        # 외부에서 호출 시
#     select_one_book()             # 1개 조회용 함수 호출
#     print('=============================================')



In [13]:
# select_one_book(db_name) 

is_success, books_df = select_one_book(db_name) 
if is_success:
    print('하나의 데이터를 성공적으로 조회하였습니다.')
else :
    print('데이터를 조회하지 못했습니다')

books_df


[3] 1개 데이터 출력하기
하나의 데이터를 성공적으로 조회하였습니다.


Unnamed: 0,title,published_date,publisher,pages,recommendation
0,메가트랜드,2002.03.02,A,200,0


In [14]:
# 쪽수 많은 책 조회용 함수
def find_big_books(db_name):
    """
    조건에 맞는 데이터를 조회하는 함수
    조건 : 페이지수가 300쪽보다 큰 데이터
    Args:
        db_name : Database Name
    Returns : 
        is_success : Boolean 
        ret_df : DataFrame of books
    """
    ret_df = pd.DataFrame()
    is_success = True
    
    try:
        # 데이터베이스 커넥션 생성
        conn = sqlite3.connect(db_name) 

        # 커서 확보
        cur = conn.cursor()  

        # 조회용 SQL 실행
        # db_sql = "SELECT title, pages FROM my_books "
        db_sql = "SELECT * FROM my_books "
        db_sql+= "WHERE pages > 300"
        cur.execute(db_sql) 

        # 조회한 데이터 불러오기
        print('[4] 페이지 많은 책 출력하기')
        books = cur.fetchall()
        
        ret_df = getBooksDF(books)

    except:
        is_success = False
        print("Database Error!")
        
    finally : 
        # 데이터베이스 커넥션 닫기
        conn.close()
        
    return is_success, ret_df                                   

# if __name__ == "__main__":          # 외부에서 호출 시
#     find_big_books()                # 쪽수 많은 책 조회용 함수 호출
#     print('=============================================')

In [15]:
# find_big_books(db_name)

is_success, books_df = find_big_books(db_name)
if is_success:
    print('조건에 맞는 데이터는 총 %d 건 입니다.(조건:pages>300)'%len(books_df))
else :
    print('데이터를 조회하지 못했습니다')

books_df

[4] 페이지 많은 책 출력하기
조건에 맞는 데이터는 총 2 건 입니다.(조건:pages>300)


Unnamed: 0,title,published_date,publisher,pages,recommendation
0,인더스트리 4.0,2016.07.09,B,584,1
1,사물인터넷 전망,2013.08.22,B,526,0


### 데이터 갱신

In [16]:
import sqlite3 

def update_books(db_name):
    """
    데이터를 수정하는 함수
    Args:
        db_name : Database Name
    Returns : 
        is_success : Boolean 
    """
    is_success = True
    
    try:
        # 데이터베이스 커넥션 생성
        conn = sqlite3.connect(db_name) 

        # 커서 확보
        cur = conn.cursor()  

        # 데이터 수정 SQL ( 제목이 ? 인 책의 추천 유무를 ? 로 변경하라 )
        db_sql = "UPDATE my_books SET recommendation=? WHERE title=? "

        # 수정 SQL 실행
        cur.execute(db_sql, (1, '메가트랜드'))

    except:
        is_success = False
        print("Database Error!")
        
    finally :      
        if is_success:
            # 데이터베이스 반영
            conn.commit()  
        else:
            # 데이터베이스 철회
            conn.rollback()
            
        # 데이터베이스 커넥션 닫기
        conn.close()
    
    return is_success   

# if __name__ == "__main__":        # 외부에서 호출 시
#     select_one_book()
#     update_books()                # 데이터 수정 함수 호출
#     print('[데이터 수정 완료] ================== ')
#     select_one_book()


In [17]:
# select_one_book(db_name)
# update_books(db_name)
# print('[데이터 수정 완료] ================== ')
# select_one_book(db_name)

is_success, books_df1 = select_one_book(db_name) 

if update_books(db_name):
    print('데이터가 성공적으로 수정되었습니다.')
else :
    print('데이터가 수정되지 않았습니다')
    
is_success, books_df2 = select_one_book(db_name) 

books_df = pd.concat([books_df1, books_df2], axis=0)
books_df['update'] = ['수정전', '수정후']
books_df.set_index('update', inplace=True)
books_df


[3] 1개 데이터 출력하기
데이터가 성공적으로 수정되었습니다.
[3] 1개 데이터 출력하기


Unnamed: 0_level_0,title,published_date,publisher,pages,recommendation
update,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수정전,메가트랜드,2002.03.02,A,200,0
수정후,메가트랜드,2002.03.02,A,200,1


### 데이터 삭제

In [18]:
import sqlite3 

# 데이터 삭제용 함수
def delete_books_by_title(db_name, title):
    """
    책제목에 해당하는 데이터를 삭제하는 함수
    Args:
        db_name : Database Name
        title   : Title of the book to be removed
    Returns : 
        is_success : Boolean 
    """
    is_success = True
    
    try:    
        # 데이터베이스 커넥션 생성
        conn = sqlite3.connect(db_name) 

        # 커서 확보
        cur = conn.cursor()  

        # 데이터 삭제 SQL
        db_sql = "DELETE FROM my_books "
        db_sql+= "WHERE title = ?      "

        # 수정 SQL 실행
        # print('db_sql:', db_sql)
        # print('title:', title)
        cur.execute(db_sql, (title,))
        # count = cur.execute(db_sql, (title,))
        # print('count:', type(count), count)
        
    except:
        is_success = False
        print("Database Error!")
        
    finally :      
        if is_success:
            # 데이터베이스 반영
            conn.commit()  
        else:
            # 데이터베이스 철회
            conn.rollback()
            
        # 데이터베이스 커넥션 닫기
        conn.close()
    
    return is_success   


In [19]:
title = '메가트랜드'
if delete_books_by_title(db_name, title):
    print('데이터가 성공적으로 삭제되었습니다.')
else :
    print('데이터가 삭제되지 않았습니다')

is_success, books_df = select_all_books(db_name) 
books_df

데이터가 성공적으로 삭제되었습니다.
[1] 전체 데이터 출력하기


Unnamed: 0,title,published_date,publisher,pages,recommendation
0,인더스트리 4.0,2016.07.09,B,584,1
1,유니콘 스타트업,2011.07.15,A,248,1
2,빅데이터 마케팅,2012.08.25,A,296,1
3,사물인터넷 전망,2013.08.22,B,526,0


In [20]:
def delete_books(db_name, col_name, col_val):
    """
    조건에 맞는 데이터를 삭제하는 함수
    Args:
        db_name  : Database Name
        col_name : Column Name
        col_val  : Column Value
    Returns : 
        is_success : Boolean 
    """
    is_success = True
    
    try: 
        # 데이터베이스 커넥션 생성
        conn = sqlite3.connect(db_name) 

        # 커서 확보
        cur = conn.cursor()  


        # 데이터 삭제 SQL
        # db_sql = "DELETE FROM my_books "
        # db_sql+= "WHERE {} = '{}' "
        # db_sql = db_sql.format(col_name, col_val)
        # cur.execute(db_sql)    

        # # 데이터 삭제 SQL
        db_sql = 'DELETE FROM my_books '
        db_sql+= 'WHERE {} = ? '
        db_sql = db_sql.format(col_name)

        # 수정 SQL 실행
        cur.execute(db_sql, (col_val,))

    except:
        is_success = False
        print("Database Error!")
        
    finally :      
        if is_success:
            # 데이터베이스 반영
            conn.commit()  
        else:
            # 데이터베이스 철회
            conn.rollback()
            
        # 데이터베이스 커넥션 닫기
        conn.close()
    
    return is_success   
    
    
# if __name__ == "__main__":     # 외부에서 호출 시
#     select_all_books()         # 테이블 전체 데이터 확인
#     delete_books()             # 데이터 삭제 함수 호출
#     print('[데이터 삭제 완료] ================== ')
#     select_all_books()         # 테이블 전체 데이터 확인


In [21]:
is_success, books_df = select_all_books(db_name) 
books_df

[1] 전체 데이터 출력하기


Unnamed: 0,title,published_date,publisher,pages,recommendation
0,인더스트리 4.0,2016.07.09,B,584,1
1,유니콘 스타트업,2011.07.15,A,248,1
2,빅데이터 마케팅,2012.08.25,A,296,1
3,사물인터넷 전망,2013.08.22,B,526,0


In [22]:
col_name = 'publisher'
col_val  = 'A'
if delete_books(db_name, col_name, col_val):
    print('데이터가 성공적으로 삭제되었습니다.')
else :
    print('데이터가 삭제되지 않았습니다')

is_success, books_df = select_all_books(db_name) 
books_df

데이터가 성공적으로 삭제되었습니다.
[1] 전체 데이터 출력하기


Unnamed: 0,title,published_date,publisher,pages,recommendation
0,인더스트리 4.0,2016.07.09,B,584,1
1,사물인터넷 전망,2013.08.22,B,526,0


In [23]:
col_name = 'title'
col_val  = '사물인터넷 전망'
if delete_books(db_name, col_name, col_val):
    print('데이터가 성공적으로 삭제되었습니다.')
else :
    print('데이터가 삭제되지 않았습니다')

is_success, books_df = select_all_books(db_name) 
books_df

데이터가 성공적으로 삭제되었습니다.
[1] 전체 데이터 출력하기


Unnamed: 0,title,published_date,publisher,pages,recommendation
0,인더스트리 4.0,2016.07.09,B,584,1


In [24]:
reset

Once deleted, variables cannot be recovered. Proceed (y/[n])? 
Nothing done.


## Python SQL
> [Python SQL 드라이버](https://docs.microsoft.com/ko-kr/sql/connect/python/python-driver-for-sql-server?view=sql-server-2017)
> - Python SQL 드라이버-pyodbc  : [Python SQL 드라이버 pyodbc](https://docs.microsoft.com/ko-kr/sql/connect/python/pyodbc/python-sql-driver-pyodbc?view=sql-server-2017)
> - Python SQL 드라이버-pymssql : [Python SQL 드라이버 - pymssql](https://docs.microsoft.com/ko-kr/sql/connect/python/pymssql/python-sql-driver-pymssql?view=sql-server-2017)

In [25]:
! conda install MySQLdb

Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.
Collecting package metadata (repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.



PackagesNotFoundError: The following packages are not available from current channels:

  - mysqldb

Current channels:

  - https://repo.anaconda.com/pkgs/main/win-64
  - https://repo.anaconda.com/pkgs/main/noarch
  - https://repo.anaconda.com/pkgs/r/win-64
  - https://repo.anaconda.com/pkgs/r/noarch
  - https://repo.anaconda.com/pkgs/msys2/win-64
  - https://repo.anaconda.com/pkgs/msys2/noarch

To search for alternate channels that may provide the conda package you're
looking for, navigate to

    https://anaconda.org

and use the search bar at the top of the page.




In [35]:
! pip list

Package                            Version  
---------------------------------- ---------
absl-py                            0.4.0    
alabaster                          0.7.10   
anaconda-client                    1.6.14   
anaconda-navigator                 1.8.7    
anaconda-project                   0.8.2    
appnope                            0.1.0    
appscript                          1.0.1    
asn1crypto                         0.24.0   
astor                              0.7.1    
astroid                            1.6.3    
astropy                            3.0.2    
attrs                              18.1.0   
Babel                              2.5.3    
backcall                           0.1.0    
backports.shutil-get-terminal-size 1.0.0    
beautifulsoup4                     4.6.0    
bitarray                           0.8.1    
bkcharts                           0.2      
blaze                              0.11.3   
bleach                             2.1.3    
bokeh     

In [None]:
sql_query = "SELECT * FROM customer;"
pd.read_sql(sql_query, db_info)

In [None]:
# sql_query = "SELECT * FROM customer;"
# pd.read_sql(sql_query, db_info)

# 데이터베이스 vs Pandas
# 병목 :: 연산 << 네트워크

In [None]:
# 모든 테이블 => DataFrame

# 어떻게 하면, 모든 테이블들을 일괄적으로, + 쉽게 한번에 DataFrame 으로 만들 수 있을까?
# 함수
# input: "데이터베이스 명", output: "새로운 폴더"(데이터베이스명), 테이블.csv
#                       sakila/customer.csv, payment.csv, .....

In [None]:
sql_query = "SHOW Tables;"
pd.read_sql(sql_query, db_info)

In [None]:
table_df = pd.read_sql(sql_query, db_info)
table_df

In [None]:
table_df.shape

In [None]:
sql_query = "SELECT * FROM customer;"
pd.read_sql(sql_query, db_info)

In [None]:
import os 
import shutil

In [None]:
# 데이터베이스 연결은 되어있는 상태

def table_to_csv(database, table):
    """
    데이터베이스 테이블의 모든 데이터 조회결과를 csv파일로 생성
    """
    sql_query = "SELECT * FROM {table};"
    sql_query = sql_query.format(table=table)
    
    df = pd.read_sql(sql_query, db_info)
    df.to_csv(
        os.path.join(database, table + ".csv")
    )

    
def database_to_csv(database):
    
    # 데이터베이스명이 없는 경우, 데이터베이스명 폴더 생성하기
    if database in os.listdir():
        shutil.rmtree(database)
    else:
        pass
    
    os.makedirs(database)
    
    sql_query = "SHOW Tables;"
    tables_df = pd.read_sql(sql_query, db_info)  
    # Tables_in_sakila
    tables_df.iloc[:, 0]
    
    return tables_df

    
database_to_csv("sakila")

In [None]:
# 데이터베이스 연결은 되어있는 상태

def table_to_csv(database, table):
    """
    데이터베이스 테이블의 모든 데이터 조회결과를 csv파일로 생성
    """
    sql_query = "SELECT * FROM {table};"
    sql_query = sql_query.format(table=table)
    
    df = pd.read_sql(sql_query, db_info)
    df.to_csv(
        os.path.join(database, table + ".csv")
    )
    
    
def database_to_csv(database):
    
    # 데이터베이스명이 없는 경우, 데이터베이스명 폴더 생성하기
    if database in os.listdir():
        shutil.rmtree(database)
    else:
        pass
    
    os.makedirs(database)
    
    sql_query = "SHOW Tables;"
    tables_df = pd.read_sql(sql_query, db_info)  
    # Tables_in_sakila
    tables_df.iloc[:, 0].apply(lambda table: table_to_csv(database, table))
    # pandas 데이터 분석 ( 기능적으로 사용할 수 있는 부분도 많다! )
    
    return tables_df

    
database_to_csv("sakila")

In [None]:
tables_df.iloc[:, 0].apply(
    lambda table_name: "SELECT * FROM {table_name};".format(
        table_name=table_name,
    )
)

<hr>
<marquee><font size=3 color='brown'>The BigpyCraft find the information to design valuable society with Technology & Craft.</font></marquee>
<div align='right'><font size=2 color='gray'> &lt; The End &gt; </font></div>