# pandas 자료구조 와 데이터 수집

## Series

### Series 생성

In [1]:
from pandas import Series
#list로 Series 만들기
price = Series([4000, 3000, 3500, 2000])

#전체 출력
print(price)
print()

#인덱스 출력
print(price.index)
print()

#값들만 출력
print(price.values)
print()

#index를 직접 설정해서 만들기
good = Series([4000, 3000, 3500, 2000], index=['apple', 'mellon','orange', 'kiwi'])
print(good)

0    4000
1    3000
2    3500
3    2000
dtype: int64

RangeIndex(start=0, stop=4, step=1)

[4000 3000 3500 2000]

apple     4000
mellon    3000
orange    3500
kiwi      2000
dtype: int64


### Series 인덱싱

In [2]:
from pandas import Series
#dict 객체 생성
sdata = {'태연': 30, '수지': 25, '아이린': 28, '설현':24}
#dict를 이용해서 Series 객체를 생성 - key가 index가 되고 value가 value가 됩니다.
singer = Series(sdata)
print(singer)

print("===================")
print(singer[0])

print("===================")
print(singer['설현'])

print("===================")
print(singer[0:2]) #0번째 부터 2번째 이전까지 가져오기

print("===================")
print(singer['수지':'설현']) #수지부터 설현까지 가져오기

print("===================")
print(singer[[0,2]]) #0번과 2번 데이터 가져오기

print("===================")
#values의 값이 25보다 큰 데이터만 리턴
print(singer[singer>25])

print("===================")
#모든 데이터에 1을 추가
print(singer+1)

print("===================")
#모든 데이터 출력 - value를 순회
for key in singer:
    print(key)

태연     30
수지     25
아이린    28
설현     24
dtype: int64
30
24
태연    30
수지    25
dtype: int64
수지     25
아이린    28
설현     24
dtype: int64
태연     30
아이린    28
dtype: int64
태연     30
아이린    28
dtype: int64
태연     31
수지     26
아이린    29
설현     25
dtype: int64
30
25
28
24


### Series 의 연산

In [3]:
from pandas import Series
import numpy

good = Series([3000, 3500, 2000], index=['apple','orange', 'kiwi'])
print(good)
print("=================")

#numpy 의 함수 사용
print(numpy.sum(good))
print("=================")

#dict를 활용한 Series 생성
keys = ['apple','orange', 'kiwi']
values = (3000, 3500, 2000)
dic = dict(zip(keys, values))
good = Series(dic)
print(good)

apple     3000
orange    3500
kiwi      2000
dtype: int64
8500
apple     3000
orange    3500
kiwi      2000
dtype: int64


In [4]:
from pandas import Series
import pandas as pd

good1 = Series([4000, 3500, None, None], index=['apple', 'mango','orange', 'kiwi'])
good2 = Series([3000, 3000, 3200, 2000], index=['apple', 'banana','mango', 'kiwi'])

#Series 의 산술 연산
print(good1 + good2)

apple     7000.0
banana       NaN
kiwi         NaN
mango     6700.0
orange       NaN
dtype: float64


## DataFrame

### DataFrame 생성

In [5]:
from pandas import DataFrame

#key 에 list가 할당된 dict 생성
items = {'code': [1,2,3,4,5,6],
         'name': ['apple','watermelon','oriental melon', 'banana', 'lemon', 'mango'],
         'manufacture': ['korea', 'korea', 'korea','philippines','korea', 'taiwan'],
         'price':[1500, 15000,1000,500,1500,700]}
#dict를 가지고 DataFrame 생성
df = DataFrame(items)

#자료형 출력
print(type(df))
print()

#데이터 출력
print(df)

<class 'pandas.core.frame.DataFrame'>

   code            name  manufacture  price
0     1           apple        korea   1500
1     2      watermelon        korea  15000
2     3  oriental melon        korea   1000
3     4          banana  philippines    500
4     5           lemon        korea   1500
5     6           mango       taiwan    700


### DataFrame 생성 과 탐색

In [6]:
from pandas import DataFrame
import numpy
items = {'code': [1,2,3,4,5,6],
        'name': ['apple','watermelon','oriental melon', 'banana', 'lemon', 'mango'],
        'manufacture': ['korea', 'korea', 'korea','philippines','korea', 'taiwan'],
        'price':[1500, 15000,1000,500,1500,700]}

#컬럼 이름 설정
data = DataFrame(items, columns=['code', 'name', 'manufacture', 'price'])
print(data)
print()

#인덱스 확인
print(data.index)
print()

#인덱스 변경
data.index = numpy.arange(1,7,1)
print(data.index)
print()

#앞에서 3개 데이터 확인
print(data.head(3))
print()

#데이터프레임 정보 확인
data.info()

   code            name  manufacture  price
0     1           apple        korea   1500
1     2      watermelon        korea  15000
2     3  oriental melon        korea   1000
3     4          banana  philippines    500
4     5           lemon        korea   1500
5     6           mango       taiwan    700

RangeIndex(start=0, stop=6, step=1)

Int64Index([1, 2, 3, 4, 5, 6], dtype='int64')

   code            name manufacture  price
1     1           apple       korea   1500
2     2      watermelon       korea  15000
3     3  oriental melon       korea   1000

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6 entries, 1 to 6
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   code         6 non-null      int64 
 1   name         6 non-null      object
 2   manufacture  6 non-null      object
 3   price        6 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 240.0+ bytes


## 클립보드의 데이터 사용

In [7]:
import pandas as pd
df = pd.read_clipboard()
print(df)

TypeError: 'NoneType' object is not subscriptable

## 머신러닝에 유용한 데이터 셋

In [8]:
#사이킷런의 데이터셋 활용
from sklearn import datasets

#보스턴 주택 가격 가져오기
boston = datasets.load_boston()

#자료형 확인 - Bunch
print(type(boston))
print()

#Bunch 클래스의 키 값 확인
print(boston.keys())

#data의 자료형 확인
print(type(boston.data))
print()

#data 확인
print(boston.data)

<class 'sklearn.utils.Bunch'>

dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename', 'data_module'])
<class 'numpy.ndarray'>

[[6.3200e-03 1.8000e+01 2.3100e+00 ... 1.5300e+01 3.9690e+02 4.9800e+00]
 [2.7310e-02 0.0000e+00 7.0700e+00 ... 1.7800e+01 3.9690e+02 9.1400e+00]
 [2.7290e-02 0.0000e+00 7.0700e+00 ... 1.7800e+01 3.9283e+02 4.0300e+00]
 ...
 [6.0760e-02 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9690e+02 5.6400e+00]
 [1.0959e-01 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9345e+02 6.4800e+00]
 [4.7410e-02 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9690e+02 7.8800e+00]]



    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

In [9]:
#사이킷런의 데이터셋 활용
from sklearn import datasets

#보스턴 주택 가격 가져오기
digits = datasets.load_digits()

#자료형 확인 - Bunch
print(type(digits))
print()

#특성 행렬 생성
features = digits.data
print(type(features))
print()

print(features)
print()

#첫번째 샘플 확인
print(features[0])

<class 'sklearn.utils.Bunch'>

<class 'numpy.ndarray'>

[[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]

[ 0.  0.  5. 13.  9.  1.  0.  0.  0.  0. 13. 15. 10. 15.  5.  0.  0.  3.
 15.  2.  0. 11.  8.  0.  0.  4. 12.  0.  0.  8.  8.  0.  0.  5.  8.  0.
  0.  9.  8.  0.  0.  4. 11.  0.  1. 12.  7.  0.  0.  2. 14.  5. 10. 12.
  0.  0.  0.  0.  6. 13. 10.  0.  0.  0.]


## 텍스트 파일 읽기

### 일정한 간격을 갖는 텍스트 읽기

In [10]:
import pandas as pd
frame = pd.read_fwf('./data/data_fwf.txt', widths=(10, 2, 5), names=('date','name','price'),encoding='utf-8')
print(frame)

         date name  price
0  2017-04-10   다음  32000
1  2017-04-11   다음  34000
2  2017-04-12   다음  33000


### csv 파일 읽기

In [11]:
import pandas as pd
items = pd.read_csv('./data/item.csv')
print(items)

   code  manufacture            name  price
0     1        korea           apple   1500
1     2        korea      watermelon  15000
2     3        korea  oriental melon   1000
3     4  philippines          banana    500
4     5        korea           lemon   1500
5     6        korea           mango    700


### read_csv 옵션

In [12]:
import pandas as pd
items = pd.read_csv('./data/good.csv', header=None, names=['제품명', '개수', '가격'], thousands=',')
print(items)

      제품명  개수     가격
0   apple  10   1500
1  banana   5  15000
2   melon   7   1000
3    kiwi  20    500
4   mango  30   1500
5  orange   4    700


### 대용량 데이터 읽기

In [13]:
import pandas as pd
#데이터를 2개 단위로 읽을 수 있는 parser 객체 생성
parser = pd.read_csv('./data/good.csv', header=None, chunksize=2)
#parser객체를 순회하기
for piece in parser:
    print(piece)
    print("=============================")

        0   1      2
0   apple  10   1500
1  banana   5  15000
       0   1     2
2  melon   7  1000
3   kiwi  20   500
        0   1     2
4   mango  30  1500
5  orange   4   700


## csv 읽기

In [14]:
import pandas as pd
import csv
items = pd.read_csv("./data/fruit.csv",header=None, encoding='utf-8')
print(items) 
print("================================")
lines = list(csv.reader(open("./data/fruit.csv", encoding='utf-8'), delimiter='|'));
print(lines)
print("================================")
frame = pd.DataFrame(lines, columns=['name', 'count', 'price'])
print(frame)

                0
0   apple|10|1500
1  banana|5|15000
2   orange|20|500
3    pear|30|1500
4     kiwi|7|1000
5    mango|4|700 
[['apple', '10', '1500'], ['banana', '5', '15000'], ['orange', '20', '500'], ['pear', '30', '1500'], ['kiwi', '7', '1000'], ['mango', '4', '700 ']]
     name count  price
0   apple    10   1500
1  banana     5  15000
2  orange    20    500
3    pear    30   1500
4    kiwi     7   1000
5   mango     4   700 


### 탭으로 구분된 파일 읽기

In [15]:
import pandas as pd
df = pd.read_csv('./data/gapminder.tsv', sep='\t')
print(df)

          country continent  year  lifeExp       pop   gdpPercap
0     Afghanistan      Asia  1952   28.801   8425333  779.445314
1     Afghanistan      Asia  1957   30.332   9240934  820.853030
2     Afghanistan      Asia  1962   31.997  10267083  853.100710
3     Afghanistan      Asia  1967   34.020  11537966  836.197138
4     Afghanistan      Asia  1972   36.088  13079460  739.981106
...           ...       ...   ...      ...       ...         ...
1699     Zimbabwe    Africa  1987   62.351   9216418  706.157306
1700     Zimbabwe    Africa  1992   60.377  10704340  693.420786
1701     Zimbabwe    Africa  1997   46.809  11404948  792.449960
1702     Zimbabwe    Africa  2002   39.989  11926563  672.038623
1703     Zimbabwe    Africa  2007   43.487  12311143  469.709298

[1704 rows x 6 columns]


### 파일 저장

In [16]:
import pandas as pd
items = {'apple':{'count':10,'price':1500},
         'banana': {'count':5, 'price': 15000},
         'melon': { 'count':7,'price': 1000},
         'kiwi': {'count':20,'price': 500},
         'mango': {'count':30,'price': 1500},
         'orange': { 'count':4,'price': 700}}
data = pd.DataFrame(items)
data = data.T

data.to_csv("./data/pddata.csv", index=False, header=False)

## Excel 파일 사용

### 엑셀 파일 읽기

In [17]:
import pandas as pd
df = pd.read_excel('./data/excel.xlsx', index_col=0, sheet_name='Sheet1')
print(df)
print("================")
df = pd.io.excel.read_excel("./data/excel.xlsx", sheet_name='Sheet1',index_col=0)
print(df)

                            이름   1과목   2과목   3과목
번호                                              
1                          이효준  40.0   NaN  45.0
2                          김성희  42.0  55.0  50.0
3                          이연숙   NaN  60.0  55.0
4                          노화현  50.0  70.0  60.0
5                          최희순  55.0  75.0   NaN
6                          정원주  60.0  80.0  70.0
                            이름   1과목   2과목   3과목
번호                                              
1                          이효준  40.0   NaN  45.0
2                          김성희  42.0  55.0  50.0
3                          이연숙   NaN  60.0  55.0
4                          노화현  50.0  70.0  60.0
5                          최희순  55.0  75.0   NaN
6                          정원주  60.0  80.0  70.0


### 엑셀 파일 저장

In [18]:
import pandas as pd

# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df1, df2에 저장 
pl = {'name' : [ 'Dennis R itchie', 'James Arthur Gosling', 'Guido van Rossum'],
         'language' : [ "C", "Java", "Python"],
     }

db = {'db':["Oracle", "SQL Server", "MySQL", "Hana DB", "Tibero"], 
      'license':["Oracle","Microsoft","Oracle", "SAP", "티맥스소프트"]}

df1 = pd.DataFrame(pl)
print(df1)
print()

df2 = pd.DataFrame(db)       #c0 열을 인덱스로 지정
print(df2)

# df1을 'sheet1'으로, df2를 'sheet2'로 저장 (엑셀파일명은 "df_excelwriter.xlsx")
writer = pd.ExcelWriter("./data/df_excelwriter.xlsx")
df1.to_excel(writer, sheet_name="sheet1")
df2.to_excel(writer, sheet_name="sheet2")
writer.save()

                   name language
0       Dennis R itchie        C
1  James Arthur Gosling     Java
2      Guido van Rossum   Python

           db    license
0      Oracle     Oracle
1  SQL Server  Microsoft
2       MySQL     Oracle
3     Hana DB        SAP
4      Tibero     티맥스소프트


## 여러 데이터 포맷 사용

### HTML 테이블 가져오기

https://ko.wikipedia.org/wiki/%EC%9D%B8%EA%B5%AC%EC%88%9C_%EB%82%98%EB%9D%BC_%EB%AA%A9%EB%A1%9D
![image.png](attachment:image.png)

In [19]:
import pandas
from pandas import DataFrame
li = pandas.read_html('https://ko.wikipedia.org/wiki/%EC%9D%B8%EA%B5%AC%EC%88%9C_%EB%82%98%EB%9D%BC_%EB%AA%A9%EB%A1%9D')
print(li)
print()
imsi = DataFrame(li[0])
print(imsi.head())

[       0        1           2       3  \
0      1       인도  1428630000  2023.0   
1      2  중화인민공화국  1411750000  2023.0   
2      3       미국   334805268  2021.0   
3      4    인도네시아   279134505  2021.0   
4      5     파키스탄   229488996  2021.0   
..   ...      ...         ...     ...   
236  237      니우에        1520     NaN   
237  238     토켈라우        1501  2021.0   
238  239   바티칸 시국         825  2019.0   
239    -   코코스 제도         573  2020.0   
240    -   핏케언 제도          46  2021.0   

                                                     4  
0                             공식 인구시계 UN 프로젝션[1][2][3]  
1                                              공식 인구시계  
2                                              공식 인구시계  
3                                              공식 인구시계  
4                                              공식 인구시계  
..                                                 ...  
236                                                NaN  
237                                              연

### XML

In [20]:
import pandas as pd 
import xml.etree.ElementTree as et 
import urllib.request

#데이터 다운로드 받긱
url = 'http://www.hani.co.kr/rss/sports/'
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
#print(response.read())

#xml 루트 찾기
tree = et.parse(response)
xroot = tree.getroot()
#print(xroot)

#channel 태그의 모든 내용 가져오기
channel = xroot.findall('channel')
#print(channel)

#channel 태그 안에서 item 태그 전부 가져오기
items = channel[0].findall('item')

df_cols = ["title", "link"]
rows = []

for node in items: 
    s_title = node.find("title").text if node is not None else None
    s_link = node.find("link").text if node is not None else None
    rows.append({"title": s_title, "link": s_link})

df = pd.DataFrame(rows, columns = df_cols)
print(df)

                                    title  \
0       수원FC 공격수 라스 음주운전 적발…“징계·후속 조치할 것”   
1            류현진, 시즌 첫 승 노린다…8일 클리블랜드전 등판   
2     조규성, 덴마크 데뷔 뒤 3경기 연속골…팀 열세 속 빛난 만회포   
3        ‘부상 투혼’ 김효주, LPGA 스코틀랜드 여자오픈 준우승   
4       ‘최강’ 미국 여자축구, 16강 승부차기 끝에 스웨덴에 패배   
5                ‘제주의 딸’ 임진희, 삼다수 마스터스 우승   
6             궤도 오른 프로당구…‘심야 편성’에 팬 반발 커져   
7            결승전서 21점 뽑아낸 강소휘…MVP도 3번째 수상   
8             공격 돌파구 날린 천가람 “더 강한 선수 되겠다”   
9        GS칼텍스, 기업은행에 3-1 설욕…6번째 KOVO컵 정상   
10      승패 가른 김가영 샷…“초클루와 연습한 공 나와 짜릿했어요”   
11         KBO리그 500만 관중 돌파…평균 관중 1만1033명   
12      기업은행, 3-1로 인삼공사 꺾고 결승행…GS칼텍스와 맞대결   
13      김연경·박인비 등 6명, IOC 선수위원 ‘국내 후보’ 등록   
14   GS칼텍스, 3-1로 현대건설 꺾고 결승행…KOVO컵 2연패 도전   
15       기적도 치욕도 반복된다…여자월드컵 강타한 ‘언더도그 돌풍’   
16       오타니, 시즌 40호 홈런…오른손 경련으로 투구는 4이닝만   
17   KBO리그 500만 관중 오늘 돌파…10개 구단 관중수입 762억   
18     에스와이 여성 삼총사 “산체스 정말 ‘진국’…팀 분위기 최고”   
19     ‘오기상’이 그리는 안산의 새로운 배구…웃으면서 해도 “OK”   
20        여자축구 조소현, 한국 첫·마지막 골 쐈다…독일 탈락시켜   
21    네이마르

### json

In [21]:
import pandas
from pandas import DataFrame
df = pandas.read_json('http://swiftapi.rubypaper.co.kr:2029/hoppin/movies?version=1&page=1&count=30&genreId=&order=releasedateasc')

hoppin = df['hoppin']
movies = hoppin['movies']
movie = movies['movie']

for item in movie:
    print(item['title'], ':', item['ratingAverage'])


인포먼트 : 6.7
엣지 오브 다크니스 : 6.9
베이비 돌 : 6
황야의 역마차 : 6.3
전원 교향곡 : 8
아버지의 깃발 : 8
여덟번의감정 : 6
레드 : 8.7
영광의 탈출 : 6.8
크로싱 : 8.8
맨 인 블랙 : 8.9
차형사 : 8.4
에이지 오브 드래곤 : 3.9
로드 오브 워리어 : 7.4
[메이킹 다큐] 도둑들 영화를 만들다! : 7.9
괜찮아요 수달씨 : 7.5
파파 : 9
이케맨 뱅크 : 6.7
다중인격소녀 ISOLA : 5.7
위조지폐 : 6.5
카인과 아벨 : 6.9
돌핀 블루 : 8.2
더 코드 : 7.6
철권 블러드 벤전스 : 8
블루 엘리펀트 (우리말 더빙) : 8.8
해결사 (2010) : 8.3
하나오니 2: 사랑의 시작 : 8.5
하나오니 3: 복수의 시간 : 8.5
아테나 전쟁의 여신 극장판 : 7.7
아이스 프린세스 : 8.8


In [22]:
import pandas as pd
# 데이터 URL
url = 'https://tinyurl.com/simulated-json'
# 데이터 적재
dataframe = pd.read_json(url, orient='columns')
# 처음 두 행을 확인
dataframe.head()

Unnamed: 0,integer,datetime,category
0,5,2015-01-01 00:00:00,0
1,5,2015-01-01 00:00:01,0
2,9,2015-01-01 00:00:02,0
3,6,2015-01-01 00:00:03,0
4,6,2015-01-01 00:00:04,0


### json 저장

In [23]:
import pandas as pd

# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장 
ai = {'name':['분류', '회귀','신경망', '군집', '차원축소', '연관분석', '심층신경망'],
        'classification':[ '지도학습', '지도학습','지도학습','비지도학습', '비지도학습', '비지도학습', '준지도학습']}
df = pd.DataFrame(ai)
df.set_index('name', inplace=True)   #name 열을 인덱스로 지정
print(df)

# to_json() 메소드를 사용하여 json 파일로 내보내기.
# 파열명은 ai.json로 저장
df.to_json("./data/ai.json")

      classification
name                
분류              지도학습
회귀              지도학습
신경망             지도학습
군집             비지도학습
차원축소           비지도학습
연관분석           비지도학습
심층신경망          준지도학습


### yaml

In [24]:
import yaml

with open('./data/vegetables.yml') as f:
    vegetables = yaml.load(f, Loader=yaml.FullLoader)
    print(vegetables)

{'Vegetables': ['Pepper', 'Tomato', 'Garlic']}


In [25]:
import yaml
fruits = {'fruits': ['blueberry', 'apple', 'orange']}
with open('./data/fruits.yml', 'w') as f:
    yaml.dump(fruits, f)

## 관계형 데이터베이스 사용

### sqlite3

In [26]:
# 라이브러리를 임포트합니다.
import pandas as pd
from sqlalchemy import create_engine

import sqlite3

conn = sqlite3.connect("./data/sample.db")   # 테이블 생성/오픈
cursor = conn.cursor()

# 버전 확인
print(sqlite3.sqlite_version_info)
version = cursor.execute('SELECT sqlite_version()').fetchone()[0]
print(version)

# 테이블 삭제
cursor.execute("""DROP TABLE IF EXISTS PL""")
conn.commit()

# 테이블 생성
cursor.execute('''CREATE TABLE PL (
		id    INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
		name  TEXT NOT NULL,
		language TEXT NOT NULL)''')

# 데이터 추가
cursor.execute("insert into pl(name, LANGUAGE) values('데니스 리치히', 'C')")

cursor.executescript("""
insert into pl(name, LANGUAGE) values('제임스 고슬링', 'Java');
insert into pl(name, LANGUAGE) values('귀도 반 로썸', 'Python');
""")

conn.commit()

# 데이터 검색
cursor.execute('select * from pl')
print(cursor.fetchone())
print(cursor.fetchmany(3))
print(cursor.fetchall())

# 데이터 검색
cursor.execute('select * from pl')
for row in cursor:
    print(row)


(3, 39, 3)
3.39.3
(1, '데니스 리치히', 'C')
[(2, '제임스 고슬링', 'Java'), (3, '귀도 반 로썸', 'Python')]
[]
(1, '데니스 리치히', 'C')
(2, '제임스 고슬링', 'Java')
(3, '귀도 반 로썸', 'Python')


In [27]:
# 라이브러리를 임포트합니다.
import pandas as pd
from sqlalchemy import create_engine

# 데이터베이스에 연결합니다.
database_connection = create_engine('sqlite:///data/sample.db')

# 데이터를 적재합니다.
dataframe = pd.read_sql_query('SELECT * FROM pl', database_connection)

dataframe.head()

Unnamed: 0,id,name,language
0,1,데니스 리치히,C
1,2,제임스 고슬링,Java
2,3,귀도 반 로썸,Python


### Oracle

In [32]:
# 라이브러리를 임포트합니다.
import pandas as pd
from sqlalchemy import create_engine

# 데이터베이스에 연결합니다.
engine = create_engine('oracle://user00:user00@1.220.201.108:1521/xe')


# 데이터를 적재합니다.
dataframe = pd.read_sql_query('SELECT * FROM dbms', engine)

# 처음 여섯 개의 행을 확인합니다.
dataframe.head()

Unnamed: 0,num,name,vendor,description
0,1,Oracle,Oracle,가장 안정적이라고 알려진 DB
1,2,HanaDB,SAP,오라클 대체용으로 많이 사용
2,3,Tibero,티맥스소프트,국산 관계형 데이터베이스
3,4,Maria DB,오픈소스,MySQL 대체 데이터베이스
4,5,MongoDB,10gen,NoSQL


### MySQL

In [29]:
# 라이브러리를 임포트합니다.
import pandas as pd
from sqlalchemy import create_engine
import pymysql

pymysql.install_as_MySQLdb()
import MySQLdb

# 데이터베이스에 연결합니다.
connet = create_engine('mysql+mysqldb://root:wnddkd@localhost/adam')

# 데이터를 적재합니다.
dataframe = pd.read_sql_table('dbms', connet)

dataframe.head()

Unnamed: 0,num,name,vendor,description
0,1,Oracle,Oracle,가장 안정적이라고 알려진 DB
1,2,HanaDB,SAP,오라클 대체용으로 많이 사용
2,3,Tibero,티맥스소프트,국산 관계형 데이터베이스
3,4,Maria DB,오픈소스,MySQL 대체 데이터베이스
4,5,MongoDB,10gen,NoSQL


## NoSQL - MongoDB

In [34]:
import pandas as pd
from pymongo import MongoClient 

#데이터베이스 연결
conn = MongoClient('127.0.0.1')

#데이터베이스 설정
db = conn.mymongo

#컬렉션 설정
collect = db.echo 

#데이터 가져오기
result = collect.find()

li = []
for r in result :
    del r['_id']
    li.append(r)

echo = pd.DataFrame(li)

print(echo)

    num       name    function
0     1       HDFS   분산 데이터 저장
1     2    Chuckwa  비정형 데이터 수집
2     3      Flume  비정형 데이터 수집
3     4      Sqoop   정형 데이터 수집
4     5  MapReduce   분산 데이터 처리
5     6      Hbase   분산 데이터베이스
6     7       Hive      데이터 분석
7     8        Pig      데이터 분석
8     9     Mahout     데이터 마이닝
9    10     Impala  실시간 SQL 질의
10   11       Tajo  실시간 SQL 질의
11   12      Oozie    워크플로우 관리
12   13  Zookeeper    분산 코디네이터


## 통계 프로그램 데이터 활용 

### R

In [55]:
import pandas as pd
import pyreadr

nls97r = pyreadr.read_r('data/nls97.rds')[None]
nls97r.head(10)

Unnamed: 0,R0000100,R0536300,...,U2963000,Z9063900
0,1,2,...,-5,52
1,2,1,...,6,0
2,3,2,...,6,0
3,4,2,...,6,4
4,5,1,...,5,12
5,6,2,...,6,6
6,7,1,...,-5,0
7,8,2,...,-5,39
8,9,1,...,4,0
9,10,1,...,6,0


### SPSS

In [48]:
# import pandas, numpy, and pyreadstat
import pandas as pd
import numpy as np
import pyreadstat

# 데이터 와 메타 데이터 가져오기
nls97spss, metaspss = pyreadstat.read_sav('data/nls97.sav')
print(type(nls97spss))
print(type(metaspss))
print(nls97spss.head())

<class 'pandas.core.frame.DataFrame'>
<class 'pyreadstat._readstat_parser.metadata_container'>
   R0000100  R0536300  ...  U2963000  Z9063900
0      1.00      2.00  ...       NaN     52.00
1      2.00      1.00  ...      6.00      0.00
2      3.00      2.00  ...      6.00      0.00
3      4.00      2.00  ...      6.00      4.00
4      5.00      1.00  ...      5.00     12.00

[5 rows x 42 columns]


### SAS

In [51]:
nls97sas, metasas = pyreadstat.read_sas7bdat('data/nls97.sas7bdat', catalog_file='data/nlsformats3.sas7bcat', formats_as_category=True)
print(nls97sas.head())

   R0000100 R0536300  ...  U2963000  Z9063900
0      1.00   Female  ...       NaN     52.00
1      2.00     Male  ...      6.00      0.00
2      3.00   Female  ...      6.00      0.00
3      4.00   Female  ...      6.00      4.00
4      5.00     Male  ...      5.00     12.00

[5 rows x 42 columns]


### Stata

In [52]:
nls97stata, metastata = pyreadstat.read_dta('data/nls97.dta', apply_value_formats=True, formats_as_category=True)
print(nls97stata.head())

   R0000100 R0536300  ...  U2963000  Z9063900
0      1.00   Female  ...     -5.00     52.00
1      2.00     Male  ...      6.00      0.00
2      3.00   Female  ...      6.00      0.00
3      4.00   Female  ...      6.00      4.00
4      5.00     Male  ...      5.00     12.00

[5 rows x 42 columns]
