<!-- Markdown -->
# **배열의 결합
## 1. hstack
- 행의 수가 같은 배열을 열 방향으로 결합해주는 함수

## 2. vstack
- 열의 수가 같은 배열을 행 방향으로 결합해주는 함수

## 3. dstack
- 행과 열의 수가 같은 배열을 가지고 위치가 같은 요소들을 가지고 하나의 배열로 묶어서 차원이 1개 늘어난 배열을 만들어주는 함수

## 4. stack
- dstack과 비슷하지만 원하는 방향으로 새로운 배열을 만들어서 차원을 늘려주는 함수

In [1]:

import numpy as np

# 일련 번호 형태로 배열 만들기
ar = np.arange(1, 13)

# 3행 4열로 변경

ar = ar.reshape(3, 4)
print(ar)
print()

# 일정한 간격을 가지고 만들기
br = np.linspace(101, 112, num = 12)
br = br.reshape(3, 4)
print(br)
print()

# 행 방향으로 합치기
print(np.hstack([ar, br]))
print()

# 열 방향으로 합치기
print(np.vstack([ar, br]))


[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

[[101. 102. 103. 104.]
 [105. 106. 107. 108.]
 [109. 110. 111. 112.]]

[[  1.   2.   3.   4. 101. 102. 103. 104.]
 [  5.   6.   7.   8. 105. 106. 107. 108.]
 [  9.  10.  11.  12. 109. 110. 111. 112.]]

[[  1.   2.   3.   4.]
 [  5.   6.   7.   8.]
 [  9.  10.  11.  12.]
 [101. 102. 103. 104.]
 [105. 106. 107. 108.]
 [109. 110. 111. 112.]]


In [7]:

import os

print(os.getcwd())


C:\Users\admin


<!-- Markdown -->
# **pandas의 자료구조
- Series 와 Dataframe
- numpy 의 ndarray는 행이나 열을 구분하는 것이 정수로 된 인덱스인데 pandas의 자료구조들은 index를 직접 설정가능

## 1. Series
### 1) 생성
#### Series(data, index=None, dtype=None, copy=False)
- data는 __iter__ 가 구현된 객체
- index는 데이터 별 이름을 부여하는 것인데 생략하면 0부터 시작하는 숫자
- dtype은 각 요소들이 자료형인데 생략하면 유추해서 설정
- copy는 복제 여부

- data에 dict를 대입하면 key가 index가 되고 value가 데이터로 설정됩니다.
- values 속성을 호출하면 데이터만 추출해서 numpy의 ndarray로 리턴합니다.
- index 속성을 호출하면 index들을 리턴하는데 직접 설정도 가능
- 각각의 데이터는 [인덱스]를 이용해서 접근
- 범위에 해당하는 데이터에 접근할 때는 [정수인덱스:정수인덱스]의 경우는 정수 인덱스 앞까지이지만 인덱스를 문자열로 생성해서 대입하는 경우 [문자열인덱스:문자열인덱스]는 마지막 문자열인덱스를 포함
>
> [0:4] -> 0부터 3까지
>
> ['apple':'mango'] -> apple 부터 mango까지
>
- 인덱스 자리에 list를 대입해서 list에 포함된 인덱스들의 데이터만 추출가능

In [2]:

# Series와 DataFrame은 현재 모듈에 포함
from pandas import Series, DataFrame
# Series와 DataFrame을 제외하고는 pd로 접근
import pandas as pd

# Series 만들기
good1 = Series([1000, 1500, 500])
print(good1) ; print()

# 1개의 데이터 접근
print(good1[0]) ; print()

# 연속된 범위의 데이터 접근
print(good1[0:2]) ; print()

# 불연속된 데이터 접근
print(good1[[0, 2]]) ; print()

# 인덱스 설정
good1.index = ['Orange', 'Apple', 'Banana']
print(good1) ; print()
print(good1['Orange':'Banana']) ; print()
# Orange부터 Banana까지


0    1000
1    1500
2     500
dtype: int64

1000

0    1000
1    1500
dtype: int64

0    1000
2     500
dtype: int64

Orange    1000
Apple     1500
Banana     500
dtype: int64

Orange    1000
Apple     1500
Banana     500
dtype: int64



<!-- Markdown -->
## 2)연산
- Series 와 Scala Data의 연산은 Broadcast 연산(각각의 요소와 연산해서 결과를 Series로 리턴)
- Series 끼리의 연산은 index를 기준으로 연산
> None(numpy.nan)과의 연산은 결과가 무조건 None
- 없는 index 와의 연산의 결과도 None

In [6]:
import numpy as np

'''
good1 = Series([100, 200, 150],
              index = ['1', '2', '3'])
'''
good1 = Series([100, 200, 150, None, np.nan, np.nan],
              index = ['1', '2', '3', '4', '5', '6'])

good2 = Series([10, 20, 10],
              index = ['1', '2', '4'])

print(good1 + 200) ; print() # good1의 모든 요소에 200을 더함
print(good1 + good2)
# 인덱스가 동일한 데이터끼리 연산
# 1과 2번은 양쪽에 같이 있어서 더하기
# 3, 4번은 한쪽에만 존재하기 때문에 None

1    300.0
2    400.0
3    350.0
4      NaN
5      NaN
6      NaN
dtype: float64

1    110.0
2    220.0
3      NaN
4      NaN
5      NaN
6      NaN
dtype: float64


<!-- Markdown -->
## 2.DataFrame
- 인덱스와 컬럼이름을 가진 행렬(2차원 배열) - 테이블
- 통계에서 주로 사용
- dict의 list 와 유사
- 외부 데이터를 가지고 생성하는 경우가 많고 직접 생성하는 경우는 dict를 주로 이용
> 하나의 key에 list 형태의 value를 설정해서 생성

In [5]:
# Dictionary 생성
items = {'name': ['orange', 'mango'],
        'price':[2000, 2500],
        'manufacture':['korea', 'taiwan']}
# DataFrame 생성
df = DataFrame(items)

print(df)

     name  price manufacture
0  orange   2000       korea
1   mango   2500      taiwan


<!-- Markdown -->
### 1) 생성 가능한 데이터
- dict
- 2차원 ndarray
- Series의 list
- dict, list, tuple, set의 list

### 2) index
- 행에 붙이는 이름
- 직접 설정을 하지 않으면 0부터 시작하는 정수로 된 인덱스가 생성
- 생성할 때 index 매개변수를 이용해서 직접 설정 가능
- 생성한 후 index 속성을 이용해서 설정 가능

### 3) 컬럼이름
- 열에 붙이는 이름
- 직접 설정하지 않으면 디폴트로 생성: dict의 경우는 key 가 컬럼이름으로 설정되고 그 이외는 정수로 설정
- 생성할 때 columns 매개변수를 이용해서 설정이 가능
- 생성한 후 columns 속성을 이용해서 설정 가능

### 4) 테이블의 데이터 일부 확인
> head(데이터 개수): 앞에서 부터 데이터 개수만큼 리턴
> tail(데이터 개수): 뒤에서 부터 데이터 개수만큼 리턴

### 5) info()
- DataFrame의 개요 리턴 
- 외부에서 데이터를 가져와서 DataFrame을 만들 때 head 나 tail을 이용해서 데이터가 제대로 불려져 왔는지 확인하고 데이터의 개요를 확인하기 위해서 info()를 호출해서 출력

In [8]:
# Dictionary 생성
items = {'name': ['orange', 'mango', 'apple', 'banana'],
        'price':[2000, 2500, 3000, 500],
        'manufacture':['korea', 'taiwan', 'korea', 'vietnam']}
# DataFrame 생성
df = DataFrame(items)

#print(df)

# 인덱스 직접 설정
df.index = np.arange(10, 50, 10)
print(df); print()
print(df.head(3)) ; print()
print(df.info()); print()

"""
<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 10 to 40  - 총 4개의 데이터, 10부터 40까지 인덱스
Data columns (total 3 columns):
name           4 non-null object
price          4 non-null int64
manufacture    4 non-null object
dtypes: int64(1), object(2)  - 숫자 이외의 자료형은 무조건 object
memory usage: 128.0+ bytes
None

"""

      name  price manufacture
10  orange   2000       korea
20   mango   2500      taiwan
30   apple   3000       korea
40  banana    500     vietnam

      name  price manufacture
10  orange   2000       korea
20   mango   2500      taiwan
30   apple   3000       korea

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 10 to 40
Data columns (total 3 columns):
name           4 non-null object
price          4 non-null int64
manufacture    4 non-null object
dtypes: int64(1), object(2)
memory usage: 128.0+ bytes
None



### 6) 패키지에서 제공하는 데이터 사용

In [24]:
# sklearn에서 제공하는 boston 주택 가격 데이터 가져오기
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

# sklearn에서 데이터를 쓰기 위한 import
from sklearn import datasets

boston = datasets.load_boston()
# datasets.load_데이터 이름()

# 자료형 확인
print(type(boston)) ; print() # <class 'sklearn.utils.Bunch'>

# 데이터 확인
print(type(boston.keys)) ; print() # <class 'builtin_function_or_method'>
print(boston.keys) ; print() # <built-in method keys of Bunch object at 0x000001E38C39F168>
print(boston.keys()) ; print() #dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])

# 실제 데이터의 자료형 확인
print(type(boston.data)) ; print()  #<class 'numpy.ndarray'>
# DataFrame으로 생성가능한지 확인 (shape 확인)
print(boston.data.shape)  ; print()  #(506, 13)

# 가져온 데이터셋이 ndarray인 경우 데이터를 파악하기가 어려울 수 있어서
# 컬럼이름을 부여한 DataFrame으로 가지고 있는 것이 데이터 파악에 용이
# 머신 러닝에 적용할 때는 df.values 로 다시 ndarray로 만들면 됨
df = DataFrame(boston.data
               , columns = ['CRIM' ,'INDUS', 'NOX', 'RM'
                            , 'LSTAT', 'B', 'PTRATIO', 'ZN'
                            , 'CHAS', 'AGE', 'RAD', 'DIS', 'TAX'])
print(df.info()) ; print()

<class 'sklearn.utils.Bunch'>

<class 'builtin_function_or_method'>

<built-in method keys of Bunch object at 0x0000023CBDED5888>

dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])

<class 'numpy.ndarray'>

(506, 13)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 13 columns):
CRIM       506 non-null float64
INDUS      506 non-null float64
NOX        506 non-null float64
RM         506 non-null float64
LSTAT      506 non-null float64
B          506 non-null float64
PTRATIO    506 non-null float64
ZN         506 non-null float64
CHAS       506 non-null float64
AGE        506 non-null float64
RAD        506 non-null float64
DIS        506 non-null float64
TAX        506 non-null float64
dtypes: float64(13)
memory usage: 51.5 KB
None



In [None]:
### 7) fwf 파일: 텍스트 파일인데 글자 수가 일정한 형태로 되어 있는 파일
 pandas.read_fwf(파일경로, 
 		widths=(글자수를 나열), 
 		names=(컬럼이름 나열), 
 		encoding=인코딩방식)

- 파일이 windows에서 기본 인코딩으로 만들어진 것이면 cp949(ms949)이고 그 이외의 운영체제에서 만들어진 것이면 utf-8

In [22]:
import os
print(os.getcwd())

C:\Users\admin


In [9]:
# data/data_fwf.txt 파일의 내용을 가지고 DataFrame 만들기
# 텍스트를 한 번에 읽은 후 슬라이싱을 이용해서 만들기도 함

fwf = pd.read_fwf('./data/data_fwf.txt'
                  , width = (10, 2.5)
                  , names = ('날짜', '종목이름', '종가')
                  , encoding = 'utf-8')
# 한글 깨지면 encoding 필요

print(fwf) ; print()

                  날짜  종목이름  종가
0  2017-04-10다음32000   NaN NaN
1  2017-04-11다음34000   NaN NaN
2  2017-04-12다음33000   NaN NaN


### 8)csv 파일 읽기
- read_csv: 기본 구분자가 ,로 설정
- read_table: 기본 구분자가 Tab
- 옵션 설정이 없으면 첫번째 행의 데이터가 컬럼이름이 됩니다.

#### - read_csv 의 매개변수
* path: 파일의 경로
* sep: 구분자(기본은 ,)
* header: 컬럼이름의 행 번호로 기본값은 0, 첫번째 행이 컬럼이름이 아닌 경우는 None으로 설정
* index_col: 인덱스로 사용할 컬럼 번호나 컬럼 이름
* names: 컬럼이름으로 사용할 list, header=None 과 함께 사용
* skiprows: 읽지 않을 행의 개수
* nrows: 일부분만 읽는 경우 읽을 행의 개수
* skip_footer: 마지막에 읽지 않은 행의 개수
* encoding: 인코딩 설정
* squeze: 행이 하나인 경우 Series를 만드는데 이 속성의 True로 설정하면 DataFrame으로 생성
* thousands: 천 단위 구분기호 설정, 이 설정을 하지 않은 상태에서 ,가 있는 데이터를 읽으면 문자열로 읽게됩니다.
* na_values: None 처리할 데이터의 list
* parse_dates: 날짜형식의 데이터를 datetime으로 변환할 지 여부

In [6]:
# item.csv 파일을 읽어서 DataFrame 만들기
# 파일 구분자는 메모장으로 열어보면 잘 보임
item = pd.read_csv('./data/item.csv')
print(item.head()) ; print()
#print(item.info()) ; print()

good = pd.read_csv('./data/item.csv'
                   , header = None
                   , names = ['제품명', '수량', '가격'])
print(good.head()) ; print()
print(good.info()) ; print()

   code  manufacture            name  price
0     1        korea           apple   1500
1     2        korea      watermelon  15000
2     3        korea  oriental melon   1000
3     4  philippines          banana    500
4     5        korea           lemon   1500

              제품명              수량     가격
code  manufacture            name  price
1           korea           apple   1500
2           korea      watermelon  15000
3           korea  oriental melon   1000
4     philippines          banana    500

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, code to 6
Data columns (total 3 columns):
제품명    7 non-null object
수량     7 non-null object
가격     7 non-null object
dtypes: object(3)
memory usage: 224.0+ bytes
None



#### - 텍스트 파일의 용량이 큰 경우(데이터가 많은 경우)
> log 분석을 하기 위해서 csv를 읽어오는 경우 실무에서 사용하는 데이터는 아주 큰 용량입니다.
>
> 한국 ebay 의 경우 하루 로그기록하는 파일의 사이즈가 대략 8GB 정도 됩니다.
>
> 이런 정도의 파일을 한 번에 읽어서 DataFrame을 만들게 되면 시스템이 멈추거나 아주 느리게 작업이 이루어지게 됩니다.
>
> 이런 파일은 분할해서 읽어야 합니다.
>
> nrows 와 skiprows를 이용할 수 있습니다.
>
- 읽을 때 chunksize(한 번에 읽을 행의 개수)를 설정
> 이 옵션을 설정하면 TextParser 객체가 리턴
>
> TextParser를 iterator(for)를 돌리면 chunksize 단위로 데이터를 가져오게 됩니다.

In [12]:
# good.csv 파일의 내용을 2개씩 읽어오기
goodchunk = pd.read_csv('./data/item.csv'
                   , chunksize=2
                   , header=None)
print(goodchunk) #<pandas.io.parsers.TextFileReader object at 0x0000023CBC8525C8>
print()

for two in goodchunk:
    print(two)

<pandas.io.parsers.TextFileReader object at 0x0000023CBC8A0B48>
      0            1      2      3
0  code  manufacture   name  price
1     1        korea  apple   1500
   0      1               2      3
2  2  korea      watermelon  15000
3  3  korea  oriental melon   1000
   0            1       2     3
4  4  philippines  banana   500
5  5        korea   lemon  1500
   0      1      2    3
6  6  korea  mango  700


> 문자열이 작은 따옴표나 큰 따옴표로 묶여 있는 경우 또는 구분자가 1글자가 아니고 여러 글자인 경우에는 read_csv가 제대로 데이터를 읽지 못하는 경우가 발생할 수 있습니다.
>
> csv 모듈의 reader 객체를 이용해서 줄 단위로 읽어서 처리해야 합니다.

In [26]:
# 문자열이 작은 따옴표로 묶여 있는 경우
fruits = pd.read_csv('./data/fruit.csv'
                     , header=None
                     , sep = '|')
print(fruits)
print()

# 줄 단위로 읽어서 DataFrame 만들기
import csv
lines = list(csv.reader(open('./data/fruit.csv')
                        , delimiter='|'))
print(lines)
print()

fruits = DataFrame(lines, columns=['이름', '수량', '가격'])
print(fruits)
print()

# 파일에 저장
fruits.to_csv('fruits.csv')

        0   1      2
0   apple  10   1500
1  banana   5  15000
2  orange  20    500
3    pear  30   1500
4    kiwi   7   1000
5   mango   4    700

[['apple', '10', '1500'], ['banana', '5', '15000'], ['orange', '20', '500'], ['pear', '30', '1500'], ['kiwi', '7', '1000'], ['mango', '4', '700 ']]

       이름  수량     가격
0   apple  10   1500
1  banana   5  15000
2  orange  20    500
3    pear  30   1500
4    kiwi   7   1000
5   mango   4   700 


### 9) csv 저장
- Series 나 DataFrame 객체가 to_csv 함수를 호출
- 첫번째 매개변수는 파일 경로
- sep는 저장될 때의 구분자를 설정
- na_rep는 None 값을 어떻게 출력할 것인지를 설정
- index = None을 설정하면 인덱스는 출력되지 않음
- header=None을 설정하면 컬럼이름이 출력되지 않음
- cols 에 컬럼이름의 list를 설정하면 설정한 컬럼들만 출력

### 10) excel 파일 읽기
- anaconda를 설치하지 않은 경우에는 xlrd 패키지를 설치해야 합니다.
- pandas.read_excel(엑셀 파일 경로)
- pandas.io.excel.read_excel(엑셀 파일 경로)
- 함수들의 매개변수는 read_csv 랑 유사한데 sheet_name 옵션에 읽을 sheet 이름을 설정해야 합니다.

## 11) excel 파일 저장
- ExcelWriter 객체를 만들고 DataFrame.to_excel(ExcelWrite객체, sheet_name='시트이름')

***
#### 실습 - excel.xlsx 파일 읽기
- 한글이 포함되어 있고 첫번째 줄이 컬럼의 이름인 것을 확인, sheet이름은 Sheet1
> 인코딩을 고려

In [29]:
# 엑셀 파일 읽고 쓰기
excel = pd.read_excel('./data/excel.xlsx'
                      , sheet_name = 'Sheet1')
print(excel)

# 엑셀로 저장하기
writer = pd.ExcelWriter('excel.xlsx')
excel.to_excel(writer, sheet_name='연습')
writer.save()

   번호                          이름   1과목   2과목   3과목
0                          1  이효준  40.0   NaN  45.0
1                          2  김성희  42.0  55.0  50.0
2                          3  이연숙   NaN  60.0  55.0
3                          4  노화현  50.0  70.0  60.0
4                          5  최희순  55.0  75.0   NaN
5                          6  정원주  60.0  80.0  70.0


### 12) HTML 페이지의 table 태그의 내용을 DataFrame으로 변환
> pandas.read_html(경로)
- 천단위 구분기호 설정, 인코딩 방식, na 데이터 설정 등의 옵션이 있습니다.
- 하나의 페이지에 table 태그가 여러 개 있을 수 있기 때문에 DataFrame의 list로 리턴 

In [34]:
# pandas의 read_html 함수 도움말
#help(pd.read_html)

li = pd.read_html('https://ko.wikipedia.org/wiki/%EC%9D%B8%EA%B5%AC%EC%88%9C_%EB%82%98%EB%9D%BC_%EB%AA%A9%EB%A1%9D'
                  , thousands=',')
#for df in li:
#    print(df.head())

print(li[0])

      순위 나라 (및 속령)          인구    기준일자         출처
0      1   중화인민공화국  1420060000  2019.0    공식 인구시계
1      2        인도  1368780000  2019.0    공식 인구시계
2      3        미국   329676200  2019.0    공식 인구시계
3      4     인도네시아   270110500  2019.0  공식 연간 예상치
4      5       브라질   215850000  2019.0    공식 인구시계
..   ...       ...         ...     ...        ...
237  238      토켈라우        1400     NaN        NaN
238  239    세인트헬레나        7729     NaN        NaN
239  240    바티칸 시국         800  2014.0        NaN
240  241    코코스 제도         538     NaN        NaN
241  242    핏케언 제도          50     NaN        NaN

[242 rows x 5 columns]


### 13) json 데이터 읽기
- pandas.read_json을 이용해서 읽습니다.
- 대다수의 데이터는 배열의 형태가 아니고 일반객체 형태라서 바로 만들면 나중에 가공 작업이 필요한 경우가 많습니다.

In [43]:
# json 데이터 읽기
movies = pd.read_json('http://swiftapi.rubypaper.co.kr:2029/hoppin/movies?version=1&page=1&count=20&genreId=&order=releasedateasc')
#print(movies) ; print()
#print(movies['hoppin']['movies']['movie']) ; print()
for temp in movies['hoppin']['movies']['movie']:
    print(temp['title'])
    print()

인포먼트

엣지 오브 다크니스

베이비 돌

황야의 역마차

전원 교향곡

아버지의 깃발

여덟번의감정

레드

영광의 탈출

크로싱

맨 인 블랙

차형사

에이지 오브 드래곤

로드 오브 워리어

[메이킹 다큐] 도둑들 영화를 만들다!

괜찮아요 수달씨

파파

이케맨 뱅크

다중인격소녀 ISOLA

위조지폐



### 14) xml 읽기
- pandas에는 xml을 읽어서 만드는 함수는 없습니다.
- 이 경우에는 xml 파싱을 수행한 후 직접 만들어야 합니다.

### 15) 데이터베이스의 데이터를 가지고 DataFrame 만들기
- sqlalchemy 패키지: 관계형 데이터베이스에 접속해서 sql을 실행시켜서 데이터를 가져오는 패키지

- sqlalchemy 패키지를 이용한 데이터베이스 연결 객체 만들기
> from sqlalchemy import create_engine
>
> 연결객체 = create_engine(데이터베이스 URL)

- sql을 이용한 DataFrame 만들기
> pandas.read_sql_query(SQL 구문, 연결객체): sql 구문 수행 결과를 가져오는 함수
>
> pandas.read_sql_table(table이름, 연결객체): 테이블의 데이터를 전부 가져오는 함수

### 16) SQLLite3 의 PL 테이블의 데이터 가져오기

In [1]:
#sqlite3 의 데이터 가져오기
import pandas as pd
from sqlalchemy import create_engine 

#연결 객체 생성
con = create_engine('sqlite:///data/sample.db')

#sql을 실행해서 DataFrame 만들기
pl = pd.read_sql('select * from pl', con)
print(pl)

   id     name language
0   1  데니스 리치히        C
1   2  제임스 고슬링     Java
2   3  귀도 반 로썸   Python


### 17) 오라클의 데이터 가져오기
- cx_Oracle 이라는 패키지가 필요
- Mac에서는 바로 접근이 안되서 Oracle 홈페이지에서 instant client 라는 프로그램을 다운로드 받아서 설치한 후 /opt 디렉토리에 oracle 디렉토리를 생성하고 받은 파일의 압축을 해제
> 압축해제한 디렉토리에서 lib 파일들을 /user/local/lib 디렉토리에 복사를 해야 합니다.

- 접속 URL
> oracle://유저ID:유저비밀번호@ip:port/sid

In [None]:
#oracle에서 데이터를 가져와서 DataFrame 만들기
#cx_Oracle 이라는 패키지를 설치
import pandas as pd
from sqlalchemy import create_engine 
    
#연결 객체 생성
con = create_engine('oracle://user00:user00@211.183.6.60:1521/xe')  
dept = pd.read_sql('select * from dept', con)  
print(dept)

### 18) mysql에서 데이터 가져오기
- pymysql 이라는 패키지가 필요
- 접속 URL
> mysql+mysqldb://유저ID:유저비밀번호@ip:port/dbname

## 3.DataFrame에서의 선택
### 1) 열 선택
> 하나의 열은 DataFrame[열이름]  또는 DataFrame.열이름으로 접근
>
> - Series가 리턴
>
> 여러 개의 열은 DataFrame[[열이름 나열]]
>
> - DataFrame이 리턴
>
> DataFrame[열이름:열이름] 
>
> - 마지막 열이 포함됩니다.
>
> DataFrame이 리턴

### 2) 행 선택
- iloc[행의 위치]
- loc[인덱스]
> list 형태나 :을 이용한 범위 형태 가능
>
> 하나의 행인 경우는 Series로 리턴되고 2개 이상인 경우는 DataFrame으로 리턴

### 3) 셀 선택
- [컬럼이름][행번호]
- loc[행인덱스, 열인덱스]
- iloc[행번호, 열번호]

In [4]:
#DataFrame에서의 선택
#item.csv 파일의 데이터 가져오기

import numpy as np
import pandas as pd

#item.csv 파일의 내용을 가져오기
item = pd.read_csv('./data/item.csv')
#컬럼이름: code, manufacture, name, price
print(item.head())
item.info()

   code  manufacture            name  price
0     1        korea           apple   1500
1     2        korea      watermelon  15000
2     3        korea  oriental melon   1000
3     4  philippines          banana    500
4     5        korea           lemon   1500
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
code           6 non-null int64
manufacture    6 non-null object
name           6 non-null object
price          6 non-null int64
dtypes: int64(2), object(2)
memory usage: 320.0+ bytes


In [5]:
#인덱스 설정
item.index = ['사과', '수박','참외','바나나','레몬', '망고']    

In [6]:
print(item['name']) #하나의 열 선택

사과              apple
수박         watermelon
참외     oriental melon
바나나            banana
레몬              lemon
망고              mango
Name: name, dtype: object


In [7]:
print(item[['name', 'price']]) #여러 개 열 선택

               name  price
사과            apple   1500
수박       watermelon  15000
참외   oriental melon   1000
바나나          banana    500
레몬            lemon   1500
망고            mango    700


In [8]:
#행선택
print(item.loc['사과']) #인덱스로 접근

print()

print(item.iloc[2]) #행의 위치로 접근

code               1
manufacture    korea
name           apple
price           1500
Name: 사과, dtype: object

code                        3
manufacture             korea
name           oriental melon
price                    1000
Name: 참외, dtype: object


In [9]:
print(item.loc[['사과', '망고']]) #인덱스로 접근

print()

print(item.iloc[[2, 4]]) #행의 위치로 접근

    code manufacture   name  price
사과     1       korea  apple   1500
망고     6       korea  mango    700

    code manufacture            name  price
참외     3       korea  oriental melon   1000
레몬     5       korea           lemon   1500


In [10]:
print(item.loc['사과':'망고']) #인덱스로 접근

print()

print(item.iloc[0:5]) #행의 위치로 접근

     code  manufacture            name  price
사과      1        korea           apple   1500
수박      2        korea      watermelon  15000
참외      3        korea  oriental melon   1000
바나나     4  philippines          banana    500
레몬      5        korea           lemon   1500
망고      6        korea           mango    700

     code  manufacture            name  price
사과      1        korea           apple   1500
수박      2        korea      watermelon  15000
참외      3        korea  oriental melon   1000
바나나     4  philippines          banana    500
레몬      5        korea           lemon   1500


### 4) boolean indexing
- loc에 bool 자료형의 Series를 대입하면 True 인 행 만 추출
- Series는 scala data 와 연산을 하게되면 broadcast 연산을 수행해서 Series로 결과를 리턴
- Series가 isin([값 나열])를 대입하면 값에 속한 것들만 True 그리고 나머지는 False 인 Series를 리턴

In [11]:
# price가 1000 이상인 데이터만 추출
print(item[item['price'] >= 1000])

    code manufacture            name  price
사과     1       korea           apple   1500
수박     2       korea      watermelon  15000
참외     3       korea  oriental melon   1000
레몬     5       korea           lemon   1500


In [12]:
# price가 1000 이나 1500 인 데이터
print(item[item['price'].isin([1000, 1500])])

    code manufacture            name  price
사과     1       korea           apple   1500
참외     3       korea  oriental melon   1000
레몬     5       korea           lemon   1500


## 4. Data 탐색 관련 함수
### 1) head: 정수를 대입해서 정수만큼의 데이터를 앞에서부터 리턴
### 2) tail: 정수를 대입해서 정수만큼의 데이터를 뒤에서부터 리턴
### 3) shape: 행과 열의 수를 tuple로 리턴
### 4) info: 데이터의 대략적인 개요
### 5) dtypes: 각 컬럼의 자료형을 리턴
### 6) describe: 기술 통계 정보를 리턴하는데 include=True 옵션을 추가하면 숫자가 아닌 컬럼의 정보도 리턴
### 7) count: 데이터 개수
### 8) value_counts: 각 값들의 개수인데 Series에만 사용
### 9) unique: 고유한 값 리턴

In [13]:
#데이터 탐색 함수
df = pd.read_csv("./data/auto-mpg.csv")
print(df.head())

    mpg  cyl  displ   hp  weight  accel  yr  origin                       name
0  18.0    8  307.0  130    3504   12.0  70       1  chevrolet chevelle malibu
1  15.0    8  350.0  165    3693   11.5  70       1          buick skylark 320
2  18.0    8  318.0  150    3436   11.0  70       1         plymouth satellite
3  16.0    8  304.0  150    3433   12.0  70       1              amc rebel sst
4  17.0    8  302.0  140    3449   10.5  70       1                ford torino


In [15]:
#기술 통계 정보 확인
print(df.describe()) #숫자 데이터의 통계

print()

print(df.describe(include='all')) #문자도 포함

              mpg         cyl       displ          hp       weight  \
count  392.000000  392.000000  392.000000  392.000000   392.000000   
mean    23.445918    5.471939  194.411990  104.469388  2977.584184   
std      7.805007    1.705783  104.644004   38.491160   849.402560   
min      9.000000    3.000000   68.000000   46.000000  1613.000000   
25%     17.000000    4.000000  105.000000   75.000000  2225.250000   
50%     22.750000    4.000000  151.000000   93.500000  2803.500000   
75%     29.000000    8.000000  275.750000  126.000000  3614.750000   
max     46.600000    8.000000  455.000000  230.000000  5140.000000   

            accel          yr      origin  
count  392.000000  392.000000  392.000000  
mean    15.541327   75.979592    1.576531  
std      2.758864    3.683737    0.805518  
min      8.000000   70.000000    1.000000  
25%     13.775000   73.000000    1.000000  
50%     15.500000   76.000000    1.000000  
75%     17.025000   79.000000    2.000000  
max     24.800000

In [16]:
#카테고리 형태의 데이터의 분포 확인
print(df['origin'].value_counts())

1    245
3     79
2     68
Name: origin, dtype: int64


## 5. 기술통계함수
- count, max, min, mean(평균), median(중간값), var(분산), std(표준편차)
- skew(비대칭도 - 왜도), kurt(첨도), sem(평균의 표준오차), mode(최빈값)
- argmin, argmax, idxmin, idxmax
- quantile(4분위수 - 25%, 50%, 75% 값)
- describe(요약 정보)
- cumsum, cumprod, cummax, cummin : 누적
- diff(앞 데이터와의 차이)
- pct_changes(앞 데이터와의 차이를 백분율로 출력)
- unique: 고유한 데이터들의 배열 리턴
- DataFrame에서 axis 옵션을 0이나 1을 설정하면 행과 열방향 반대
- skipna 옵션을 True로 설정하면 None 값을 제외하고 그렇지 않으면 None 값을 포함

In [17]:
#cyl 컬럼의 평균
print(df['cyl'].mean())

5.471938775510204


In [18]:
stock = pd.DataFrame({'다음':[1000, 1200, 1960]})
print(stock['다음'].diff()) #각 행의 차이

print()

print(stock['다음'].pct_change()) #각 행의 차이의 비율

0      NaN
1    200.0
2    760.0
Name: 다음, dtype: float64

0         NaN
1    0.200000
2    0.633333
Name: 다음, dtype: float64


## 6. 공분산과 상관계수
- 공분산은 cov() 
- 상관계수는 corr()
- Series를 이용할 때는 Series 객체가 함수를 호출하고 다른 Series 객체를 매개변수로 대입
- DataFrame은 함수만 호출하면 모든 컬럼의 공분산이나 상관계수를 출력

### 1) 공분산(covariance)
- 2개의 확률 변수의 상관정도를 나타내는 수치
- 분산은 하나의 확률 변수의 이산정도를 나타내는 수치
- 공분산은 2개의 컬럼 사이의 관계를 파악한 수치
>하나의 컬럼의 값이 증가하는 추세를 보일 때 같이 증가하면 양수이고 감소하면 음수가 됩니다.
>
>공분산은 하나의 값이 증가할 때 다른 하나의 값이 얼마나 증가하는지 또는 감소하는지를 수치화

### 2) 상관계수
- 공분산과 개념은 같은데 값의 범위를 -1 ~ 1까지로 제한
> 하나의 컬럼의 값이 증가할 때 동일한 비율로 증가하면 상관계수는 1
>
> 하나의 컬럼의 값이 감소할 때 동일한 비율로 증가하면 상관계수는 -1
>
> 절대값 0.6 이상이면 상관이 높다라고 하고 0.4정도 이상이면 상관이 있다라고 하고 0.4이하면 상관이 없다라고 합니다.
>
> 상관계수가 0인 경우는 상관이 없다라는 것이지 관계가 없다라는 표현은 아닙니다.
- 피어슨 상관계수: 비율을 가지고 구하는 상관계수 - 선형관계인 경우 적합
- 스피어만 상관계수: 값의 증가와 감소에만 집중하는 상관계수 - 비선형 관계에 적합
- 켄달 순위 상관계수: 순위를 가지고 상관계수를 구함

### 3) 상관계수 대신 사용하는 것들
- 산점도나 선 그래프를 그려서 데이터 간의 관계를 파악할 수 있습니다.

In [19]:
#데이터 탐색 함수
df = pd.read_csv("./data/auto-mpg.csv")
print(df.head())

    mpg  cyl  displ   hp  weight  accel  yr  origin                       name
0  18.0    8  307.0  130    3504   12.0  70       1  chevrolet chevelle malibu
1  15.0    8  350.0  165    3693   11.5  70       1          buick skylark 320
2  18.0    8  318.0  150    3436   11.0  70       1         plymouth satellite
3  16.0    8  304.0  150    3433   12.0  70       1              amc rebel sst
4  17.0    8  302.0  140    3449   10.5  70       1                ford torino


In [20]:
#weight 와 mpg 의 상관계수 확인
#둘다 음수가 나왔고 0.6이상이므로 음의 상관관계
print(df['weight'].corr(df['mpg']))

print()

print(df['hp'].corr(df['mpg'])) 

-0.8322442148315753

-0.7784267838977759


## 7.정렬(sort)
- sort_index()를 호출하면 인덱스 순서대로 오름차순 정렬
> axis=1을 대입하면 컬럼의 이름 순서대로 오름차순 정렬
>
> ascending에 True를 대입하면 내림차순 정렬
- Series 객체는 sort_values()를 호출
- DataFrame에서 특정 컬럼을 가지고 정렬을 하고자 하는 경우에는 sort_values 함수에 by 매개변수로 컬럼의 이름을 list로 대입하면 됩니다.

In [21]:
#Series의 정렬
print(df['hp']) 

print()

print(df['hp'].sort_values()) #오름차순 정렬

print()

print(df['hp'].sort_values(ascending=False)) #내림차순 정렬

0      130
1      165
2      150
3      150
4      140
      ... 
387     86
388     52
389     84
390     79
391     82
Name: hp, Length: 392, dtype: int64

19      46
101     46
324     48
323     48
242     48
      ... 
6      220
8      225
94     225
13     225
115    230
Name: hp, Length: 392, dtype: int64

115    230
13     225
94     225
8      225
6      220
      ... 
242     48
323     48
324     48
101     46
19      46
Name: hp, Length: 392, dtype: int64


## 8. rank
- 순위를 구해주는 함수
- asending을 False로 설정하면 내림차순으로 순위를 구함
- 동점인 경우의 순위는 method를 이용해서 설정할 수 있는데 max를 대입하면 큰 순위로 min을 대입하면 작은 순위로 그리고 first를 설정하면 먼저 등장한 데이터가 작은 순위로 대입

## 9. rename
- 컬럼이나 인덱스의 이름을 변경할 때 사용하는 함수
- index 나 columns 매개변수에 {기존이름:새로운이름...} 의 형태로 대입하면 index 나 columns를 수정해서 새로운 DataFrame을 리턴
- inplace=True 옵션을 추가하면 함수를 호출한 DataFrame을 변경합니다.

## 10. 인덱스 재구성
- reindex 속성을 이용해서 인덱스를 재배치 가능
- set_index('열이름' 또는 열이름의 list): 열로 index로 생성하는데 열은 데이터에서 제거
- reset_index(): 인덱스가 제거되고 0부터 시작하는 숫자로 초기화 : 그룹화에서 많이 사용

In [25]:
item = pd.read_csv('./data/item.csv')
print(item)

#순위 출력
print(item.rank())
print(item.rank(method='min'))

   code  manufacture            name  price
0     1        korea           apple   1500
1     2        korea      watermelon  15000
2     3        korea  oriental melon   1000
3     4  philippines          banana    500
4     5        korea           lemon   1500
5     6        korea           mango    700
   code  manufacture  name  price
0   1.0          3.0   1.0    4.5
1   2.0          3.0   6.0    6.0
2   3.0          3.0   5.0    3.0
3   4.0          6.0   2.0    1.0
4   5.0          3.0   3.0    4.5
5   6.0          3.0   4.0    2.0
   code  manufacture  name  price
0   1.0          1.0   1.0    4.0
1   2.0          1.0   6.0    6.0
2   3.0          1.0   5.0    3.0
3   4.0          6.0   2.0    1.0
4   5.0          1.0   3.0    4.0
5   6.0          1.0   4.0    2.0
