# Pandas Basic

In [1]:
import pandas as pd

### Series

In [10]:
a = pd.Series(['a','b','c'], index=['no4','no2','no3']) # index는 keyword parameter로 설정할 수 있음.

In [11]:
a

no4    a
no2    b
no3    c
dtype: object

In [12]:
a[0] # 지정한 index가 아니더라도 0부터 시작되는 정수 인덱스 활용도 가능함.

'a'

In [13]:
a['no2']

'b'

In [14]:
a == 'a'

no4     True
no2    False
no3    False
dtype: bool

In [15]:
a[a == 'a'] # numpy.array와 마찬가지로 Boolean Index 사용 가능.

no4    a
dtype: object

Series 자료형은 중요도가 낮으므로 여기에서 대충 마무리~!

### DataFrame

In [16]:
temp = {"수업":["국어", "영어","수학"], # DataFrame의 base 자료형은 dictionary
       "숙제":[True, False, False],
       "학점":[2,3,3]}

df = pd.DataFrame(temp, index=['1교시','2교시','3교시']) # Series에서와 마찬가지로 index 매길 수 있음.

In [9]:
df # dictionary에서의 개별 키+밸류들이, DataFrame의 각 column으로 들어간 모습 확인!

Unnamed: 0,수업,숙제,학점
1교시,국어,True,2
2교시,영어,False,3
3교시,수학,False,3


In [18]:
df['학점'] # 각 칼럼의 index를 [] 안에 넣음으로써 인덱싱 가능. ## row의 index를 넣어서 인덱싱 하는 것은 불가능.

1교시    2
2교시    3
3교시    3
Name: 학점, dtype: int64

In [14]:
df[['수업', '학점']] # 슬라이싱은 인덱스들을 콤마로 구분하여 [[]] 안에 넣기.

Unnamed: 0,수업,학점
1교시,국어,2
2교시,영어,3
3교시,수학,3


In [15]:
df[df['숙제'] == False]  # Boolean 인덱싱 역시 가능.

Unnamed: 0,수업,숙제,학점
2교시,영어,False,3
3교시,수학,False,3


In [13]:
df.iloc[1, 0] # iloc 매서드 사용 시 정수 인덱스를 이용해 데이터 접근 가능. row - column 인덱스 순.

'영어'

In [14]:
df.loc['2교시', '수업'] # loc 매서드는 지정 인덱스를 이용해 접근.

'영어'

### DataFrame 조작

In [15]:
df['로드'] = df['숙제'] * df['학점'] # column의 추가는 dictionary에서 새로운 key-value 쌍을 추가하는 것과 동일.
                                    # 단 우변에 오는 자료의 원소의 개수가 기존 DataFrame의 index 개수와 동일해야 함.
                                    # 참고로 numpy.array처럼 사칙연산 element-wise로 됩니다.

In [16]:
df

Unnamed: 0,수업,숙제,학점,로드
1교시,국어,True,2,2
2교시,영어,False,3,0
3교시,수학,False,3,0


In [17]:
del df['로드'] # 삭제도 동일

In [18]:
df

Unnamed: 0,수업,숙제,학점
1교시,국어,True,2
2교시,영어,False,3
3교시,수학,False,3


In [19]:
df.loc['4교시', '수업'] = '과학' # loc 이용해서 데이터 추가할 수도 있음.

In [20]:
df

Unnamed: 0,수업,숙제,학점
1교시,국어,True,2.0
2교시,영어,False,3.0
3교시,수학,False,3.0
4교시,과학,,


In [21]:
df.append(['기가', True, 3.0]) # 그냥 list를 append하는 방식은 안 됨.

Unnamed: 0,수업,숙제,학점,0
1교시,국어,True,2.0,
2교시,영어,False,3.0,
3교시,수학,False,3.0,
4교시,과학,,,
0,,,,기가
1,,,,True
2,,,,3


In [22]:
df2 = pd.DataFrame({'수업':'기가', '숙제':True, '학점':3.0}, index = ['5교시']) # 아예 새로운 DataFrame을 만들어서
df = df.append(df2) # 이를 append하는 방식이 가장 깔끔함.

In [23]:
df

Unnamed: 0,수업,숙제,학점
1교시,국어,True,2.0
2교시,영어,False,3.0
3교시,수학,False,3.0
4교시,과학,,
5교시,기가,True,3.0


In [20]:
df = df.reset_index().iloc[:,1:] # reset_index: 기존의 index를 새로운 column으로 추가하고, index를 0, 1, 2,...로 초기화하는 매서드

In [21]:
df

Unnamed: 0,수업,숙제,학점
0,국어,True,2
1,영어,False,3
2,수학,False,3


In [22]:
df3 = pd.DataFrame({'수업':['체육'], '숙제':[False], '학점':[1.0]})

In [23]:
df3

Unnamed: 0,수업,숙제,학점
0,체육,False,1.0


In [24]:
df.append(df3) # 만약 이와 같은 df3를 df에 append한다면? -> 인덱스가 꼬이기 시작함.

Unnamed: 0,수업,숙제,학점
0,국어,True,2.0
1,영어,False,3.0
2,수학,False,3.0
0,체육,False,1.0


In [25]:
df.append(df3, ignore_index=True) # 이럴 땐 ignore_index parameter를 True로 설정.

Unnamed: 0,수업,숙제,학점
0,국어,True,2.0
1,영어,False,3.0
2,수학,False,3.0
3,체육,False,1.0


하지만 현실은 append 매서드 잘 안 쓰니까 참고로만 알아두시기 바랍니다.

그리고 보시다시피 row 조작은 너무 번거로워서, 초기 DataFrame 만들 때 최대한 잘 만들어두는 것이 좋아요.

### csv 파일 입출력

In [27]:
df = pd.read_csv('C:\네이버.csv', engine = 'python', index_col = 0)
# csv 파일을 읽어서 DataFrame으로 반환하는 함수.
# 파일에 한글이 섞인 경우 engine = 'python' 파라미터를 주세요.
# index_col은 csv 파일 내에서 index로 지정하고 싶은 column의 번호를 주는 것. 별도 설정하지 않으면, 0, 1,...를 index로 설정합니다.

In [28]:
df.head() # head 매서드는 DataFrame의 앞 부분만 도시해주는 함수.

Unnamed: 0,일자,시가,저가,고가,종가,거래량
0,2013-01-02,228933,225456,230919,225953,155593
1,2013-01-03,227443,217511,230422,219497,358689
2,2013-01-04,219994,219001,224960,224960,236307
3,2013-01-07,227939,227443,238865,238368,407678
4,2013-01-08,238368,234395,239858,235388,199924


In [29]:
df.to_csv('C:\네이버.csv', encoding = 'EUC-KR') # csv 파일을 출력하는 것은 DataFrame의 to_csv 매서드를 사용함.
# DataFrame 내에 한글이 포함된 경우에는 encoding = 'utf-8' or 'EUC-KR' 파라미터를 할당해 주세요.

### DataFrame 주요 매서드

In [30]:
df['종가'].mean() # DataFrame 내 칼럼에 대해 mean(), var(), std(), min(), max() 사용 가능.

660597.9845402767

In [31]:
df['종가'].apply(lambda x: x/10) # apply 매서드는 선택 column에 대해 함수를 적용하는 매서드.

0       22595.3
1       21949.7
2       22496.0
3       23836.8
4       23538.8
5       23191.2
6       22744.3
7       22694.6
8       23538.8
9       23290.5
10      23042.2
11      23290.5
12      23538.8
13      24134.8
14      24482.4
15      24581.7
16      24532.0
17      24681.0
18      24730.7
19      24085.1
20      24283.7
21      23936.1
22      24432.7
23      24134.8
24      22992.6
25      22496.0
26      23191.2
27      23439.5
28      23340.2
29      24184.4
         ...   
1199    80200.0
1200    80500.0
1201    80100.0
1202    80800.0
1203    80100.0
1204    80100.0
1205    81000.0
1206    79500.0
1207    80700.0
1208    81200.0
1209    80000.0
1210    83100.0
1211    83900.0
1212    83300.0
1213    82600.0
1214    83700.0
1215    83000.0
1216    82600.0
1217    82800.0
1218    84100.0
1219    83500.0
1220    84400.0
1221    86000.0
1222    85500.0
1223    84900.0
1224    84200.0
1225    86200.0
1226    87400.0
1227    87700.0
1228    87000.0
Name: 종가, Length: 1229, 

In [33]:
len(df)

1229

In [32]:
import numpy as np
df['그룹'] = np.random.randint(0, 3, size = len(df))

In [35]:
df.head()

Unnamed: 0,일자,시가,저가,고가,종가,거래량,그룹
0,2013-01-02,228933,225456,230919,225953,155593,2
1,2013-01-03,227443,217511,230422,219497,358689,0
2,2013-01-04,219994,219001,224960,224960,236307,0
3,2013-01-07,227939,227443,238865,238368,407678,2
4,2013-01-08,238368,234395,239858,235388,199924,1


In [36]:
df.groupby(['그룹']).groups # groupby 매서드를 사용 시 해당 column의 같은 value를 갖는 row끼리 묶임.
                            # groups 내장 변수는 각 그룹의 인덱스 리스트를 반환함.

{0: Int64Index([   1,    2,    7,   12,   17,   18,   19,   27,   30,   33,
             ...
             1199, 1202, 1206, 1209, 1210, 1212, 1213, 1217, 1219, 1224],
            dtype='int64', length=404),
 1: Int64Index([   4,    6,    9,   10,   14,   16,   20,   21,   22,   23,
             ...
             1195, 1205, 1207, 1211, 1214, 1218, 1221, 1225, 1227, 1228],
            dtype='int64', length=450),
 2: Int64Index([   0,    3,    5,    8,   11,   13,   15,   24,   25,   26,
             ...
             1201, 1203, 1204, 1208, 1215, 1216, 1220, 1222, 1223, 1226],
            dtype='int64', length=375)}

In [37]:
df.groupby(['그룹'])['거래량'].mean() # 이런 식으로 각 그룹별 데이터의 요약 정보 등을 얻을 수 있음.
                                    # idx = df.groupby['그룹'].groups[2]
                                    # df.iloc[idx, 5]
                                    # 이런 식으로 만들어도 상관 없음.

그룹
0    141503.470297
1    125371.397778
2    137015.176000
Name: 거래량, dtype: float64