# 판다스 기초
## 판다스(pandas)
- 고수준의 자료구조와 파이썬에서 쉽고 빠르게 사용할 수 있는 데이터 분석 도구를 포함
- 판다스는 넘파이의 방식을 많이 차용
- 다만, 판다스는 표 형식의 데이터나 다양한 형태의 데이터를 다루는 데 초점
- 넘파이는 단일 산술 배열 데이터를 다루는 데 초점
- 판다스 자료구조는 Series, DataFrame으로 대부분의 애플리케이션에서 사용 가능

In [1]:
import pandas as pd # pandas 라이브러리를 pd객체로 import
import numpy as np 
from pandas import Series, DataFrame # pandas에서 Series, DataFrame import

## 판다스 자료구조 소개
- Series, DataFrame으로 대부분의 애플리케이션에서 사용 가능

### Series
- 객체를 저장할 수 있는 1차원 배열과 유사한 자료구조
- 어떠한 NumPy 자료형이라도 저장 가능
- Index(색인) 형태로 데이터 접근
- 길이가 N인 Series는 0 ~ N-1의 인덱스 값을 가짐

In [2]:
obj = pd.Series([4, 7, -5, 3]) # 배열 데이터로 Series 객체 생성
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
obj.values # 배열값 리턴

array([ 4,  7, -5,  3], dtype=int64)

In [4]:
obj.index  # 인덱스값 리턴

RangeIndex(start=0, stop=4, step=1)

In [5]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c']) 
# index를 원하는 형태로 지정 가능
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [6]:
obj2['a'] # 'a' 인덱스 데이터 출력

-5

In [7]:
obj2['d'] = 6 # 'd' 인덱스 데이터 6으로 변경
obj2[['c', 'a', 'd']] # 'c', 'a', 'd' 인덱스 데이터 출력

c    3
a   -5
d    6
dtype: int64

In [8]:
obj2[obj2 > 0] # 0보다 큰 데이터만 출력

d    6
b    7
c    3
dtype: int64

In [9]:
obj2 * 2 # 각 데이터에 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [10]:
np.exp(obj2) # 넘파이의 배열 연산을 수행해도 색인-값이 형태가 유지됨

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [11]:
sdata = {'서울': 9400000, '경기': 13000000, '인천': 2900000, '부산': 3300000}
obj3 = pd.Series(sdata) # 파이썬 사전형 데이터를 Series 객체로 생성
obj3

서울     9400000
경기    13000000
인천     2900000
부산     3300000
dtype: int64

In [12]:
states = ['광주', '서울', '경기', '부산']
obj4 = pd.Series(sdata, index=states) # sdata, states로 객체 생성
obj4

광주           NaN
서울     9400000.0
경기    13000000.0
부산     3300000.0
dtype: float64

In [13]:
# NaN은 누락된 값(NA)으로 취급.
pd.isnull(obj4) # isnull() : 누락된 데이터 인지 확인

광주     True
서울    False
경기    False
부산    False
dtype: bool

In [14]:
pd.notnull(obj4) # notnull() : 누락된 데이터가 아닌지 확인

광주    False
서울     True
경기     True
부산     True
dtype: bool

In [15]:
obj4.isnull()

광주     True
서울    False
경기    False
부산    False
dtype: bool

In [16]:
print(obj3)
print(obj4)
obj3 + obj4 # 두 객체 데이터를 연결

서울     9400000
경기    13000000
인천     2900000
부산     3300000
dtype: int64
광주           NaN
서울     9400000.0
경기    13000000.0
부산     3300000.0
dtype: float64


경기    26000000.0
광주           NaN
부산     6600000.0
서울    18800000.0
인천           NaN
dtype: float64

In [17]:
obj5 = pd.Series([3, 4, -2, 3]) # 배열 데이터로 Series 객체 생성
obj5
print(obj5)
obj5.index = ['진혁', '성욱', '지훈', '명훈'] # 기존 데이터에 색인을 변경
obj5

0    3
1    4
2   -2
3    3
dtype: int64


진혁    3
성욱    4
지훈   -2
명훈    3
dtype: int64

### DataFrame
- 스프레드시트(표) 형식의 자료구조
- 여러 개의 열을 생성할 수 있고,각 컬럼은 서로 다른 종류의 값을 저장

In [18]:
data = {'state': ['경기', '경기', '경기', '서울', '서울', '서울'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'temp': [24, 25, 24, 26, 27, 28]}
frame = pd.DataFrame(data) # DataFrame() : 데이터 프레임으로 변경

In [19]:
frame

Unnamed: 0,state,year,temp
0,경기,2000,24
1,경기,2001,25
2,경기,2002,24
3,서울,2001,26
4,서울,2002,27
5,서울,2003,28


In [20]:
frame.head() # 5개의 행만 출력

Unnamed: 0,state,year,temp
0,경기,2000,24
1,경기,2001,25
2,경기,2002,24
3,서울,2001,26
4,서울,2002,27


In [21]:
pd.DataFrame(data, columns=['year', 'state', 'temp']) # 각 열 데이터의 위치 변경

Unnamed: 0,year,state,temp
0,2000,경기,24
1,2001,경기,25
2,2002,경기,24
3,2001,서울,26
4,2002,서울,27
5,2003,서울,28


In [22]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'temp', 'population'],
                      index=['1', '2', '3', '4',
                             '5', '6'])
# index와 columns를 생성하고 데이터를 저장한 데이터프레임
frame2

Unnamed: 0,year,state,temp,population
1,2000,경기,24,
2,2001,경기,25,
3,2002,경기,24,
4,2001,서울,26,
5,2002,서울,27,
6,2003,서울,28,


In [23]:
frame2.columns

Index(['year', 'state', 'temp', 'population'], dtype='object')

In [24]:
frame2['state'] # 사전 형식의 접근법
frame2.year # 속성 형식의 접근법
# Tab을 이용한 자동완성 제공

1    2000
2    2001
3    2002
4    2001
5    2002
6    2003
Name: year, dtype: int64

In [25]:
frame2.loc['1'] # loc : 행 출력 

year          2000
state           경기
temp            24
population     NaN
Name: 1, dtype: object

In [26]:
frame2['population'] = 30000 # population열 모든 데이터에 30000 값 저장
frame2

Unnamed: 0,year,state,temp,population
1,2000,경기,24,30000
2,2001,경기,25,30000
3,2002,경기,24,30000
4,2001,서울,26,30000
5,2002,서울,27,30000
6,2003,서울,28,30000


In [27]:
frame2['population'] = np.arange(10000, 70000, 10000) # dept열 모든 데이터에 순차 데이터 저장
frame2

Unnamed: 0,year,state,temp,population
1,2000,경기,24,10000
2,2001,경기,25,20000
3,2002,경기,24,30000
4,2001,서울,26,40000
5,2002,서울,27,50000
6,2003,서울,28,60000


In [28]:
val = pd.Series([30000, 32000, 34000], index=['2', '3', '4'])
print(val)
frame2['population'] = val
frame2 # debt열의 특정 행에만 데이터 저장

2    30000
3    32000
4    34000
dtype: int64


Unnamed: 0,year,state,temp,population
1,2000,경기,24,
2,2001,경기,25,30000.0
3,2002,경기,24,32000.0
4,2001,서울,26,34000.0
5,2002,서울,27,
6,2003,서울,28,


In [29]:
# 즉석 퀴즈.
# frame2 데이터에 열(temp)의 각 행, 
# 1 - 1.1, 2 - 2.1, 3 - 3.1 데이터를 저장하시오.
val = pd.Series([1.1, 2.1, 3.1], index=['1', '2', '3'])
print(val)
frame2['temp'] = val
frame2 # gdp열의 특정 행에만 데이터 저장

1    1.1
2    2.1
3    3.1
dtype: float64


Unnamed: 0,year,state,temp,population
1,2000,경기,1.1,
2,2001,경기,2.1,30000.0
3,2002,경기,3.1,32000.0
4,2001,서울,,34000.0
5,2002,서울,,
6,2003,서울,,


In [30]:
# 열 추가
frame2['city'] = frame2.state == '서울'
frame2 # state 데이터가 '서울' 일경우 'city'열에 true

Unnamed: 0,year,state,temp,population,city
1,2000,경기,1.1,,False
2,2001,경기,2.1,30000.0,False
3,2002,경기,3.1,32000.0,False
4,2001,서울,,34000.0,True
5,2002,서울,,,True
6,2003,서울,,,True


In [31]:
del frame2['city'] # del 키워드 : 컬럼 삭제
frame2.columns

Index(['year', 'state', 'temp', 'population'], dtype='object')

In [32]:
frame2.T

Unnamed: 0,1,2,3,4,5,6
year,2000,2001,2002,2001,2002,2003
state,경기,경기,경기,서울,서울,서울
temp,1.1,2.1,3.1,,,
population,,30000.0,32000.0,34000.0,,


### 인덱스 객체
- 표 형식의 데이터에서 각 행과 열에 대한 이름과 메타데이터를 저장하는 객체

In [33]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
print(obj)
index = obj.index
print(index)
index[1:]

a    0
b    1
c    2
dtype: int64
Index(['a', 'b', 'c'], dtype='object')


Index(['b', 'c'], dtype='object')

In [34]:
index[1] = 'd'  # TypeError. 인덱스 객체는 변경 불가능

TypeError: Index does not support mutable operations

In [35]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [36]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
print(obj2)
obj2.index is labels # is : 같은지 확인

0    1.5
1   -2.5
2    0.0
dtype: float64


True

In [37]:
'popu' in frame2.columns # in : 포함하는지 확인

False

In [38]:
2003 in frame2.index

False

## 주요 기능

### 재색인
- reindex : 새로운 인덱스에 맞도록 객체를 새로 생성
- 인덱스 객체는 변경 불가능이기 때문에 reindex() 메소드를 사용

In [39]:
# 인덱스를 지정한 Series 데이터
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [40]:
# obj의 인덱스를 재정의한 Series 데이터
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [41]:
# 누락된 데이터 채우기
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
print(obj3)
obj3.reindex(range(6), method='ffill') 
# ffill : 누락된 값을 직전의 값으로 채우는 메소드

0      blue
2    purple
4    yellow
dtype: object


0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [42]:
# 3X3 데이터 프레임 생성
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['서울', '경기', '부산'])
frame

Unnamed: 0,서울,경기,부산
a,0,1,2
c,3,4,5
d,6,7,8


In [43]:
# 인덱스를 재정의한 dataframe
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,서울,경기,부산
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [44]:
# 열(columns) 인덱스를 재정의한 dataframe
states = ['서울', '대전', '부산']
frame.reindex(columns=states)

Unnamed: 0,서울,대전,부산
a,0,,2
c,3,,5
d,6,,8


### 하나의 행 또는 열 삭제하기

In [45]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [46]:
new_obj = obj.drop('c') # 'c' 행 삭제
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [47]:
obj.drop(['d', 'c']) # 'd', 'c' 행 삭제

a    0.0
b    1.0
e    4.0
dtype: float64

In [48]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['서울', '대전', '부산', '대구'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
서울,0,1,2,3
대전,4,5,6,7
부산,8,9,10,11
대구,12,13,14,15


In [49]:
data.drop(['대전', '서울'])

Unnamed: 0,one,two,three,four
부산,8,9,10,11
대구,12,13,14,15


In [50]:
data.drop('two', axis=1)

Unnamed: 0,one,three,four
서울,0,2,3
대전,4,6,7
부산,8,10,11
대구,12,14,15


In [51]:
data.drop(['two', 'four'], axis=1)

Unnamed: 0,one,three
서울,0,2
대전,4,6
부산,8,10
대구,12,14


In [52]:
obj.drop('c', inplace=True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

### 색인, 선택, 필터

In [53]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['서울', '대전', '부산', '대구'],
                    columns=['1', '2', '3', '4'])
data

Unnamed: 0,1,2,3,4
서울,0,1,2,3
대전,4,5,6,7
부산,8,9,10,11
대구,12,13,14,15


#### loc와 iloc로 선택하기
- loc : 축 이름으로 행과 열 선택
- iloc : 정수 인덱스로 행과 열 선택

In [54]:
data

Unnamed: 0,1,2,3,4
서울,0,1,2,3
대전,4,5,6,7
부산,8,9,10,11
대구,12,13,14,15


In [55]:
data.loc['대전', ['2', '3']] # 대전 행 선택, 2, 3 열 선택

2    5
3    6
Name: 대전, dtype: int32

In [56]:
data.iloc[2, [3, 0, 1]] # 2행의 3, 0, 1 열 데이터 선택

4    11
1     8
2     9
Name: 부산, dtype: int32

In [57]:
data.iloc[2] # 2행 데이터 선택

1     8
2     9
3    10
4    11
Name: 부산, dtype: int32

In [58]:
data.iloc[[1, 2], [3, 0, 1]] # 1,2 행의 3, 0, 1 열 데이터 선택

Unnamed: 0,4,1,2
대전,7,4,5
부산,11,8,9


In [59]:
data.loc[:'부산', '2'] # '부산' 행까지 선택 후 '2' 열 데이터 선택

서울    1
대전    5
부산    9
Name: 2, dtype: int32

In [60]:
data.iloc[:,:3] # 모든 행 선택 및 0~2열 선택

Unnamed: 0,1,2,3
서울,0,1,2
대전,4,5,6
부산,8,9,10
대구,12,13,14


In [61]:
data.iloc[:, :3][data.iloc[:, 2] > 6] 
# 모든 행 선택 및 0~2열 선택 후 3 열의 데이터가 6 초과인 행 출력

Unnamed: 0,1,2,3
부산,8,9,10
대구,12,13,14


### 산술 연산과 데이터 정렬
- 객체 간의 산술 연산이 가능

In [62]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
print(s1)
print(s2)

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64
a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64


In [63]:
s1 + s2 # 인덱스 짝이 맞지 않으면 인덱스가 통합됨

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [64]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['서울', '부산', '광주'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['울산', '서울', '부산', '인천'])
df1 # list('bcd') : bcd 데이터 순서로 정렬하여 생성

Unnamed: 0,b,c,d
서울,0.0,1.0,2.0
부산,3.0,4.0,5.0
광주,6.0,7.0,8.0


In [65]:
df2

Unnamed: 0,b,d,e
울산,0.0,1.0,2.0
서울,3.0,4.0,5.0
부산,6.0,7.0,8.0
인천,9.0,10.0,11.0


In [66]:
df1 + df2

Unnamed: 0,b,c,d,e
광주,,,,
부산,9.0,,12.0,
서울,3.0,,6.0,
울산,,,,
인천,,,,


#### 산술 연산 메소드에 채워 넣을 값 지정하기

In [67]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))
print(df1)
print(df2)
df2.loc[1, 'b'] = np.nan # (1, b) 위치에 NaN 저장 

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0
      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   6.0   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0


In [68]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [69]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [70]:
df1.add(df2, fill_value=0) # add() : 덧셈 메소드
# fill_value=0 : 값이 없거나 NaN값을 0으로 채워넣음

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


### 함수 적용과 매핑

In [71]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['서울', '대전', '부산', '대구'])
frame
np.abs(frame) 

Unnamed: 0,b,d,e
서울,0.184402,0.087074,0.120982
대전,0.332854,0.382019,0.914411
부산,0.375085,0.391727,0.010364
대구,0.382671,1.406053,0.928862


In [72]:
f = lambda x: x.max() - x.min() # lambda : 익명 함수. 함수를 간략화한 기능
# 요소들의 최대값 - 최소값을 계산하는 함수
print(frame)
frame.apply(f) # apply() : 함수 적용

           b         d         e
서울  0.184402  0.087074  0.120982
대전  0.332854 -0.382019  0.914411
부산  0.375085  0.391727 -0.010364
대구 -0.382671 -1.406053 -0.928862


b    0.757756
d    1.797780
e    1.843273
dtype: float64

In [73]:
frame.apply(f, axis='columns') # 각 로우에 대해 적용

서울    0.097328
대전    1.296430
부산    0.402091
대구    1.023381
dtype: float64

In [74]:
def f(x):
    return pd.Series([x.min(), x.max(), x.mean()], index=['min', 'max', 'mean'])
print(frame)
frame.apply(f)

           b         d         e
서울  0.184402  0.087074  0.120982
대전  0.332854 -0.382019  0.914411
부산  0.375085  0.391727 -0.010364
대구 -0.382671 -1.406053 -0.928862


Unnamed: 0,b,d,e
min,-0.382671,-1.406053,-0.928862
max,0.375085,0.391727,0.914411
mean,0.127417,-0.327318,0.024042


### 정렬과 순위

In [75]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
print(obj)
obj.sort_index() # sort_index() : 인덱스로 정렬

d    0
a    1
b    2
c    3
dtype: int64


a    1
b    2
c    3
d    0
dtype: int64

In [76]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
print(frame)
frame.sort_index()

       d  a  b  c
three  0  1  2  3
one    4  5  6  7


Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [77]:
frame.sort_index(axis='columns', ascending=True) # ascending = False : 내림차순

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [78]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values() # sort_value() : 값으로 정렬

2   -3
3    2
0    4
1    7
dtype: int64

In [79]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [80]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
print(frame)
frame.sort_values(by='b') # by : 특정 열만 정렬

   b  a
0  4  0
1  7  1
2 -3  0
3  2  1


Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [81]:
frame.sort_values(by=['a', 'b']) # a, b 열 정렬

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [82]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
print(obj)
obj.rank() # rank() : 평균 순위 함수

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64


0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [83]:
obj.rank(method='first') # 데이터 상에서 나타나는 순서에 따라 순위 지정

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [84]:
# 동률일 경우 그룹 내에서 높은 순위를 적용
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

#### 순위 동률 처리 메소드
- average : 기본값. 같은 값을 가지는 항목들의 평균값을 순위로 삼는다.
- min : 같은 값을 가지는 그룹을 낮은 순위로 매긴다.
- max : 같은 값을 가지는 그룹을 높은 순위로 매긴다.
- first : 데이터 내의 위치에 따라 순위를 매긴다.
- dense : method='min'과 같지만 같은 그룹 내에서 모두 같은 순위를 적용하지 않고 1씩 증가시킨다.

In [85]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                      'c': [-2, 5, 8, -2.5]})
print(frame)
frame.rank(axis='columns') # 열 기준으로 순위 지정

     b  a    c
0  4.3  0 -2.0
1  7.0  1  5.0
2 -3.0  0  8.0
3  2.0  1 -2.5


Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


### 중복 색인

In [86]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [87]:
obj.index.is_unique

False

In [88]:
obj['a']
obj['c']

4

In [89]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df
df.loc['b']

Unnamed: 0,0,1,2
b,1.583572,0.885395,-0.020677
b,-1.386658,-0.178926,-0.149585


## 기술 통계 계산과 요약
- 판다스 객체는 일반적인 수학 메소드와 통계 메소드를 포함
- Series 또는 DataFrame의 로우나 컬럼에서 단일 값을 구하는 기능
- 넘파이와 비교하여 처음부터 누락된 데이터를 제외하도록 설계

In [90]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [91]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [92]:
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [93]:
df.mean(axis='columns', skipna=False) # 누락된 값을 제외할 것인지 정하는 옵션

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [94]:
df.idxmax() #  idmax() : 최대값을 갖고 있는 인덱스 출력

one    b
two    d
dtype: object

In [95]:
df.cumsum() # cumsum() : 누적 연산

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [96]:
df.describe() # describe() : 여러 개의 통계 결과를 출력

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [97]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

### 상관관계와 공분산
- 상관관계(Correlation coefficient) : 두 변수는 서로 독립적인 관계로부터 서로 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 의미
- 공분산(Covariance) : 두 개의 확률 변수의 상관정도를 나타내는 값
- 상관관계나 공분산 같은 요약 통계 계산은 두 쌍의 인자를 필요로 함

In [10]:
pip install yfinance

Collecting yfinance
  Downloading yfinance-0.2.40-py2.py3-none-any.whl.metadata (11 kB)
Collecting multitasking>=0.0.7 (from yfinance)
  Downloading multitasking-0.0.11-py3-none-any.whl.metadata (5.5 kB)
Collecting frozendict>=2.3.4 (from yfinance)
  Downloading frozendict-2.4.4-py311-none-any.whl.metadata (23 kB)
Collecting peewee>=3.16.2 (from yfinance)
  Downloading peewee-3.17.5.tar.gz (3.0 MB)
     ---------------------------------------- 0.0/3.0 MB ? eta -:--:--
     -- ------------------------------------- 0.2/3.0 MB 3.7 MB/s eta 0:00:01
     ------------ --------------------------- 0.9/3.0 MB 9.4 MB/s eta 0:00:01
     ------------------------- -------------- 1.9/3.0 MB 13.4 MB/s eta 0:00:01
     ---------------------------------------  2.9/3.0 MB 17.1 MB/s eta 0:00:01
     ---------------------------------------- 3.0/3.0 MB 15.7 MB/s eta 0:00:00
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build 

In [13]:
# yfinace : Yahoo에서 제공하는 주식 정보 데이터 마켓
import yfinance as yf
 
# 시작 날짜와 종료 날짜 설정
start_date = '2023-01-01'
end_date = '2023-12-31'
 
# Set the ticker
ticker = ['GOOGL', 'AAPL', 'MSFT' , 'NVDA']
 
# Get the data
data = yf.download(ticker, start_date, end_date)

type(data)
 
# Print the last 5 rows
# print(data.tail())
print(data['Close'])

[*********************100%%**********************]  4 of 4 completed

Ticker            AAPL       GOOGL        MSFT        NVDA
Date                                                      
2023-01-03  125.070000   89.120003  239.580002  143.149994
2023-01-04  126.360001   88.080002  229.100006  147.490005
2023-01-05  125.019997   86.199997  222.309998  142.649994
2023-01-06  129.619995   87.339996  224.929993  148.589996
2023-01-09  130.149994   88.019997  227.119995  156.279999
...                ...         ...         ...         ...
2023-12-22  193.600006  141.490005  374.579987  488.299988
2023-12-26  193.050003  141.520004  374.660004  492.790009
2023-12-27  193.149994  140.369995  374.070007  494.170013
2023-12-28  193.580002  140.229996  375.279999  495.220001
2023-12-29  192.529999  139.690002  376.040009  495.220001

[250 rows x 4 columns]





In [14]:
price = data['Close']
pct = price.pct_change() # 각 주식의 퍼센트 변화율 측정
pct.tail()

Ticker,AAPL,GOOGL,MSFT,NVDA
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023-12-22,-0.005547,0.00762,0.002784,-0.003266
2023-12-26,-0.002841,0.000212,0.000214,0.009195
2023-12-27,0.000518,-0.008126,-0.001575,0.0028
2023-12-28,0.002226,-0.000997,0.003235,0.002125
2023-12-29,-0.005424,-0.003851,0.002025,0.0


In [17]:
# 상관계수 r : 0 < r ≤ + 1 이면 양의 상관, -1 ≤ r < 0이면 음의 상관, r = 0이면 무상관
pct['MSFT'].corr(pct['MSFT']) # 상관관계 분석

1.0

In [16]:
pct['MSFT'].cov(pct['NVDA']) # 공분산 분석

0.00025982220378805327

In [17]:
pct.corr() # 전체 상관관계 출력

Unnamed: 0,AAPL,GOOGL,MDB,MSFT
AAPL,1.0,0.79787,0.572614,0.824691
GOOGL,0.79787,1.0,0.567501,0.850208
MDB,0.572614,0.567501,1.0,0.605945
MSFT,0.824691,0.850208,0.605945,1.0


In [18]:
pct.cov() # 전체 공분산 출력

Unnamed: 0,AAPL,GOOGL,MDB,MSFT
AAPL,0.000505,0.000437,0.000739,0.000413
GOOGL,0.000437,0.000595,0.000795,0.000463
MDB,0.000739,0.000795,0.003296,0.000776
MSFT,0.000413,0.000463,0.000776,0.000498


### 연습문제

#### 연습문제1(데이터 프레임)
- 아래 연락처 데이터프레임(data)에서 '집주소' 열을 추가하고, 둘리와 도우너의 집주소에 각각 '서울'을 저장하시오.

In [19]:
data = {'이름': ['둘리', '도우너', '또치', '고길동'],
        '전화번호': ['010-1111', '010-2222', '010-3333', '010-4444'],
        '이메일': ['dooly@hoy.com', 'douner@ggandda.com', 'ddochi@bird.com', 'gildonggo@swordmaster.com']}
frame = pd.DataFrame(data) 
frame

NameError: name 'pd' is not defined

In [None]:
# '집주소 열 추가'
frame = pd.DataFrame(data, columns=['이름', '전화번호', '이메일', '집주소'])
frame

In [20]:
# 둘리와 도우너의 집주소에 '서울' 저장
val = pd.Series(['서울', '서울'], index=[0, 1])
frame['집주소'] = val
frame

NameError: name 'pd' is not defined

#### 연습문제2
- 연습문제1의 데이터 프레임(frame)에서 고길동과 도우너의 이름, 전화번호, 이메일을 열을 출력하시오.

In [122]:
frame.iloc[[3, 1], [0, 1, 2]]

Unnamed: 0,이름,전화번호,이메일
3,고길동,010-4444,gildonggo@swordmaster.com
1,도우너,010-2222,douner@ggandda.com
