## 판다스 자료구조

### 시리즈(Series)

In [1]:
import pandas as pd
import numpy as np

rng = np.random.RandomState(1234)

In [2]:
obj = pd.Series([-5,0, 10, 3])
obj

0    -5
1     0
2    10
3     3
dtype: int64

In [3]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [4]:
obj.values

array([-5,  0, 10,  3], dtype=int64)

In [5]:
# 인덱스 직접 지정
obj2 = pd.Series([-5, 0, 10, 3], index=['a', 'b', 'd', 'c'])
obj2

a    -5
b     0
d    10
c     3
dtype: int64

In [6]:
obj2.index

Index(['a', 'b', 'd', 'c'], dtype='object')

In [7]:
# 인덱스 사용하여 조회
obj2['a']

-5

In [8]:
obj2['c'] = -12

In [9]:
obj2[['a','d','c']]

a    -5
d    10
c   -12
dtype: int64

In [10]:
obj2[obj2<0]

a    -5
c   -12
dtype: int64

In [11]:
obj2 * 2

a   -10
b     0
d    20
c   -24
dtype: int64

In [12]:
import numpy as np

np.exp(obj2)

a        0.006738
b        1.000000
d    22026.465795
c        0.000006
dtype: float64

In [13]:
'a' in obj2

True

In [15]:
# 사전형(딕셔너리) 자료를 시리즈로 만들수 있다.
인구 = {'서울': 9776, '부산':3429, '대전':1531, '세종':276, 
      '충남':2148, '대구':2465}
시리3 = pd.Series(인구)
시리3

서울    9776
부산    3429
대전    1531
세종     276
충남    2148
대구    2465
dtype: int64

In [17]:
# 순서를 바꿔 저장하고 싶으면 열쇠에 대한 리스트를 만들어 인덱스에 넘겨주면 된다.
도시들 = ['대전', '세종', '대구', '충남', '인천']
시리4 = pd.Series(인구, index =도시들)
시리4

대전    1531.0
세종     276.0
대구    2465.0
충남    2148.0
인천       NaN
dtype: float64

In [18]:
pd.isnull(시리4)

대전    False
세종    False
대구    False
충남    False
인천     True
dtype: bool

In [19]:
pd.notnull(시리4)

대전     True
세종     True
대구     True
충남     True
인천    False
dtype: bool

In [20]:
# 시리즈의 인스턴스 메소드로도 접근할 수 있다.
시리4.isnull()

대전    False
세종    False
대구    False
충남    False
인천     True
dtype: bool

In [21]:
시리3

서울    9776
부산    3429
대전    1531
세종     276
충남    2148
대구    2465
dtype: int64

In [22]:
시리4

대전    1531.0
세종     276.0
대구    2465.0
충남    2148.0
인천       NaN
dtype: float64

In [23]:
시리3+시리4

대구    4930.0
대전    3062.0
부산       NaN
서울       NaN
세종     552.0
인천       NaN
충남    4296.0
dtype: float64

In [24]:
시리4.name = "인구통계"
시리4.index.name = "도시들"
시리4

도시들
대전    1531.0
세종     276.0
대구    2465.0
충남    2148.0
인천       NaN
Name: 인구통계, dtype: float64

In [25]:
obj

0    -5
1     0
2    10
3     3
dtype: int64

In [26]:
obj.index = ['김', '최', '윤', '홍']
obj

김    -5
최     0
윤    10
홍     3
dtype: int64

### 데이터프레임(DataFrame)

- 데이터프레임은 같은 크기의 자료들로 이루어진 열들을 차례로 모아 놓은 직사각 모양의 자료형이다. 
- 데이터프레임의 열과 행은 각각 인덱스를 가지고 있다. 
- 데이터프레임을 만드는 방법은 여러가지고 있지만 가장 쉬운 방법은 같은 크기의 리스트 또는 넘파이 배열을 값으로 갖는 사전형을 사용하는 것이다.

In [27]:
데이터 = {'지역': ['대전', '대전', '대전', '서울', '서울', '서울'],
      '년도': [2015, 2016, 2017, 2015, 2016, 2017],
      '인구': [1542, 1535, 1531, 9941, 9852, 9776]}
프레임 = pd.DataFrame(데이터)

In [28]:
프레임

Unnamed: 0,지역,년도,인구
0,대전,2015,1542
1,대전,2016,1535
2,대전,2017,1531
3,서울,2015,9941
4,서울,2016,9852
5,서울,2017,9776


In [29]:
프레임.head()

Unnamed: 0,지역,년도,인구
0,대전,2015,1542
1,대전,2016,1535
2,대전,2017,1531
3,서울,2015,9941
4,서울,2016,9852


In [31]:
pd.DataFrame(데이터, columns=['지역', '인구', '년도'])

Unnamed: 0,지역,인구,년도
0,대전,1542,2015
1,대전,1535,2016
2,대전,1531,2017
3,서울,9941,2015
4,서울,9852,2016
5,서울,9776,2017


In [32]:
프레임2 = pd.DataFrame(데이터, columns=['지역', '인구', '년도', '자산'],
             index=['하나', '둘', '셋', '넷', '다섯', '여섯'])
프레임2

Unnamed: 0,지역,인구,년도,자산
하나,대전,1542,2015,
둘,대전,1535,2016,
셋,대전,1531,2017,
넷,서울,9941,2015,
다섯,서울,9852,2016,
여섯,서울,9776,2017,


In [33]:
프레임2.columns

Index(['지역', '인구', '년도', '자산'], dtype='object')

In [34]:
# 열의 사전식 접근
프레임2['지역']

하나    대전
둘     대전
셋     대전
넷     서울
다섯    서울
여섯    서울
Name: 지역, dtype: object

In [35]:
# 속성 접근
프레임2.지역

하나    대전
둘     대전
셋     대전
넷     서울
다섯    서울
여섯    서울
Name: 지역, dtype: object

In [36]:
# 행 접근
프레임2.loc['하나']

지역      대전
인구    1542
년도    2015
자산     NaN
Name: 하나, dtype: object

In [37]:
# 열 값 지정 - 스칼라
프레임2['자산'] = 20
프레임2

Unnamed: 0,지역,인구,년도,자산
하나,대전,1542,2015,20
둘,대전,1535,2016,20
셋,대전,1531,2017,20
넷,서울,9941,2015,20
다섯,서울,9852,2016,20
여섯,서울,9776,2017,20


In [38]:
# 열 값 지정 - 배열
프레임2.자산 = np.arange(6)
프레임2

Unnamed: 0,지역,인구,년도,자산
하나,대전,1542,2015,0
둘,대전,1535,2016,1
셋,대전,1531,2017,2
넷,서울,9941,2015,3
다섯,서울,9852,2016,4
여섯,서울,9776,2017,5


In [39]:
프레임2['자산'] = np.arange(6)
프레임2

Unnamed: 0,지역,인구,년도,자산
하나,대전,1542,2015,0
둘,대전,1535,2016,1
셋,대전,1531,2017,2
넷,서울,9941,2015,3
다섯,서울,9852,2016,4
여섯,서울,9776,2017,5


- 배열을 할당할 때는 배열의 크기가 데이터프레임의 행의 크기와 같아야 한다. 
- 시리즈를 데이터프레임에 열로 지정할 수 있다. 
- 이때 시리지 인덱스 이름과 데이터프레임 인덱스 이름이 같은 것만 값이 설정이 되고 나머지는 소실값이 된다.

In [40]:
시 = pd.Series([20, 19, 3], index=['둘', '넷', '다섯'])
프레임2['자산'] = 시
프레임2

Unnamed: 0,지역,인구,년도,자산
하나,대전,1542,2015,
둘,대전,1535,2016,20.0
셋,대전,1531,2017,
넷,서울,9941,2015,19.0
다섯,서울,9852,2016,3.0
여섯,서울,9776,2017,


- 사전형식으로 데이터프레임의 열을 추가할 때 열 이름이 존재하지 않으면 새로운 열을 추가한다. 
- 주의해야 할 것은 **속성 `프레임2.덤`을 이용해서는 새로운 열을 추가할 수 없다.**

In [41]:
프레임2['덤'] = 프레임2.지역 == '대전'
프레임2

Unnamed: 0,지역,인구,년도,자산,덤
하나,대전,1542,2015,,True
둘,대전,1535,2016,20.0,True
셋,대전,1531,2017,,True
넷,서울,9941,2015,19.0,False
다섯,서울,9852,2016,3.0,False
여섯,서울,9776,2017,,False


In [42]:
프레임2.'덤' = 프레임2.지역 == '대전'
프레임2

SyntaxError: invalid syntax (<ipython-input-42-6d4c5c6da90b>, line 1)

In [43]:
del 프레임2['덤']
프레임2

Unnamed: 0,지역,인구,년도,자산
하나,대전,1542,2015,
둘,대전,1535,2016,20.0
셋,대전,1531,2017,
넷,서울,9941,2015,19.0
다섯,서울,9852,2016,3.0
여섯,서울,9776,2017,


속성을 이용해서 제거할 수는 없다.

In [44]:
del 프레임2.인구

AttributeError: 인구

In [45]:
인구1 = {'인구': {'하나': 1542, '여섯': 9776, '둘': 1535}, '지역': {'하나': '대전', '여섯': '서울', '둘': '대전', '셋':'대전'}}
프레임3 = pd.DataFrame(인구1)
프레임3

Unnamed: 0,인구,지역
하나,1542.0,대전
여섯,9776.0,서울
둘,1535.0,대전
셋,,대전


In [46]:
프레임3.T

Unnamed: 0,하나,여섯,둘,셋
인구,1542,9776,1535,
지역,대전,서울,대전,대전


In [47]:
프레임3.index.name = '번호'
프레임3.columns.name = '분류'
프레임3

분류,인구,지역
번호,Unnamed: 1_level_1,Unnamed: 2_level_1
하나,1542.0,대전
여섯,9776.0,서울
둘,1535.0,대전
셋,,대전


In [48]:
프레임3.values

array([[1542.0, '대전'],
       [9776.0, '서울'],
       [1535.0, '대전'],
       [nan, '대전']], dtype=object)

### 인덱스 객체

In [2]:
import pandas as pd
import numpy as np
시 = pd.Series([3, -8, 2, 0], index=['d', 'b', 'a', 'c'])
시

d    3
b   -8
a    2
c    0
dtype: int64

In [3]:
시.reindex(['a', 'b', 'c', 'd', 'e'])

a    2.0
b   -8.0
c    0.0
d    3.0
e    NaN
dtype: float64

시계열 자료일 경우 reindex 할 때 소실값들을 채우는 것이 더 좋을 때가 있다.   
이 때 사용할 수 있는 선택인자로 method=가 있다. method='ffill'은 앞에 있는 자료로 뒤에 있는 소실값들을 채울 수 있다.

In [4]:
시1 = pd.Series(['빨강', '파랑', '초록'], index=[0, 2, 4])
시1

0    빨강
2    파랑
4    초록
dtype: object

In [5]:
시1.reindex(range(6), method='ffill')

0    빨강
1    빨강
2    파랑
3    파랑
4    초록
5    초록
dtype: object

In [6]:
import numpy as np

프 = pd.DataFrame(np.arange(6).reshape(3, 2), index=range(0, 5, 2), columns=['A', 'B'])
프

Unnamed: 0,A,B
0,0,1
2,2,3
4,4,5


In [7]:
프.reindex(range(5))

Unnamed: 0,A,B
0,0.0,1.0
1,,
2,2.0,3.0
3,,
4,4.0,5.0


In [8]:
프.reindex(columns=['B', 'C', 'A'])

Unnamed: 0,B,C,A
0,1,,0
2,3,,2
4,5,,4
