# **Pandas(Panel Datas)**

#### **pandas 는 주로 데이터 분석에 사용함**

시계열(seires)이나 표(table) 형태로 나타낼 수 있습니다. Pandas 패키지는 Series 클래스와 DataFrame 클래스를 제공

숫자 테이블과 시계열을 조작하기 위한 데이터 구조와 연산할 떄 쓴다

In [1]:
import pandas as pd

다음과 같이 import해서 사용하는데, 맥에 설치가 안되어 있어서 pip로 pandas를 설치해주었다
```
pip3 install pandas
```

## Series 클래스

넘파이 1차원 배열과 모양 비슷하나, 각 데이터의 의미를 표시하는 **index(index)** 를 붙일 수 있다

>첫 인수: data <br>
>두 번쨰 인수: index

parameter data needs to be iterable stuff

index 는 라벨이라고 함, index는 len(data)와 동일해야 함

index 생략할 경우 RangeIndex제공함

In [2]:
series = pd.Series(["하나", "둘", "셋", "야!"],index=[ _ for _ in range(1,5)])

series

1    하나
2     둘
3     셋
4    야!
dtype: object

In [3]:
# _는 읽기 쉬우라고 넣는 것임, 숫자로 받음
s = pd.Series([9_904_321,3_448_737, 2_890_451, 2_466_052], index = ["서울","부산", "인천","대구"])
s

서울    9904321
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [4]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [5]:
s.values

array([9904321, 3448737, 2890451, 2466052], dtype=int64)

### Series에 이름 붙이기 / Series index에 이름 붙이기

In [6]:
s.name='인구'
s.index.name='도시'
s

도시
서울    9904321
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### Series data에 dictionary 사용
- key를 index로 동일하게 사용

In [7]:
d={'a':1,'b':2,'c':3}
s=pd.Series(d)
s

a    1
b    2
c    3
dtype: int64

- Series는 index 키워드로 전달받은 인수로 index를 재할당하면 Series 객체의값이 NaN의 결과를 출력하는 것을 확인할 수 있음.
- NaN 값이 float 자료형에서만 표현 가능하므로 결과가 float 자료형이 되었다는 점에 주의

In [8]:
s=pd.Series(data=d,index=['x','y','z'])
s

x   NaN
y   NaN
z   NaN
dtype: float64

### Series index를 속성처럼 활용하기
- 만약 label 값이 영문 문자열인 경우에는 index label이 속성인것처럼 마침표(.)를 활용하여 해당 index 값에 접근할 수 있음

In [9]:
d={'a':1,'b':2,'c':3}
s=pd.Series(d)
s.a,s.b,s.c

(1, 2, 3)

### Series의 특징
- index label을 키(key)로 사용하기에 딕셔너리 자료형과 비슷한 특징을 갖습니다. 
- 그래서 Series를 딕셔너리와 같은 방식으로 사용할 수 있게 구현해놨습니다.
- 예를 들어 in 연산도 가능하고, items() 메서드를 사용해서 for문 루프를 돌려 각 요소의 키(key)와 값(value)에 접근할 수도 있습니다.

In [10]:
s = pd.Series([9_904_321,3_448_737, 2_890_451, 2_466_052], index = ["서울","부산", "인천","대구"])
s

서울    9904321
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [11]:
'서울' in s

True

In [12]:
for k, v in s.items():
    print(f'key:{k}, value:{v}')

key:서울, value:9904321
key:부산, value:3448737
key:인천, value:2890451
key:대구, value:2466052


### Series 연산하기 
- 넘파이 배열처럼 Series도 벡터화 연산을 할 수 있다. 
- 다만 연산은 Series의 value에만 적용되며 index 값은 변하지 않는다. 
- 예를 들어 인구 숫자를 백만 단위로 만들기 위해 Series 객체를 1,000,000 으로 나누어도 index label에는 영향을 미치지않는 것을 볼 수 있다.

In [13]:
s/1000000

서울    9.904321
부산    3.448737
인천    2.890451
대구    2.466052
dtype: float64

### Series 인덱싱 / 슬라이싱
- Series는 넘파이 배열에서 가능한 index 방법 이외에도 index label을 이용한 인덱싱도 할 수 있다.
- 배열 인덱싱이나 index label을 이용한 슬라이싱(slicing)도 가능하다.
- 배열 인덱싱을 하면 부분적인 값을 가지는 Series 자료형을 반환한다. 자료의 순서를 바꾸거나 특정한 자료만 취사 선택이 가능

In [14]:
s

서울    9904321
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [15]:
s[[0,3,1]]

서울    9904321
대구    2466052
부산    3448737
dtype: int64

In [16]:
s['서울']

9904321

In [17]:
s[['서울','부산','대구']]

서울    9904321
부산    3448737
대구    2466052
dtype: int64

- 슬라이싱을 해도 부분적인 Series를 반환함
- 이 때 문자열 label을 이용한 슬라이싱을 하는 경우에는 숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함되므로 주의해야 합니다.

In [18]:
s[1:3]

부산    3448737
인천    2890451
dtype: int64

In [19]:
s['부산':'대구']

부산    3448737
인천    2890451
대구    2466052
dtype: int64

### Series에서 값이 NaN인지 확인
- notnull() 메서드

In [20]:
s.notnull()

서울    True
부산    True
인천    True
대구    True
dtype: bool

- notnull(): 메서드가 반환한 True/False 값을 활용하여 NaN인 값을 배제한 Series 객체를 만들 수 있음 

In [21]:
s1=pd.Series({'서울':1,'부산':2,'인천':3,'경기':None})
s1.notnull()
s1[s1.notnull()]

서울    1.0
부산    2.0
인천    3.0
dtype: float64

### Series 데이터 추가, 갱신, 삭제
#### 추가
- 없는 index에 값을 할당하면 Series에 데이터가 추가(add)됨

In [22]:
s

서울    9904321
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [23]:
s['대전']=256938
s

서울    9904321
부산    3448737
인천    2890451
대구    2466052
대전     256938
dtype: int64

#### 갱신 
- 기존에 있는 index에 값을 할당하면 갱신(update)됨

In [24]:
s['인천']=0
s

서울    9904321
부산    3448737
인천          0
대구    2466052
대전     256938
dtype: int64

#### 삭제
- 딕셔너리처럼 del 명령을 사용함

In [25]:
del s['인천']
s

서울    9904321
부산    3448737
대구    2466052
대전     256938
dtype: int64

### 연습문제

In [26]:
fin1 = {"카카오":60010, "삼성전자":61000, "LG전자": 90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]
ser_fin1=pd.Series(fin1)
ser_fin2=pd.Series(data=fin2_value,index=fin2_index)
print(ser_fin1)
print(ser_fin2)

카카오     60010
삼성전자    61000
LG전자    90000
dtype: int64
카카오      60200
삼성전자     61200
네이버     200100
dtype: int64


In [27]:
result=ser_fin1-ser_fin2
result[result.notnull()]

삼성전자   -200.0
카카오    -190.0
dtype: float64

## DataFrame 클래스
- DataFrame은 Pandas의 주요 데이터 구조
- label된 row와 column, 두 개의 축을 갖는 데이터 구조임
- 산술 연산은 row와 column 모두 적용됨. 
- Series 객체를 갖는 dictionary라고 생각하면 비슷합니다.
> 첫 번째 인자: data <br>
> 두 번째 인자: index <br>
> 세 번째 인자: columns

In [28]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [29]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [30]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [31]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [32]:
df.index.name='도시'
df.columns.name='특성'
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [33]:
unsold_apt={
    "2022-08" : [610, 1799, 8301, 1222],
    "2022-09" : [719, 1973, 10539, 1541],
    "2022-10" : [866, 2514, 10830, 1666],
    "2022-11" : [865, 2574, 11700, 2471]
}
columns= ["2022-08", "2022-09","2022-10","2022-11"]
index=['서울','부산','대구','인천']
unsold_apt_df=pd.DataFrame(unsold_apt,index=index,columns=columns)

unsold_apt_df.index.name="지역"
unsold_apt_df.columns.name="기간"
unsold_apt_df

기간,2022-08,2022-09,2022-10,2022-11
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,610,719,866,865
부산,1799,1973,2514,2574
대구,8301,10539,10830,11700
인천,1222,1541,1666,2471


### DataFame 전치(Transpose)

In [34]:
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [35]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


## column 추가, 갱신, 삭제

In [36]:
# 갱신
df['2010-2015 증가율']=df['2010-2015 증가율']*100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [37]:
# 추가
df['2005-2010 증가율']=((df['2010']-df['2005'])/df['2005']*100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [38]:
# 삭제
del df['2010-2015 증가율']
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


## column 인덱싱
- column label을 키로, column series를 값으로 가지는 딕셔너리와 비슷 
- 인덱싱을 할 때도 column label을 키로 생각하여 인덱싱 가능



- index로 label 값을 하나만 넣으면 series 객체가 반환

In [39]:
df['2010']

도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [40]:
type(df['2010'])

pandas.core.series.Series

- index로 label의 배열 또는 리스트로 인덱싱하면 DataFrame이 반환

In [41]:
df[['2010','2015']]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


- 하나의 column만 빼오더라도 DataFrame 유지하고 싶다면 요소가 하나인 리스트 자료형을 사용하면 됨

In [42]:
df[['2010']]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


- 원래부터 문자열이 아닌 정수형 column label를 가지는 경우에 index 값으로 정수를 사용 가능

In [43]:
import numpy as np
df2=pd.DataFrame(np.arange(12).reshape(3,4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [44]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [45]:
df2[[1,2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


## row 슬라이싱
- row 단위로 인덱싱을 하고자 하면 항상 **슬라이싱(slicing)** 을 해야 함
- index의 값이 문자 label이면 label 슬라이싱도 가능 

In [46]:
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [47]:
df[0:1]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [48]:
df[:'서울']

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [49]:
df[1:2]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [50]:
df.iloc[[1]]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


## 개별 데이터 인덱싱
- column label로 인덱싱하면 series가 됨
- 그 series를 다시 row label로 인덱싱하면 개별 데이터가 나옴

In [51]:
df['2015']['서울']

9904312

### 연습문제

In [52]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

In [53]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [54]:
df["수학"]

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [55]:
df[['국어','영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [56]:
df["평균 점수"] = (df["국어"] + df["영어"] + df["수학"])/3
df

Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,40,70,46.666667


In [57]:
df["영어"]["방자"] = 80
df["평균 점수"] = (df["국어"] + df["영어"] + df["수학"])/3
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"] = 80


Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,80,70,60.0


In [58]:
df["춘향":"춘향"]

Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,86.666667


In [59]:
df_1 = df.T
df_1["향단"]

국어       70.0
영어       60.0
수학       80.0
평균 점수    70.0
Name: 향단, dtype: float64

### 연습 문제

In [60]:
np.random.seed(0)
index=pd.date_range("20130226",periods=6)
columns=['A','B','C','D']
values=np.random.randn(6,4)
df=pd.DataFrame(values,index=index,columns=columns)
df

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.400157,0.978738,2.240893
2013-02-27,1.867558,-0.977278,0.950088,-0.151357
2013-02-28,-0.103219,0.410599,0.144044,1.454274
2013-03-01,0.761038,0.121675,0.443863,0.333674
2013-03-02,1.494079,-0.205158,0.313068,-0.854096
2013-03-03,-2.55299,0.653619,0.864436,-0.742165


In [61]:
values=np.random.randn(6,4)