### 판다스 패키지
데이터를 시계열이나 표로 표현하기 위한 패키지  
시계열을 표현하는 'Series' 클래스와 표로 표현하는 'DataFrame' 클래스가 존재함  
  
판다스 패키지를 사용하기 위해서는 패키지를 설치해야함
```bash
pip install pandas
```

패키지를 임포트할 때는  
```python
import pandas  
import pandas as pd
```

pandas3.0 이상 버전부터는 Pyarrow 패키지가 필수 의존 패키지로 지정되어 존재하지 않으면
```bash
pip install pyarrow
```
로 Pyarrow 설치 권장  

In [82]:
import pandas as pd
import numpy as np

### 시리즈 클래스
1차원의 시계열 데이터를 표현하고자 할 때 사용하는 클래스로 인덱스와 값이 한 쌍으로 나열되있는 형태  
시리즈를 생성하는 방법 : pandas 패키지의 'Series' 클래스의 생성자로 값과 인덱스에 대한 배열 혹은 리스트를 전달하면 생성할 수 있음  

In [8]:
# 인덱스 배열의 요소는 중복이 되어도 됨
# scores = pd.Series([85, 70, 100, 90, 55], index=['홍길동', '홍길동', '이영희', '최민수', '박지성'])

scores = pd.Series([85, 70, 100, 90, 55], index=['홍길동', '김철수', '이영희', '최민수', '박지성'])
scores

홍길동     85
김철수     70
이영희    100
최민수     90
박지성     55
dtype: int64

In [9]:
# index를 지정하지 않으면 0부터 시작하는 정수의 인덱스 값이 자동으로 생성됨
scores = pd.Series([85, 70, 100, 90, 55])
scores

0     85
1     70
2    100
3     90
4     55
dtype: int64

Series의 객체의 index와 values들을 보고자 한다면 'index' 속성과 'values' 속성으로 확인할 수 있음  

In [10]:
scores.index

RangeIndex(start=0, stop=5, step=1)

In [11]:
scores.values

array([ 85,  70, 100,  90,  55], dtype=int64)

'name' 속성으로 value에 대한 이름을 부여할 수 있음  
'index.name' 속성으로 index에 대한 이름을 부여할 수 있음  

In [12]:
scores.name = '점수'
scores.index.name = '이름'

scores

이름
0     85
1     70
2    100
3     90
4     55
Name: 점수, dtype: int64

### 시리즈 연산
시리즈도 numpy 배열과 같이 벡터화 연산이 가능함  
단, 연산 작업은 값에만 적용됨  

In [13]:
scores * 0.4

이름
0    34.0
1    28.0
2    40.0
3    36.0
4    22.0
Name: 점수, dtype: float64

In [14]:
scores >= 60

이름
0     True
1     True
2     True
3     True
4    False
Name: 점수, dtype: bool

In [15]:
scores2 = pd.Series([60, 100, 90, 70, 95], index=['홍길동', '김철수', '이영희', '최민수', '박지성'])
scores2

홍길동     60
김철수    100
이영희     90
최민수     70
박지성     95
dtype: int64

In [16]:
scores + scores2

0     NaN
1     NaN
2     NaN
3     NaN
4     NaN
김철수   NaN
박지성   NaN
이영희   NaN
최민수   NaN
홍길동   NaN
dtype: float64

### 시리즈 인덱싱
시리즈도 리스트나 배열과 같이 인덱스 번호로 접근이 가능  
단, 시리즈는 index값으로도 접근이 가능함  
배열 인덱싱이나 슬라이싱 모두 가능  

In [None]:
scores[1],scores['김철수']

배열 인덱싱을 사용하여 자료의 순서를 바꾸거나 특정한 자료만 선택하여 시리즈 객체를 생성할 수 있음  

In [18]:
scores[[0, 3, 1]]

이름
0    85
3    90
1    70
Name: 점수, dtype: int64

In [None]:
scores[['홍길동', '최민수', '김철수']]

In [20]:
scores[(scores >= 60) & (scores < 70)]

Series([], Name: 점수, dtype: int64)

In [21]:
scores[scores < 70]

이름
4    55
Name: 점수, dtype: int64

시리즈 객체도 슬라이싱이 가능한데 인덱스의 이름(라벨)으로 슬라이싱할 때는 인덱스 번호로 슬라이싱할 때와 다르게 마지막 인덱스 값도 포함해서 반환  

In [22]:
scores[1:3]

이름
1     70
2    100
Name: 점수, dtype: int64

In [None]:
# 이름으로 슬라이싱할 때 마지막 인덱스 값도 포함해서 반환
scores['김철수':'최민수']

시리즈 객체의 라벨이 영문자로 이루어져 있다면 객체의 속성에 접근하는 것과 같은 방법으로 접근할 수 있음  

In [24]:
s0 = pd.Series(range(3), index=['a','b','c'])
s0

a    0
b    1
c    2
dtype: int64

### 시리즈와 딕셔너리
시리즈는 인덱스의 이름(라벨)과 값이 한쌍으로 이루어져서 관리되어 지는데, 이는 파이썬의 기본 자료구조인 키와 값을 한 쌍으로 관리하는 딕셔너리와 비슷함  
  
  
시리즈 객체도 딕셔너리에서 사용가능한 'in' 연산과 'items()' 메서드를 사용할 수 있음  

In [25]:
'이재용' in scores

False

In [26]:
for label, value in scores.items():
    print(f'{label}: {value}')

0: 85
1: 70
2: 100
3: 90
4: 55


시리즈 객체는 딕셔너리 객체로 직접 생성할 수 있음  
단, 딕셔너리 객체는 순서가 보장되지 않기 때문에 순서를 결정하고 싶다면 'index' 매개변수에 순서를 정한 인덱스 배열 또는 리스트를 전달 해야함  

In [27]:
# index에 없는 이름 넣으면 NaN이 뜸
scores2 = pd.Series({'홍길동':60, '김철수':90, '이재용':100, '권지용':75}, index=['권지용', '김철수', '이재용', '홍길동'])
scores2

권지용     75
김철수     90
이재용    100
홍길동     60
dtype: int64

### 인덱스 기반 연산
두 시리즈 객체간에 연산을 진행하면 인덱스가 같은 데이터에 대해서만 연산을 진행함  
시리즈 모두에 존재하지 않는 인덱스는 'NaN'으로 표시됨

In [28]:
score_sum = scores + scores2
score_sum

0     NaN
1     NaN
2     NaN
3     NaN
4     NaN
권지용   NaN
김철수   NaN
이재용   NaN
홍길동   NaN
dtype: float64

값들끼리의 연산에서는 동일하게 존재하는 인덱스의 값들에 대해서만 나타남  
단, 길이가 다른 값들에 대해서는 연산 불가  

In [None]:
# scores = 5, scores2 = 4
scores.values + scores2.values

시리즈 객체에서 값이 'NaN'인지 아닌지 구하려면 'notnull()' 메서드를 사용할 수 있음  

In [30]:
score_sum.notnull()

0      False
1      False
2      False
3      False
4      False
권지용    False
김철수    False
이재용    False
홍길동    False
dtype: bool

In [31]:
score_sum[score_sum.notnull()]

Series([], dtype: float64)

### 데이터 갱신, 추가, 삭제
딕셔너리와 같은 방법으로 데이터를 갱신, 추가, 삭제를 할 수 있음

In [32]:
# 김철수 = 160 => 120으로 변경
score_sum['김철수'] = 120
score_sum

0        NaN
1        NaN
2        NaN
3        NaN
4        NaN
권지용      NaN
김철수    120.0
이재용      NaN
홍길동      NaN
dtype: float64

In [33]:
# 남궁선 추가
score_sum['남궁선'] = 100
score_sum

0        NaN
1        NaN
2        NaN
3        NaN
4        NaN
권지용      NaN
김철수    120.0
이재용      NaN
홍길동      NaN
남궁선    100.0
dtype: float64

In [34]:
# 이재용 제거
del score_sum['이재용']
score_sum

0        NaN
1        NaN
2        NaN
3        NaN
4        NaN
권지용      NaN
김철수    120.0
홍길동      NaN
남궁선    100.0
dtype: float64

In [35]:
# score_sum에서 홍길동 제거
score_sum.pop('홍길동')

nan

In [36]:
score_sum

0        NaN
1        NaN
2        NaN
3        NaN
4        NaN
권지용      NaN
김철수    120.0
남궁선    100.0
dtype: float64

### 파이썬으로 다음 연산을 수행한다.
1. 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.  
    딕셔너리 store1 = {  
    'apple': 500,   
    'banana': 3000,  
    'carrot': 1000  
    }  

    딕셔너리 store2 = {  
    'apple': 800,  
    'banana': 2500,  
    'dabai': 5000   
    }  

2. 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다. 겹치지 않는 인덱스에 대해서 NaN으로 표시하는 시리즈 객체들과 겹치는 인덱스만 표시하는 시리즈 객체를 모두 생성한다.  

In [37]:
store1 = pd.Series({'apple':500, 'banana':3000, 'carrot':1000})
store2 = pd.Series({'apple':800, 'banana':2500, 'dabai':5000})

In [38]:
store_sum = store1 + store2

print(store_sum)
print('===================')
print(store_sum[store_sum.notnull()])

apple     1300.0
banana    5500.0
carrot       NaN
dabai        NaN
dtype: float64
apple     1300.0
banana    5500.0
dtype: float64


In [39]:
store_minus = store1 - store2

print(store_minus)
print('===================')
print(store_minus[store_minus.notnull()])

apple    -300.0
banana    500.0
carrot      NaN
dabai       NaN
dtype: float64
apple    -300.0
banana    500.0
dtype: float64


### 데이터프레임 클래스
2차원 형태의 행렬에 열과 행에 대한 인덱스가 붙은 형태. 즉, 표(table)

#### 데이터프레임 생성 방법
1. 열 인덱스 배열 혹은 리스트를 생성
2. 행 인덱스 배열 혹은 리스트를 생성
3. 각 열과 행에 해당하는 데이터를 가지고 있는 딕셔너리 객체를 생성
4. pandas 패키지의 DataFrame 클래스의 생성자로 데이터 딕셔너리와 행 인덱스, 열 인덱스를 전달하여 생성

In [137]:
columns = ['지역', '2000', '2005', '2010', '2015', '2010-2015 증가율']
index = ['서울', '부산', '인천', '대구']
data = {
    '2015':[9904312, 3448737, 2890451, 2466052],
    '2010':[9631482, 3393191, 2632035, 2431774],
    '2005':[9762546, 3512547, 2517680, 2456016],
    '2000':[9853972, 3655437, 2466338, 2473990],
    '지역':['수도권', '경상권', '수도권', '경상권'],
    '2010-2015 증가율':[.0283, .0163, .0982, .0141]
}

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2000,2005,2010,2015,2010-2015 증가율
서울,수도권,9853972,9762546,9631482,9904312,0.0283
부산,경상권,3655437,3512547,3393191,3448737,0.0163
인천,수도권,2466338,2517680,2632035,2890451,0.0982
대구,경상권,2473990,2456016,2431774,2466052,0.0141


`values` 속성: 데이터에 대한 배열 반환
`columns` 속성 : 열 인덱스에 대한 배열 반환
`index` 속성 : 행 인덱스에 대한 배열 반환

In [113]:
df.values

array([['수도권', 9853972, 9762546, 9631482, 9904312, 0.0283],
       ['경상권', 3655437, 3512547, 3393191, 3448737, 0.0163],
       ['수도권', 2466338, 2517680, 2632035, 2890451, 0.0982],
       ['경상권', 2473990, 2456016, 2431774, 2466052, 0.0141]], dtype=object)

In [114]:
df.columns

Index(['지역', '2000', '2005', '2010', '2015', '2000-2015 증가율'], dtype='object')

In [115]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

열 인덱스와 행 인덱스에 이름을 부여할 수 있음

In [138]:
df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2000,2005,2010,2015,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,0.0283
부산,경상권,3655437,3512547,3393191,3448737,0.0163
인천,수도권,2466338,2517680,2632035,2890451,0.0982
대구,경상권,2473990,2456016,2431774,2466052,0.0141


데이터프레임은 넘파이 2차우너 배열이 제공하는 대부분의 속성과 메서드를 지원함

In [70]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2000,9853972,3655437,2466338,2473990
2005,9762546,3512547,2517680,2456016
2010,9631482,3393191,2632035,2431774
2015,9904312,3448737,2890451,2466052
2000-2015 증가율,0.0283,0.0163,0.0982,0.0141


다음 조건을 만족하는 임의의 데이터프레임을 하나 만든다.
지역: 서울, 인천, 부산, 울산, 대구
최저기온: -2, -1, 2, 3 ,1
최고기온: 7, 6, 9, 7, 1
오전 강수확률: 0.2, 0.2, 0.3, 0.3, 0.3
오후 강수확률: 0.6 0.6 0.6 0.6 0.6

In [61]:
practice_columns = ['지역', '최저기온', '최고기온', '오전 강수확률', '오후 강수확률']
practice_data = {
    '지역':['서울', '인천', '부산', '울산', '대구'],
    '최저기온':[-2, -1, 2, 3, 1],
    '최고기온':[7, 6, 9, 7, 1],
    '오전 강수확률':[0.2, 0.2, 0.3, 0.3, 0.3],
    '오후 강수확률':[0.6, 0.6, 0.6, 0.6, 0.6]
}
practice_df = pd.DataFrame(practice_data, columns=practice_columns)
practice_df

Unnamed: 0,지역,최저기온,최고기온,오전 강수확률,오후 강수확률
0,서울,-2,7,0.2,0.6
1,인천,-1,6,0.2,0.6
2,부산,2,9,0.3,0.6
3,울산,3,7,0.3,0.6
4,대구,1,1,0.3,0.6


#### 열 데이터 갱신, 추가, 삭제
데이터프레임은 열 단위로 데이터를 추가, 수정, 삭제할 수 있음

In [139]:
# 수정(갱신)
df['2010-2015 증가율'] = df['2010-2015 증가율'] * 100
df

특성,지역,2000,2005,2010,2015,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,2.83
부산,경상권,3655437,3512547,3393191,3448737,1.63
인천,수도권,2466338,2517680,2632035,2890451,9.82
대구,경상권,2473990,2456016,2431774,2466052,1.41


In [140]:
# 추가
df['2005-2010 증가율'] = ((df['2010'] - df['2005']) / df['2005'] * 100).round(2)
df

특성,지역,2000,2005,2010,2015,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9853972,9762546,9631482,9904312,2.83,-1.34
부산,경상권,3655437,3512547,3393191,3448737,1.63,-3.4
인천,수도권,2466338,2517680,2632035,2890451,9.82,4.54
대구,경상권,2473990,2456016,2431774,2466052,1.41,-0.99


In [141]:
# 삭제
del df['2010-2015 증가율']
df

특성,지역,2000,2005,2010,2015,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,-1.34
부산,경상권,3655437,3512547,3393191,3448737,-3.4
인천,수도권,2466338,2517680,2632035,2890451,4.54
대구,경상권,2473990,2456016,2431774,2466052,-0.99


#### 열 인덱싱
데이터프레임은 열과 행의 인덱스를 모두 가지고 있어서 열 라벨을 통한 인덱싱도 가능

만약 문자열 형태의 하나의 열 라벨을 인덱싱 한다면 시리즈 객체로 반환
만약 배열 혹은 히스트 형태의 열 라벨을 인덱싱 한다면 데이테프레임 객체로 반환 

In [78]:
df['지역']

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [79]:
df[['2010', '2015']]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [80]:
df[['지역']]

특성,지역
도시,Unnamed: 1_level_1
서울,수도권
부산,경상권
인천,수도권
대구,경상권


열 인덱싱은 정수 인덱스로 인덱싱을 할 수 없음

In [None]:
# df[0] # key Error

원래부터 정수형태의 열 인덱스를 가진다면 정수 인덱스로 인덱싱이 가능

In [84]:
# numpy 패키지 실행
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [85]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [86]:
df2[[1, 3]]

Unnamed: 0,1,3
0,1,3
1,5,7
2,9,11


#### 행 인덱싱
데이터프레임에서 행으로 인덱싱을 하고자한다면 반드시 슬라이싱으로 인덱싱하여야 함

In [118]:
df[:1]

특성,지역,2000,2005,2010,2015,2000-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,0.0283


In [88]:
df[1:2]

특성,지역,2000,2005,2010,2015,2000-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
부산,경상권,3655437,3512547,3393191,3448737,0.0163,-3.4


In [89]:
df['서울':'부산']

특성,지역,2000,2005,2010,2015,2000-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9853972,9762546,9631482,9904312,0.0283,-1.34
부산,경상권,3655437,3512547,3393191,3448737,0.0163,-3.4


#### 개별 데이터 인덱싱
하나의 필드 값을 얻고자 한다면 열로 먼저 인덱싱 후 행으로 다시 인덱싱 함

In [90]:
df['2015']['서울']

9904312

다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.
(1) 모든 학생의 수학 점수를 시리즈로 나타낸다.
(2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
(3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
(4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
(5) 춘향의 점수를 데이터프레임으로 나타낸다.
(6) 향단의 점수를 시리즈로 나타낸다.

In [167]:
practice_data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70]
}
practice_columns = ["국어", "영어", "수학"]
practice_index = ["춘향", "몽룡", "향단", "방자"]
practice_df = pd.DataFrame(practice_data, index=practice_index, columns=practice_columns)
practice_df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [168]:
# (1) 모든 학생의 수학 점수를 시리즈로 나타낸다.
practice_df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [169]:
# (2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
practice_df[['국어', '영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [179]:
# (3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
# 행 길이? len(practice_df) # 4
# 열 길이? len(practice_df.columns) # 3
practice_df['평균 점수'] = (practice_df['국어'] + practice_df['영어'] + practice_df['수학']) / len(practice_df.columns)
practice_df

Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,65.0
몽룡,90,70,60,55.0
향단,70,60,80,52.5
방자,80,40,70,47.5


In [174]:
# / len(practice_df.columns) 과 / 3 차이 소수점 차이
practice_df['평균 점수'] = (practice_df['국어'] + practice_df['영어'] + practice_df['수학']) / 3
practice_df

Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,40,70,46.666667


In [184]:
# (4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
practice_df['국어']['방자'] = (practice_df['국어']['방자'] / practice_df['국어']['방자']) * 80
practice_df['평균 점수']['방자'] = ((practice_df['평균 점수']['방자'] * 3) + 50) / 3
practice_df

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  practice_df['국어']['방자'] = (practice_df['국어']['방자'] / practice_df['국어']['방자']) * 80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-v

Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,65.0
몽룡,90,70,60,55.0
향단,70,60,80,52.5
방자,80,40,70,80.833333


In [182]:
# (5) 춘향의 점수를 데이터프레임으로 나타낸다.
# practice_df[:1]
practice_df[:'춘향']

Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,65.0


In [183]:
# (6) 향단의 점수를 시리즈로 나타낸다.
# practice_df[2:3]
practice_df.T['향단']

국어       70.0
영어       60.0
수학       80.0
평균 점수    52.5
Name: 향단, dtype: float64