- 판다스 패키지를 사용하여 데이터를 분석한다. 
- 시리즈와 데이터 프레임을 만들 수 있다.
- 판다스를 이용하여 CSV파일을 읽고 쓸수 있다. 
- 시리즈와 데이터 프레임에서 원하는 데이터를 읽고 갱신한다. 
- 시리즈와 데이터 프레임의 데이터를 조작한다.
- 멀티 인덱스와 이를 다룬다. 
- 둘 이상의 데이터 프레임을 하나로 합친다.
- 데이터 그룹으로 나누어 분석하고 피봇 데이블을 만든다. 

# 1. 패키지의 소개
대부분의 데이터는 시계열(Series)이나 표(table)의 형태로 나타난다.                             
판다스 패키지는 이러한 두 데이터를 다루기 위한 시리즈 클래스와 데이터프레임 클래스를 제공한다.             

## 1.1 판다스 패키지 임포트
판다스 패키지를 사용하기 위해서 임포트해야 한다.        
판다스 패키지는 pd라는 별칭을 사용한다

In [3]:
import pandas as pd

## 1.2 시리즈 클래스
시리즈Series 클래스는 넘파이에서 제공하는 1차원 배열과 비슷하다.       
하지만 각 데이터의 의미를 표시하는 인덱스(index)를 붙일 수 있다.             
시리즈 = 값(value) + 값(index)            

### 1.2.1 시리즈 생성
데이터를 리스트나 1차열 배열 형식으로 시리즈 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다.                  
이때 인덱스 길이는 데이터 길이와 같아야 한다.       
인덱스의 값을 인덱스 라벨(label)이라고도 한다.       
인덱스 라벨을 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능하다.           

In [4]:
# 각 도시의 2015년 인구 데이터를 시리즈로 만든 것 

s = pd.Series([9904312, 3448737, 2890451, 2466052], index = ['서울', '부산', '인천', '대구'])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

인덱스를 지정하지 않고 시리즈를 만들면 시리즈의 인덱스는 0부터 시작하는 정수값이 된다. 

In [5]:
pd.Series(range(10,14))

0    10
1    11
2    12
3    13
dtype: int64

0    10
1    11
2    12
3    13
dtype: int64

시리즈 인덱스는 index속성으로 접근할 수 잇다.      
시리즈의 값은 1차원 배열이며 value속성으로 접근할 수 있다.            

In [9]:
s.index # Index(['서울', '부산', '인천', '대구'], dtype='object')
# s.values # array([9904312, 3448737, 2890451, 2466052], dtype=int64)

Index(['서울', '부산', '인천', '대구'], dtype='object')

name 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있다. 

In [12]:
s.name = '인구'
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 1.2.2 시리즈 연산
넘파이 배열처럼 시리즈도 벡터화 연산을 할 수 있다.         
다만 연산은 시리즈의 값에만 적용되며 인덱스 값은 변하지 않는다.          

In [13]:
# 인구숫자를 백만 단위로 만들기 위해 시리즈 객체를 1,000,000 으로 나누어도 인덱스 라벨에 영향 미치지 않음
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### 1.2.3 시리즈 인덱싱
시리즈는 넘파이 배열에서 가능한 인덱스 방법이외에도 인덱스 라벨을 이용한 인덱싱도 할 수 있다.           
배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능         

In [16]:
# 시리즈 데이터를 인덱싱하면 값이 나온다
s[1], s['부산'] # (3448737, 3448737)
s[3], s['대구'] # (2466052, 2466052)

(2466052, 2466052)

배열 인덱싱을 하면 부분적인 값을 가지는 시리즈 자료형을 반환한다.         
자료의 순서를 바꾸거나 특정한 자료만 선택할 수 있다.          

In [17]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [18]:
s[['서울', '대구', '부산']]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

슬라이싱을 해도 부분적인 시리즈를 반환한다.      
이때 문자열 라벨을 이용한 슬라이싱을 하는 경우에는 숫자 인덱싱과 달라 콜론(:) 기호 뒤에 오는 값도 결과에 포함된다.          

In [21]:
s[1:3] 

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [23]:
s["부산":"대구"]  # 부산에서 대구까지 포함

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

만약 라벨값이 영문 문자열인 경우에는 인덱스 라벨이 속성인것 처럼 점(.)을 이용하여 해당 인덱스 값에 접근할 수 있다.

In [35]:
s0 = pd.Series(range(3), index = ['a','b', 'c'])
s0

a    0
b    1
c    2
dtype: int64
    
s0.a # 0
s0.b # 1

1

### 1.2.4 시리즈와 딕셔너리 자료형
시리즈 객체는 라벨값에 의해 인덱싱이 가능하므로 인덱스 라벨 값을 키(key)로 가진 딕셔너리 자료형과 같다.        
따라서 딕셔너리 자료형에서 제공하는 in 연산, items 메서드 사용이 가능하며         
for 루프를 통해 각 원소의 키(key)와 값(values)을 접근 할수 있다.        

In [42]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
        
"서울" in s # True
"대전" in s # False

for k, v in s.items() :
    print("%s = %d" %(k, v))
    
서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


딕녀서리 객체에서 시리즈를 만들 수 있다.

In [43]:
# 2010년 인구자료를 s2라는 이름의 시리즈로 만들어보자.
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2 

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

딕셔너리 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다.    
만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야 한다.       

In [45]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158}, index = ['부산', '서울', '인천', '대전'])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

SyntaxError: invalid syntax (<ipython-input-45-43cfc09983fe>, line 4)

### 1.2.5 인덱스 기반 연산
이번에는 2015년 인구 증가를 계산해보자.  
두 개의 시리즈의 차이를 구하면 된다.  
두 시리즈에 대해 연산을 하는 경우 인덱스가 같은 데이터에서만 차이를 구한다.     

![image-2.png](attachment:image-2.png)

In [49]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [50]:
# 이거뭐지??
s.values - s2.values 

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

대구와 대전의 경우 2010, 2015년 자료가 모두 존재하지 않기 때문에 계산이 불가능하므로 NaN(Not a Number)값을 가진다.  
NaN값이 float 자료형에서만 가능하므로  다른 계산 결과도 모든 float 자료형이 된다.     
따라서 NaN이 아닌 값을 구하려면 Notnull메서드를 사용해야 한다.    

In [52]:
ds.notnull()

# 대구    False
# 대전    False
# 부산     True
# 서울     True
# 인천     True
# dtype: bool

ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

인구 증가율(%)은 다음과 같이 구할수 있다.

In [54]:
rs = (s - s2) / s2 * 100
rs[rs.notnull()]

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### 1.2.6 데이터의 갱신, 추가, 삭제
인덱싱을 이용하면 딕셔너리 처럼 데이터를 갱신(update), 추가(add)할 수 있다.

In [58]:
rs['부산'] = 1.63 
rs

# 대구         NaN
# 대전         NaN
# 부산    1.630000
# 서울    2.832690
# 인천    9.818107
# dtype: float64

rs['대구'] = 1.41
rs

대구    1.410000
대전         NaN
부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

대구    1.410000
대전         NaN
부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

데이터를 삭제할 때도 딕셔너리처럼 del명령을 사용한다.    

In [59]:
del rs['서울']
rs

대구    1.410000
대전         NaN
부산    1.630000
인천    9.818107
dtype: float64

대구    1.410000
대전         NaN
부산    1.630000
인천    9.818107
dtype: float64

> - <b>연습문제 1</b>  
> (1) 임의로 두개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.     
> (2) 두 시리즈 객체를 이용하여 사칙연산을 한다. 

## 1.3 데이터프레임 클래스 

### 1.3.1 데이터 프레임 생성

### 1.3.2 열 데이터의 갱신, 추가, 삭제

### 1.3.3 열 인덱싱

### 1.3.4 행 인덱싱 

### 1.3.5 개별 데이터 인덱싱