## [4장] pandas 데이터 분석

- 대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있음 
- 판다스(Pandas) 패키지는 이러한 데이터를 다루기 위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공

In [65]:
import pandas as pd

#추가적인 np 사용을 위해 np도 임포트
import numpy as np

## 1. 판다스 패키지 기본 소개


> 시리즈(series) 클래스 
- 시리즈(series) = 값(value) + 인덱스(index)
    - 시리즈 클래스는 넘파이에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스를 붙일 수 있음 
    - 데이터 자체는 값(value)라고 함

> 시리즈 생성
- 데이터를 리스트, 1차원 배열 형식으로 series 클래스 생성자에 넣으면 시리즈 클래스 객채를 만들 수 있음
    - 단, 인덱스의 길이는 데이터의 길이와 같아야 함
- 인덱스는 라벨이라고도 하며, 인덱스 라벨은 문자열 뿐만 아니라 날짜, 시간 정수도 가능

> series의 속성
- series.index & series.value 
    - 시리즈의 인덱스는 index 속성으로 접근할 수 있다. 시리즈의 값은 1차원 배열이며 values 속성으로 접근할 수 있음
- series.name
    - name 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있다. index.name 속성으로 시리즈의 인덱스에도 이름을 붙일 수 있음


In [42]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
                index = ["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [43]:
# 만약 인덱스를 지정하지 않고 시리즈를 만들면 시리즈의 인덱스는 0부터 시작하는 정수값이 된다.
pd.Series(range(10,14))

0    10
1    11
2    12
3    13
dtype: int64

In [44]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

> 시리즈 연산
- 넘파이 배열처럼 시리즈도 벡터화 연산 가능
-  하지만, 연산은 시리즈의 값에만 적용되며 인덱스 값은 변하지 않음. 
    - 예를 들어 인구 숫자를 백만 단위로 만들기 위해 시리즈 객체를 1,000,000 으로 나누어도 인덱스 라벨에는 영향을 미치지 않음

> 시리즈 인덱싱
- 시리즈는 넘파이 배열에서 가능한 인덱스 방법 이외에도 인덱스 라벨을 이용한 인덱싱도 할 수 있음
-  배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능하다.

    - 배열 인덱싱을 하면 부분적인 값을 가지는 시리즈 자료형을 반환 ->  자료의 순서를 바꾸거나 특정한 자료만 선택 가능함
    - 슬라이싱을 해도 부분적인 시리즈를 반환 ->  이 때 문자열 라벨을 이용한 슬라이싱을 하는 경우에는 숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함되므로 주의

In [45]:
# 시리즈 데이터 인덱싱
print(s[1], s["부산"])
print(s[3], s["대구"])

3448737 3448737
2466052 2466052


In [46]:
# 배열 인덱싱 부분 값 시리즈 자료형 반환
print(s[[0, 3, 1]])
print(s[["서울", "대구", "부산"]])

print()
# 문자열 라벨을 이용한 슬라이싱, 숫자와 달리 : 뒤에 오는 값도 결과에 포함되므로 주의
    # 두번째(1)부터 세번째(2)까지 (네번째(3) 미포함)

print('✓ 문자열 라벨을 이용한 슬라이싱')
print(s[1:3])


도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

✓ 문자열 라벨을 이용한 슬라이싱
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [47]:
# 만약 라벨 값이 영문 문자열인 경우에는 인덱스 라벨이 속성인것처럼 점(.)을 이용하여 해당 인덱스 값에 접근할 수도 있다.

s0 = pd.Series(range(3), index=["a", "b", "c"])
s0

a    0
b    1
c    2
dtype: int64

> 시리즈와 딕셔너리 자료형 
- 시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있음
- 따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있음
- 딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다. 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야 함
    - python 3.7 부터는 딕셔너리 원소 순서가 저장이 된다. 따서 시리즈의 데이터도 순서가 보장됨! 

In [48]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
               index=["부산", "서울", "인천", "대전"])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

> 데이터의 갱신,추가,삭제
- 인덱싱을 이용하면 딕셔너리처럼 데이터를 갱신(update)하거나 추가(add)할 수 있음
- 데이터를 삭제할 때도 딕셔너리처럼 del 명령을 사용



###  데이터 프레임 클래스 

- 시리즈가 1차원 벡터 데이터에 행방향 인덱스(row index)를 붙인 것이라면 데이터프레임 DataFrame 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다. 
- 2차원이므로 각각의 행 데이터의 이름이 되는 행 인덱스(row index) 뿐 아니라 각각의 열 데이터의 이름이 되는 열 인덱스(column index)도 붙일 수 있다. 

> 데이터프레임(Dataframe) 생성

- 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.
- 이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 만든다.
- 이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정한다.
 

> 데이터 프레임 생성하는 방법 
1. 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.
2. 이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 만든다.
3. 이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정한다.
 


>앞에서 데이터프레임은 2차원 배열 데이터를 기반으로 한다고 했지만 사실은 공통 인덱스를 가지는 열 시리즈(column series)를 딕셔너리로 묶어놓은 것이라고 보는 것이 더 정확하다. 2차원 배열 데이터는 모든 원소가 같은 자료형을 가져야 하지만 데이터프레임은 각 열(column)마다 자료형이 다를 수 있기 때문이다. 

In [49]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


- 시리즈와 마찬가지로 데이터만 접근하려면 values 속성을 사용한다. 
- 열방향 인덱스와 행방향 인덱스는 각각 columns, index 속성으로 접근한다.


In [50]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [51]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [52]:
df.index

# 시리즈에서처럼 열방향 인덱스와 행방향 인덱스에 이름을 붙이는 것도 가능함
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


> 데이터프레임의 열 데이터의 갱신, 추가, 삭제 
- 데이터프레임은 열 시리즈의 딕셔너리으로 볼 수 있으므로 열 단위로 데이터를 갱신하거나 추가, 삭제할 수 있다.

In [53]:
# "2010-2015 증가율"이라는 이름의 열 추가
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [54]:
# "2005-2010 증가율"이라는 이름의 열 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [55]:
# "2005-2010 증가율"이라는 이름의 열 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


> 열 인덱싱 
- 데이터프레임을 인덱싱을 할 때도 열 라벨(column label)을 키값으로 생각하여 인덱싱을 할 수 있다. 
- 인덱스로 라벨 값을 하나만 넣으면 시리즈 객체가 반환되고 라벨의 배열 또는 리스트를 넣으면 부분적인 데이터프레임이 반환된다.

- 만약 하나의 열만 빼내면서 데이터프레임 자료형을 유지하고 싶다면 원소가 하나인 리스트를 써서 인덱싱하면 된다.

In [56]:
# 하나의 열만 인덱싱하면 시리즈가 반환된다.
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [57]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환된다.
df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [58]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환된다.
df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


> 행 인덱싱
- 행 단위로 인덱싱을 하고자 하면 항상 슬라이싱(slicing)을 해야 한다. 인덱스의 값이 문자 라벨이면 라벨 슬라이싱도 가능하다.

In [59]:
# 연습 문제 . 다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라 
# 데이터 삽입 
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [60]:
# 모든 학생의 수학 점수를 시리즈로 
## 데이터 프레임으로 주고 싶으면 괄호 두개
df["수학"]


춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [61]:
# 모든 학생의 국어와 영어 점수를 데이터 프레임
df[["국어","영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


(1) 모든 학생의 수학 점수를 시리즈로 나타낸다.

df["수학"]

(2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.

df[["국어","영어"]]

(3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.

df["평균 점수"] = round(df.mean(axis=1),2)

(4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.

df.loc["방자","영어"] = 80

(5) 춘향의 점수를 데이터프레임으로 나타낸다.

df[:1]

(6) 향단의 점수를 시리즈로 나타낸다.

pd.Series(list(df[2:3].values), index =["향단"])

In [62]:
# 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다 
df["평균 점수"] = round(df.mean(axis=1),2)
df

Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [63]:
df.loc["방자","영어"] = 80
#범위 지정 loc() 사용하고 ,로 구분
df["평균 점수"] = round(df.mean(axis=1),2)
df

Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,56.67


## 2. 데이터 입출력

> CSV 파일 입력
- CSV 파일로부터 데이터를 읽어 데이터프레임을 만들 때는 pandas.read_csv 함수를 사용, 함수의 입력값으로 파일 이름을 넣는다.
    pd.read_csv('sample1.csv')

> CSV 파일 출력
- 데이터프레임 값을 CSV 파일로 출력하고 싶으면 to_csv 메서드를 사용
- 맥에서는 cat 셸 명령으로 파일의 내용을 확인할 수 있다. 느낌표(!)는 셸 함수를 사용하기 위한 아이파이썬(IPython) 매직 명령이다.

## 3. 데이터프레임 고급 인덱싱

- 데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다.
- 앞 절에서는 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱을 하는 방법을 공부하였다. 
    - Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성을 제공함 ->loc, iloc 

> loc 인덱서 : 라벨값 기반의 2차원 인덱싱
- df.loc[행 인덱싱값] 
- df.loc[행 인덱싱값, 열 인덱싱값]
- 행 인덱싱값은 정수 또는 행 인덱스데이터이고, ''열 인덱싱값은 라벨 문자열''이다.

- 인덱싱 값을 하나만 받는 경우,
    - loc 인덱서를 사용하면서 인덱스를 하나만 넣으면 행(row)을 선택한다.

> iloc 인덱서 : 순서를 나타내는 정수 기반의 2차원 인덱싱
- iloc 인덱서는 loc 인덱서와 반대로 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받고, 다른 사항은 loc 인덱서와 같다.

In [66]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [67]:
# 인덱싱 데이터 하나만 받는 경우
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [68]:
# 인덱싱 데이터 슬라이싱 하는 경우, loc을 쓴 버전과 안쓴 버전의 값이 동일하게 나온다.
df.loc["b":"c"]
df["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [69]:
# 인덱싱 데이터의 리스트도 가능하며, 리스트는 loc을 쓰지 않으면 keyError가 뜬다
df.loc[["b", "c"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [70]:
#iloc 인덱서 사용
df.iloc[0, 1]

11

In [71]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int64

In [72]:
#인덱스 라벨도 같이 가져오기 위해서는 범위 설정
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [73]:
# loc과 동일하게 iloc 도 값이 하나만 들어가면, 행 전체를 선택함
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int64

## 4. 데이터프레임의 데이터 조작
- 판다스는 넘파이 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다.

> 데이터 갯수 세기 
-  count 메서드를 사용해 데이터의 갯수를 셀 수 있고, 이때 NaN 값은 세지 않는다.

> 카테고리 값 세기 
- 시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있다.


In [78]:
s = pd.Series(range(10))
s[3] = np.nan
print(s)


print(" >> 데이터 갯수 세기")
print(s.count())


0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64
 >> 데이터 갯수 세기
9


In [82]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [84]:
# 열마다 별도 값 세기
df.count()

0    4
1    4
2    4
3    3
dtype: int64

> [실습]  value_count 를 활용하여 카테고리 값 세보기

In [87]:

np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int64

In [88]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [89]:
df[0].value_counts()

3.0    2
0.0    1
4.0    1
Name: 0, dtype: int64

> 정렬
- 데이터를 정렬하려면 sort_index 메서드 sort_values 메서드를 사용한다. 
    - sort_index 메서드는 인덱스 값을 기준 정렬
    - sort_values 메서드는 데이터 값을 기준으로 정렬
- 큰 수에서 작은 수로 반대 방향 정렬하려면 ascending=False 인수를 지정한다.

- 데이터프레임에서 sort_values 메서드를 사용하려면 by 인수로 정렬 기준이 되는 열을 지정해줘야 함 (by=정렬기준 열 num)
    - by 인수에 리스트 값을 넣으면 이 순서대로 정렬 기준의 우선 순위가 됨
    => 리스트의 첫번째 열을 기준으로 정렬한 후 동일한 값이 나오면 그 다음 열로 순서를 따지게 됨

In [90]:
s2

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int64

In [92]:
# s2 시리즈의 각 데이터 값에 따른 데이터 갯수를 인덱스에 따라 정렬하려면 다음처럼 sort_index를 적용
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [93]:
# NaN값이 있는 경우에는 정렬하면 NaN값이 가장 나중으로 감
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64