# Pandas 기초

## 목차

### 1. Pandas란?

### 2. Series란?
    2.1 Series 설명
    2.2 Series Indexing
    2.3 Series와 Dictionary
    2.4 Series 데이터의 갱신, 추가, 삭제
    2.5 연습문제 1

### 3. Data Frame이란?
    3.1 Data Frame 설명
    3.2 Data Frame 만들기
    3.3 연습문제2 
    3.4 Data Frame 내용 변경 : 열 추가, 삭제, 갱신
    3.5 Indexing
    3.6 연습문제3

------------------------------------------------------

## 1. Pandas란?

### Pandas
 - Series.DataFrame 등의 자료구조를 활용한 데이터 분석과 관련된 기능을 제공해주는 라이브러리

### Pandas 라이브러리 구성
 - 여러종류의 기능을 구현한 클래스와 내장함수로 구성
 - Series.DataFrame 이라는 구조 표현 클래스 객체
 - 자주 사용되는 내장 함수 : Series(), DataFrame(), read.csv, read_excel() 등
 
 ### Series VS DataFrame
 - Series : 1차원 배열
 - DataFrame : 2차원 배열
 
 ### Pandas 사용목적
 - 서로 다른 여러가지 우형의 데이터를 공통의 포맷으로 정리하는 것
 - 데이터 프레임을 분석 실무에서 자주 사용

### 사용하려면 import 해야 함
----------------------------------------------------

## 2. Series란?

### 2.1 Series 설명
- 데이터가 순차적으로 나열된 1차원 배열의 형태
- 인덱스와 데이터 값이 일대일로 대응
- 딕셔너리와 비슷한 구조 : {key : value}

### 2.2 Series의 indexing

#### index란?
- 데이터 값의 위치를 나타내는 이름표(데이터 주소) 역할
- 예로 'index2'라는 주소를 알고 있다면 'data2'라는 원소 데이터 값에 바로 접근 가능

#### Series indexing
- 인덱싱 : 데이터에서 특정한 세부 데이터만 접근해서 값을 반환 받는 것

#### Series index의 종류
1. 정수형 위치 인덱스
2. 인덱스 이름 또는 인덱스 라벨 문자형 인덱스
- 인덱스를 별도로 정의하지 않으면 0부터 시작하는 디폴트 정수형 위치 인덱스가 자동 지정됨

#### 원소 선택
- 인덱스를 이용 객체명[인덱스]
------------------------------------------

In [49]:
# Pandas 패키지 불러오기

import pandas as pd
import numpy as np

In [3]:
# 시리즈 만들기 : Series() 함수 사용
# 리스트, 딕셔너리, 튜플 형태의 데이터를 구성 후 Series()
# 1. 리스트 이용해서 시리즈 만들기
s = pd.Series([1,2,3])
s # 인덱스 : 0부터 시작하는 정수값으로 자동 지정

0    1
1    2
2    3
dtype: int64

In [5]:
# 결측값 포함해서 시리즈 만들기
# numpy 패키지의 nan 이라는 내부 변수는 결측값을 표현
s = pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [9]:
# 숫자 인덱스 지정
# index = []
s = pd.Series([10,20,30], index = [1,2,3])
s

1    10
2    20
3    30
dtype: int64

In [13]:
# 문자 인덱스 지정
s = pd.Series([95,100,88], index=['홍길동', '이몽룡', '성춘향'])
s

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [15]:
# 문자 인덱스 지정 2
[9904312,3448737,2890451,2466052]
# 위 리스트를 이용해서 시리즈를 구성하고 인덱스는 서울, 부산, 인천, 대구로 설정하시오
s = pd.Series([9904312,3448737,2890451,2466052], index=['서울', '부산', '인천', '대구'])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [17]:
# range() 함수로 시리즈 만들기
pd.Series(range(10,14))

0    10
1    11
2    12
3    13
dtype: int64

In [20]:
# 시리즈의 인덱스만 확인 : Series  클래스 안에 index 라는 변수가 만들어져 있음.
# index 속성을 이용해서 관련 index 확인 가능

# 시리즈 객체의 index 속성으로 확인 가능 (객체명.index)
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [21]:
# 시리즈의 값은 1차원 배열이고 Values 속성으로 접근할 수 있다.(array 자료 구조로 되어 있음)
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [22]:
# name 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있다.
s.name = '인구'
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [24]:
# 시리즈 인덱스에도 이름을 붙일 수 있다.(객체.index.name)
# 객체.index.name = '도시'
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [26]:
# 정수형 위치 인덱스를 사용한 인덱싱
# 시리즈는 순차적 의미를 갖고 있기 때문에 라벨형 인덱스가 있어도 위치 인덱스 사용이 가능
s[0]

9904312

In [27]:
# 라벨형 인덱스 설정 한 경우 라벨을 이용해서도 접근 가능
s[3], s['대구']

(2466052, 2466052)

In [30]:
# 인덱싱을 값 하나가 아닌 여러 값으로 할 수 있음
# 리스트형 인덱싱을 하면 자료의 순서를 바꾸거나 특정한 자료만 선택할 수 있다.
s[[0,3,1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [33]:
# 리스트형 인덱싱을 했을 때 반환 결과의 타입 확인
# 하나의 요소 인덱싱을 했을 때 반환 결과의 타입 확인
# type(s[0])
type(s[[0]])
s[[0]]

도시
서울    9904312
Name: 인구, dtype: int64

In [34]:
# 인덱스 라벨을 사용하여 특정 자료의 집합을 선택(순서 변경)
s[['서울','대구','부산']]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [36]:
# 슬라이싱을 이용한 인덱싱
# 정수형 위치 인덱스를 사용한 슬라이싱
s[1:3] # [서울, 부산, 인천, 대구] 2번째, 3번째

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [37]:
# 인덱스 라벨을 사용한 슬라이싱
s['부산' : '대구'] # 대구 포함

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [41]:
# 
s0 = pd.Series(range(3), index = ['apple', 'banana', 'pine'])
s0

apple     0
banana    1
pine      2
dtype: int64

In [42]:
# 라벨값이 영문 문자열인 경우에는 마치 속성인 것 처럼 . 을 이용해서 접근 가능
s0.apple

0

-------------------------------------------------------
### 2.3 Series와 Dictionary

- 시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 잇음
- 딕셔너리 자료형에서 제공하는 in 연산 가능
- items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근 할 수도 있음
-----------------------------------------------------

In [43]:
'서울' in s

True

In [44]:
'대전' in s

False

In [48]:
s.items()
for k,v in s.items() :
    print('%s = %d' % (k,v))

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


----------------------
#### 딕셔너리로 시리즈 만들기
- 딕셔너리와 시리즈의 구조가 비슷하기 때문에
- 딕셔너리를 시리즈로 변환하는 방법이 많이 사용
- Series()로 만들고 딕셔너리를 함수의 인자로 전달

딕셔너리의 key는 시리즈의 인덱스에 대응되고
딕셔너리의 value는 시리즈의 데이터 값으로 변환

--------------------------------

In [53]:
# 딕셔너리로 시리즈 만들기
scores = {'홍길동' : 95, '이몽룡' : 100, '성춘향' : 88}
s=pd.Series(scores)
s

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [65]:
# 위쪽에서 생성된 도시의 리스트를 참고하여 딕셔너리로 구성하고
# 해당 딕셔너리를 시리즈 s2를 만드시오
# 딕셔너리의 원소는 순서를 가지지 않으므로
# 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야 한다.
s2 = pd.Series({'서울' : 9904312, '부산' : 3448737,'인천' : 2890451, '대구' : 2466052})
s2 # 순서가 없는 시리즈
s2 = pd.Series({'서울' : 9904312, '부산' : 3448737,'인천' : 2890451, '대구' : 2466052}
               , index = ['서울','부산','인천','대구'])
s2

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

------------------------------------------------------------
### 2.4 시리즈 데이터의 갱신, 추가, 삭제
- 딕셔너리 인덱싱을 이용하면 데이터를 갱신하거나 추가할 수 있다
------------------------------------------------------------

In [57]:
# s2 시리즈의 부산 데이터 변경
s2['부산'] = 1630000
s2

서울    9904312
부산    1630000
인천    2890451
대구    2466052
dtype: int64

In [58]:
# s2 시리즈의 울산 데이터 추가
s2['울산'] = 900000
s2

서울    9904312
부산    1630000
인천    2890451
대구    2466052
울산     900000
dtype: int64

In [59]:
# s2 시리즈의 데이터 삭제
s2['서울'] = None
s2 # 인덱스는 그대로

서울          NaN
부산    1630000.0
인천    2890451.0
대구    2466052.0
울산     900000.0
dtype: float64

In [60]:
# 데이터 삭제 - Del 사용
del s2['서울']
s2

부산    1630000.0
인천    2890451.0
대구    2466052.0
울산     900000.0
dtype: float64

-----------------------------------------------------------
### 2.5 연습문제1
- 임의로 두개의 시리즈 객체를 만든다
- 첫번째 시리즈는 리스트를 이용
- 두번째 시리즈는 딕셔너리를 이용
- 두 객체 모두 문자열 인덱스를 가져야 하고, 두 시리즈에 공통적으로 포함하지 않는 라벨이 있어야 한다.
-------------------------------------------------------------

In [70]:
s = pd.Series(['영하 10도','영하 13도','영상 1도' ]) 
s = pd.Series(['영하 10도','영하 13도','영상 1도' ], index=['1월 1일', '1월 2일', '1월 3일']) 
s

1월 1일    영하 10도
1월 2일    영하 13도
1월 3일     영상 1도
dtype: object

In [79]:
s = pd.Series({ '1월 1일' :'영하 10도', '1월 2일' :'영하 13도' , '1월 3일' : '영상 1도' })
s

1월 1일    영하 10도
1월 2일    영하 13도
1월 3일     영상 1도
dtype: object

------------------------------------------------------------
## 3. DataFrame이란?

### 3.1 Data Frame 설명

- 2차원 행렬 데이터에 인덱스를 붙인 것
- 행과 열로 만들어지는 2차원 배열 구조
- R의 데이터 프레임에서 유래
- 데이터 프레임의 열은 각각 시리즈 객체로 이루어져 있음
- DataFrame()함수를 사용하여 데이터 프레임 생성

------------------------------------------------------------

In [78]:
# 리스트로 데이터 프레임 만들기
df = pd.DataFrame(['a','b','c']) # 열 1개인 df가 생성
df

Unnamed: 0,0
0,a
1,b
2,c


In [81]:
# 리스트로 데이터 프레임 만들기 2
df = pd.DataFrame([['a','b','c'],['a','a','g'],['a','i','j']])
df # df는 행이름 열이름이 반드시 있어야 하기 때문에 설정하지 않으면 자동 생성됨

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,g
2,a,i,j


In [84]:
# 열인덱스와 행인덱스를 직접 설정해서 df설정 - dict를 사용
# dict key가 열 이름
# index = 매개변수는 행 이름
df = pd.DataFrame({'A' : ['a','b','c'],
                  'B' : ['a','a','g'],
                  'C' : ['a','i','j']},
                 index = [0,1,2])
df

Unnamed: 0,A,B,C
0,a,a,a
1,b,a,i
2,c,g,j


In [12]:
# dict 데이터 프레임 만들기
# 열방향 인덱스 columns = 
# 행방향 인덱스 index = 
data = {
    '2015' : [9904312, 3448737, 2890451, 2466052],
    '2010' : [9631482,3393191,2632035,2000002],
    '2005' : [9762546, 3512547, 2517680, 2456016],
    '2000' : [9853972, 3655437, 2466338, 2473990],
    '지역' : ['수도권', '경상권', '수도권', '경상권'],
    '2010-2015 증가율' : [0.0283, 0.0163, 0.0982, 0.0141]
}
index = ['서울', '부산', '인천', '대구']
columns = ['지역', '2015','2010', '2000', '2005', '2010-2015 증가율']
df3 = pd.DataFrame(data, index = index, columns=columns)
df3


Unnamed: 0,지역,2015,2010,2000,2005,2010-2015 증가율
서울,수도권,9904312,9631482,9853972,9762546,0.0283
부산,경상권,3448737,3393191,3655437,3512547,0.0163
인천,수도권,2890451,2632035,2466338,2517680,0.0982
대구,경상권,2466052,2000002,2473990,2456016,0.0141


In [14]:
# df의 구성요소 : values, index, columns (객체의 속성으로 구성)
df3.values # array 형태로 반환

array([['수도권', 9904312, 9631482, 9853972, 9762546, 0.0283],
       ['경상권', 3448737, 3393191, 3655437, 3512547, 0.0163],
       ['수도권', 2890451, 2632035, 2466338, 2517680, 0.0982],
       ['경상권', 2466052, 2000002, 2473990, 2456016, 0.0141]], dtype=object)

In [15]:
df3.columns # 열이름, index 객체로 반환

Index(['지역', '2015', '2010', '2000', '2005', '2010-2015 증가율'], dtype='object')

In [16]:
df3.index # 행이름, index 객체로 반환

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [17]:
# DataFrame의 개요 출력 - info()
df3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 서울 to 대구
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   지역             4 non-null      object 
 1   2015           4 non-null      int64  
 2   2010           4 non-null      int64  
 3   2000           4 non-null      int64  
 4   2005           4 non-null      int64  
 5   2010-2015 증가율  4 non-null      float64
dtypes: float64(1), int64(4), object(1)
memory usage: 224.0+ bytes


In [18]:
# DataFrame의 통계적 개요 출력
df3.describe()

Unnamed: 0,2015,2010,2000,2005,2010-2015 증가율
count,4.0,4.0,4.0,4.0,4.0
mean,4677388.0,4414178.0,4612434.0,4562197.0,0.039225
std,3507776.0,3524531.0,3538749.0,3500545.0,0.039809
min,2466052.0,2000002.0,2466338.0,2456016.0,0.0141
25%,2784351.0,2474027.0,2472077.0,2502264.0,0.01575
50%,3169594.0,3012613.0,3064714.0,3015114.0,0.0223
75%,5062631.0,4952764.0,5205071.0,5075047.0,0.045775
max,9904312.0,9631482.0,9853972.0,9762546.0,0.0982


In [22]:
# 시리즈처럼 df도 값방향 인덱스에 name 속성을 지정할 수 있음
df3.index.name = '도시'
df3.columns.name = '특성'
df3

특성,지역,2015,2010,2000,2005,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9853972,9762546,0.0283
부산,경상권,3448737,3393191,3655437,3512547,0.0163
인천,수도권,2890451,2632035,2466338,2517680,0.0982
대구,경상권,2466052,2000002,2473990,2456016,0.0141


---
#### 데이터 프레임 생성 예제2 : df4 생성
- 데이터 : numpy패키지의 randn 함수를 이용해서 난수 n개 생성
- 행방향 인덱스 (index) : 날짜데이터
- 열방향 인덱스 (Column) : ['A','B','C','D']
---

In [23]:
# 행방향 인덱스 데이터 생성 :날짜데이터
# 날짜 데이터 : pandas 패키지의 date_range(시작날짜, periods = 생성개수, freq = 생성간격)
# W :weekly freq(1주일 단위로 생성)
dates = pd.date_range('20190101', periods = 6, freq ='w')
dates

DatetimeIndex(['2019-01-06', '2019-01-13', '2019-01-20', '2019-01-27',
               '2019-02-03', '2019-02-10'],
              dtype='datetime64[ns]', freq='W-SUN')

In [24]:
# DataFrame 생성
df4 = pd.DataFrame(np.random.randn(6,4), index = dates, columns = ['A','B', 'C', 'D'])
df4

Unnamed: 0,A,B,C,D
2019-01-06,-0.20613,1.107829,0.543615,0.522512
2019-01-13,-0.211827,-0.623453,1.463763,-0.193165
2019-01-20,-0.946052,0.828418,-0.711055,-0.137669
2019-01-27,0.001474,0.285542,0.985223,0.595625
2019-02-03,1.904352,0.119768,0.319766,-0.011012
2019-02-10,0.418163,-1.093723,0.694743,1.266721


In [25]:
data = [[22, 60.1, 170.5, '남', '서울'], 
        [45, 51.3, 157.3, '여', '부산'], 
        [22, 68.3, 180.1, '남', '대구'],
        [33, 88.3, 190.2, '남', '제주'], 
        [27, 48.3, 160.1, '여', '강릉']]
df4 = pd.DataFrame(data, index=['홍길동', '이몽룡', '성춘향','변학도',                               '김연아'], 
                   columns=["나이", "몸무게", "키", "성별" ,"주소"])
df4


Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
이몽룡,45,51.3,157.3,여,부산
성춘향,22,68.3,180.1,남,대구
변학도,33,88.3,190.2,남,제주
김연아,27,48.3,160.1,여,강릉


---
- 판다스 데이터 프레임은 전치를 포함해서 Numpy 2차원 배열의 대부분 속성이나 메서드를 지원함.
- 전치 : 행과 열을 바꾸는 기능
---

In [28]:
# df객체.T 속성을 이용
# 원본데이터를 변경하지는 않는다.
# 단순히 바껴진 모습만 보여줌 - 결과가 필요하면 반드시 저장해서 사용해야 함
df4.T
df4

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
이몽룡,45,51.3,157.3,여,부산
성춘향,22,68.3,180.1,남,대구
변학도,33,88.3,190.2,남,제주
김연아,27,48.3,160.1,여,강릉


In [29]:
# - df3 데이터프레임을 전치하고 df3_1 변수에 저장하시오(보존하시오)
# - 원본과 비교 출력하시오
print(df3)
df3_1 = df3.T
df3_1

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2000002
2000,9853972,3655437,2466338,2473990
2005,9762546,3512547,2517680,2456016
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


---
### 3.4 Data Frame 내용 변경
- 열추가, 열삭제, 내용 갱신
---

In [30]:
# 사용예제 df
df3

특성,지역,2015,2010,2000,2005,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9853972,9762546,0.0283
부산,경상권,3448737,3393191,3655437,3512547,0.0163
인천,수도권,2890451,2632035,2466338,2517680,0.0982
대구,경상권,2466052,2000002,2473990,2456016,0.0141


---
#### 해당 열이 있으면 내용 갱신, 열이 없으면 추가
- 열추가 : df[열이름(key)] = values
- 열 내용 갱신 : df[열이름(key)] = values
---

In [31]:
df3['2010-2015 증가율'] = df3['2010-2015 증가율'] * 100
df3

특성,지역,2015,2010,2000,2005,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9853972,9762546,2.83
부산,경상권,3448737,3393191,3655437,3512547,1.63
인천,수도권,2890451,2632035,2466338,2517680,9.82
대구,경상권,2466052,2000002,2473990,2456016,1.41


In [33]:
# 열 추가 - 2005년 대비 2015년 인구 증가율
df3['2005-2015 증가율'] = ((df3['2015']-df3['2005'])/df3['2005']*100).round(2)
df3

특성,지역,2015,2010,2000,2005,2010-2015 증가율,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9853972,9762546,2.83,1.45
부산,경상권,3448737,3393191,3655437,3512547,1.63,-1.82
인천,수도권,2890451,2632035,2466338,2517680,9.82,14.81
대구,경상권,2466052,2000002,2473990,2456016,1.41,0.41


In [34]:
# 열 제거 열은 시리즈 - del
del df3['2010-2015 증가율']
df3

특성,지역,2015,2010,2000,2005,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9853972,9762546,1.45
부산,경상권,3448737,3393191,3655437,3512547,-1.82
인천,수도권,2890451,2632035,2466338,2517680,14.81
대구,경상권,2466052,2000002,2473990,2456016,0.41


---
### 3.5 indexing

1) 열 인덱싱
2) 인덱서를 사용하지 않는 행 인덱싱
3) []기호를 이용해서 인덱싱할 때 주의점 : []기호는 열 위주 인덱싱이 원칙

#### 1) 열 indexing : 열 라벨(컬럼명)을 키 값으로 생각하고 인덱싱한다.
- 인덱스로 라벨값을 하나 넣으면 시리즈 객체가 반환
- 라벨의 배열이나 리스트를 넣으면 부분적 df가 반환
---

In [75]:
# 인덱스로 라벨(열이름)값 1개 사용
df3
df3['지역']
type(df3['지역']) # 시리즈로 반환

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [39]:
# 열 1개를 접근할 때는 . 연산자 사용 가능 : df.컬럼명
df3.지역

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [83]:
# 열 1개를 추출할 때 df 형태로 반환받고 싶을 때
df3[['지역']] # 리스트 형태로 인덱싱 - df로 반환
type(df3[['지역']])

특성,지역
도시,Unnamed: 1_level_1
서울,수도권
부산,경상권
인천,수도권
대구,경상권


In [44]:
# 여러개의 열을 추출(부분추출) - 리스트 형태로 인덱싱
df3[['2010','2015']]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2000002,2466052


#### 판다스 데이터 프레임에 열이름(컬럼명)이 문자열이 경우
- 수치 인덱스를 사용할 수 없음
- 위치 인덱싱 기능을 사용할 수 없다. : keyerror 발생

In [47]:
# 위치적으로 맨 처음 열을 반환받기 위해 위치 인덱스 사용
try : 
    df3[0] # 하나만 나올 땐 항상 열을 의미, 0이라는 열이 없기에 에러 발생
except Exception as e :
    print(type(e))

<class 'KeyError'>


In [53]:
# df5 생성
# numpy의 arange 함수 사용해서 0-11 범위의 정수 생성 후
# reshape 함수 이용해서 3행 4열로 배치
# reshape 함수 이용해서 3행 4열로 배치
df5 = pd.DataFrame(np.arange(12).reshape(3,4))
df5
# 컬럼명을 명시하지 않았기 때문에 컬럼명이 자동 생성
df5[0] # 위치 인덱싱이 아니고 컬럼명이 숫자로 되어 있는 df의 접근
df5[[1,2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


#### 행단위 인덱싱
- 행단위 인덱싱을 하고자 하면 인덱서를 사용하지 않는 경우 슬라이싱을 해야 함
- 행 위치 슬라이싱 [시작값 : 끝값+1]
- 인덱스 값이 문자(라벨)이면 문자 슬라이싱도 가능

In [57]:
df3
# 1행만 추출(:1) - 슬라이싱을 사용
df3[:1]
df3[0:1]

특성,지역,2015,2010,2000,2005,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9853972,9762546,1.45


In [60]:
# 행 인덱스가 설정되어 있으면
df3['서울':'인천']

특성,지역,2015,2010,2000,2005,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9853972,9762546,1.45
부산,경상권,3448737,3393191,3655437,3512547,-1.82
인천,수도권,2890451,2632035,2466338,2517680,14.81


- 개별 요소 접근 : [열][행]

In [63]:
df3['2015']['서울']

9904312

In [112]:
# 연습문제
# 다음 데이터 프레임에서 지정하는 데이터를 뽑아내거나 처리해라
data = {
    '국어' : [80,90,70,30],
    '영어' : [90,70,60,40],
    '수학' : [90,60,80,70]
}
columns = ['국어', '영어', '수학']
index = ['춘향', '몽룡', '향단', '방자']
df = pd.DataFrame(data, index = index, columns = columns)
df

# 모든 학생의 수학점수를 시리즈로 나타낸다
# 모든 학생의 국어와 영어 점수를 데이터프레임으로 나타낸다
# 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다
# 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다
# 춘향의 점수를 데이터 프레임으로 나타낸다.
# 향단의 점수를 시리즈로 나타낸다

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [85]:
df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [84]:
df[['국어','영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [113]:
df['평균점수'] = ((df['국어']+df['영어']+df['수학'])/3).round(2)
df

Unnamed: 0,국어,영어,수학,평균점수
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [127]:
df['영어']['방자']= 80
df['평균점수'] = ((df['국어']+df['영어']+df['수학'])/3).round(2)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['영어']['방자']= 80


Unnamed: 0,국어,영어,수학,평균점수
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [106]:
df[0:1]
df[:'춘향']
df['춘향' : '춘향'] # 춘향 행이 중간에 위치하는 경우에 시작과 끝을 표기

Unnamed: 0,국어,영어,수학,평균점수
춘향,80,90,90,86.67


In [137]:
df['향단':'향단']
df.T['향단']

국어      70.0
영어      60.0
수학      80.0
평균점수    70.0
Name: 향단, dtype: float64