<a href="https://colab.research.google.com/github/JoySoon/DataAnalysis/blob/backup/JoySoon/ch06_01_pandas_%EA%B8%B0%EC%B4%88_KSW.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas?
* 대부분의 데이터는 시계열(series)나 표(table)로 나타낼 수 있음
* 판다스(Pandas)는 이러한 데이터를 다루기 위한 시리즈(`Series`) 클래스와 데이터 프레임(`DataFrame`) 클래스를 제공

In [1]:
import pandas as pd

## 시리즈 (Series)
* 시리즈는 Numpy에서 제공하는 1차원 배열과 비슷
* 각 데이터의 의미(이름)를 표시하는 인덱스(index)를 붙일 수 있음
> 데이터 자체는 값(value)라고 함
> 시리즈 = 값(value) + 인덱스(index)

### 시리즈 생성
* 데이터를 리스트나 1차원 배열 형식으로 Series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있음
* 이 때 인덱스의 길이는 데이터의 길이와 같아야 함
* 인덱스의 값을 인덱스 라벨(label)이라고도 함 
* 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능

In [2]:
data = [9904312, 3448737, 2890451, 2466052]
index = ["서울", "부산", "인천", "대구"]
s = pd.Series(data, index=index)
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [3]:
s = pd.Series([9904312, 3448737, 2890451, 2466052], 
              index=["서울", "부산", "인천"])

ValueError: ignored

* 만약 인덱스를 지정하지 않고 시리즈를 만들면 시리즈의 인덱스는 0부터 시작하는 정수값이 됨

In [4]:
# pd.Series(range(10, 14)), index=range(4))
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

* 시리즈의 인덱스는 `index` 속성으로 접근할 수 있음
* 시리즈의 값은 1차원 배열이며 `values` 속성으로 접근할 수 있음

In [5]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [6]:
s.values

array([9904312, 3448737, 2890451, 2466052])

* `name` 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있음
* `index.name` 속성으로 시리즈의 인덱스에도 이름을 붙일 수 있음

In [7]:
s.name = '인구'
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 시리즈 연산
* 넘파이 배열처럼 시리즈도 벡터화 연산을 할 수 있음 
* 다만 **연산은 시리즈의 값에만 적용되며 인덱스 값은 변하지 않음**

In [8]:
s / 1_000_000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### 시리즈 인덱싱 & 슬라이싱
* 시리즈는 Numpy 배열에서 가능한 인덱스 방법 이외에도 인덱스 라벨을 이용한 인덱싱도 할 수 있음 
* 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능


In [9]:
s[1], s['부산']

(3448737, 3448737)

In [10]:
s[3], s['대구']

(2466052, 2466052)

In [11]:
s[-1]

2466052

In [12]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [13]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [14]:
# s[s > 5_000_000]
s[(250e4 < s) & (s < 500e4)] # 인구가 250만 초과, 500만 미만인 경우 (e = 0의 경우)

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

* 슬라이싱을 해도 부분적인 시리즈를 반환
* 이 때 *문자열 라벨을 이용한 슬라이싱*을 하는 경우에는 **숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함**되므로 주의


In [15]:
s[1:3] # 두번째(1)부터 세번째(2)까지, 네번째(3) 직전까지 (네번째(3)은 미포함)

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [16]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [17]:
s["부산":"대구"] # 대구도 포함 (문자열 라벨을 이용한 슬라이싱)

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

* 만약 라벨 값이 영문 문자열인 경우에는 인덱스 라벨이 속성인것처럼 점(.)을 이용하여 해당 인덱스 값에 접근할 수도 있음


In [18]:
import numpy as np
# s0 = pd.Series(range(3), index=['a', 'b', 'c'])
s0 = pd.Series(np.arange(3), index=list('abc'))
s0

a    0
b    1
c    2
dtype: int64

In [19]:
s0.a, s0.b, s0.c 
# 변수화를 할 수 있는 이름이라면 1) 숫자로 시작하지 않을 것 2) 공백을 포함하지 않을 것 3) 이상한 특수문자 X

(0, 1, 2)

In [20]:
# 근데 한국어도 됌
s.부산

3448737

### 시리즈와 딕셔너리 자료형
* 시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 유사
* 따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있음


In [21]:
"서울" in s # 시리즈 s 안에 서울이라는 인덱스 라벨(키)이 있나요?

True

In [22]:
# "대전" in s # 시리즈 s 안에 대전이라는 인덱스 라벨(키)이 있나요?
"대전" not in s # 시리즈 s 안에 대전이라는 인덱스 라벨(키)이 있나요?

True

In [23]:
for k, v in s.items():
    # print(k + " = " + str(v))
    # print(f"{k} = {v}")
    # print("{k} = {v}".format(k=k, v=v))
    # print("{} = {}".format(k, v))
    print("%s = %d" % (k, v)) 

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


* 딕셔너리 객체에서 시리즈를 만들 수도 있음


In [24]:
s2 = pd.Series({
    "서울" : 9631482,
    "부산" : 3393191,
    "인천" : 2632035,
    "대전" : 1490158
})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

* 딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않음
* 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야 함

In [25]:
s2 = pd.Series({
    "서울" : 9631482,
    "부산" : 3393191,
    "인천" : 2632035,
    "대전" : 1490158
}, index=["부산", "서울", "인천", "대전"] )
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

### 인덱스 기반 연산
* 두 시리즈에 대해 연산을 하는 경우 인덱스가 같은 데이터에 대해서만 차이를 구함 

In [26]:
print(s)
print(s2)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64


In [27]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [28]:
s.values - s2.values

array([ 6511121, -6182745,   258416,   975894])

In [29]:
# NaN인 값을 빼고 구하고 싶다면 notnull 메소드를 사용
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [30]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [31]:
ds.notna()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [32]:
# 인구 증가율 구하기 (%)
# s : 2015, s2:2010, 2010 -> 2015 인구증가율
# (s - s2) / s2 * 100
rs = (s - s2) / s2 * 100
# rs = rs[rs.notnull()]
rs = rs.dropna()
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### 데이터의 갱신, 추가, 삭제
* 인덱싱을 이용하여 딕셔너리처럼 데이터를 갱신(update) 혹은 추가(add)

In [33]:
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [34]:
rs["대구"] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [35]:
# 데이터 삭제시 del 명령 사용
del rs["서울"]
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

### 🦆 연습문제 1
1. 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.
1. 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.

In [36]:
import numpy as np
import pandas as pd

In [37]:
ord('A')

65

In [38]:
str_index = lambda x: np.random.choice(list(map(chr,range(65, 75))), x, replace=False)

value_count = 6
s1 = pd.Series(np.random.randn(value_count), str_index(value_count))
s2 = pd.Series(np.random.randn(value_count), str_index(value_count))
print(s1)
print(s2)

D   -0.156708
A   -0.103195
E    0.799464
G    1.470017
J    1.637517
B   -0.402154
dtype: float64
G    1.834556
A    1.124409
I   -1.807414
F   -0.593012
J   -1.847535
B   -1.960365
dtype: float64


In [39]:
s1 + s2

A    1.021213
B   -2.362519
D         NaN
E         NaN
F         NaN
G    3.304573
I         NaN
J   -0.210019
dtype: float64

In [40]:
s1 - s2

A   -1.227604
B    1.558210
D         NaN
E         NaN
F         NaN
G   -0.364539
I         NaN
J    3.485052
dtype: float64

In [41]:
s1 * s2

A   -0.116034
B    0.788369
D         NaN
E         NaN
F         NaN
G    2.696829
I         NaN
J   -3.025370
dtype: float64

In [42]:
s1 / s2

A   -0.091778
B    0.205143
D         NaN
E         NaN
F         NaN
G    0.801293
I         NaN
J   -0.886325
dtype: float64

## 데이터프레임 (DataFrame)
* 시리즈가 1차원 배열 데이터에 행방향 인덱스(row index)를 붙인 것이라면 데이터프레임는 2차원 행렬 데이터에 인덱스를 붙인 것
* 2차원이므로 각각의 행 데이터의 이름이 되는 행 인덱스(row index) 뿐 아니라 각각의 열 데이터의 이름이 되는 열 인덱스(column index)도 붙일 수 있음

### 데이터프레임 생성
1. 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비
1. 이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 생성
1. 이 데이터를 DataFrame 생성자에 넣음. 동시에 열방향 인덱스는 `columns` 인수로, 행방향 인덱스는 `index` 인수로 지정

In [43]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]

In [44]:
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


* 데이터프레임은 공통 인덱스를 가지는 열 시리즈(column series)를 딕셔너리로 묶어놓은 것이라고 보는 것이 더 정확
* 데이터프레임은 각 열(column)마다 자료형이 다를 수 있음 (2차원 배열이라고 보기엔 무리)
---
* 데이터만 접근하려면 `values` 속성 사용
* 열방향 인덱스 : `columns` 속성
* 행방향 인덱스 : `index` 속성

In [45]:
df.values 

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [46]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [47]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [48]:
# 시리즈처럼 열방향 인덱스와 행방향 인덱스에 이름을 붙이는 것도 가능
df.index.name = '도시'
df.columns.name = '특정'
df

특정,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


### 🦆 연습문제 2
다음 조건을 만족하는 임의의 데이터프레임을 하나 만든다.

1. 열의 갯수와 행의 갯수가 각각 5개 이상이어야 한다.
1. 열에는 정수, 문자열, 실수 자료형 데이터가 각각 1개 이상씩 포함되어 있어야 한다.

In [49]:
data = {
    "영어": ["A", "B", "C", "D", "E"],
    "한글": ["가", "나", "다", "라", "마"],
    "정수": [1.0, 2.0, 3.0, 4.0, 5.0],
    "실수": [1, 2, 3, 4, 5],
    "문자표": ["!", "@", "#", "$", "%"]
}
columns = ["영어", "한글", "정수", "실수", "문자표"]
index = ["I","II","III", "IX", "V"]

In [50]:
df2 = pd.DataFrame(data, index=index, columns=columns)
df2

Unnamed: 0,영어,한글,정수,실수,문자표
I,A,가,1.0,1,!
II,B,나,2.0,2,@
III,C,다,3.0,3,#
IX,D,라,4.0,4,$
V,E,마,5.0,5,%


In [51]:
pd.DataFrame({
    'a': np.random.randn(5), # -2 ~ 2. 표준정규분포를 따르는... (평균 0, 표준편차 1)
    'b': np.random.rand(5), # 0 ~ 1. 
    'c': np.random.randint(10, size=5), # 0~9 사이의 5개 정수
    # 'd': np.logspace(0, 1, 5),
    'd': np.linspace(0, 1, 5),
    'e': np.random.choice(list("ㄱㄴㄷㄹㅁ"), 5, replace=False),
    },
    # index=list("ABCDE")
    index=list(map(chr, range(65, 70))),
)

Unnamed: 0,a,b,c,d,e
A,-0.857691,0.549203,4,0.0,ㄹ
B,-0.032152,0.371853,0,0.25,ㄷ
C,1.31927,0.646153,9,0.5,ㅁ
D,-0.483161,0.925947,4,0.75,ㄴ
E,-0.545042,0.332689,9,1.0,ㄱ


In [52]:
# 데이터프레임은 전치(transpose)를 포함하여 넘파이 2차원 배열이 가지는 대부분의 속성이나 메서드를 지원
df.T

도시,서울,부산,인천,대구
특정,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


### 열 데이터의 갱신, 추가, 삭제
* 데이터프레임은 열 시리즈의 딕셔너리으로 볼 수 있으므로 열 단위로 데이터를 갱신하거나 추가, 삭제할 수 있음

In [53]:
df

특정,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [54]:
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [55]:
df["지역"]["서울"], df["지역"][0]

('수도권', '수도권')

In [56]:
df['2010-2015 증가율'] * 100

도시
서울    2.83
부산    1.63
인천    9.82
대구    1.41
Name: 2010-2015 증가율, dtype: float64

In [57]:
# df['2010-2015 증가율'] /= 100
df['2010-2015 증가율'] = df['2010-2015 증가율'] / 100
df

특정,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.000283
부산,경상권,3448737,3393191,3512547,3655437,0.000163
인천,수도권,2890451,2632035,2517680,2466338,0.000982
대구,경상권,2466052,2431774,2456016,2473990,0.000141


In [58]:
# df['2010-2015 증가율'] = df['2010-2015 증가율'] * 100
df['2010-2015 증가율'] *= 100
df

특정,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [59]:
# '2005-2010 증가율'이라는 이름의 열을 추가
# df['2005-2010 증가율']
# 2005-2010 증가율 = (2010인구수 - 2005인구수) / 2005인구수 * 100
# df['2005-2010 증가율'] = (df['2010'] - df['2005']) / df['2005'] * 100
df['2005-2010 증가율'] = ((df['2010'] - df['2005']) / df['2005'] * 100).round(2) # 소수점 n째자리까지 반올림 (반올림, 올림, 버림)
df

특정,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4
인천,수도권,2890451,2632035,2517680,2466338,0.0982,4.54
대구,경상권,2466052,2431774,2456016,2473990,0.0141,-0.99


In [60]:
del df["2010-2015 증가율"]
df

특정,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


### 열 인덱싱
* 데이터프레임은 열 라벨을 키로, 열 시리즈를 값으로 가지는 딕셔너리와 유사
* 따라서 데이터프레임을 인덱싱을 할 때도 열 라벨(column label)을 키값으로 생각하여 인덱싱을 할 수 있음
* 인덱스로 라벨 값을 하나만 넣으면 시리즈 객체가 반환되고 라벨의 배열 또는 리스트를 넣으면 부분적인 데이터프레임이 반환


In [61]:
# 하나의 열만 인덱싱하면 시리즈가 반환
df['지역']

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [62]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환
df[['2010', '2015']]

특정,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


* 만약 하나의 열만 빼내면서 데이터프레임 자료형을 유지하고 싶다면 원소가 하나인 리스트를 써서 인덱싱

In [63]:
# 2010이라는 열을 반환하면서 데이터프레임 자료형을 유지
df[['2010']]

특정,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [64]:
type(df[['2010']])

pandas.core.frame.DataFrame

In [65]:
# 2010이라는 열을 반환하면서 시리즈 자료형으로 변환
df['2010']

도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [66]:
type(df['2010'])

pandas.core.series.Series

* 데이터프레임의 열 인덱스가 문자열 라벨을 가지고 있는 경우에는 순서를 나타내는 정수 인덱스를 열 인덱싱에 사용할 수 없음
* 정수 인덱싱의 슬라이스는 행(row)을 인덱싱할 때 사용하므로 열을 인덱싱할 때는 쓸 수 없음 (정수 인덱스를 넣으면 KeyError 오류가 발생)



In [67]:
df[0]

KeyError: ignored

* 다만 원래부터 문자열이 아닌 정수형 열 인덱스를 가지는 경우에는 인덱스 값으로 정수를 사용할 수 있음 

In [69]:
# df2 = pd.DataFrame(np.arange(12).reshape(3, -1), columns=range(4))
df2 = pd.DataFrame(np.arange(12).reshape(3, -1))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [70]:
df2[1]

0    1
1    5
2    9
Name: 1, dtype: int64

In [71]:
df2[[3, 1]]

Unnamed: 0,3,1
0,3,1
1,7,5
2,11,9


In [72]:
df3 = pd.DataFrame(np.arange(12).reshape(3, -1), columns=range(1,5))
df3

Unnamed: 0,1,2,3,4
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [73]:
df3[3]

0     2
1     6
2    10
Name: 3, dtype: int64

### 행 인덱싱
* 만약 행 단위로 인덱싱을 하고자 하면 항상 슬라이싱(slicing)을 해야함
* 인덱스의 값이 문자 라벨이면 라벨 슬라이싱도 가능


In [74]:
df[:1]

특정,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [75]:
df[1:2]

특정,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [76]:
df[1:3]

특정,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54


In [77]:
df["서울":"부산"]

특정,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [78]:
df["서울":"대구"]

특정,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [79]:
df2[1:2]

Unnamed: 0,0,1,2,3
1,4,5,6,7


### 개별 데이터 인덱싱
* 데이터프레임에서 열 라벨로 시리즈를 인덱싱하면 시리즈가 됨. 이 시리즈를 다시 행 라벨로 인덱싱하면 개별 데이터가 나옴.

In [80]:
df['2015']

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [81]:
df['2015'][0]

9904312

In [82]:
df['2015']['서울']

9904312

In [83]:
df['2010']['인천']

2632035

### 데이터 프레임 인덱싱 방법 정리
|인덱싱 값|가능|결과|자료형|추가사항|
|:-|:-|:-|:-|:-|
|라벨|O|열|시리즈||
|라벨 리스트|O|열|데이터프레임||
|인덱스 데이터 (정수)|X||열 라벨이 정수인 경우에는 라벨 인덱싱으로 인정|
|인덱스 데이터(정수) 슬라이스|O|행|데이터프레임||

### 🦆 연습문제 3
```
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
```
1. 모든 학생의 수학 점수를 시리즈로 나타낸다.
1. 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
1. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
1. 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
1. 춘향의 점수를 데이터프레임으로 나타낸다.
1. 향단의 점수를 시리즈로 나타낸다.

In [84]:
data = {
    "국어" : [80, 90, 70, 30],
    "영어" : [90, 70, 60, 40],
    "수학" : [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", " 향단", "방자"]

df3 = pd.DataFrame(data, index=index, columns=columns)
df3

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [85]:
# 1. 모든 학생의 수학 점수를 시리즈로 나타낸다
#  수학 점수가 들어있는 열을 인덱스로 조회한다
#  열을 인덱스로 조회 -> df[열 인덱스] (시리즈)
df3['수학']

춘향     90
몽룡     60
 향단    80
방자     70
Name: 수학, dtype: int64

In [86]:
# 2. 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
# 국어, 영어 키를 사용해서 키 리스트로 시리즈들을 조회해서 데이터프레임화
# 열들의 리스트를 []에 넣어서 조회하면 그 열들을 묶은 데이터프레임이 나온다.
df3[["국어", "영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [87]:
# 3. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
# df3["평균"] = df.mean(axis=1)
df3["평균"] = (df3["국어"] + df3["영어"] + df3["수학"]) / 3
df3

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,40,70,46.666667


In [88]:
# 4. 방자의 영어 점수를 80점으로 수정하고 평균점수도 다시 계산한다.
# df3["영어"]["방자"] = 80
# df3["영어"][-1] = 80
df3["영어"][3] = 80
df3

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df3["영어"][3] = 80


Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,80,70,46.666667


In [89]:
# 5. 춘향의 점수를 데이터프레임으로 나타낸다
# df3[0:1]
# df3[:1]
df3.T[["춘향"]].T

Unnamed: 0,국어,영어,수학,평균
춘향,80.0,90.0,90.0,86.666667


In [109]:
df3

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,80,70,46.666667


In [110]:
df3.T

Unnamed: 0,춘향,몽룡,향단,방자
국어,80.0,90.0,70.0,30.0
영어,90.0,70.0,60.0,80.0
수학,90.0,60.0,80.0,70.0
평균,86.666667,73.333333,70.0,46.666667


In [112]:
df3.T.columns

Index(['춘향', '몽룡', ' 향단', '방자'], dtype='object')

In [113]:
# 6. 향단의 점수를 시리즈로 나타낸다.
df3.T[" 향단"]

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name:  향단, dtype: float64

# 데이터 입출력

## CSV 파일 입력

In [92]:
# comma seperated values : comma(,)로 구분된 값들
# 샘플 데이터 만들기
%%writefile sample1.csv
c1,c2,c3
1,1.11,one
2,2.22,two
3,3.33,three

Writing sample1.csv


In [93]:
# pd.read_csv(파일이름) : CSV파일로부터 데이터를 읽어 데이터프레임 만들기
pd.read_csv("sample1.csv")

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [94]:
df_csv = pd.read_csv("sample1.csv")
df_csv

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [95]:
# 만약 데이터 파일에 열 인덱스 정보가 없는 경우에는 read_csv 명령의 names 인수로 설정 가능
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample2.csv


In [96]:
df_csv2 = pd.read_csv("sample2.csv")
df_csv2

Unnamed: 0,1,1.11,one
0,2,2.22,two
1,3,3.33,three


In [97]:
df_csv2 = pd.read_csv("sample2.csv", names=['c1', 'c2', 'c3'])
df_csv2

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [98]:
# 만약 테이블 내의 특정한 열을 행 인덱스로 지정하고 싶으면 index_col 인수를 사용
df_csv3 = pd.read_csv("sample2.csv", names=['c1', 'c2', 'c3'], index_col=2) # index_col = n번째를 지정(0부터 시작)
df_csv3

Unnamed: 0_level_0,c1,c2
c3,Unnamed: 1_level_1,Unnamed: 2_level_1
one,1,1.11
two,2,2.22
three,3,3.33


## CSV 파일 출력

In [99]:
df = pd.read_csv("sample1.csv")
df['c4'] = df['c1'] + df['c2']
df

Unnamed: 0,c1,c2,c3,c4
0,1,1.11,one,2.11
1,2,2.22,two,4.22
2,3,3.33,three,6.33


In [100]:
df.to_csv('sample3.csv')

In [101]:
!cat sample3.csv

,c1,c2,c3,c4
0,1,1.11,one,2.1100000000000003
1,2,2.22,two,4.220000000000001
2,3,3.33,three,6.33


In [102]:
df_to_csv = pd.read_csv('sample3.csv', index_col=0)
df_to_csv

Unnamed: 0,c1,c2,c3,c4
0,1,1.11,one,2.11
1,2,2.22,two,4.22
2,3,3.33,three,6.33


In [103]:
df.to_excel('sample3.xlsx')

In [104]:
pd.read_excel('sample3.xlsx', index_col=0)

Unnamed: 0,c1,c2,c3,c4
0,1,1.11,one,2.11
1,2,2.22,two,4.22
2,3,3.33,three,6.33


## 인터넷 상의 CSV 파일 입력
* 웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공
* read_csv 명령 사용시 파일 패스 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어들임

In [105]:
url = 'https://github.com/BigData23th/DataAnalysis/raw/main/_data/titanic.csv'
pd.read_csv(url)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


* 데이터의 수가 많을 경우, 데이터프레임의 표현(representation)은 데이터 앞, 뒤의 일부분만 보여줌
* 보여줄 행의 수는 `display.max_rows` 옵션으로 정할 수 있다.

In [106]:
pd.set_option("display.max_rows", 20) # 앞뒤로 모두 20행
df = pd.read_csv(url)
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


* 만약 앞이나 뒤의 특정 갯수만 보고 싶다면 `head` 메서드나 `tail` 메서드를 이용
* 메소드 인수로 출력할 행의 수를 넣을 수도 있음

In [107]:
# df.head()
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [108]:
# df.tail()
df.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q
