<a href="https://colab.research.google.com/github/LEESUNG02/colab_note/blob/main/230620_pandas_ipynb%EC%9D%98_%EC%82%AC%EB%B3%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas?
* 대부분의 데이터는 시계열(series)나 표(table)로 나타낼 수 있음
* 판다스(Pandas)는 이러한 데이터를 다루기 위한 시리즈(`Series`) 클래스와 데이터 프레임(`DataFrame`) 클래스를 제공

In [None]:
import pandas as pd

## 시리즈 (Series)
* 시리즈는 Numpy에서 제공하는 1차원 배열과 비슷
* 각 데이터의 의미(이름)를 표시하는 인덱스(index)를 붙일 수 있음
> 데이터 자체는 값(value)라고 함
> 시리즈 = 값(value) + 인덱스(index)

### 시리즈 생성
* 데이터를 리스트나 1차원 배열 형식으로 Series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있음
* 이 때 인덱스의 길이는 데이터의 길이와 같아야 함
* 인덱스의 값을 인덱스 라벨(label)이라고도 함
* 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능

In [None]:
data = [9904312, 3448737, 2890451, 2466052]
index = ["서울", "부산", "인천", "대구"]
s = pd.Series(data, index=index)
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

* 만약 인덱스를 지정하지 않고 시리즈를 만들면 시리즈의 인덱스는 0부터 시작하는 정수값이 됨

In [None]:
s = pd.Series(
    [9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"]
)
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [None]:
# s = pd.Series(
#     [9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천"]
# )
# s  # Length of values (4) does not match length of index (3)

In [None]:
pd.Series(range(10, 14)), pd.Series(range(10, 14), index=range(4))

(0    10
 1    11
 2    12
 3    13
 dtype: int64,
 0    10
 1    11
 2    12
 3    13
 dtype: int64)

* 시리즈의 인덱스는 `index` 속성으로 접근할 수 있음
* 시리즈의 값은 1차원 배열이며 `values` 속성으로 접근할 수 있음

In [None]:
s, s.index

(서울    9904312
 부산    3448737
 인천    2890451
 대구    2466052
 dtype: int64,
 Index(['서울', '부산', '인천', '대구'], dtype='object'))

In [None]:
s.values, type(s.values)

(array([9904312, 3448737, 2890451, 2466052]), numpy.ndarray)

* `name` 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있음
* `index.name` 속성으로 시리즈의 인덱스에도 이름을 붙일 수 있음

In [None]:
s.name = '인구'
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 시리즈 연산
* 넘파이 배열처럼 시리즈도 벡터화 연산을 할 수 있음
* 다만 **연산은 시리즈의 값에만 적용되며 인덱스 값은 변하지 않음**

In [None]:
s + 10_000 # 인덱스에는 영향을 안 미치고 -> 결과값에서만 바뀐다

도시
서울    9914312
부산    3458737
인천    2900451
대구    2476052
Name: 인구, dtype: int64

### 시리즈 인덱싱 & 슬라이싱
* 시리즈는 Numpy 배열에서 가능한 인덱스 방법 이외에도 인덱스 라벨을 이용한 인덱싱도 할 수 있음
* 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능


In [None]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [None]:
s[1], s['부산']

(3448737, 3448737)

In [None]:
s[3], s[-1], s['대구']

(2466052, 2466052, 2466052)

In [None]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [None]:
s[['부산', '서울', '대구', '서울']]

도시
부산    3448737
서울    9904312
대구    2466052
서울    9904312
Name: 인구, dtype: int64

In [None]:
s[s > 5_000_000]

도시
서울    9904312
Name: 인구, dtype: int64

In [None]:
s > 5_000_000

도시
서울     True
부산    False
인천    False
대구    False
Name: 인구, dtype: bool

In [None]:
# 인구가 250만 초과, 500만 미만인 경우. (e숫자 => 10의 숫자승 곱하기)
s[(250e4 < s) & (s < 500e4)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

* 슬라이싱을 해도 부분적인 시리즈를 반환
* 이 때 *문자열 라벨을 이용한 슬라이싱*을 하는 경우에는 **숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함**되므로 주의


In [None]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [None]:
s[1:3] # 두번쨰(1)부터 세번쨰(2)까지 (직전까지)

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [None]:
s['부산':'대구'] # 문자열은 끝점도 포함해서 슬라이싱

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

* 만약 라벨 값이 영문 문자열인 경우에는 인덱스 라벨이 속성인것처럼 점(.)을 이용하여 해당 인덱스 값에 접근할 수도 있음


In [None]:
import numpy as np

SyntaxError: ignored

In [None]:
s0 = pd.Series(np.arange(3), index=list('abc'))
s0

In [None]:
s0['a'], s0.a, s0['b'], s0.b

(0, 1)

In [None]:
# 근데 한국어도 됌
s.서울, s.부산

(9904312, 3448737)

### 시리즈와 딕셔너리 자료형
* 시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 유사
* 따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있음


In [None]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [None]:
'서울' in s, '서울' in s.index # 시리즈 s 안에 '서울' 이라는 인덱스가 있나요?

(True, True)

In [None]:
'천안' in s, '천안' in s.index

(False, False)

In [None]:
'천안' not in s, '천안' not in s.index

(True, True)

In [None]:
# for i in s items()
for k, v in s.items():
    # print(i)
    print(f"{k}) = {v}")

서울) = 9904312
부산) = 3448737
인천) = 2890451
대구) = 2466052


* 딕셔너리 객체에서 시리즈를 만들 수도 있음


In [None]:
s2 = pd.Series({
    "서울": 9631482,
    "부산": 3393191,
    "인천": 2632035,
    "대전": 1490158
})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

* 딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않음
* 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야 함

In [None]:
s2 = pd.Series({
    "서울": 9631482,
    "부산": 3393191,
    "인천": 2632035,
    "대전": 1490158
}, index=['부산', '인천', '서울', '대전'])
s2

부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64

### 인덱스 기반 연산
* 두 시리즈에 대해 연산을 하는 경우 인덱스가 같은 데이터에 대해서만 차이를 구함

In [None]:
s, s2

(도시
 서울    9904312
 부산    3448737
 인천    2890451
 대구    2466052
 Name: 인구, dtype: int64,
 부산    3393191
 인천    2632035
 서울    9631482
 대전    1490158
 dtype: int64)

In [None]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [None]:
s.values - s2.values v # 강제로 위치로 계산한 것이기 때문에 정확하지 않아요

array([ 6511121,   816702, -6741031,   975894])

In [None]:
# NaN인 값을 구하고 싶다면 isnull 메소드를 사용
ds.isnull(), ds.notnull()

(대구     True
 대전     True
 부산    False
 서울    False
 인천    False
 dtype: bool,
 대구    False
 대전    False
 부산     True
 서울     True
 인천     True
 dtype: bool)

In [None]:
ds.notna() # ds.notnull 줄임말

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [None]:
ds[ds.isnull()]

In [None]:
# 인구 증가율 구하기 (%)
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs = rs.dropna()
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### 데이터의 갱신, 추가, 삭제
* 인덱싱을 이용하여 딕셔너리처럼 데이터를 갱신(update) 혹은 추가(add)

In [None]:
rs['부산'] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [None]:
rs['대구'] = 1.53
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.530000
dtype: float64

In [None]:
rs['쿠루'] = 1.53
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.530000
쿠루    1.530000
dtype: float64

In [None]:
# 데이터 삭제시 del 명령 사용
del rs['서울'], ['쿠루']
rs

SyntaxError: ignored

### 🦆 연습문제 1
1. 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.
1. 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.

(array(['E', 'B', 'D'], dtype='<U1'), array(['E', 'D', 'B'], dtype='<U1'))

(E    0.027145
 B    0.091685
 D    0.481127
 dtype: float64, E    0.563131
 D   -0.865738
 B   -1.343808
 dtype: float64)

B   -1.252122
D   -0.384611
E    0.590276
dtype: float64

B    1.435493
D    1.346866
E   -0.535987
dtype: float64

B   -0.123207
D   -0.416531
E    0.015286
dtype: float64

B   -0.068228
D   -0.555742
E    0.048203
dtype: float64

## 데이터프레임 (DataFrame)
* 시리즈가 1차원 배열 데이터에 행방향 인덱스(row index)를 붙인 것이라면 데이터프레임는 2차원 행렬 데이터에 인덱스를 붙인 것
* 2차원이므로 각각의 행 데이터의 이름이 되는 행 인덱스(row index) 뿐 아니라 각각의 열 데이터의 이름이 되는 열 인덱스(column index)도 붙일 수 있음

### 데이터프레임 생성
1. 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비
1. 이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 생성
1. 이 데이터를 DataFrame 생성자에 넣음. 동시에 열방향 인덱스는 `columns` 인수로, 행방향 인덱스는 `index` 인수로 지정

In [None]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


* 데이터프레임은 공통 인덱스를 가지는 열 시리즈(column series)를 딕셔너리로 묶어놓은 것이라고 보는 것이 더 정확
* 데이터프레임은 각 열(column)마다 자료형이 다를 수 있음 (2차원 배열이라고 보기엔 무리)
---
* 데이터만 접근하려면 `values` 속성 사용
* 열방향 인덱스 : `columns` 속성
* 행방향 인덱스 : `index` 속성

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [None]:
# 시리즈처럼 열방향 인덱스와 행방향 인덱스에 이름을 붙이는 것도 가능


특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


### 🦆 연습문제 2
다음 조건을 만족하는 임의의 데이터프레임을 하나 만든다.

1. 열의 갯수와 행의 갯수가 각각 5개 이상이어야 한다.
1. 열에는 정수, 문자열, 실수 자료형 데이터가 각각 1개 이상씩 포함되어 있어야 한다.

Unnamed: 0,a,b,c,d,e
a,-1.009802,0.574517,8,1.0,ㄹ
b,-0.083861,0.602716,3,1.778279,ㄱ
c,0.578296,0.721406,9,3.162278,ㄷ
d,-2.186929,0.908096,8,5.623413,ㄴ
e,2.197066,0.180169,8,10.0,ㄹ


In [None]:
# 데이터프레임은 전치(transpose)를 포함하여 넘파이 2차원 배열이 가지는 대부분의 속성이나 메서드를 지원


도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


### 열 데이터의 갱신, 추가, 삭제
* 데이터프레임은 열 시리즈의 딕셔너리으로 볼 수 있으므로 열 단위로 데이터를 갱신하거나 추가, 삭제할 수 있음

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


### 열 인덱싱
* 데이터프레임은 열 라벨을 키로, 열 시리즈를 값으로 가지는 딕셔너리와 유사
* 따라서 데이터프레임을 인덱싱을 할 때도 열 라벨(column label)을 키값으로 생각하여 인덱싱을 할 수 있음
* 인덱스로 라벨 값을 하나만 넣으면 시리즈 객체가 반환되고 라벨의 배열 또는 리스트를 넣으면 부분적인 데이터프레임이 반환


In [None]:
# 하나의 열만 인덱싱하면 시리즈가 반환


도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [None]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환


특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


* 만약 하나의 열만 빼내면서 데이터프레임 자료형을 유지하고 싶다면 원소가 하나인 리스트를 써서 인덱싱

In [None]:
# 2010이라는 열을 반환하면서 데이터프레임 자료형을 유지


특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


pandas.core.frame.DataFrame

In [None]:
# 2010이라는 열을 반환하면서 시리즈 자료형으로 변환


도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

pandas.core.series.Series

* 데이터프레임의 열 인덱스가 문자열 라벨을 가지고 있는 경우에는 순서를 나타내는 정수 인덱스를 열 인덱싱에 사용할 수 없음
* 정수 인덱싱의 슬라이스는 행(row)을 인덱싱할 때 사용하므로 열을 인덱싱할 때는 쓸 수 없음 (정수 인덱스를 넣으면 KeyError 오류가 발생)



0
<class 'KeyError'>


* 다만 원래부터 문자열이 아닌 정수형 열 인덱스를 가지는 경우에는 인덱스 값으로 정수를 사용할 수 있음

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


0     2
1     6
2    10
Name: 2, dtype: int64

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


### 행 인덱싱
* 만약 행 단위로 인덱싱을 하고자 하면 항상 슬라이싱(slicing)을 해야함
* 인덱스의 값이 문자 라벨이면 라벨 슬라이싱도 가능


특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4


### 개별 데이터 인덱싱
* 데이터프레임에서 열 라벨로 시리즈를 인덱싱하면 시리즈가 됨. 이 시리즈를 다시 행 라벨로 인덱싱하면 개별 데이터가 나옴.

9904312

### 데이터 프레임 인덱싱 방법 정리
|인덱싱 값|가능|결과|자료형|추가사항|
|:-|:-|:-|:-|:-|
|라벨|O|열|시리즈||
|라벨 리스트|O|열|데이터프레임||
|인덱스 데이터 (정수)|X||열 라벨이 정수인 경우에는 라벨 인덱싱으로 인정|
|인덱스 데이터(정수) 슬라이스|O|행|데이터프레임||

### 🦆 연습문제 3
```
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
```
1. 모든 학생의 수학 점수를 시리즈로 나타낸다.
1. 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
1. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
1. 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
1. 춘향의 점수를 데이터프레임으로 나타낸다.
1. 향단의 점수를 시리즈로 나타낸다.

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,40,70,46.666667


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['영어']['방자'] = 80


Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,80,70,60.0


Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667


국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

# 데이터 입출력

## CSV 파일 입력

In [None]:
# 샘플 데이터 만들기
%%writefile sample1.csv
c1,c2,c3
1,1.11,one
2,2.22,two
3,3.33,three

Writing sample1.csv


In [None]:
# pd.read_csv(파일이름) : CSV파일로부터 데이터를 읽어 데이터프레임 만들기


Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [None]:
# 만약 데이터 파일에 열 인덱스 정보가 없는 경우에는 read_csv 명령의 names 인수로 설정 가능
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample2.csv


Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [None]:
# 만약 테이블 내의 특정한 열을 행 인덱스로 지정하고 싶으면 index_col 인수를 사용


Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


## CSV 파일 출력

In [None]:
!cat sample3.csv

,c1,c2,c3,c4
0,1,1.11,one,2.1100000000000003
1,2,2.22,two,4.220000000000001
2,3,3.33,three,6.33


## 인터넷 상의 CSV 파일 입력
* 웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공
* read_csv 명령 사용시 파일 패스 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어들임

In [None]:
url = ''


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


* 데이터의 수가 많을 경우, 데이터프레임의 표현(representation)은 데이터 앞, 뒤의 일부분만 보여줌
* 보여줄 행의 수는 `display.max_rows` 옵션으로 정할 수 있다.

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


* 만약 앞이나 뒤의 특정 갯수만 보고 싶다면 `head` 메서드나 `tail` 메서드를 이용
* 메소드 인수로 출력할 행의 수를 넣을 수도 있음

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q
