# 판다스
- 대부분의 데이터는 시계열(series)나 표의 형태로 나타낼 수 있음.
- 판다스는 이러한 데이터를 다루기 위한 시리즈 클래스와 데이터프레임 클래스를 제공함.

In [1]:
pip install pandas

Collecting pandasNote: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'c:\users\shoseo\appdata\local\programs\python\python38\python.exe -m pip install --upgrade pip' command.



  Downloading pandas-1.2.2-cp38-cp38-win_amd64.whl (9.3 MB)
Collecting pytz>=2017.3
  Downloading pytz-2021.1-py2.py3-none-any.whl (510 kB)
Installing collected packages: pytz, pandas
Successfully installed pandas-1.2.2 pytz-2021.1


In [2]:
import pandas as pd

### 시리즈
- 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스를 붙일 수 있음.
- 시리즈 = 값(value) + 인덱스(index)

In [3]:
# 시리즈 생성
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [4]:
s.index, s.values

(Index(['서울', '부산', '인천', '대구'], dtype='object'),
 array([9904312, 3448737, 2890451, 2466052], dtype=int64))

- name 속성을 이용하여 시리즈 데이터에 이름 붙일 수 있음.

In [5]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [6]:
# 시리즈 연산
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [7]:
s[(250e4 < s) & (s < 500e4)]  # 인구가 250만 초과, 500만 미만인 경우

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

### 데이터프레임 클래스
- 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷함.

### 데이터프레임 만드는 방법
- 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.

- 이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 만든다.

- 이 데이터를 DataFrame에 넣는다. 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정한다.

In [9]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [10]:
df.values, df.columns, df.index

(array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
        ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
        ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
        ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object),
 Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object'),
 Index(['서울', '부산', '인천', '대구'], dtype='object'))

In [11]:
# 열방향, 행방향 인덱스에 이름 붙이기
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


### 열 데이터의 갱신, 추가, 삭제

In [12]:
# "2010-2015 증가율"이라는 이름의 열 추가
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [13]:
# "2005-2010 증가율"이라는 이름의 열 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [14]:
# "2010-2015 증가율"이라는 이름의 열 삭제
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


### 열 인덱싱

In [15]:
# 하나의 열만 인덱싱하면 시리즈가 반환된다.
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [16]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환된다.
df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


- 하나의 열만 빼내면서 DF 자료형을 유지하고 싶다면 원소가 하나인 리스트를 써서 인덱싱

In [17]:
# 2010이라는 열을 반환하면서 데이터프레임 자료형을 유지
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [18]:
# 2010이라는 열을 반환하면서 시리즈 자료형으로 변환
df["2010"]

도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

# 데이터 입출력

- 1) %%writefile : 텍스트 파일을 만드는 명령

In [19]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample1.csv


- 2) csv 파일로부터 데이터를 읽어 데이터프레임 만들기

In [23]:
pd.read_csv('sample1.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,c1,c2,c3
1,1,1.11,one
2,2,2.22,two
3,3,3.33,three


In [24]:
# 특정한 열을 행 인덱스로 지정하고 싶으면 index_col 인수를 사용
pd.read_csv('sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [25]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing sample3.txt


In [26]:
# 구분자 지정
pd.read_table('sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [27]:
df = pd.read_csv('sample1.csv')
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [28]:
df.index = ["a", "b", "c"]
df

Unnamed: 0,c1,c2,c3
a,1,1.11,one
b,2,2.22,two
c,3,3.33,three


### 데이터프레임 인덱싱
- loc : 라벨값 기반의 2차원 인덱싱
- iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱
- loc 인덱서 : df.loc[행 인덱싱 값] / df.loc[행 인덱싱 값, 열 인덱싱 값]

In [30]:
import numpy as np

In [31]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [32]:
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [33]:
df["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [34]:
def select_rows(df):
    return df.A > 15
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [35]:
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [36]:
df.loc["a", "A"]

10

In [37]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [38]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


### iloc 인덱서
- 순서를 나타내는 정수 인덱스만 받음

In [39]:
df.iloc[0, 1]

11

In [40]:
df.iloc[0, 1]

11

In [41]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

In [42]:
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [43]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42
