# pandas
파이썬에서 데이터를 분석하기 위한 라이브러리 <br>
표, 서로 다른 종류로 이루어진 데이터를 다루기에 적합 <br>
for문과 같은 반복문 없이 같은 작업을 여러 번 반복할 수 있음 <br>
NumPy 등 다른 도구와 함께 쓰이기도 함 <br>

In [1]:
import numpy as np

import pandas as pd

# 데이터 구조
- 시리즈 (Series)
- 데이터프레임 (DataFrame)

## 시리즈Series
일차원 객체 (반복과 순서가 있는 데이터) <br>
시리즈를 호출하면 인덱스와 값 순으로 나타남 <br>

In [2]:
S = pd.Series([6, 13, -5, 17])

S

0     6
1    13
2    -5
3    17
dtype: int64

In [3]:
S = pd.Series([6, 13, -5, 17], index = ["a", "b", "c", "d"])

S

a     6
b    13
c    -5
d    17
dtype: int64

In [4]:
S = pd.Series({"a":6, "b":13, "c": -5, "d": 17})

S

a     6
b    13
c    -5
d    17
dtype: int64

In [5]:
## to_dict 메소드를 사용해 시리즈를 사전으로 만들 수 있음
## S.to_dict()

### 예제1
원하는 방식으로 아래와 같은 시리즈를 생성해보세요. <br>
<br>
1&nbsp;&nbsp;&nbsp;&nbsp;"고" <br>
2&nbsp;&nbsp;&nbsp;&nbsp;"양" <br>
3&nbsp;&nbsp;&nbsp;&nbsp;"이" <br>
dtype: object

In [6]:
# 예제1

In [7]:
Sdata = np.arange(6)
Sindex = list("abcedf")

pd.Series(Sdata, index = Sindex)

a    0
b    1
c    2
e    3
d    4
f    5
dtype: int32

### 인덱스
각각의 값(데이터프레임에서는 각각의 행과 열)에 붙여진 레이블 <br>
불변성을 가져 다른 데이터와 결합할 때 값이 이동하지 않음 <br>
인덱스를 이용해 특정 값을 불러오고 수정할 수 있음 <br>
인덱스 자체를 객체처럼 활용하는 것도 가능 (인덱스에 메소드 사용 가능) <br>
중복된 인덱스를 가질 수 있음 <br>


In [8]:
print(S["d"])

print(S[1])

print(S[["b", "c", "a", "d"]])
## 여러 행을 불러올 땐 시퀀스로 

17
13
b    13
c    -5
a     6
d    17
dtype: int64


In [9]:
S[2] = -4

S

a     6
b    13
c    -4
d    17
dtype: int64

In [10]:
S.name = "number"
S.index.name = "w"  
## 시리즈.index가 인덱스 객체 자체를 가리킴

S

w
a     6
b    13
c    -4
d    17
Name: number, dtype: int64

In [11]:
dir(S.index)

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__init__',
 '__init_subclass__',
 '__invert__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rfloordiv__',
 '__rmod__',
 '__rmul__',
 '__ror__',
 '__rpow__',
 '__rsub__',
 '__rtruediv__',
 '__rxor__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__sub__',
 '__subclasshook__',
 '__truediv__',
 '__weakref__',
 '__xor__',
 '_accessors',
 '_arith_method',
 

In [12]:
S.index.is_unique

True

In [13]:
S2 = pd.Series([2, 6, 3, 5, 7, 6, 5], index = list("고려대고양이짱"))

S2.index.is_unique

False

In [14]:
S2["고"]

고    2
고    5
dtype: int64

### 기능
특정 조건을 만족하는 행만 불러오기 <br>
각 행에 같은 작업 반복하기 <br>
in 등 다양한 연산자 사용하기 <br>
시리즈 안의 값과 인덱스에 대한 정보 확인

In [15]:
print(S[S < 10])
print("\n")

print(S + 3)
print("\n")

print(13 in S)  ##??
print("\n")

print(12 in S)
print("\n")

w
a    6
c   -4
Name: number, dtype: int64


w
a     9
b    16
c    -1
d    20
Name: number, dtype: int64


False


False




In [16]:
print(S.array)
print("\n")
print(S.index)

<PandasArray>
[6, 13, -4, 17]
Length: 4, dtype: int64


Index(['a', 'b', 'c', 'd'], dtype='object', name='w')


In [17]:
S + S2

a   NaN
b   NaN
c   NaN
d   NaN
고   NaN
고   NaN
대   NaN
려   NaN
양   NaN
이   NaN
짱   NaN
dtype: float64

## 데이터프레임DataFrame
행과 열을 가진 다차원 객체

In [18]:
DF = pd.DataFrame({"월요일":["언어학사", "일반언어학", " ", " ", "역사학개론", " "],
                   "화요일":[" ", "서양철학입문", " ", " ", "생물다양성과 진화", "서양근세사"]},
                   index = ["1교시", "2교시", "3교시", "4교시", "5교시", "6교시"])
DF

Unnamed: 0,월요일,화요일
1교시,언어학사,
2교시,일반언어학,서양철학입문
3교시,,
4교시,,
5교시,역사학개론,생물다양성과 진화
6교시,,서양근세사


In [19]:
DF = pd.DataFrame({"월요일": {"1교시":"언어학사", "2교시":"일반언어학", "3교시": " ", "4교시": " ", "5교시": "역사학개론", "6교시": " "},
                   "화요일": {"1교시":" ", "2교시":"서양철학입문", "3교시": " ", "4교시": " ", "5교시": "생물다양성과 진화", "6교시": "서양근세사"}})
DF

Unnamed: 0,월요일,화요일
1교시,언어학사,
2교시,일반언어학,서양철학입문
3교시,,
4교시,,
5교시,역사학개론,생물다양성과 진화
6교시,,서양근세사


In [20]:
DF.columns.name = "요일"
DF.index.name = "교시"

DF

요일,월요일,화요일
교시,Unnamed: 1_level_1,Unnamed: 2_level_1
1교시,언어학사,
2교시,일반언어학,서양철학입문
3교시,,
4교시,,
5교시,역사학개론,생물다양성과 진화
6교시,,서양근세사


In [21]:
DF[["화요일", "월요일"]]

요일,화요일,월요일
교시,Unnamed: 1_level_1,Unnamed: 2_level_1
1교시,,언어학사
2교시,서양철학입문,일반언어학
3교시,,
4교시,,
5교시,생물다양성과 진화,역사학개론
6교시,서양근세사,


### 기능

In [22]:
print(DF.index)
print("\n")
print(DF.columns)

Index(['1교시', '2교시', '3교시', '4교시', '5교시', '6교시'], dtype='object', name='교시')


Index(['월요일', '화요일'], dtype='object', name='요일')


In [23]:
DF.head()
## 위에서부터 다섯 행 호출

요일,월요일,화요일
교시,Unnamed: 1_level_1,Unnamed: 2_level_1
1교시,언어학사,
2교시,일반언어학,서양철학입문
3교시,,
4교시,,
5교시,역사학개론,생물다양성과 진화


In [24]:
DF.tail()
## 아래에서부터 다섯 행 호출

요일,월요일,화요일
교시,Unnamed: 1_level_1,Unnamed: 2_level_1
2교시,일반언어학,서양철학입문
3교시,,
4교시,,
5교시,역사학개론,생물다양성과 진화
6교시,,서양근세사


In [25]:
DF["수요일"] = DF["월요일"]
DF["목요일"] = DF["화요일"]
## 새로운 열 추가

DF

요일,월요일,화요일,수요일,목요일
교시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1교시,언어학사,,언어학사,
2교시,일반언어학,서양철학입문,일반언어학,서양철학입문
3교시,,,,
4교시,,,,
5교시,역사학개론,생물다양성과 진화,역사학개론,생물다양성과 진화
6교시,,서양근세사,,서양근세사


In [26]:
del DF["수요일"]

DF

요일,월요일,화요일,목요일
교시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1교시,언어학사,,
2교시,일반언어학,서양철학입문,서양철학입문
3교시,,,
4교시,,,
5교시,역사학개론,생물다양성과 진화,생물다양성과 진화
6교시,,서양근세사,서양근세사


In [27]:
DF.drop(columns = "목요일")

요일,월요일,화요일
교시,Unnamed: 1_level_1,Unnamed: 2_level_1
1교시,언어학사,
2교시,일반언어학,서양철학입문
3교시,,
4교시,,
5교시,역사학개론,생물다양성과 진화
6교시,,서양근세사


In [28]:
DF.T
## 행과 열 교체

교시,1교시,2교시,3교시,4교시,5교시,6교시
요일,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
월요일,언어학사,일반언어학,,,역사학개론,
화요일,,서양철학입문,,,생물다양성과 진화,서양근세사
목요일,,서양철학입문,,,생물다양성과 진화,서양근세사


### 인덱싱과 슬라이싱
행과 열의 레이블을 이용해서 원하는 값만 불러오거나 값을 새로 할당할 수 있음

In [29]:
print(S["a"] == S[0])

True


In [30]:
print(S["c":"b"])
print(S[1:3])

Series([], Name: number, dtype: int64)
w
b    13
c    -4
Name: number, dtype: int64


In [31]:
DF["화요일"]
## 하나의 열을 시리즈 형태로 보여줌

교시
1교시             
2교시       서양철학입문
3교시             
4교시             
5교시    생물다양성과 진화
6교시        서양근세사
Name: 화요일, dtype: object

In [32]:
DF["월요일"][0]
## 행과 열
## 열에서는 레이블이 정수가 아니면 정수 인덱싱이 불가능
## loc와 iloc에서 계속

'언어학사'

### 예제2
DF에서 다음과 같은 결과가 나오는 코드를 작성하세요.<br> <br>
2교시 일반언어학 <br>
5교시 역사학개론 <br>
name: "월요일" dtype: object

In [33]:
DF

요일,월요일,화요일,목요일
교시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1교시,언어학사,,
2교시,일반언어학,서양철학입문,서양철학입문
3교시,,,
4교시,,,
5교시,역사학개론,생물다양성과 진화,생물다양성과 진화
6교시,,서양근세사,서양근세사


# 활용
- 리인덱싱
- 연산
- 기능, 함수 적용
- 정렬
- 고유한 값

## 리인덱싱reindexing
주어진 데이터에 새로운 인덱스를 부여

In [34]:
DF2 = pd.DataFrame(np.arange(16).reshape(4,4), index = [0, 2, 5, 6], columns = ["a", "b", "c", "d"])

DF2

Unnamed: 0,a,b,c,d
0,0,1,2,3
2,4,5,6,7
5,8,9,10,11
6,12,13,14,15


In [35]:
DF2.reindex(index = np.arange(7))

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,,,,
2,4.0,5.0,6.0,7.0
3,,,,
4,,,,
5,8.0,9.0,10.0,11.0
6,12.0,13.0,14.0,15.0


In [36]:
DF2.reindex(index = np.arange(7), method = "ffill")

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,0,1,2,3
2,4,5,6,7
3,4,5,6,7
4,4,5,6,7
5,8,9,10,11
6,12,13,14,15


In [37]:
DF2.reindex(columns = ["e", "d", "c", "b", "a"])

Unnamed: 0,e,d,c,b,a
0,,3,2,1,0
2,,7,6,5,4
5,,11,10,9,8
6,,15,14,13,12


In [38]:
DF2.reindex(["b", "c", "d"], axis = "columns")

Unnamed: 0,b,c,d
0,1,2,3
2,5,6,7
5,9,10,11
6,13,14,15


## loc와 iloc
loc: location의 약자, 지정한 행과 열을 가져옴 (사용자 기준) <br>
loc로 정수 인덱싱하면 기본 인덱스와 다른 정수 인덱스를 기준으로 삼음 (인덱스가 정수가 아닐 시 사용 불가) <br>
iloc: integer location의 약자, 정수 인덱스로 인덱싱 및 슬라이싱 (컴퓨터 기준) <br>
iloc의 경우 정수 인덱스에서도 기본 인덱스를 기준으로 삼음 <br>
조건으로 검색할 때는 iloc 사용 불가

In [39]:
DF2.loc[:, "b"]
## 모든 행에서 b열의 값들을 가져올 것

0     1
2     5
5     9
6    13
Name: b, dtype: int32

In [40]:
DF2.iloc[:, 1]
## 모든 행에서 두번째 열의 값들을 가져올 것

0     1
2     5
5     9
6    13
Name: b, dtype: int32

In [41]:
DF2.loc[1]

KeyError: 1

In [None]:
DF2.iloc[1]

a    4
b    5
c    6
d    7
Name: 2, dtype: int32

## 예제3
loc와 iloc의 차이를 정리해보세요.

답:

## 연산
시리즈, 데이터프레임끼리 더하면 합집합 (한쪽에라도 값이 없으면 NaN=null값 부여) <br>
인덱스 값이 한쪽에 없으면 다시 인덱싱됨

In [None]:
DF3 = pd.DataFrame(np.arange(9).reshape(3,3), index = [4, 5, 6], columns = ["a", "b", "c"])

df = DF2 + DF3

df

Unnamed: 0,a,b,c,d
0,,,,
2,,,,
4,,,,
5,11.0,13.0,15.0,
6,18.0,20.0,22.0,


sum 메소드의 경우 NaN끼리 더하면 0으로 산출됨

In [None]:
df.sum()

a    29.0
b    20.0
c    37.0
d     0.0
dtype: float64

In [None]:
df.sum(axis = "index", skipna = False)
## 기본 설정인 skipna를 비활성화하면 NaN이 포함된 sum이 모두 NaN으로 나옴

a   NaN
b   NaN
c   NaN
d   NaN
dtype: float64

In [None]:
df2 = DF2.add(DF3, fill_value = 0)
## DF2에는 없고 DF3에는 있는 값들을 합쳐진 표에 삽입

df2

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
2,4.0,5.0,6.0,7.0
4,0.0,1.0,2.0,
5,11.0,13.0,15.0,11.0
6,18.0,20.0,22.0,15.0


In [None]:
print(S)
print(DF2)

DF2 + S
## 데이터프레임과 시리즈 사이 연산에서는 시리즈가 데이터 프레임의 각 행에 적용됨

w
a     6
b    13
c    -4
d    17
Name: number, dtype: int64
    a   b   c   d
0   0   1   2   3
2   4   5   6   7
5   8   9  10  11
6  12  13  14  15


Unnamed: 0,a,b,c,d
0,6,14,-2,20
2,10,18,2,24
5,14,22,6,28
6,18,26,10,32


In [None]:
DF2.describe()
## 여러 가지 통계를 보여주는 메소드
## std: 표준 편차


Unnamed: 0,a,b,c,d
count,4.0,4.0,4.0,4.0
mean,6.0,7.0,8.0,9.0
std,5.163978,5.163978,5.163978,5.163978
min,0.0,1.0,2.0,3.0
25%,3.0,4.0,5.0,6.0
50%,6.0,7.0,8.0,9.0
75%,9.0,10.0,11.0,12.0
max,12.0,13.0,14.0,15.0


## 함수 적용
apply나 applymap을 이용해 함수를 적용할 수 있음 <br>
map은 시리즈에서 함수를 적용하는 메소드 <br>
기본적인 함수, 메소드는 apply 없이도 가능

In [None]:
def f(x):
    return x*10+4

DF2.apply(f)

Unnamed: 0,a,b,c,d
0,4,14,24,34
2,44,54,64,74
5,84,94,104,114
6,124,134,144,154


In [None]:
S.map(f)
## apply도 가능

w
a     64
b    134
c    -36
d    174
Name: number, dtype: int64

## 정렬
sort_index를 이용해 인덱스를 사전순으로 정렬 <br>
sort_values로 값 기준 정렬 <br>

In [None]:
DF3 = pd.DataFrame({"b":[5,5,4,3], "a":[1,4,9,7]}, index = [4,2,3,1])

DF3

Unnamed: 0,b,a
4,5,1
2,5,4
3,4,9
1,3,7


In [None]:
DF3.sort_index(axis = "index", ascending = 1)
## 행의 인덱스 기준 정렬
## 오름차순 정렬

Unnamed: 0,b,a
1,3,7
2,5,4
3,4,9
4,5,1


In [None]:
DF3["a"][2] = np.nan
## NaN 추가

DF3

Unnamed: 0,b,a
4,5,1.0
2,5,
3,4,9.0
1,3,7.0


In [None]:
DF3.sort_values("a")
## 기준이 되는 열 지정

Unnamed: 0,b,a
4,5,1.0
1,3,7.0
3,4,9.0
2,5,


In [None]:
DF3.sort_values("a", na_position = "first")
## NaN의 위치를 지정

Unnamed: 0,b,a
2,5,
4,5,1.0
1,3,7.0
3,4,9.0


rank 메소드로 시리즈나 데이터프레임 안에 있는 값의 순위를 매길 수 있음 <br>
동점일 경우 기본적으로 소수, 등장하는 순서대로 각각 다른 순위 할당할 수 있음

In [None]:
DF3.rank()

Unnamed: 0,b,a
4,3.5,1.0
2,3.5,
3,2.0,3.0
1,1.0,2.0


In [None]:
DF3.rank(method = "first")

Unnamed: 0,b,a
4,3.0,1.0
2,4.0,
3,2.0,3.0
1,1.0,2.0


## 고유한 값
- 시리즈에서 사용 <br>
unique 메소드로 중복된 값을 제외할 수 있음 <br>
isin으로 값과 특정 데이터를 비교해 필터링 가능 <br>
index.get_indexer은 중복이 있는 배열에 고유한 배열을 적용해 인덱스로 배열을 도출

In [None]:
S3 = pd.Series(list("ffhmmggllll"))
S3.unique()

array(['f', 'h', 'm', 'g', 'l'], dtype=object)

In [None]:
S3.isin(["f","g","h"])

0      True
1      True
2      True
3     False
4     False
5      True
6      True
7     False
8     False
9     False
10    False
dtype: bool

In [None]:
uniqueS = pd.Series(["h","l", "m"])

pd.Index(uniqueS).get_indexer(S3)
## 고유한 값들을 가진 시리즈를 그렇지 않은 시리즈에 적용해 그 고유한 값들이 어떻게 분포하고 있는지 보여줌
## -1은 uniqueS에 없는 값이라는 뜻

array([-1, -1,  0,  2,  2, -1, -1,  1,  1,  1,  1], dtype=int64)

value_counts()로 고유한 값 각각의 수를 셀 수 있음 (기본 설정: 개수의 내림차순) <br>
데이터프레임에서는 각 행을 하나의 값으로 보고 그 행과 같은 행이 몇 개인지 계산

In [None]:
S3.value_counts()

l    4
f    2
m    2
g    2
h    1
dtype: int64

In [None]:
DF4 = pd.DataFrame({"a": [0,0,1,3], "b": [1,1,2,2]})

DF4

Unnamed: 0,a,b
0,0,1
1,0,1
2,1,2
3,3,2


In [None]:
DF4.value_counts()

a  b
0  1    2
1  2    1
3  2    1
dtype: int64

### 예제4
주어진 데이터프레임을 열 기준으로 정렬하고, 메소드를 이용해 (5,1,6)으로 배열된 행의 개수를 구하세요.

In [None]:
df = pd.DataFrame({3:[1,3,3,5,5,6], 1:[0,0,0,1,1,1], 2:[2,2,6,6,6,1]})