# ___2. Pandas___

### __목차__
- [(1) 판다스 자료구조 소개](#(1)-판단스-자료구조-소개)
  - [1. Series](#1.-Series)
  - [2. DataFrame](#2.-DataFrame)
- [(2) 핵심기능](#(2)-핵심기능)
  - [1. 재색인](#1.-재색인)
  - [2. 하나의 행이나 열 삭제하기](#2.-하나의-행이나-열-삭제하기)
  - [3. 색인하기, 선택하기, 거르기](#3.-색인하기,-선택하기,-거르기)
  - [4. 산술 연산과 데이터 정렬](#4.-산술-연산과-데이터-정렬)
- [(3) 기술 통계 계산과 요약](#(3)-기술-통계-계산과-요약)

## ___(1) 판다스 자료구조 소개___
### __1. Series__
* Series는 모든 유형의 데이터를 저장하는 1차원 배열
* 색인(index) 이라고 하는 배열의 데이터와 연관된 이름을 갖는다.
* 아무것도 지정하지 않으면 값에 0부터 시작되는 번호가 index로 지정된다.

In [4]:
import pandas as pd # pandas는 panel Data의 약자입니다.

In [11]:
a = [1,7,2]
myval = pd.Series(a)
print(myval)

0    1
1    7
2    2
dtype: int64


* 색인(index)는 지정된 값을 액세스하는 데 사용할 수 있다.

In [12]:
# 예) series의 첫번째 값을 반환합니다.
print(myval[0])

1


* index를 지정해 Series 객체를 생성할 수 있다.

In [13]:
a = [1,7,2]
myval = pd.Series(a, index=["x" , "y" , "z"])
print(myval)

x    1
y    7
z    2
dtype: int64


* 여러 개의 값을 선택하는 경우에는, 선택된 결과가 리스트 형태로 반환되기 때문에 중첩된 대괄호를 사용합니다.

In [36]:
print("--- 단일 값을 출력할 때 ---")
print(myval["x"])

print("--- 여러 값을 출력할 때 --- ")
print(myval[["x", "y"]])

--- 단일 값을 출력할 때 ---
1
--- 여러 값을 출력할 때 --- 
x    1
y    7
dtype: int64


* Series는 색인값에 데이터 값을 매핑하고 있으므로, 파이썬의 딕셔너리와 비슷합니다.
* 파이썬 딕셔너리 객체로부터 Series 객체를 생성할 수 있습니다.
* to_dict 함수를 사용해 Series를 다시 딕셔너리로 변환할 수도 있습니다.

In [30]:
my_dict = {"Ohio":35000, "Texas":71000, "Oregon":16000, "Utah":5000}
obj = pd.Series(my_dict)
obj

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [27]:
print(obj.to_dict())

{'ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}


* 딕셔너리 객체만 가지고 Series 객체를 생성하면 생성된 Series객체의 색인은
  딕셔너리의 Key메서드에서 반환하는 키의 값 순서로 들어간다.
* 색인을 직접 지정하고 싶다면 원하는 순서대로 색인을 지정할 수 있다.

In [31]:
states = ["California", "Ohio", "Oregon", "Texas"]
obj2 = pd.Series(my_dict, index=states)
obj2

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

* California에 대한 값을 찾을 수 없기 때문에 NaN(Not a Number)로 표시되고, 누락된 값으로 취급된다.
* 판다스의 isnull과 notnull 함수는 누락된 데이터를 찾을 때 사용한다.

In [32]:
pd.isna(obj2)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [33]:
pd.notna(obj2)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [34]:
obj2.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

### __2. DataFrame__
* DataFrame은 행과 열로 구성된 2차원 데이터구조

In [30]:
data = {"도시" : ["서울", "서울", "서울", "부산", "부산", "부산"], "년도" : [2000,2001,2002,2001,2002,2003], "인구" : [1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,도시,년도,인구
0,서울,2000,1.5
1,서울,2001,1.7
2,서울,2002,3.6
3,부산,2001,2.4
4,부산,2002,2.9
5,부산,2003,3.2


* 큰 DataFrame을 다룰 때는 ```head()``` 메서드를 이용해 처음 5개의 행만 출력할 수 있다.
* 마찬가지로 ```tail()``` 메서드를 이용해 마지막 5개의 행을 출력할 수도 있다.

In [32]:
frame.head()

Unnamed: 0,도시,년도,인구
0,서울,2000,1.5
1,서울,2001,1.7
2,서울,2002,3.6
3,부산,2001,2.4
4,부산,2002,2.9


* columns을 원하는 순서대로 지정하면 해당 순서로 정렬된 DataFrame객체가 생성된다.

In [31]:
pd.DataFrame(data, columns=["년도", "도시", "인구"])

Unnamed: 0,년도,도시,인구
0,2000,서울,1.5
1,2001,서울,1.7
2,2002,서울,3.6
3,2001,부산,2.4
4,2002,부산,2.9
5,2003,부산,3.2


* 딕셔너리에 없는 값을 columns에 넘기면 결과에 결측치가 표시된다.

In [33]:
pd.DataFrame(data, columns=["년도", "도시", "인구", "부채"])

Unnamed: 0,년도,도시,인구,부채
0,2000,서울,1.5,
1,2001,서울,1.7,
2,2002,서울,3.6,
3,2001,부산,2.4,
4,2002,부산,2.9,
5,2003,부산,3.2,


* loc를 이용하여 하나 이상의 지정된 행을 반환
* iloc는 위치 기반 인덱싱으로 정수형 인덱스를 사용하여 데이터 접근 가능
* loc는 라벨(이름) 기반 인덱싱으로 명시적인 행과 열의 라벨을 사용하여 데이터 접근 가능

In [34]:
frame.loc[1] # Series를 리턴

도시      서울
년도    2001
인구     1.7
Name: 1, dtype: object

In [35]:
frame.loc[[1,2]] # []를 사용하면 DataFrame을 리턴

Unnamed: 0,도시,년도,인구
1,서울,2001,1.7
2,서울,2002,3.6


In [21]:
data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])
print(df)

      calories  duration
day1       420        50
day2       380        40
day3       390        45


In [28]:
# print(df.iloc["day2"]) # Error
# print(df.loc[0]) # error
print(df.loc["day2"])

calories    380
duration     40
Name: day2, dtype: int64


* 대입으로 열을 수정할 수 있다.

In [36]:
frame["부채"] = 16.5
frame

Unnamed: 0,도시,년도,인구,부채
0,서울,2000,1.5,16.5
1,서울,2001,1.7,16.5
2,서울,2002,3.6,16.5
3,부산,2001,2.4,16.5
4,부산,2002,2.9,16.5
5,부산,2003,3.2,16.5


* 리스트나 배열을 열에 대입할 때는 대입하려는 값의 길이가 DataFrame의 길이와 동일해야 한다.
* Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 존재하지 않는 색인에는 결측치가 대입된다.

In [40]:
val = pd.Series([-1.2, -1.5, -1.7], index=[2, 4, "five"])
frame["부채"] = val
frame

Unnamed: 0,도시,년도,인구,부채
0,서울,2000,1.5,
1,서울,2001,1.7,
2,서울,2002,3.6,-1.2
3,부산,2001,2.4,
4,부산,2002,2.9,-1.5
5,부산,2003,3.2,


* 존재하지 않는 열을 대입할 경우에는 새로운 열이 생성된다.
* 도시 열의 값이 "서울"인지 검사한 결과를 불리언 값으로 나타내는 새로운 열을 다음과 같이 만들 수 있다.

In [41]:
frame["수도"] = frame["도시"] == "서울"
frame

Unnamed: 0,도시,년도,인구,부채,수도
0,서울,2000,1.5,,True
1,서울,2001,1.7,,True
2,서울,2002,3.6,-1.2,True
3,부산,2001,2.4,,False
4,부산,2002,2.9,-1.5,False
5,부산,2003,3.2,,False


* del 예약어를 이용하여 새롭게 만든 열을 삭제할 수 있다.

In [43]:
del frame["수도"]
frame.columns

Index(['도시', '년도', '인구', '부채'], dtype='object')

* 다음과 같이 행과 열을 뒤집을 수 있다.

In [44]:
frame.T

Unnamed: 0,0,1,2,3,4,5
도시,서울,서울,서울,부산,부산,부산
년도,2000,2001,2002,2001,2002,2003
인구,1.5,1.7,3.6,2.4,2.9,3.2
부채,,,-1.2,,-1.5,


## ___(2) 핵심기능___
* 여기에서는 Series나 DataFrame에 저장된 데이터를 다루는 기본적인 방법을 설명한다.
* 판다스 라이브러리에 대한 모든 것을 설명하기보다는 자주 사용하는 중요한 기능에 익숙해지는데 중점을 둔다.
### __1. 재색인__
* 새로운 색인에 적합하도록 객체를 새로 생성하는 기능
* Series 객체에 대해서 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 존재하지 않는 색인값이 있다면 비어 있는 값을 새로 추가한다.

In [53]:
obj = pd.Series([4.5,7.2,-5.3,3.6], index=["d","b","a","c"])
print(obj)

obj2 = obj.reindex(["a", "b", "c", "d", "e"])
print(obj2)

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64
a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64


* DataFrame에 대한 reindex는 행(색인), 열 또는 둘 다 변경 가능하다. 그냥 순서만 전달하면 행이 재색인된다.

In [58]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)), index=["a", "c", "d"], columns=["서울", "부산", "안산"])
frame

Unnamed: 0,서울,부산,안산
a,0,1,2
c,3,4,5
d,6,7,8


In [59]:
frame2 = frame.reindex(index=["a","b","c","d"])
frame2

Unnamed: 0,서울,부산,안산
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


* 열은 columns 예약어를 사용해 재색인한다.

In [63]:
city=["서울", "부산", "안산", "포승"]
frame3 = frame2.reindex(columns=city)
frame3

Unnamed: 0,서울,부산,안산,포승
a,0.0,1.0,2.0,
b,,,,
c,3.0,4.0,5.0,
d,6.0,7.0,8.0,


* loc연산자를 이용해서 재색인 할 수 있으며, 많은 사용자가 이 방법을 선호한다.
* 이 방법은 모든 새로운 색인 레이블이 DataFrame에 존재하는 경우에만 작동한다.   
  (reindex 함수는 새로운 레이블에 대한 결측치를 삽입한다.)

In [72]:
frame4 = frame.loc[["a","d","c"],["서울","부산"]]
frame4

Unnamed: 0,서울,부산
a,0,1
d,6,7
c,3,4


### __2. 하나의 행이나 열 삭제하기__
* drop() 메서드를 사용하면 선택한 값들이 삭제된 새로운 객체를 얻을 수 있다.

In [76]:
frame5 = frame3.drop(index=["b", "d"], columns=["포승"])
frame5

Unnamed: 0,서울,부산,안산
a,0.0,1.0,2.0
c,3.0,4.0,5.0


### __3. 색인하기, 선택하기, 거르기__
* loc를 이용하면 색인에 정수가 포함되어 있지 않을 경우 오류가 발생한다.
* loc는 라벨(이름) 기반 인덱싱으로 명시적인 행과 열의 라벨을 사용하여 데이터 접근이 가능
* iloc는 위치 기반 인덱싱으로 정수형 인덱스를 사용하여 데이터 접근이 가능

In [83]:
obj1 = pd.Series([1,2,3], index=[2,0,1])
obj2 = pd.Series([1,2,3], index=["a","b","c"])

# obj1 인덱스에 정수가 포함되어 있기 때문에 loc가 정상 동작한다.
print("\n")
print(obj1.loc[[0,1,2]])

# obj2 인덱스는 문자열로 되어 있기 때문에 loc[0,1,2]는 에러가 발생한다.
print("\n")
print(obj2.loc[["a","b","c"]])

# 인덱스에 정수를 포함하고 있는지 여부와 관계없이 일관되게 작동하도록 정수로만 색인을 위하는 iloc를 사용한다.
print("\n")
print(obj2.iloc[[0,1,2]])



0    2
1    3
2    1
dtype: int64


a    1
b    2
c    3
dtype: int64


a    1
b    2
c    3
dtype: int64


* 레이블을 사용해 슬라이싱할 수 있다. 보통의 파이썬 슬라이싱과 다르게 엔드포인트가 포함된다.

In [87]:
obj2.loc["b":"c"]

b    2
c    3
dtype: int64

In [93]:
frame = pd.DataFrame(np.arange(16).reshape((4,4)), index=["a", "b", "c", "d"], columns=["1th", "2nd", "3th", "4rd"])
frame

Unnamed: 0,1th,2nd,3th,4rd
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


* 슬라이싱으로 행을 선택할 수 있다.

In [94]:
frame[:2]

Unnamed: 0,1th,2nd,3th,4rd
a,0,1,2,3
b,4,5,6,7


* 블리언 배열로 행을 선택할 수도 있다.

In [99]:
frame[frame["3th"] >= 10]

Unnamed: 0,1th,2nd,3th,4rd
c,8,9,10,11
d,12,13,14,15


* 비교를 통해 생성된 블리언 DataFrame을 사용해서True값을 가진 위치에 0을 할당할 수 있다.

In [101]:
frame[frame < 5] = 0
frame

Unnamed: 0,1th,2nd,3th,4rd
a,0,0,0,0
b,0,5,6,7
c,8,9,10,11
d,12,13,14,15


* Series와 마찬가지로 DataFrame에는 레이블과 정수 기반 색인을 위한 loc, iloc 속성이 존재한다.
* DataFrame은 2차원이므로 축 레이블(loc) 또는 정수 색인(iloc)를 이용해 행렬의 부분집합을 선택할 수 있다.

In [103]:
frame.iloc[[1,2],[3,0,1]]

Unnamed: 0,4rd,1th,2nd
b,7,0,5
c,11,8,9


### ___4. 산술 연산과 데이터 정렬___
* 판다스는 서로 다른 색인을 가지고 있는 객체 간의 산술 연산을 간단하게 처리할 수 있다.
* 서로 겹치는 색인이 없는 경우 데이터는 결측치가 된다. 추후 산술 연산 시 누락된 값이 전달된다.

In [106]:
s1 = pd.Series([7.3,-2.5, 3.4,1.5], index=["a","c","d","e"])
s2 = pd.Series([-2.1, 3.6, -1.5, 4,3.1], index=["a", "c", "e", "f", "g"])
s1+s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [111]:
df1 = pd.DataFrame(np.arange(9).reshape((3,3)), columns=list("bcd"), index=["서울", "부산", "안산"])
print(df1,"\n")
df2 = pd.DataFrame(np.arange(12).reshape((4,3)), columns=list("bde"), index=["포승", "서울", "부산", "수원"])
print(df2, "\n")
print(df1+df2)

    b  c  d
서울  0  1  2
부산  3  4  5
안산  6  7  8 

    b   d   e
포승  0   1   2
서울  3   4   5
부산  6   7   8
수원  9  10  11 

      b   c     d   e
부산  9.0 NaN  12.0 NaN
서울  3.0 NaN   6.0 NaN
수원  NaN NaN   NaN NaN
안산  NaN NaN   NaN NaN
포승  NaN NaN   NaN NaN


* df1에 add메서드를 사용해서 df2와 fill_value값을 인수로 전달한다.
* 연산에서 누락된 값은 fill_valye값으로 대체된다.

In [113]:
df3 = df1.add(df2, fill_value=0)
df3

Unnamed: 0,b,c,d,e
부산,9.0,4.0,12.0,8.0
서울,3.0,1.0,6.0,5.0
수원,9.0,,10.0,11.0
안산,6.0,7.0,8.0,
포승,0.0,,1.0,2.0


* 데이터는 기본적으로 오름차순으로 정렬되고, 내림차순으로도 정렬할 수 있다

In [114]:
df3.sort_index(axis="columns", ascending=False)

Unnamed: 0,e,d,c,b
부산,8.0,12.0,4.0,9.0
서울,5.0,6.0,1.0,3.0
수원,11.0,10.0,,9.0
안산,,8.0,7.0,6.0
포승,2.0,1.0,,0.0


* Series 객체를 값에 따라 정렬하고 싶다면 sord_values 메서드를 사용한다.
* 정렬할 때 누락된 값(결측치)은 기본적으로 Series객체의 가장 마지막에 위치한다.

In [116]:
obj = pd.Series([4,7,-3,2])
print(obj.sort_values())

2   -3
3    2
0    4
1    7
dtype: int64


* DataFrame에서 하나 이상의 열에 있는 값으로 정렬하는 경우에는 sort_values함수에 필요한 열의 이름을 넘긴다.

In [117]:
frame = pd.DataFrame({"b":[4,7,-3,2], "a":[0,1,0,1]})
print(frame.sort_values("b"))

   b  a
2 -3  0
3  2  1
0  4  0
1  7  1


## ___(3) 기술 통계 계산과 요약___