# Pandas(Panel Datas)란 (1)

Pandas는 주로 데이터 분석에 사용됩니다.

대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있습니다. Pandas
패키지는 이러한 데이터를 다루기 위한 Series 클래스와 DataFrame 클래스를 제공합니다.

숫자 테이블과 시계열 을 조작하기 위한 데이터 구조 와 연산을 제공합니다.

In [4]:
import pandas as pd

- 다음 예제는 각 도시의 2015년 인구 데이터를 Series로 만들어보겠습니다.
- 우리는 자리수가 긴 숫자의 경우에 쉽게 읽기 위해 콤마로 3자리씩 끊어 표기합니다.
- 파이썬에서도 이처럼 사용할 수 있는 방법이 있습니다. 아래 예제처럼 언더바를 숫자
사이사이 넣을 수 있습니다.

In [29]:
# Series 생성하기
    
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
              index = ["서울", "부산", "인천", "대구"])
              
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [9]:
# 연습 문제
# 다음과 같이 10, 20, 30, 40, 50, 60, 70, 80, 90의 값을 갖는 Series를 생성해보세요.

ex = pd.Series(list(range(10, 100, 10)))
ex

0    10
1    20
2    30
3    40
4    50
5    60
6    70
7    80
8    90
dtype: int64

### < Series 생성하기 >
- 만약 index를 지정하지 않고 Series를 만들면 Series의 index는 0부터 시작하는 정수 값이 됩니다.

In [12]:
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

- Series의 index는 index 속성으로 접근할 수 있다.
- eries의 value는 1차원 배열(ndarray)
이며 values 속성으로 접근할 수 있습니다.

In [13]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [107]:
s.values   #dic => .values()

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

### 연습 문제
앞선 연습 문제에서 만든 Series 객체의 값 중 50보다 큰 값의 개수를 구해보세요.

In [108]:
sum(ex.values > 50)   # true가 1이고 false가 0이니까 true값들을 다 더하면 4개라는거

4

In [16]:
ex.values > 50

array([False, False, False, False, False,  True,  True,  True,  True])

### < Series 생성하기 >
- name 속성을 이용하여 Series 데이터에 이름을 붙일 수 있습니다. 
- index.name 속성으로
Series의 index에도 이름을 붙일 수 있습니다.

In [17]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### < Series 생성하기 >

- Series 객체를 만들 때 data에 dict를 사용해보겠습니다. 아래 예제에서는 dict와 동일하게
index를 적용하고 있습니다. 만들어진 Series 객체를 조회해보면 그 값이 정상적으로
조회되는 것을 확인할 수 있습니다.

In [18]:
d = {'a' : 1, 'b' : 2, 'c' : 3}
ser = pd.Series(data=d, index = ['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

- 이번에는 dict의 key와 Series 객체의 index를 다르게 설정해보겠습니다.
data가 dict일 때 index가 최초에 dict의 key로 만들어집니다. 그 후 Series는 index
키워드로 전달받은 인수로 index를재할당합니다. 그래서 밑에 예제와 같이 Series 객체의
값이 NaN의 결과를 출력하는 것을 확인할 수 있습니다.

In [19]:
d = {'a' : 1, 'b' : 2, 'c' : 3}
ser = pd.Series(data=d, index = ['x', 'y', 'z'])
ser

x   NaN
y   NaN
z   NaN
dtype: float64

### < Series 생성하기 >
- index 지정 없이 dict 객체만 가지고 Series를 만들 수도 있습니다. 
- dic의 key가 index로
사용되는 것을 확인할 수 있습니다.

In [21]:
s2 = pd.Series({"서울" : 9_904_312, 
                "부산" : 3_448_737, 
                "인천" : 2_890_451, 
                "대구" : 2_466_052})
s2

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

### 연습문제
사회 점수가 다음과 같을 때 이름을 index로 하고 점수를 values로 하는 Series를
만들어보세요.

이름   사회 점수

철수 88

영희 95

길동 100

몽룡 67

In [22]:
scores = {"철수" : 88,
          "영희" : 95,
          "길동" : 100,
          "몽룡" : 67}

a = pd.Series(scores)

a

철수     88
영희     95
길동    100
몽룡     67
dtype: int64

### < Series index를 속성처럼 활용하기 >
- 만약 label 값이 공백 없는 문자열인 경우에는 index label이 속성인것처럼 마침표(.)를
활용하여 해당 index 값에 접근할 수도 있습니다.

In [24]:
d = {'a' : 1, 'b' : 2, 'c' : 3}
ser = pd.Series(data=d, index = ['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [25]:
ser.a, ser.b, ser.c

(1, 2, 3)

### < Series의 특징 >
- Series 객체는 index label을 키(key)로 사용하기에 딕셔너리 자료형과 비슷한 특징을
갖습니다. 그래서 Series를 딕셔너리와 같은 방식으로 사용할 수 있게 구현해놨습니다.
예를 들어 in 연산도 가능하고, items() 메서드를 사용해서 for문 루프를 돌려 각 요소의
키(key)와 값(value)에 접근할 수도 있습니다.

In [26]:
"서울" in s

True

In [27]:
"대전" is s

  "대전" is s


False

In [35]:
for m, n in s.items() : 
    print(f"{m}, {n}")

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


### 연습 문제
도시의 인구가 300만이 넘는 곳을 찾아 다음과 같이 출력해보세요.
- for문과 items() 메서드를 활용하세요.

In [36]:
for m, n in s.items() : 
    if n > 3_000_000 :
        print(f"{m}의 인구는 300만이 넘습니다.")

서울의 인구는 300만이 넘습니다.
부산의 인구는 300만이 넘습니다.


### < Series 연산하기 >
- 넘파이 배열처럼 Series도 벡터화 연산을 할
수 있습니다. 
다만 연산은 Series의
value에만 적용되며 index 값은 변하지
않는다. 예를 들어 인구 숫자를 백만 단위로
만들기 위해 Series 객체를 1,000,000 으로
나누어도 index label에는 영향을 미치지
않는 것을 볼 수 있다.

In [38]:
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [39]:
s / 1_000_000

서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
dtype: float64

### < Series 인덱싱 >
- Series는 넘파이 배열에서 가능한 index 방법 이외에도 index label을 이용한 인덱싱도 할
수 있습니다. 
- 배열 인덱싱이나 index label을 이용한 슬라이싱(slicing)도 가능합니다.

In [40]:
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [44]:
s[2], s["부산"]

(2890451, 3448737)

In [42]:
s[3], s["대구"]

(2466052, 2466052)

- 배열 인덱싱을 하면 부분적인 값을 가지는 Series 자료형을 반환합니다. 자료의 순서를 
바꾸거나 특정한 자료만 취사 선택할 수 있습니다.

In [43]:
s[[0, 3, 1]]

서울    9904312
대구    2466052
부산    3448737
dtype: int64

In [45]:
s[["서울", "대구", "부산"]]

서울    9904312
대구    2466052
부산    3448737
dtype: int64

### < Series 인덱싱 >

-  하나의 값을 시리즈 형태로 가져오고 싶으면 다음과 같이 값이 하나인 리스트로
인덱싱하여 작성할 수 있습니다.

In [110]:
s[[0]] # 리스트로 감싸줘서 0에 대한 시리즈를 가져올 수 있었음.

도시
서울    9904312
Name: 인구, dtype: int64

In [48]:
# 연습 문제
# 인천의 인덱스와 값을 시리즈로 조회해보세요.

s[["인천"]]

인천    2890451
dtype: int64

### < Series 슬라이싱 >

- 슬라이싱을 해도 부분적인 Series를 반환합니다. 이 때 문자열 label을 이용한 슬라이싱을
하는 경우에는 숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함되므로
주의해야 합니다.

In [50]:
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [51]:
s[1 : 3]   # 두번째(1)부터 세번째 (2)까지 (네번째(3) 미포함)

부산    3448737
인천    2890451
dtype: int64

In [53]:
s["부산" : "대구" ]  # 부산(1)에서 대구(3)까지!! (대구도 포함!!!)

부산    3448737
인천    2890451
대구    2466052
dtype: int64

### < Series index 기반 연산 >

- 이번에는 2015년도와 2010년의 인구
증가를 계산해 보겠습니다. 두 개의
Series의 차이를 구하면 됩니다. 두
Series에 대해 연산을 하는 경우
index가 같은 데이터에 대해서만
차이를 구합니다.
대구와 대전의 경우에는 2010년
자료와 2015년 자료가 모두 존재하지
않기 때문에 계산이 불가능하므로
NaN(Not a Number)이라는 값을
가지게 됩니다.

In [56]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index = ["서울", "부산", "인천", "대구"])
              
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [63]:
s2 = pd.Series({"서울" : 9631482, 
                "부산" : 3393191, 
                "인천" : 2632035, 
                "대전" : 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [65]:
ds = s - s2
ds

# NaN 값이 float 자료형에서만 표현 가능하므로 다른 계산 결과도 모두 
# float 자료형이 되었다점에 주의해야 합니다.

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

### < Series에서 값이 NaN인지 확인 >
- Series의 값이 NaN이면 True NaN이 아니면
False인 bool type의 Series를 구하려면
isnull() 메서드를 사용하면 됩니다.

In [67]:
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [66]:
ds.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

### < Series에서 값이 NaN이 아닌지 확인 >
- Series의 값이 NaN이 아니면 True
NaN이면 False 값을 갖는 bool type의
Series를 구하려면 notnull() 메서드를
사용하면 됩니다.

In [68]:
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [69]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

### < Series에서 NaN이 아닌 값만 인덱싱으로 구하기 >
- notnull() 메서드로 구한 True / False 값을
갖는 시리즈를 활용하여 NaN인 값을
배제한 Series 객체를 인덱싱하여 만들 수
있습니다.

In [70]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [111]:
ds[ds.notnull()]  # True인 값에 대해서만 출력 => bool타입의 인덱싱의 방법

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

### < Series에서 NaN이 아닌 값 구하기 >

- 마찬가지로 NaN 값인 것을 배제하고 2010년 대비 2015년 인구 증가율(%)은 다음과
같이 구할 수 있습니다.

In [72]:
s #2015년 도시별 인구

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [73]:
s2 # 2010년 도시별 인구

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [75]:
rs = ( s - s2 ) / s2 * 100 # 2010 -> 2015 인구증가율
rs = rs[rs.notnull()]  # NaN인 값을 배제한 Series 객체를 인덱싱
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### < 연습 문제 >
2010년 대비 2015년 인구 증가를 구하세요.(NaN 값인 것을 배제) 인구수 증가가 가장
많은 도시의 이름과 증가한 인구수를 Series 객체로 출력해보세요.

In [77]:
ds = s - s2  # 2010 -> 2015 인구증가
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [79]:
ds = ds[ds.notnull()] # NaN인 값을 배제한 Series 객체를 인덱싱
ds

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [83]:
ds[[ds.values.argmax()]] # 최대값의 위치 찾고 Series 객체로 출력

서울    272830.0
dtype: float64

In [112]:
ds.argmax()

1

In [116]:
ds[ds.argmax()]

272830.0

In [117]:
ds[[ds.argmax()]]

서울    272830.0
dtype: float64

### < Series 데이터 추가, 갱신, 삭제 >
- 딕셔너리 때와 비슷하게 인덱싱을 경우에 맞춰 사용하면 데이터를 추가(add)하거나
갱신(update)할 수 있습니다.
- 기존에 있는 index에 값을 할당하면 갱신됩니다.
- 예제는 데이터 갱신의 예제입니다.

rs   # 인구 증가율(%)

In [88]:
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

### < 연습 문제 >
앞의 예제의 Series 객체의 값을 다음과 같이 수정하세요.
- 서울: 2.83
- 인천: 9.82

In [91]:
rs["서울","인천"] = 2.83, 9.82
rs

부산    1.63
서울    2.83
인천    9.82
dtype: float64

### < Series 데이터 추가, 갱신, 삭제 >
- 없는 index에 값을 할당하면 Series에 데이터가 추가(add)됩니다. 

아래 예제에서 “대구"라는 index는 현재 없는데 그 index에 값을 1.41 할당하여 데이터를 추가하고
있습니다.

In [92]:
rs

부산    1.63
서울    2.83
인천    9.82
dtype: float64

In [93]:
rs["대구"] = 1.41
rs

부산    1.63
서울    2.83
인천    9.82
대구    1.41
dtype: float64

### < Series 데이터 추가, 갱신, 삭제 >
- 데이터를 삭제할 때도 딕셔너리처럼 del 명령을 사용합니다. 

아래 예제에서는 “서울" 이라는 index에 접근하여 del 명령을 사용하여 데이터를 삭제하고 있습니다.

In [94]:
rs

부산    1.63
서울    2.83
인천    9.82
대구    1.41
dtype: float64

In [95]:
del rs["서울"]
rs

부산    1.63
인천    9.82
대구    1.41
dtype: float64

### < 연습 문제 >
- 아래 fin1과 fin2_value, fin2_index를 활용하여 Series 객체 ser_finance1,
ser_finance2를 만들어보세요.


In [96]:
fin1 = {"카카오":60010, "삼성전자":61000, "LG전자": 90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]

In [97]:
ser_finace1 = pd.Series(fin1)
print(ser_finace1)

카카오     60010
삼성전자    61000
LG전자    90000
dtype: int64


In [99]:
ser_finace2 = pd.Series(fin2_value, fin2_index)
print(ser_finace2)

카카오      60200
삼성전자     61200
네이버     200100
dtype: int64


### < 연습 문제 >
- 앞서 만든 두 Series 객체를 활용하여 사칙 연산을 각각 수행해보세요. 
- 사칙연산 중
NaN 값을 갖는 항목과 dtype을 각각 확인해보세요.
- 왜 해당 dtype이 나오는지 설명하세요.

In [100]:
ser_finace1 - ser_finace2

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [101]:
ser_finace1 + ser_finace2

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [102]:
ser_finace1 * ser_finace2

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [103]:
ser_finace1 / ser_finace2

LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64

### < 연습 문제 >
- 아래의 연산 결과 중 NaN 값이 없게 Series 객체를 출력해보세요.

result = ser_finace1 - ser_finace2

In [105]:
result = ser_finace1 - ser_finace2
result

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [106]:
result = ser_finace1 - ser_finace2
result[result.notnull()]

삼성전자   -200.0
카카오    -190.0
dtype: float64