# Pandas #

- 주로 데이터 분석에 사용  
  
- 대부분의 데이터는 시계열이나 표의 형태로 나타낼 수 있다
- pandas패키지는 이러한 데이터를 다루기 위한 Series(# 열) 클래스와 DataFrame(#table) 클래스를 제공  
  
- 숫자 테이블과 시계열을 조작하기 위한 데이터 구조와 연산을 제공  

>Numpy와 마찬가지로 Pandas 패키지를 사용하기 위해선 해당 패키지 임포트 필요  
>pd라는 별칭으로 임포트

In [3]:
import pandas as pd

## [ Series 클래스 ] ##

Numpy에서 제공하는 1차열 배열과 모양 비슷  
배열과 다르게 각 데이터의 의미를 표시하는 index를 붙일 수 있음  
데이터 자체는 값(value)라고 함


In [18]:
Series = pd.Series(["하나", "둘", "셋", "넷","다섯",
                   "여섯", "일곱", "여덟", "아홉", "열"],
                  index = [_ for _ in range(1, 11)]) # index - 수
Series

1     하나
2      둘
3      셋
4      넷
5     다섯
6     여섯
7     일곱
8     여덟
9     아홉
10     열
dtype: object

### [ Series 생성하기 ] ###

series 객체를 만들 때 첫 인수로 data, 두번째 인수로 index를 삽입  
data 값으로 iterable, 배열, csalar value, dict(key와 index를 동일하게 사용하거나 생략) 사용 가능  

#### index ? ####

index는 label이라고 함  
index는 data와 length가 동일해야 함  
label은 꼭 유일할 필요 X  
반드시 hashable type만 사용 해야함  
index를 생략할 경우 Rangeindex(0, 1, ..., n)를 제공  

```python
class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```

- 각 도시의 2015년 인구 데이터를 series로 만들기

>자리수가 긴 숫자의 경우에 쉽게 읽기 위해 콤마로 3자리씩 끊어 표기  
>파이썬에선 아래 예제처럼 언더바를 숫자 사이사이에 삽입

In [23]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
             index = ["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

>index 지정하지 않고 Series 만들기  
>Series의 index는 0부터 시작하는 정수 값이 됨

In [25]:
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

### index 속성 ###
>Series의 index 속성으로 접근 가능  
>Series의 value는 1차원의 배열  
>values 속성으로 접근 가능  

In [27]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [28]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

### name 속성 ###
>name 속성을 이용하여 Series 데이터에 이름을 붙일 수 있음
>index.name 속성으로 Series의 index에도 이름 붙이기 가능

In [32]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### dict 사용하기 ### 
>dict와 동일하게 index적용 하고 있다  
>만들어진 Series 객체를 조회해보면 그 값이 정상적으로 조회됨

In [35]:
d = {'a':1, 'b':2, 'c':3}
ser = pd.Series(data = d, index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

>data가 dict일 때 index가 최초에 dict의 key로 만들어짐    
>그 후 Series는 index키워드로 전달받은 인수로 index 재할당  
>밑에 예제와 같이 Series 객체의 값이 NaN의 결과를 출력  

1. serise가 생성될 때 최초에 dictionary의 key를 index로 사용
2. 그 이후 키워드 인수로 넘겨받은 index 값을 다시 재할당  
--> 그래서 해당 하는 값을 찾을 수 없다고 나옴

※ NaN값이 float자료형에서만 표현 가능하므로 결과가 float자료형이 되었다는 점 주의

In [37]:
c = {'a':1, 'b':2, 'c':3}
ser = pd.Series(data=d, index=['x', 'y', 'z'])
ser

x   NaN
y   NaN
z   NaN
dtype: float64

>index 지정 없이 dic 객체만 가지고 Series 만들기 가능
>dic의 key가 index로 사용되는 것 확인 가능

In [41]:
s2 = pd.Series ({"서울":9_904_312,
                  "부산":3_448_737})
s2

서울    9904312
부산    3448737
dtype: int64

### serise index 속성처럼 사용하기 ###

> 만약 label값이 영문 문자열인 경우에는 index label이 속성인것처럼 마침표(.)를 활용하여 해당 index값에 접근 가능

In [44]:
d = {'a':1, 'b':2, 'c':3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [45]:
ser.a, ser.b, ser.c

(1, 2, 3)

### Series의 특징###

>Series 객체는 index label을 키로 사용하기에 딕셔너리 자료형과 비슷한 특징을 갖음  
>그래서 Series를 딕셔너리와 같은 방식으로 사용할 수 있게 구현해놈  
>예를 들어 in연산 가능, items()메서드를 사ㅏ용해서 for문 루프를 돌려 각 요소의 키와 값에 접근 가능  

"서울" in s #인덱스 레이블 중에 서울이 있는가

In [51]:
"대전" in s #인덱스 레이블 중에 대전이 있는가

False

In [50]:
for k, v in s.items():
    print(f"{k}, {v}")

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


### Series 연산하기

>넘파이 배열처럼 Series도 벡터화 연산 가능  
>다만 연산은 Series의 value에만 적용  
>index 값은 변하지 X


In [55]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [54]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### Series 인덱싱

>Series는 넘파이 배열에서 가능한 index방법 이외에도 index label을 이용한 인덱싱도 가능  
>배열 인덱싱이나 index label을 이용한 슬라이싱도 가능

In [59]:
s[1],s["부산"]

(3448737, 3448737)

In [60]:
s[3],s["대구"]

(2466052, 2466052)

>배열 인덱싱을 하면 부분적인 값을 가지는 Series 자료형으로 반환  
>자료의 순서를 바꾸거나 특정한 자료만 취사 선택 가능

In [62]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [63]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

### Series 슬라이싱 ###

>슬라이싱을 해도 부분적인 Series 반환  
>이 때 문자열 label을 이용한 슬라이싱을 하는 경우에는 숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함되므로 주의

In [67]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [66]:
s[1:3] #두번째(1)부터 세번째(2)까지 (네번째(3) 미포함)

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [68]:
s["부산":"대구"] #부산에서 대구까지 (대구 포함)

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### Series index 기반 연산 ###

> 2015년도와 2010년 인구 증가 계산해보기  
> 두 개의 Series 차를 구하면 됨  
>두 Series에 대해 연산을 하는 경우 index가 같은 데이터에 대해서만 차이를 구함  

>대구와 대전의 경우에는 2010년 자료와 2015년 자료가 모두 존재하지 않으므로 계산 불가능 --> NaN  

In [72]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
             index = ["서울", "부산", "인천", "대구"])
s.name = "인구"
s.index.name = "도시"
s          

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [74]:
s2 = pd.Series({"서울":9631482, "부산":3393191, "인천":2632035, "대전":1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [75]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

- series 내 갚이 NaN이 아닌지 True, False 값을 구하려면 notnull() 메서드 사용 

In [77]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

- NaN인 값을 배제한 Series 만들기

In [79]:
ds[ds.notnull()] 

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

- NaN 값을 배제하고 2010년 대비 2015년 인구 증가울(%)구하기 

In [81]:
s #2015년 도시별 인구

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [82]:
s2 #2010년 도시별 인구

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [83]:
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()] #NaN값 제거하기
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### Series 데이터 추가, 갱신, 삭제 ###

>딕셔너리 때와 비슷하게 인덱싱을 경우에 맞춰 사용하면 데이터를 추가하거나 갱신 가능  


 - 갱신하기

>기존에 있는 index에 값을 할당하면 갱신 됨

In [88]:
rs # 인구 증가율(%)

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [89]:
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

- 추가하기

> 없는 index에 값을 할당하면 Series에 데이터가 추가

In [92]:
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [93]:
rs["대구"]= 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

- 삭제하기

> 데이터를 삭제할 때에도 딕셔너리처럼 del 명령을 사용

In [96]:
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [97]:
del rs["서울"]
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

### 연습문제 ###

1. 아래 fin1과 fin2_value, fin2_index를 활용하여 Series객체 ser_finance1, ser_finance2를 만들기

In [100]:
fin1 = {"카카오":60010, "삼성전자":61000, "LG전자":90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]

In [108]:
fin1 = {"카카오":60010, "삼성전자":61000, "LG전자":90000}
ser_finance1 = pd.Series(fin1)
ser_finance1

카카오     60010
삼성전자    61000
LG전자    90000
dtype: int64

In [109]:
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]
ser_finance2 = pd.Series(fin2_value,
                 index = fin2_index)
ser_finance2

카카오      60200
삼성전자     61200
네이버     200100
dtype: int64

2. 앞서 만든 두 Series 객체를 활용하여 사칙 연산을 각각 수행해보세요  
- 사칙연산 중 NaN값을 갖는 항목과 dtype을 각각 확인해보세요

In [110]:
ser_finance1 - ser_finance2 # LG전자는 1에만 있고 네이버는 2에만 있어서

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [111]:
ser_finance1 + ser_finance2 # LG전자는 1에만 있고 네이버는 2에만 있어서

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [112]:
ser_finance1 * ser_finance2 # LG전자는 1에만 있고 네이버는 2에만 있어서

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [114]:
ser_finance1 / ser_finance2 # LG전자는 1에만 있고 네이버는 2에만 있어서

LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64

3. 아래의 연산 결과 중 NaN 값이 없게 Series 객체를 출력해보세요
```python
ser12 = ser_finance1 - ser_finance2
```

In [119]:
ser12 = ser_finance1 - ser_finance2
ser12 = ser12[ser12.notnull()]
ser12

삼성전자   -200.0
카카오    -190.0
dtype: float64

-----------------

## [ DataFrame class ] ##

- DataFrame은 Pandas의 주요 데이터 구조
- label된 row와 column, 두 개의 축을 갖는 데이터 구조
- 산술 연산은 row와 column 모두 적용
- Series 객체를 갖는 dictionary 라고 생각하면 비슷함

> 첫번째 인자로 data, 두번째 인자로 index 전달

```python
class pandas (DataFrame(data=None, index=None, columns=None, dtype=None, copy=None))
```

### DataFrame 생성 ###

>Series가 1차원 벡터 데이터에 행방향 index를 붙인 것이라면 DataFrame클래스는 2차원 행렬 데이터에 index를 붙인 것과 형태가 비슷    
>row가 column을 갖는 2차원이므로 각각의 행 데이터의 이름이 되는 행뿐 아니라 각각의 열 데이터의 이름이 되는 열index도 붙일 수 있음    

DataFrame 만드는 법    
1. 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비
2. 이 각각의 열에 대한 이름(label)을 키로 가지는 딕셔너리를 만듬
3. 이 데이터를 DataFrame 클래스 생성자에 넣기, 동시에 열방향 index는 columns인수로, 행방향 index는 index인수로 지정

In [125]:
d = {'col1':[1, 2], 'col2':[3, 4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [323]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


### DataFrame의 속성 ###
> values, columns, index

In [324]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [325]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [326]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

### DataFrame 이름 붙이기 ###

In [327]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


# 연습문제  

- 인터넷 서핑을 통해 데이터를 얻고, DataFrame 만들기 

1) column의 개수와 row의 개수가 각각 4개 이상  
2) column에는 정수, 문자열, 실수 자료형 데이터가 각각 1개 이상씩 포함

In [161]:
data = {'안양 날씨' :['맑음','눈','맑음','눈'],
        '최고온도' :[2,5,-1,-1],
        '최저온도':[-3,-4, -2, -10 ],
        '미세먼지':['나쁨', '나쁨', '나쁨', '좋음' ],
        '체감온도': [-1.2, -3.6, -1.3, -12]}

data_f = pd.DataFrame(data, columns=['안양 날씨','최고온도','최저온도', '미세먼지','체감온도'], 
                      index = ["1월 18일", "1월 19일", "1월 20일", "1월 21일"])
data_f

Unnamed: 0,안양 날씨,최고온도,최저온도,미세먼지,체감온도
1월 18일,맑음,2,-3,나쁨,-1.2
1월 19일,눈,5,-4,나쁨,-3.6
1월 20일,맑음,-1,-2,나쁨,-1.3
1월 21일,눈,-1,-10,좋음,-12.0


## DataFrame 전치(Transpose) ##

- DataFrame은 전치를 포함하여 넘파이 2차원 배열이 가지는 대부분의 속성이나 메서드 지원

In [328]:
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [329]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


# DataFrame column 추가, 갱신, 삭제 #

>DataFrame은 column을 Series의 딕셔너리로 볼 수 있음  
>즉 column단위로 데이터를 갱신하거나 추가, 삭제 가능

- ## 갱신하기 ##

In [170]:
# 2010-2015 증가율이라는 이름을 갱신

In [183]:
df["2010-2015 증가율"]=df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2010 - 2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,9631380.55
부산,경상권,3448737,3393191,3512547,3655437,1.63,3393092.82
인천,수도권,2890451,2632035,2517680,2466338,9.82,2631920.19
대구,경상권,2466052,2431774,2456016,2473990,1.41,2431673.59


- ## 추가하기 ##

In [172]:
df["2010 - 2015 증가율"]=(df["2010"] - df["2015"] / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2010 - 2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283,9631380.55
부산,경상권,3448737,3393191,3512547,3655437,0.0163,3393092.82
인천,수도권,2890451,2632035,2517680,2466338,0.0982,2631920.19
대구,경상권,2466052,2431774,2456016,2473990,0.0141,2431673.59


- ## 삭제하기 ##

In [184]:
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2010 - 2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,9631380.55
부산,경상권,3448737,3393191,3512547,3655437,3393092.82
인천,수도권,2890451,2632035,2517680,2466338,2631920.19
대구,경상권,2466052,2431774,2456016,2473990,2431673.59


## DataFrame column 인덱싱 ##

>DataFrame을 인덱싱 할때도 column label을 키로 생각하려 인덱싱  
>index로 label 값 하나만 넣으면 Series 객체 반환

In [177]:
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

> index로 label 값을 하나의 column만 넣으면 Series 객체 반환

In [180]:
df['2010']

도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

> label의 배열 또는 리스트로 인덱싱하면 DataFrame 타입 반환

In [182]:
df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


> 하나의 column 만 뺴내어도 DataFrame 자료형 유지하고 싶다면 요소가 하나인 리스트 자료형을 사용하여 인덱싱

In [187]:
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


>문자열 table 일때는 순서를 나타내는 정수 index를 column 인덱싱에 사용 X  
>column index가 문자열인데 정수 index를 넣으면 KeyError 오류가 발생

> 원래부터 문자열이 아닌 정수형 column index를 가지는 경우에는 index 값으로 정수를 사용 가능

In [190]:
import numpy as np
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [192]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [195]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


# DataFrame row 슬라이싱

>row 단위로 인덱싱을 하려면 항상 슬라이싱 필수  
>index의 값이 문자 label이면 label 슬라이싱도 가능

In [198]:
df #index가 "서울"이자 0이다

특성,지역,2015,2010,2005,2000,2010 - 2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,9631380.55
부산,경상권,3448737,3393191,3512547,3655437,3393092.82
인천,수도권,2890451,2632035,2517680,2466338,2631920.19
대구,경상권,2466052,2431774,2456016,2473990,2431673.59


In [199]:
df[:1] # df[: "서울"] --> 문자는 포함, 숫자는 미포함러

특성,지역,2015,2010,2005,2000,2010 - 2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,9631380.55


- row가 부산인 결과만 보고 싶을 경우?

In [201]:
df[1:2] # 숫자 슬라이싱과 문자 슬라이싱의 결과가 다름을 꼭 인지

특성,지역,2015,2010,2005,2000,2010 - 2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,3393092.82


In [202]:
df["부산":"부산"]

특성,지역,2015,2010,2005,2000,2010 - 2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,3393092.82


In [204]:
df["서울"] #row 단위로 인덱싱하면 key error 오류가 발생

KeyError: '서울'

- column label로 인덱싱하면 Series가 된다. 이 Series를 다시 row label로 인덱싱하면 개별 데이터 나옴

In [206]:
df["2015"]["서울"]

9904312

In [208]:
type(df["2015"]["서울"])

numpy.int64

>row label로 인덱싱하면 KeyError 발생  
>굳이 row단위로 먼저 시도하려면 슬라이싱 해야함  
>그 때 반환 타입은 DataFrame이 된다  
>이 DataFrame을 다시 column label로 인덱싱하면 개별 데이터가 아닌 Seires 객체가 나옴 

# 연습 문제 

In [335]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

In [297]:
df 

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [315]:
df["수학"]

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [310]:
df[["국어", "영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [311]:
df["과목 평균"]=((df["국어"] + df["영어"] + df["수학"]) / 3).round(2)
df

Unnamed: 0,국어,영어,수학,과목 평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [312]:
df.loc["방자", "영어"] = 80
df

Unnamed: 0,국어,영어,수학,과목 평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,46.67


In [314]:
df['영어'] = [90, 70, 60, 80]
df["과목 평균"]=((df["국어"] + df["영어"] + df["수학"]) / 4)
df

Unnamed: 0,국어,영어,수학,과목 평균
춘향,80,90,90,65.0
몽룡,90,70,60,55.0
향단,70,60,80,52.5
방자,30,80,70,45.0


In [341]:
df["영어"]["방자"]= 80
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,80,70


In [254]:
df[0:1]

Unnamed: 0,국어,영어,수학,과목 평균
춘향,80,90,90,65.0


In [342]:
df.T ["향단"]

국어    70
영어    60
수학    80
Name: 향단, dtype: int64

# 연습 문제2 #

```python
DataFrame 만들기

- 랜덤 시드는 0입니다
- values는 넘파이 서브 패키지 중 random의 randn() 메서드를 사용하세요
- pd.date_range("20130206", periods = 날짜수)을 활용하세요
```

In [361]:
np.random.seed(0)
data = np.random.randn(6,4)
columns = ['A', 'B', 'C', 'D' ]
index = pd.date_range("20130226", periods=6)
df_3 = pd.DataFrame(data, index=index, columns=columns)
df_3

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.400157,0.978738,2.240893
2013-02-27,1.867558,-0.977278,0.950088,-0.151357
2013-02-28,-0.103219,0.410599,0.144044,1.454274
2013-03-01,0.761038,0.121675,0.443863,0.333674
2013-03-02,1.494079,-0.205158,0.313068,-0.854096
2013-03-03,-2.55299,0.653619,0.864436,-0.742165


# 연습 문제3 #

"""  
클래스 속성  
count (default 0)  
order (default 빈 리스트)  
인스턴스 속성  
number (필수)  
name (default None)  
비공개 인스턴스 속성  
member (default 빈 set)  
메서드  
add_member(): 이름을 인자로 받고 해당 이름이 member 요소로 있는 지 확인하고 있으면 “000 님은 이미 팀에 있습니다.”를 출력하고 없으면 member에 추가하고 “000 님을 {self.number} 팀에 추가했습니다.” 출력합니다.  
rm_member(): 이름을 인자로 받고 해당 이름이 member 요소로 있는 지 확인하고 있으면 member 요소에서 삭제하고 “000 님을 {self.number} 팀에서 삭제했습니다.” 출력합니다. 없으면 “000 님은 해당 팀에 없습니다.” 출력하고 메서드를 종료합니다.  
get_count(), get_order()는 각각 count와 order의 값을 반환합니다.  
set_order()는 숫자를 하나 인자로 받아와서 그 값을 order 맨 뒤에 추가합니다. 이때 이미 값이 있는 경우 앞의 값은 전부 지우고 맨 뒤에 값을 추가합니다.  
"""  

In [516]:
class Team:
    """팀 객체를 만듭니다."""
    class_attribute = 0 #클래스 속성
    count = 0
    order = []
    
    def __init__(self, number, name=None, member = set()):
        self.number = number
        self.name = name
        self.__member = member
        Team.count += 1
        
    def add_member(self, name):
        # 해당 이름이 팀에 있을 경우
        if name in self.__member:
            print( f"{name}님이 이미 팀에 있습니다." )
            return
        # 해당 이름이 팀에 없을 경우
        else:
            self.__member.add(name)
            print(f"{name}님을 {self.number} 팀에 추가했습니다.")
            
    def rm_member(self, name):
        # 해당 이름이 팀에 있을 경우
        if name in self.__member:
            self.__member.discard(name)
            print(f"{name}님을 {self.number} 팀에서 삭제했습니다.")
        # 해당 이름이 팀에 없을 경우
        else:
             print(f"{name} 님은 해당 팀에 없습니다.")    
                
    def get_count(self):
        return self.count
    
    def get_order(self):
        return self.order
    
    def set_order(self, number): 
        if number in self.order:
            self.order.remove(number) # 이미 값이 있는 경우 앞의 값은 전부 지우고 
        self.order.append(number) #맨 뒤에 값을 추가
    
    # 내장 함수 Len --> 파이썬 __len 함수를 찾아서 실행
    def __len__(self):
        return len(self.__member)

```python
t1 = Team() # Team 클래스로부터 인스턴스를 초기화한다. 초기화할때 넣는 인자 같은 __init__(self, 여기로 전달됨)
#초기화 될때 1번이자 최초로 실행되는게 __init__(self)이 특별 메서드이다.
```

In [517]:
t1 = Team(1)

In [518]:
t1.add_member("김유림")

김유림님을 1 팀에 추가했습니다.


In [519]:
t1.add_member("김유림")

김유림님이 이미 팀에 있습니다.


In [520]:
print(len(t1))

1


In [521]:
t1.add_member("김혜림")

김혜림님을 1 팀에 추가했습니다.


In [522]:
t1.rm_member("김혜림")

김혜림님을 1 팀에서 삭제했습니다.


In [523]:
t1.rm_member("김혜림")

김혜림 님은 해당 팀에 없습니다.


In [524]:
t2 = Team(2)

In [525]:
t2.set_order(t2.number)

In [526]:
t1.set_order(t1.number)

In [527]:
t1.get_order()

[2, 1]

In [528]:
t1.get_count()

2

In [529]:
t3 = Team(3)

In [530]:
t3.get_count()

3

In [531]:
t3.set_order(t3.number)

In [532]:
t3.get_order()

[2, 1, 3]