### Pandas(Panel Datas)란
- 주로 데이터 분석에 사용
- 데이터는 시계열(series)나 표(talble)의 형태로 나타냄
- 데이터를 다루기 위한 pandas 패키지로 Series (열) 클래스와 DataFrame 클래스를 제공
- 숫자 테이블과 시계열을 조작하기 위한 데이터 구조, 연산 제공

### Pandas package import
- pd 라는 별칭으로 임포트
##### import pandas as pd

In [5]:
import pandas as pd
import numpy as np

### Series class (열)
- NumPy에서 제공하는 1차원 배열과 모양이 비슷.
- 하지만 Series class는 배열과 다르게 각 데이터의 의미를 표시하는 index(index)를 붙임.
- 데이터 자체는 값(value)라고 함

In [6]:
series = pd.Series(["하나","둘","셋","넷","다섯",
                    "여섯","일곱","여덟","아홉","열"],
                   index = [_ for _ in range(1,11)])
series            # object (최상위에 있는)

1     하나
2      둘
3      셋
4      넷
5     다섯
6     여섯
7     일곱
8     여덟
9     아홉
10     열
dtype: object

### Series 생성하기
- 객체를 만들 때 첫 인수: data, 두번째 인수 : index. 
- data 값으로 iterable, 배열, scalar value, dict, key와 index를 동일 하게 사용하거나 생략 사용
- index는 label이라고 함. //// index 는 data와 length가 동일 해야함. 
- label은 꼭 유일(unique)할 필요 없음. 다만 hashable type만 사용가능.
- 만약 index 생략할 경우 rangeIndex(0,1,...,n)를 제공한다

#### class pandas.Series(data = None, index = None, dtype = None, name = None, copy = False, fastpath = False)

In [7]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
              index = ["서울","부산","인천","대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

- 만약 index를 지정하지 않고 Series를 만들면, Series의 index는 0부터 시작하는 정수 값이 됨

- Series의 index는 index 속성으로 접근 가능. Series의 Value는 1차원 배열(ndarray)이며 Value 성성으로 접근 가능
- name 속성을 이용, Series 데이터에 이름을 붙일 수 있음. index.name 속성으로 Series의 index에 이름 붙일 수 있다.

In [8]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

- Series 객체를 만들 때 data에 dict를 사용. 
- dict와 동일 하게 index를 적용 
- 만들어진 Series 객체를 조회해보면 그 값이 정상적으로 조회

In [9]:
d = {'a':1,'b':2,'c':3}
se = pd.Series(data = d, index = ['a','b','c'])
se

a    1
b    2
c    3
dtype: int64

### dict의 key와 Series 객체의 index를 다르게 설정
- data가 dict일 때 index가 최초에 dict의 key로 만들어짐. -> Series는 index키워드로 전달 받은 인수로 index에 재 할당
- Series 객체의 값이 NaN의 결과를 출력하는 것을 확인 - > 그래서 해당하는 값을 찾을 수 없다고 나옴

In [10]:
d = {'a':1,'b':2,'c':3}
se = pd.Series(data = d, index = ['x','y','z'])
se       # float 자료형이 되었다는 점에 주의해야함// NaN 값이 float 자료형에서만 표현됨. 

x   NaN
y   NaN
z   NaN
dtype: float64

- index 지정 없이 dict 객체만 가지고 Series를 만들 수도 있다.(하지만 그냥 index지정하고 써라)
- dic의 key가 index로 사용

### Series index 속성처럼 활용
- label 값이 영문 문자열인 경우 -> index label이 속성인것처럼 마침표(.)를 활용 해 index값에 접근 가능

### Series의 특징
- Series 객체는 index label을 키key로 사용하기에 딕셔너리 자료형과 비슷한 특징을 가짐
- Series를 딕셔너리와 같은 방식으로 사용할 수 있도록 구현
- in 연산 가능, items()메서드 사용 해 for문 루프를 돌려 각 요소의 key와 value에 접근가능

In [11]:
"서울" in s    # 인덱스 레이블 중 서울이 있는가

True

In [12]:
"대전" in s    # 인덱스 레이블 중 대전이 있는가

False

In [13]:
for k,v in s.items():
    print(f"{k}, {v}")

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


Series 연산
- 넘파이 배열처럼 벡터화 연산을 할 수 있음. but 연산은 Series의 Value에만 적용. index 값은 변하지 않음

In [14]:
# ex) 인구 숫자를 백만 단위로 만들기 위해 객체를 1,000,000 으로 나누어도 index 값은 변하지 않음 (다만 실수로 바뀜)
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### Series 인덱싱
- 넘파이 배열에서 가능한 index방법 외에 index label을 이용한 인덱싱도 할 수 있다.
- 배열 인덱싱이나 index label을 이용한 슬라이싱(slicing)도 가능

- 배열 인덱싱을 하면 부분적인 값을 가지는 Series 자료형을 반환. 자료의 순서를 바꾸거나 특정한 자료만 취사 선택

In [15]:
s[1], s["부산"]

(3448737, 3448737)

In [16]:
s[3], s["대구"]

(2466052, 2466052)

In [17]:
s[[0,3,1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [18]:
s[["서울","대구","부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

### Series 슬라이싱
- 슬라이싱 해도 부분적인 Series 반환
- 문자열 label을 이용한 슬라이싱을 할 경우 
-   ------>   숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함되서 주의

In [19]:
s[1:3] # 두번째 1 부터 세번째 2까지 (네번째 미포함)

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [20]:
s[["부산","대구"]]  # 부산에서 대구까지(대구도 포함)

도시
부산    3448737
대구    2466052
Name: 인구, dtype: int64

### INDEX 기반 연산
- ds.notnull() : Series 내값이 NaN인지 아닌지 T/F 값을 구할때 씀

In [21]:
# 2015년 도시별 인구

s = pd.Series([9904312,3448737,2890451,2466052],
              index = ["서울","부산","인천","대구"])
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [22]:
# 2010년 도시별 인구
s2 = pd.Series({"서울":9631482,"부산":3393191,"인천":2632035,"대전":1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [23]:
ds = s - s2      #ds가 연산의 결과    # NaN값이 float자료형에서만 표현가능
ds                                   # 다른 계산 결과도 모두 float 자료형이 되었다는 점에 주의

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [24]:
ds.notnull()  

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

### Series에서 NaN이 아닌 값구하기
- notnull()  메서드로 구한 T/F값을 활용 -> NaN값을 배제한 Series객체를 만들 수 있음

In [25]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [26]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [27]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [28]:
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

### NaN값인 것을 배제. 2010년 대비 2015년 인구 증가율(%)은 다음과 같이 구할수 있음

In [29]:
rs = (s - s2) / s2 * 100       # index로 연산
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### Series 데이터 추가, 갱신, 삭제

- 딕셔너리 때와 비슷하게 인덱싱을 경우에 맞춰 사용 -> 데이터 추가(add)하거나 갱신(update)가능
- 기존에 있는 index에 값을 할당하면 갱신

In [30]:
rs # 인구증가율(%)

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [31]:
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

- 없는 index에 값을 할당하면 데이터가 추가(add)가 됨. 
- "대구"라는 index는 현재 없는데 그 index에 값을 1.41 할당하여 데이터 추가

In [32]:
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [33]:
rs["대구"] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

- 데이터를 삭제할 때 : 딕셔너리처럼 del명령을 사용. 
- "서울" 이라는 index에 접근 해 del 명령을 사용하여 데이터 삭제

In [34]:
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [35]:
del rs["서울"]
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

In [36]:
# fin1과 fin2_value, fin2_index를 활용하여 Series 객체 ser_finance1, ser_finance2 만들기

fin1 = {"카카오" : 60010, "삼성전자" : 61000, "LG전자" : 90000 }
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오","삼성전자","네이버"]


ser_finance1 = pd.Series(fin1)
ser_finance2 = pd.Series(fin2_value,index=fin2_index)
print(ser_finance1,'\n',ser_finance2)

카카오     60010
삼성전자    61000
LG전자    90000
dtype: int64 
 카카오      60200
삼성전자     61200
네이버     200100
dtype: int64


In [37]:
# 앞서 만든 두 SEries 객체를 활용해 사칙연산을 각각 수행. 
# 사칙연산 중 NaN 값을 갖는 항목과 dtype을 가각 확인. 왜 dtype이 나오는지 설명

In [38]:
sub = ser_finance1 - ser_finance2
sum_ = ser_finance1 + ser_finance2
multi = ser_finance1 * ser_finance2
divide = ser_finance1 / ser_finance2

print(sub)
print(sum_)
print(multi)
print(divide)


LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64
LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64
LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64
LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64


In [39]:
sub["LG전자"].dtype

dtype('float64')

In [40]:
sub["네이버"].dtype

dtype('float64')

In [41]:
# 아래의 연산 결과 중 NaN값이 없게 Series 객체 출력  # s -200/ k - 190 / 

result = ser_finance1 - ser_finance2
result[result.notnull()]

삼성전자   -200.0
카카오    -190.0
dtype: float64

### DataFrame class
- Pandas의 주요 데이터 구조
- label된 row(행)와 column(열) 두개의 축을 갖는 데이터 구조
- 산술 연산은 row와 column모두 적용
- Series 객체를 갖는 dictionary라고 생각하면 비슷
- DataFrame은 각 column마다 ㅏ료형이 다를 수 있음
- 첫 인자로 data, 두 번째 인자로 index 전달

##### class pandas.DataFrame(data = None, index = None, columns = None, dtype = None, copy = None)

### DataFrame 생성
- Series가 1차원 벡터 data에 행방향 index(row index)를 붙인 것 
- -> DataFrame클래스는 2차원 행렬 데이터에 index를 붙인 것과 형태가 비슷함
- row와 column을 갖는 2차원이므로 각각의 행 데이터의 이름이 되는 행 index(row index)뿐 아니라
- ->각가의 열 데이터의 이름이 되는 열 index(column index)도 붙일 수 있다.

#### DataFrame을 만드는 방법
- 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비
- 각각의 열에 대한 이름(label)을 키(key)로 가지는 딕셔너리를 만듭니다
- 이 데이터를 DataFrame클래스 생성자에 넣는다. 
- 동시에 열방향 index는 columns인수로, 행방향 index는 index인수로 지정함

In [42]:
## DataFrame 생성

d = {'co11': [1,2], 'co12':[3,4]}
df = pd.DataFrame(d)
df

Unnamed: 0,co11,co12
0,1,3
1,2,4


In [43]:
## DataFrame 생성
                                                                          
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)     
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [44]:
# 지역과 인구와 증가율은 각각 object, int, float 이다.
# DataFrame의 각 column은 자료형이 다를 수 있음

df.dtypes

지역                object
2015               int64
2010               int64
2005               int64
2000               int64
2010-2015 증가율    float64
dtype: object

In [45]:
df = pd.DataFrame(data, index=index)     # columns 지워도 딕셔너리에 key가 columns로 들어가서 값이 그대로 나몸
df

Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
서울,9904312,9631482,9762546,9853972,수도권,0.0283
부산,3448737,3393191,3512547,3655437,경상권,0.0163
인천,2890451,2632035,2517680,2466338,수도권,0.0982
대구,2466052,2431774,2456016,2473990,경상권,0.0141


In [46]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,2015,2010,2005,2000,지역,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,9904312,9631482,9762546,9853972,수도권,0.0283
부산,3448737,3393191,3512547,3655437,경상권,0.0163
인천,2890451,2632035,2517680,2466338,수도권,0.0982
대구,2466052,2431774,2456016,2473990,경상권,0.0141


In [47]:
data = {
    "2019": [4327605, 1497908, 1031251, 1238641],
    "2020": [4417954, 1530431, 1056627, 1267956],
    "2021": [4426007, 1544663, 1063893, 1298647],
    "2022": [4446296, 1555867, 1070873, 1322632],
    "시": ["서울특별시", "부산광역시", "대구광역시", "인천광역시"],
    "2021-2022증감율": [0.5, 0.7, 0.7, 1.8]
}
columns= ["시", "2019", "2020", "2021", "2022", "2021-2022증감율"]
index = ["서울특별시", "부산광역시", "대구광역시", "인천광역시"]
df1 = pd.DataFrame(data, index=index, columns=columns)     # columns 지워도 딕셔너리에 key가 columns로 들어가서 값이 그대로 나몸
df1

Unnamed: 0,시,2019,2020,2021,2022,2021-2022증감율
서울특별시,서울특별시,4327605,4417954,4426007,4446296,0.5
부산광역시,부산광역시,1497908,1530431,1544663,1555867,0.7
대구광역시,대구광역시,1031251,1056627,1063893,1070873,0.7
인천광역시,인천광역시,1238641,1267956,1298647,1322632,1.8


### DataFrame 전치(Transpose) 
- 전치 : 열과 행이 뒤바뀜
- 넘파이 2차원 배열이 가지는 대부분의 속성이나 메서드 지원

### DataFrame column 추가
- 아래 예제에서는 '2005-2010증가율'이라는 이름의 Column을 추가하고 있다.
- 기존에 없는 column인 '2005-2010 증가율'에 값을 할당해 추가한다

In [48]:
## DataFrame 생성
                                                                          
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)     
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [49]:
# '2005-2010 증가율'이라는 이름의 열 추가

df['2005-2010 증가율'] = ((df["2010"] - df['2005']) / df['2005'] * 100).round(2)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4
인천,수도권,2890451,2632035,2517680,2466338,0.0982,4.54
대구,경상권,2466052,2431774,2456016,2473990,0.0141,-0.99


### DataFrame column 갱신
- 소수점으로 되있던 값을 100을 곱해서 갱신

In [50]:
df['2010-2015 증가율'] = df['2010-2015 증가율']  * 2
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0566,-1.34
부산,경상권,3448737,3393191,3512547,3655437,0.0326,-3.4
인천,수도권,2890451,2632035,2517680,2466338,0.1964,4.54
대구,경상권,2466052,2431774,2456016,2473990,0.0282,-0.99


### DataFrame column 삭제
- 아래 예제에서는 '2010-2015 증가율'이라는 이름의 column을 삭제하고 있다.
- del명령을 통해 해당 column에 접근하여 삭제한다

In [51]:
# '2005-2010 증가율'이라는 이름의 열 삭제

del df['2010-2015 증가율']
df

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


### DataFrame column 인덱싱
- DataFrame은 column label을 키(key)로, column Series를 값으로 가지는 딕셔너리와 비슷하다고 함
- DataFrame을 인덱싱 할 때 column label을 키(key)로 생각하여 인덱싱을 할 수 있다
- index로 label값을 하나만 넣으면 Series 객체가 반환

In [52]:
# 하나의 column만 인덱싱하면 Series가 반환된다.
df["지역"]

서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

- label의 배열 또는 리스트로 인덱싱하면 DataFrame 타입이 반환

# 

In [53]:
df2 = pd.DataFrame(np.arange(12).reshape(3,4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


### DataFrame row 슬라이싱
- 만약 row단위로 인덱싱을 하게 되면, 항상 슬라이싱(slicing)을 해야함
- index의 값이 문자 label이면 label슬라이싱 가능

In [54]:
df

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [55]:
df[:1] # df[:"서울] 문자는 포함, 숫자는 미포함
       #  index가 서울이자 '0'임 ///의미 : 서울만 출력해라

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [56]:
df[1:2]

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [57]:
df["부산":"부산"]

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [58]:
df['서울']         # row단위로 인덱싱하면 KeyEEror가 발생

KeyError: '서울'

In [None]:
df['2015']['서울'] 

In [None]:
type(df['2015']['서울'] )

### 개별데이터 인덱싱. 역순은 안될까


In [59]:
df['서울':'서울']

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [60]:
df['서울':'서울']['2015']

서울    9904312
Name: 2015, dtype: int64

In [61]:
type(df['서울':'서울']['2015'])

pandas.core.series.Series

In [62]:
del df

In [63]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [64]:
df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [65]:
df[['국어','영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [66]:
df["평균"] = round((df['국어'] + df['영어'] + df['수학']) / 3,2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [67]:
df['영어']['방자'] = 80
df['평균'] = ((df['국어'] + df['영어'] + df['수학']) / 3).round(2)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['영어']['방자'] = 80


Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [68]:
df[:1]

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67


In [69]:
df['춘향':'춘향']

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67


### 행과 열을 바꾸는것
- df.T

In [70]:
df.T["향단"]

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

In [71]:
np.random.seed(0)

In [72]:
np.random.randn(6,4)

array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ],
       [ 1.86755799, -0.97727788,  0.95008842, -0.15135721],
       [-0.10321885,  0.4105985 ,  0.14404357,  1.45427351],
       [ 0.76103773,  0.12167502,  0.44386323,  0.33367433],
       [ 1.49407907, -0.20515826,  0.3130677 , -0.85409574],
       [-2.55298982,  0.6536186 ,  0.8644362 , -0.74216502]])

In [73]:
np.random.seed(0)
dataD = np.random.randn(6,4)
columns = ["A", "B", "C","D"]
index = pd.date_range("20130226",periods = 6)
df = pd.DataFrame(dataD, index=index, columns=columns)
df

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.400157,0.978738,2.240893
2013-02-27,1.867558,-0.977278,0.950088,-0.151357
2013-02-28,-0.103219,0.410599,0.144044,1.454274
2013-03-01,0.761038,0.121675,0.443863,0.333674
2013-03-02,1.494079,-0.205158,0.313068,-0.854096
2013-03-03,-2.55299,0.653619,0.864436,-0.742165


### class 복습

In [74]:
def __len__(self):
    return len(self.member)

len(t1)   # 파이썬 내부에서
__len__(self): #이걸찾습니다

SyntaxError: invalid syntax (1368910732.py, line 5)

In [75]:
class Team:
    
    count = 0
    order = []
    
    def __init__(self,number,name = None,member = set()):
        self.name = name
        self.number = number
        self.__member = member  
        
        Team.count += 1
        
    def __len__(self):                 #len(t1)   # 파이썬 내부에서 #  __len__(self): #이걸찾습니다
        return len(self.__member)

    def add_member(self,name):
        if name in self.__member:
            print(f'{name}님은 이미 팀에 있습니다.')
        else:
            self.__member.add(self.name)
            print(f'{name}님을{self.number} 팀에 추가했습니다.')
        
    def rm_member(self,name):
        if name in self.__member:
            self.__member.discard(self.name)
            print(f'{name}님을{self.number} 팀에서 삭제했습니다.')
        else:
            print(f'{name}님은 해당 팀에 없습니다.')
        
    def get_count(self):
        return Team.count
    
    def get_order(self):
        return Team.order
    
    def set_order(self,number):
        if number in self.order:
            self.order.romove(number)
        self.order.append(number)

In [76]:
t1 = Team(1)

In [77]:
t1.add_member('윤규헌')

윤규헌님을1 팀에 추가했습니다.


In [78]:
t1.add_member('윤규헌')

윤규헌님을1 팀에 추가했습니다.


In [79]:
print(len(t1))

1


In [80]:
t1.add_member('이호진')

이호진님을1 팀에 추가했습니다.


In [81]:
print(len(t1))

1


In [82]:
t1.add_member("이기수")

이기수님을1 팀에 추가했습니다.


In [83]:
t1.rm_member('이기수')

이기수님은 해당 팀에 없습니다.


In [84]:
t1.rm_member('이기수')

이기수님은 해당 팀에 없습니다.


In [85]:
t2 = Team(2)

In [86]:
t2.set_order(t2.number)

In [87]:
t1.set_order(t1.number)

In [88]:
t1.get_order()

[2, 1]

In [89]:
t1.get_count()

2

In [90]:
t3 = Team(3)

In [91]:
t3.get_count()

3

In [92]:
t3.set_order(t3.number)

In [93]:
t3.get_order()

[2, 1, 3]

In [94]:

# 클래스 속성
# count (default 0)
# order (default 빈 리스트)
# 인스턴스 속성
# number (필수)
# name (default None)
# 비공개 인스턴스 속성
# member (default 빈 set)
# 메서드
# add_member(): 이름을 인자로 받고 해당 이름이 member 요소로 있는 지 확인하고 
# 있으면 “000 님은 이미 팀에 있습니다.”를 출력하고 
#없으면 member에 추가하고 “000 님을 {self.number} 팀에 추가했습니다.” 출력합니다.
# rm_member(): 이름을 인자로 받고 해당 이름이 member 요소로 있는 지 확인하고 
# 있으면 member 요소에서 삭제하고 “000 님을 {self.number} 팀에서 삭제했습니다.” 출력합니다. 
# 없으면 “000 님은 해당 팀에 없습니다.” 출력하고 메서드를 종료합니다.
# get_count(), get_order()는 각각 count와 order의 값을 반환합니다.
# set_order()는 숫자를 하나 인자로 받아와서 그 값을 order 맨 뒤에 추가합니다. 
# 이때 이미 값이 있는 경우 앞의 값은 전부 지우고 맨 뒤에 값을 추가합니다.


In [95]:
class Team:
    """팀 객체를 만듭니다."""
    #클래스 속성
    count = 0 
    order = []
    
    def __init__(self, number, name = None, member = set()):
        self.number = number
        self.name = name
        self.__member = member
        Team.count += 1
        
    def add_member(self,name):
        # 해당 이름이 팀에 있을경우
        if name in __member:
            print(f'{name}님은 이미 팀에 있습니다.')
            return
        # 해당 이름이 팀에 없을경우
        else:
            self.__member.add(name)
            print(f'{name}님을 {self.number} 팀에 추가했습니다.')
            
    def rm_member(self,name):
        # 해당 이름이 팀에 있을 경우
        if name in self.__member:
            self.__member.discard(self.name)
            print(f'{name}님을{self.number} 팀에서 삭제했습니다.')
        # 해당 이름이 팀에 없을 경우
        else:
            print(f'{name}님은 해당 팀에 없습니다.')
    
    def get_count(self):
        return Team.count
    
    def get_order(self):
        return Team.order
    
    def set_order(self,number):
        if number in self.order:
            self.order.romove(number)
        self.order.append(number)
        
    def __len__(self):
        return len(self.__member)

In [96]:
t1 = Team(1)