# Pandas

## Pandas

In [2]:
!conda list

# packages in environment at C:\Users\wkddl\anaconda3:
#
# Name                    Version                   Build  Channel
_ipyw_jlab_nb_ext_conf    0.1.0            py39haa95532_0  
alabaster                 0.7.12             pyhd3eb1b0_0  
anaconda                  2022.10                  py39_0  
anaconda-client           1.11.0           py39haa95532_0  
anaconda-navigator        2.3.1            py39haa95532_0  
anaconda-project          0.11.1           py39haa95532_0  
anyio                     3.5.0            py39haa95532_0  
appdirs                   1.4.4              pyhd3eb1b0_0  
argon2-cffi               21.3.0             pyhd3eb1b0_0  
argon2-cffi-bindings      21.2.0           py39h2bbff1b_0  
arrow                     1.2.2              pyhd3eb1b0_0  
astroid                   2.11.7           py39haa95532_0  
astropy                   5.1              py39h080aedc_0  
atomicwrites              1.4.0                      py_0  
attrs                     21.4.0    

In [1]:
import pandas as pd

## Series class

In [3]:
series = pd.Series(["하나", "둘", "셋", "넷", "다섯",
                    "여섯", "일곱", "여덟", "아홉", "열"],
                   index = [_ for _ in range(1, 11)])
series

1     하나
2      둘
3      셋
4      넷
5     다섯
6     여섯
7     일곱
8     여덟
9     아홉
10     열
dtype: object

### Series class

In [4]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [5]:
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [6]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [7]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [8]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [10]:
d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [11]:
d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['x', 'y', 'z'])
ser

x   NaN
y   NaN
z   NaN
dtype: float64

In [13]:
s2 = pd.Series({"서울":9_904_312,
                "부산":3_448_737,
                "인천":2_890_451,
                "대구":2_466_052})
s2

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

### Series index를 속성처럼 활용하기

In [14]:
d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [15]:
ser.a, ser.b, ser.c

(1, 2, 3)

### Series의 특징

In [19]:
"서울" in s # 인덱스 레이블 중에 서울이 있는가

True

In [20]:
"대전" in s #인덱스 레이블 중에 대전이 있는가

False

In [21]:
for k, v in s.items():
    print(f"{k}, {v}")

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


### Series 연산하기

In [22]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### Series 인덱싱

In [25]:
s[1], s["부산"]

(3448737, 3448737)

In [26]:
s[3], s["대구"]

(2466052, 2466052)

In [27]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [28]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

### Series 슬라이싱

In [29]:
s[1:3] # 두번째(1)부터 세번째(2)까지 (네번째(3) 미포함)

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [30]:
s["부산":"대구"] # 부산에서 대구까지 (대구도 포함)

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### Series index 기반 연산

In [32]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [34]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [35]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

### Series에서 값이 NaN인지 확인

In [37]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

### Series에서 NaN이 아닌 값 구하기

In [40]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [41]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [42]:
s # 2015년 도시별 인구

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [43]:
s2 # 2010년 도시별 인구

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [46]:
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### Series 데이터 추가, 갱신, 삭제

In [47]:
rs # 인구 증가율(%)

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [48]:
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [49]:
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [51]:
rs["대구"] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [52]:
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [53]:
del rs["서울"]
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

### 연습문제

아래 fin1과 fin2_value, fin2_index를 활용하여 Series 객체 ser_finance1,  
ser_finance2를 만들어보세요.

```python
fin = {"카카오": 60010, "삼성전자": 61000, "LG전자": 90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]
```

In [73]:
fin = {"카카오": 60010, "삼성전자": 61000, "LG전자": 90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]

ser_finance1 = pd.Series(fin)
ser_finance2 = pd.Series(fin2_value, fin2_index)

In [78]:
print(ser_finance1)

print("\n", ser_finance2)

카카오     60010
삼성전자    61000
LG전자    90000
dtype: int64

 카카오      60200
삼성전자     61200
네이버     200100
dtype: int64


### 연습문제

앞서 만든 두 Series 객체를 활용하여 사칙 연산을 각각 수행해보세요. 사칙연산 중  
NaN 값을 갖는 항목과 dtype을 각각 확인해보세요.

왜 해당 dtype이 나오는지 설명하세요.

In [69]:
ser_finance1 - ser_finance2

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [70]:
ser_finance1 + ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [71]:
ser_finance1 * ser_finance2

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [72]:
ser_finance1 / ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64

### 연습문제

아래의 연산 결과 중 NaN 값이 없게 Series 객체를 출력해보세요.  

```python
result = ser_finance1 - ser_finance2
```

In [79]:
result = ser_finance1 - ser_finance2
result[result.notnull()]

삼성전자   -200.0
카카오    -190.0
dtype: float64

## DataFrame class

### DataFrame 생성

In [80]:
d = {'coll': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,coll,col2
0,1,3
1,2,4


In [106]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [107]:
df.dtypes

지역                object
2015               int64
2010               int64
2005               int64
2000               int64
2010-2015 증가율    float64
dtype: object

In [83]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [86]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [88]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

### DataFrame 이름 붙이기

In [108]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


### 연습문제

지금부터 인터넷 서핑을 통해 자신이 관심있는 데이터를 얻고, 아래 조건을 만족하는  
DataFrame을 직접 만들어보세요!

(1) column의 개수와 row의 개수가 각각 4개 이상이어야 합니다.  
(2) column에는 정수, 문자열, 실수 자료형 데이터가 각각 1개 이상씩 포함되어 있어야 합니다.

In [124]:
data = {
    "2021": [51640, 23865, 52945, 16323],
    "2020": [43279, 24820, 41457, 7341],
    "2019": [52845, 30740, 43763, 22495],
    "2018": [44665, 22976, 33101, 16727],
    "구분": ["응시", "합격", "응시", "합격"],
    "2018-2021 증가율": [1.15, 1.03, 1.59, 0.97]
}
columns = ["구분", "2021", "2020", "2019", "2018", "2018-2021 증가율"]
index = ["필기", "필기", "실기", "실기"]
df_p = pd.DataFrame(data, index=index, columns=columns)
df_p.index.name = "종목"
df_p.columns.name = "정보처리기사"
df_p

정보처리기사,구분,2021,2020,2019,2018,2018-2021 증가율
종목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
필기,응시,51640,43279,52845,44665,1.15
필기,합격,23865,24820,30740,22976,1.03
실기,응시,52945,41457,43763,33101,1.59
실기,합격,16323,7341,22495,16727,0.97


### DataFrame 전치(Transpose)

In [109]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


### DataFrame column 추가, 갱신 삭제

In [110]:
# "2010-2015 증가율"이라는 이름의 열의 값을 갱신
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [111]:
# "2005-2010 증가율"이라는 이름의 열 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [112]:
# "2010-2015 증가율"이라는 이름의 열 삭제
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


### DataFrame column 인덱싱

In [113]:
# 하나의 column만 인덱싱하면 Series가 반환된다.
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

### DataFrame column 인덱싱

In [114]:
# 2010이라는 column을 반환하면서 Series 자료형으로 변환
df["2010"]

도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [115]:
type(df["2010"])

pandas.core.series.Series

In [116]:
# 여러 개의 columns을 인덱싱하면 부분적인 DataFrame이 반환된다.
df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [117]:
# 2010이라는 column을 반환하면서 DataFrame 자료형을 유지
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [118]:
type(df[["2010"]])

pandas.core.frame.DataFrame

In [119]:
df[0]

KeyError: 0

In [121]:
import numpy as np
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [122]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [123]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


### DataFrame row 슬라이싱

In [125]:
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [126]:
df[:1] # df[:"서울"] --> 문자는 포함, 숫자는 미포함

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [127]:
df[1:2]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [129]:
df["부산":"부산"]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


### DataFrame row를 인덱싱할 경우

In [130]:
df["서울"]

KeyError: '서울'

### DataFrame 개별 데이터 인덱싱

In [132]:
df["2015"]["서울"]

9904312

In [133]:
type(df["2015"]["서울"])

numpy.int64

### DataFrame 개별 데이터 인덱싱, 역순은 안될까?

In [134]:
df["서울":"서울"]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [135]:
df["서울":"서울"]["2015"]

도시
서울    9904312
Name: 2015, dtype: int64

In [136]:
type(df["서울":"서울"]["2015"])

pandas.core.series.Series

### 연습문제

다음 DataFrame을 활용하여 아래 문제를 해결해보세요.

(1) 모든 학생의 수학 점수를 Series로 나타낸다.  
(2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.  
(3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.  
(4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.  
(5) 춘향의 점수를 DataFrame으로 나타낸다.  
(6) 향단의 점수를 Series로 나타낸다.

```python
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
```

In [172]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

In [173]:
all_math_score = pd.Series(df["수학"])
all_math_score

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [174]:
df[["국어", "영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [207]:
df["평균"] = round((df["국어"] + df["수학"] + df["영어"]) / 3, 2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [202]:
df["영어"]["방자"] = 80
df["평균"] = round((df["국어"] + df["수학"] + df["영어"]) / 3, 2)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"] = 80


Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [203]:
chunheang_df = pd.DataFrame(df["춘향":"춘향"])
chunheang_df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67


In [204]:
df.T["향단"]

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

In [206]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)


all_math_score = pd.Series(df["수학"])
print(all_math_score)

print("\n", df[["국어", "영어"]])

df["평균"] = round((df["국어"] + df["수학"] + df["영어"]) / 3, 2)
print("\n", df)

df["영어"]["방자"] = 80
df["평균"] = round((df["국어"] + df["수학"] + df["영어"]) / 3, 2)
print("\n", df)

chunheang_df = pd.DataFrame(df["춘향":"춘향"])
print("\n", chunheang_df)

print("\n", df.T["향단"])

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

     국어  영어
춘향  80  90
몽룡  90  70
향단  70  60
방자  30  40

     국어  영어  수학     평균
춘향  80  90  90  86.67
몽룡  90  70  60  73.33
향단  70  60  80  70.00
방자  30  40  70  46.67

     국어  영어  수학     평균
춘향  80  90  90  86.67
몽룡  90  70  60  73.33
향단  70  60  80  70.00
방자  30  80  70  60.00

     국어  영어  수학     평균
춘향  80  90  90  86.67

 국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"] = 80


### 연습문제

다음 DataFrame을 만들어보세요.

- 랜덤 시드는 0입니다.
- values는 넘파이 서브 패키지 중 random의 randn() 메서드를 사용하세요.  
- pd.date_range("20130206", periods=날짜수)을 활용하세요.

In [2]:
import pandas as pd
import numpy as np
import random

index = pd.date_range("20130226", periods = 6)
np.random.seed(0)
data = {
    "A": list(np.random.randn(6)),
    "B": list(np.random.randn(6)),
    "C": list(np.random.randn(6)),
    "D": list(np.random.randn(6)),
}
columns = ["A", "B", "C", "D"]

df = pd.DataFrame(data, index, columns)
df   

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.950088,0.761038,0.313068
2013-02-27,0.400157,-0.151357,0.121675,-0.854096
2013-02-28,0.978738,-0.103219,0.443863,-2.55299
2013-03-01,2.240893,0.410599,0.333674,0.653619
2013-03-02,1.867558,0.144044,1.494079,0.864436
2013-03-03,-0.977278,1.454274,-0.205158,-0.742165


In [4]:
np.random.seed(0)
dates = pd.date_range("20130226", periods = 6)
df3 = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df3

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.400157,0.978738,2.240893
2013-02-27,1.867558,-0.977278,0.950088,-0.151357
2013-02-28,-0.103219,0.410599,0.144044,1.454274
2013-03-01,0.761038,0.121675,0.443863,0.333674
2013-03-02,1.494079,-0.205158,0.313068,-0.854096
2013-03-03,-2.55299,0.653619,0.864436,-0.742165


# Class 복습

```python
def __len__(self):
    return len(self.member)
len(t1) # --> 파이썬 내부에서 '__len__(self):' 이걸 찾습니다.
```

## 연습 문제

팀(Team) 객체를 생성할 수 있는 클래스를 만들어보세요.

> 클래스 속성  
count (default 0)  
order (default 빈 리스트)

> 인스턴스 속성  
number (필수)  
name (default None)

> 비공개 인스턴스 속성  
member (default 빈 set) 

> 메서드  
add_member(): 이름을 인자로 받고 해당 이름이 member 요소로 있는지 확인하고 있으면 "000님은 이미 팀에 있습니다."를    
출력하고, 없으면 member에 추가하고 "000 님을 {self.number} 팀에 추가했습니다." 를 출력합니다.   
rm_member(): 이름을 인자로 받고 해당 이름이 member 요소로 있는지 확인하고 있으면 member 요소에서 삭제하고 "000    
님을 {self.number} 팀에서 삭제했습니다."를 출력합니다. 없으면 "000 님은 해당 팀에 없습니다."를 출력하고 메서드를 종료합니다.   
get_count(), get_order()는 각각 count와 order의 값을 반환합니다.  
set_order()는 숫자를 하나 인자로 받아와서 그 값을 order 맨 뒤에 추가합니다. 이때 이미 값이 있는 경우 앞의 값은 전부    
지우고 맨 뒤에 값을 추가합니다.

In [294]:
class Team:
    """팀 객체를 만듭니다."""
    # 클래스 속성
    count = 0 # Team 클래스로부터 초기화된 인스턴스 개수
    order = []
    
    def __init__(self, number, name=None, member=set()):
        self.number = number
        self.name = name
        self.__member = member
        Team.count += 1
        
    def add_member(self, name):
        # 해당 이름이 팀에 있을 경우
        if name in self.__member:
            print(f"{name} 님은 이미 팀에 있습니다.")
            return
        # 해당 이름이 팀에 없을 경우
        else:
            self.__member.add(name)
            print(f"{name} 님을 {self.number} 팀에 추가했습니다.")
            
    def rm_member(self, name):
        # 해당 이름이 팀에 있을 경우
        if name in self.__member:
            self.__member.discard(name)
            print(f"{name}님을 {self.number} 팀에서 삭제했습니다.")
        # 해당 이름이 팀에 없을 경우
        else:
            print(f"{name}님은 해당 팀에 없습니다.")
            
    def get_count(self):
        return self.count
    
    def get_order(self):
        return self.order
    
    def set_order(self, number):
        if number in self.order:
            self.order.remove(number)
        self.order.append(number)
        
    # 내장 함수(Built-in function) len(Team()) --> 파이썬이 __len__(self)를 찾아서 실행
    def __len__(self):
        return len(self.__member)

In [295]:
t1 = Team(1) # Team 클래스로부터 인스턴스를 초기화한다. 초기화할 때 넣는 인자 값은 __init__(self, 여기로 전달됨)
# 초기화될 때 1번이자 최초로 실행되는게 __init__(self) 이 특별 메서드이다.

In [296]:
class Team:
    count = 0
    order = []
    
    def __init__(self, number, name = None):
        self.number = number
        self.name = name
        self.__member = set()
        Team.count += 1
        
    def add_member(self, name):
        if name in self.__member:
            print(f'{name} 님은 이미 팀에 있습니다.')
        else:
            self.__member.add(name)
            print(f'{name} 님을 {self.number} 팀에 추가했습니다.')
    
    def rm_member(self, name):
        if name in self.__member:
            self.__member.remove(name)
            print(f'{name} 님을 {self.number} 팀에서 삭제했습니다.')
        else:
            print(f'{name} 님은 해당 팀에 없습니다.')
    
    def get_count(self):
        return self.count
    
    def get_order(self):
        return self.order
    
    def set_order(self, number):
        if number in self.order:
            self.order.remove(number)
            self.order.append(number)
        else:
            self.order.append(number)
            
    def __len__(self):
        return len(self.__member)

In [276]:
t1 = Team(1) # number는 필수 값입니다.

In [277]:
t1.add_member("윤규헌")

윤규헌 님을 1 팀에 추가했습니다.


In [278]:
t1.add_member("윤규헌")

윤규헌 님은 이미 팀에 있습니다.


In [279]:
len(t1) # member의 숫자를 출력합니다.

1

In [280]:
t1.add_member("이호진")

이호진 님을 1 팀에 추가했습니다.


In [281]:
len(t1) # member가 늘어난 것을 확인합니다.

2

In [282]:
t1.add_member("이기수") # 이기수를 팀에 추가

이기수 님을 1 팀에 추가했습니다.


In [283]:
t1.rm_member("이기수") # 이기수를 팀에서 삭제

이기수 님을 1 팀에서 삭제했습니다.


In [284]:
t1.rm_member("이기수") # 이미 없는 상태에서 삭제 시도

이기수 님은 해당 팀에 없습니다.


In [285]:
t2 = Team(2)

In [286]:
t2.set_order(t2.number)

In [287]:
t2.set_order(t1.number)

In [288]:
t1.get_order()

[2, 1]

In [289]:
t1.get_count()

2

In [290]:
t3 = Team(3)

In [291]:
t3.get_count()

3

In [292]:
t3.set_order(t3.number)

In [293]:
t3.get_order()

[2, 1, 3]