# **230118 Pandas(Panel Datas)**

#### **pandas 는 주로 데이터 분석에 사용함**

시계열이나 표 형태로 나타낼 수 있습니다. Pandas 패키지는 Series 클래스와 DataFrage 클래스를 제공

숫자 테이블과 시계열을 조작하기 위한 데이터 구조와 연산할 떄 쓴다

In [4]:
import pandas as pd

다음과 같이 import해서 사용하는데, 맥에 설치가 안되어 있어서 pip로 pandas를 설치해주었다
```
pip3 install pandas
```


## Series class(열)

넘파이 1차원 배열과 모양 비슷하나, 각 데이터의 의매를 표시하는 index(index)를 붙일 수 있다

>첫 인수: data <br>
>두 번쨰 인수: index

parameter data needs to be iterable stuff

index 는 라벨이라고 함, index는 len(data)와 동일해야 함

index 생략할 경우 RangeIndex제공함

In [10]:
series = pd.Series(["하나", "둘", "셋", "야!"],index=[ _ for _ in range(1,5)])

series

1    하나
2     둘
3     셋
4    야!
dtype: object

In [14]:
# _는 읽기 쉬우라고 넣는 것임, 숫자로 받음
s = pd.Series([9_904_321,3_448_737, 2_890_451, 2_466_052], index = ["서울","부산", "인천","대구"])
s

서울    9904321
부산    3448737
인천    2890451
대구    2466052
dtype: int64

index를 저장하지 않고 Series 만들면 index는 시작하는 정수 값이 0

In [15]:
pd.Series(range(10,14))

0    10
1    11
2    12
3    13
dtype: int64

index는 index 속성으로 접근할 수 있다

In [16]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [17]:
s.values

array([9904321, 3448737, 2890451, 2466052])

dict를 통한 series 생성도 가능하다

In [18]:
d = {'a':1, 'b':2, 'c': 3}
ser = pd.Series(data=d, index=['a','b','c'])
ser

a    1
b    2
c    3
dtype: int64

In [20]:
ser = pd.Series(data=d, index=['x','y','z'])
ser

x   NaN
y   NaN
z   NaN
dtype: float64

ㅁㄹㄴㅇㄹ

영문 문자열인 경우 index label 이 속성인 것처럼 .를 활용하여 해당 index 값에 접근할 수 있다 

### Series 특징
index label을 키로 사용, 딕셔너리랑 비슷하다.
그래서 series를 딕셔너리와 같은 방시긍로 사용할 수 있음 

In [22]:
"서울" in s

True

In [24]:
"대전" in s

False

심지어 for문도 돌릴 수 있음

In [27]:
for k,v in s.items():
    print(f"k = {k}, v{v}") #이렇게 언패킹해서 사용할 수 있다. dict도 되고 series도 되고!

k = 서울, v9904321
k = 부산, v3448737
k = 인천, v2890451
k = 대구, v2466052


numpy처럼 벡터화 연산도 가능 **단, Value에만 적용** index 값은 변하지 않는다 

In [29]:
s / 10000

서울    990.4321
부산    344.8737
인천    289.0451
대구    246.6052
dtype: float64

index 방법 외에도 index label 을 이용한 인덱신도 할 수 있음

In [31]:
s[1:3]

부산    3448737
인천    2890451
dtype: int64

In [32]:
s["부산":"대구"]

부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [33]:
s.name = "인구"
s.index.name = "도시"

s

도시
서울    9904321
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [35]:
s2 = pd.Series({"서울": 321321, "부산": 93204932, "인천": 2632035, "대전": 1490158})
s2

서울      321321
부산    93204932
인천     2632035
대전     1490158
dtype: int64

In [36]:
ds = s - s2
ds

대구           NaN
대전           NaN
부산   -89756195.0
서울     9583000.0
인천      258416.0
dtype: float64

In [38]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [46]:
rs = (s-s2)/s2*100
rs = rs[pd.notnull(rs)]
rs

부산     -96.299834
서울    2982.375880
인천       9.818107
dtype: float64

In [41]:
rs["부산"] = 1.63
rs

부산       1.630000
서울    2982.375880
인천       9.818107
dtype: float64

없는 인덱스에 값을 할당하면 데이터가 추가됩니다. 

In [43]:
rs["머구"] = 1.41
rs

부산       1.630000
서울    2982.375880
인천       9.818107
머구       1.410000
dtype: float64

In [49]:
rs

부산   -96.299834
인천     9.818107
dtype: float64

In [50]:
del rs["부산"]
rs


인천    9.818107
dtype: float64

In [56]:
fin1= {"카카오":60010,"삼성전자":61000,"LG전자":9000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자","네이버"]
ser_finance1 = pd.Series(fin1)
ser_finance2 = pd.Series(fin2_value, fin2_index)


카카오      60200
삼성전자     61200
네이버     200100
dtype: int64

In [57]:
# ser_finance1 -  ser_finance2


LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [59]:
ser_finance1+ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [60]:
ser_finance1*ser_finance2

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [61]:
ser_finance2/ser_finance1

LG전자         NaN
네이버          NaN
삼성전자    1.003279
카카오     1.003166
dtype: float64

In [65]:
result = ser_finance1 - ser_finance2
result[pd.notnull(result)]

삼성전자   -200.0
카카오    -190.0
dtype: float64

## DataFrame class

Pandas의 주요 데이터 구조

산술연산은 row와 column 모두 적용됩니다. Series 객체를 갖는 dictionary
```
class pandas.DataFrame(data=None, index=None, column = None, dtype=None, copy=None)
```
DataFrame은 각 column마다 자료형이 다를 수 있다


In [66]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df


Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [75]:
import numpy as np

data = {
    'year': [ _ for _ in range(2016, 2022)],
    'GDP rate': [np.random.rand()*10 for _ in range(2016, 2022)],
    'GDP': [str(np.random.randint(100000, 3000000)) for _ in range(2016, 2022)],
    'ETC': [ None for _ in range(2016,2022)]
}

df = pd.DataFrame(data)
df

Unnamed: 0,year,GDP rate,GDP,ETC
0,2016,4.326373,195116,
1,2017,0.445267,1340708,
2,2018,9.807264,2613140,
3,2019,8.568905,151473,
4,2020,1.403794,277275,
5,2021,7.638804,2355342,


In [77]:
#Transpose(전치)
df.T

Unnamed: 0,0,1,2,3,4,5
year,2016.0,2017.0,2018.0,2019.0,2020.0,2021.0
GDP rate,4.326373,0.445267,9.807264,8.568905,1.403794,7.638804
GDP,195116.0,1340708.0,2613140.0,151473.0,277275.0,2355342.0
ETC,,,,,,


In [106]:
#df["ETC"] = df["nothing"]

In [80]:
df[1:2]

Unnamed: 0,year,GDP rate,GDP,ETC
1,2017,0.445267,1340708,


In [211]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [116]:
#1 수학점수 series
s = pd.Series(data["수학"])
s
#df = pd.DataFrame(data,index,columns)
#df.T[2:3]

0    90
1    60
2    80
3    70
dtype: int64

In [109]:
#2 모든 학생의 국어와 영어 점수를 데이터프레임으로 나타낸다
df = pd.DataFrame(data,index, columns)
df["국어"]

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64

In [133]:
#3 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다
df['AVG'] = [sum(data[_]) for _ in range(len(data))]
df


KeyError: 0

In [99]:
#4 방자의 영어점수를 80점으로 수정하고 평균점수도 다시 계산한다

In [100]:
#5 춘향의 점수를 dataframe으로 나타낸다

In [134]:
#6 향단의 점수를 series로 나타낸다

In [135]:
df["수학"]

0    90
1    60
2    80
3    70
Name: 수학, dtype: int64

In [136]:
df[["국어", "영어"]]

Unnamed: 0,국어,영어
0,80,90
1,90,70
2,70,60
3,30,40


In [140]:
df["평균"] = round((df["국어"] + df["영어"]+df["수학"])/3,2)
df


Unnamed: 0,국어,영어,수학,AVG,평균
0,80,90,90,0,86.67
1,90,70,60,0,73.33
2,70,60,80,0,70.0
3,30,40,70,0,46.67


In [141]:
df["영어", "방자"] =80

df

Unnamed: 0,국어,영어,수학,AVG,평균,"(영어, 방자)"
0,80,90,90,0,86.67,80
1,90,70,60,0,73.33,80
2,70,60,80,0,70.0,80
3,30,40,70,0,46.67,80


In [215]:
df.T["향단"]

국어    70
영어    60
수학    80
Name: 향단, dtype: int64

In [154]:
np.random.seed(0)

columns = ['A', 'B', 'C', 'D']
values = [np.random.randn() for _ in range(6*len(columns))]

df = pd.DataFrame(np.array(values).reshape(6,4), index = pd.date_range("20130226", periods=6),columns=columns)
df

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.400157,0.978738,2.240893
2013-02-27,1.867558,-0.977278,0.950088,-0.151357
2013-02-28,-0.103219,0.410599,0.144044,1.454274
2013-03-01,0.761038,0.121675,0.443863,0.333674
2013-03-02,1.494079,-0.205158,0.313068,-0.854096
2013-03-03,-2.55299,0.653619,0.864436,-0.742165


In [194]:
class Team:
    count = 0
    order = []

    def __init__(self, number):
        self.number = number
        self.name = None
        self.__member = ()

    def __len__(self):
        return len(self.__member)

    def add_member(self, member:str):
        if member in self.order:
            print(f"{member}님은 이미 팀에 있습니다.")
            return
        else:
            print(f"{member}님을 {member}팀에 추가하였습니다.")
            self.order.append(member)
            return
    
    def rm_member(self, member:str):
        if member in self.order:
            print(f"{member}님을 {self.number}팀에서 삭제했습니다.")
            self.order.remove(member)
            return
        else:
            print(f"{member}님은 해당 팀에 없습니다.")
            self.order.append(member)
            return
        
    def set_order(self, get):
        if get in self.order:
            self.order.remove(get)
        self.order.append(get)

    def get_order(self):
        return self.order
    
    def get_count(self):
        return self.count


In [195]:
t1 = Team(1)
t1.add_member("윤규현")

윤규현님을 윤규현팀에 추가하였습니다.


In [196]:
t1.add_member("윤규현")

윤규현님은 이미 팀에 있습니다.


In [197]:
t1.add_member("이호진")


이호진님을 이호진팀에 추가하였습니다.


In [198]:
len(t1)

0

In [199]:
t1.add_member("이기수")

이기수님을 이기수팀에 추가하였습니다.


In [200]:
t1.rm_member("이기수")

이기수님을 1팀에서 삭제했습니다.


In [201]:
t1.rm_member("이기수")


이기수님은 해당 팀에 없습니다.


In [202]:
t2=Team(2)

In [203]:
t2.set_order(t2.number)

In [204]:
t1.set_order(t1.number)

In [207]:
t1.get_order()

['윤규현', '이호진', '이기수', 2, 1]

In [208]:
t3 = Team(3)

In [210]:
t3.get_count()

0