# Pandas(Panel Datas)

series : 열
dataframe : table

## Series class


In [1]:
import pandas as pd
series = pd.Series(["하나", "둘", "셋", "넷", "다섯",
                   "여섯", "일곱", "여덟", "아홉", "열"],
                    index =[i for i in range(1, 11)])
series

1     하나
2      둘
3      셋
4      넷
5     다섯
6     여섯
7     일곱
8     여덟
9     아홉
10     열
dtype: object

object : 최상위에 있는 객체라고 생각하면 됩니다.

Series는 Value와 Index를 갖습니다.

### Series 생성하기
iterable : 한번에 하나씩 꺼내어 쓸 수 있는 객체


In [2]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
             index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

index와 values로 각각 인덱스와 값에 접근할 수 있습니다.

name 속성을 이용해서 이름을 붙일 수 있습니다.

In [3]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

Series 객체를 만들 때 dict

In [4]:
d = {"a":1, "b":2, "c":3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [5]:
d = {"a":1, "b":2, "c":3}
ser = pd.Series(data=d, index=['x', 'y', 'z'])
ser

x   NaN
y   NaN
z   NaN
dtype: float64

NaN 값이 float 자료형에서만 표현 가능하므로 결과가 float 자료형이 된 것에 주목합시다.
이렇듯 어떤 오류로 인해 NaN값으로 바뀌게 되면 데이터형이 바뀐다... 생각해봅시다.

In [6]:
d = {"a":1, "b":2, "c":3}
ser = pd.Series(data=d)       # 인덱스 키워드 인자를 생략하면 그대로 만들어냅니다.
ser

a    1
b    2
c    3
dtype: int64

### Series index를 속성처럼 활용하기


In [7]:
ser.a, ser.b, ser.c

(1, 2, 3)

### Series의 특징


In [8]:
"서울" in s

True

In [16]:
9_904_312 in s # in 으로 물어볼 땐 키워드 인자로 물어본다.. values 값들을 확인하는 코드로 확인한 후 어떻게 물어야할지 감을 잡아보자

False

In [10]:
for k, v in s.items():
    print(f"{k}, {v}")

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


### Series 연산하기


In [17]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### Series 인덱싱


### Series 슬라이싱

### Series index 기반 연산


### Series에서 값이 NaN인지 확인
notnull() 메서드

### Series에서 NaN이 아닌 값 구하기


### Series 데이터 추가, 갱신, 삭제


In [18]:
rs = pd.Series([1.63323, 2.832690, 9.8181077],
             index=["부산", "서울", "인천"])

In [19]:
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818108
dtype: float64

In [20]:
rs["대구"] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818108
대구    1.410000
dtype: float64

In [21]:
del rs["서울"]
rs

부산    1.630000
인천    9.818108
대구    1.410000
dtype: float64

#### 연습 문제


In [22]:
fin1 = {"카카오":60010, "삼성전자":61000, "LG전자":90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]

In [24]:
ser_finance1 = pd.Series(data=fin1)
ser_finance2 = pd.Series(data=fin2_value, index=fin2_index)
print(ser_finance1)
print(ser_finance2)

카카오     60010
삼성전자    61000
LG전자    90000
dtype: int64
카카오      60200
삼성전자     61200
네이버     200100
dtype: int64


#### 연습 문제

In [25]:
ser_finance1 - ser_finance2 # NaN 값으로 인해 float형

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [26]:
ser_finance1 + ser_finance2 # 위와 동일

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [27]:
ser_finance1 * ser_finance2 # 위와 동일

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [28]:
ser_finance1 / ser_finance2 # 다른 결과값도 float형

LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64

#### 연습 문제


In [30]:
result = ser_finance1 - ser_finance2
result[result.notnull()]

삼성전자   -200.0
카카오    -190.0
dtype: float64

## DataFrame class


### DataFrame 생성


In [34]:
d = {'col1': [1,2], 'col2':[3, 4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [37]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [36]:
df.dtypes

지역                object
2015               int64
2010               int64
2005               int64
2000               int64
2010-2015 증가율    float64
dtype: object

### DataFrame의 속성 values, columns, index


### DataFrame 이름 붙이기


#### 연습 문제

In [48]:
data = {
    "1월": [1, 21, 22, 23, 24],
    "3월": [1,None,None,None,None],
    "5월": [5, 27,None,None,None],
    "6월": [6,None,None,None,None]}
index = [i for i in range(1,6)]
holiday = pd.DataFrame(data, index=index)
holiday.name = "데이터엔지니어링20기_연휴"
holiday.columns.name = "월"
holiday.index.name = "연휴날 수"
holiday

월,1월,3월,5월,6월
연휴날 수,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,1.0,5.0,6.0
2,21,,27.0,
3,22,,,
4,23,,,
5,24,,,


### DataFrame 전치(Transpose)


In [49]:
df.T

Unnamed: 0,서울,부산,인천,대구
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


### DataFrame column 추가, 갱신, 삭제


In [50]:
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)  # round(2) 2째 자리까지 표기되도록 반올림
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4
인천,수도권,2890451,2632035,2517680,2466338,0.0982,4.54
대구,경상권,2466052,2431774,2456016,2473990,0.0141,-0.99


### DataFrame column 인덱싱


In [51]:
df["지역"]

서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

### DataFrame row 슬라이싱


In [52]:
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4
인천,수도권,2890451,2632035,2517680,2466338,0.0982,4.54
대구,경상권,2466052,2431774,2456016,2473990,0.0141,-0.99


In [53]:
df[:1]

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34


In [54]:
df[:"서울"]

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34


In [55]:
df["부산":"부산"]

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4


### DataFrame row 인덱싱할 경우
KeyError가 발생합니다.

### DataFrame 개별 데이터 인덱싱


#### DataFrame 개별 데이터 인덱싱, 역순으로


### DataFrame 인덱싱과 슬라이싱 정리


#### 연습 문제

In [115]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

In [93]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [94]:
math_scores = pd.Series(data["수학"], index)
print(math_scores)
print(df.loc[:,'국어':'영어'])
df["국어 평균"] = sum(df["국어"]) / 4
df["영어 평균"] = sum(df["영어"]) / 4
print(df)
df.loc["향단","영어"] = 80
df["영어 평균"] = sum(df["영어"]) / 4
print(df)
hyang_scores = pd.Series(df.loc["향단"])
print(hyang_scores)

춘향    90
몽룡    60
향단    80
방자    70
dtype: int64
    국어  영어
춘향  80  90
몽룡  90  70
향단  70  60
방자  30  40
    국어  영어  수학  국어 평균  영어 평균
춘향  80  90  90   67.5   65.0
몽룡  90  70  60   67.5   65.0
향단  70  60  80   67.5   65.0
방자  30  40  70   67.5   65.0
    국어  영어  수학  국어 평균  영어 평균
춘향  80  90  90   67.5   70.0
몽룡  90  70  60   67.5   70.0
향단  70  80  80   67.5   70.0
방자  30  40  70   67.5   70.0
국어       70.0
영어       80.0
수학       80.0
국어 평균    67.5
영어 평균    70.0
Name: 향단, dtype: float64


In [117]:
df["평균"] = round((df["국어"]+df["영어"]+df["수학"])/3, 2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


#### 연습 문제

In [111]:
import numpy as np

np.random.seed(0)
values = np.random.randn(6, 4)
columns = ['A', 'B', 'C', 'D']
df = pd.DataFrame(data=values, index=pd.date_range("20130206", periods=6), columns=columns) # columns=list("ABCD")

In [112]:
df

Unnamed: 0,A,B,C,D
2013-02-06,1.764052,0.400157,0.978738,2.240893
2013-02-07,1.867558,-0.977278,0.950088,-0.151357
2013-02-08,-0.103219,0.410599,0.144044,1.454274
2013-02-09,0.761038,0.121675,0.443863,0.333674
2013-02-10,1.494079,-0.205158,0.313068,-0.854096
2013-02-11,-2.55299,0.653619,0.864436,-0.742165


#### 연습 문제

In [14]:
class Team:
    count = 0
    order = []
    def __init__(self, number):
        self.number = number
        self.__member = set()
        .count += 1
    def add_member(self, name):
        self.name = name
        if self.name in self.__member:
            return print(f"{self.name}님은 이미 팀에 있습니다.")
        else:
            print(f"{self.name}님을 팀에 추가했습니다.")
            self.__member.add(self.name)
    def rm_member(self, name):
        if self.name in self.__member:
            self.__member.remove(self.name)
            print(f"{self.name}님을 {self.number} 팀에서 삭제했습니다.")
        else:
            return print(f"{self.name}님은 해당 팀에 없습니다.")
    def get_count(self):
        return self.count
    def get_order(self):
        return self.order
    def set_order(self, number2):
            if number2 in self.order:
                    self.order = []
                    self.order.append(number2)
            else:
                self.order.append(number2) 
    def __len__(self):
        return len(self.member)

In [None]:
def __len__(self):
    return len(slef.member) # 하면
len(t1) # --> 파이썬 내부에서 __len__(self)  를 찾습니다.

In [16]:
t1 = Team(1)

In [17]:
t1.add_member("윤규헌")

윤규헌님을 팀에 추가했습니다.


In [18]:
t1.add_member("윤규헌")

윤규헌님은 이미 팀에 있습니다.


In [19]:
t1.add_member("이호진")

이호진님을 팀에 추가했습니다.


In [20]:
t1.add_member("이기수")

이기수님을 팀에 추가했습니다.


In [21]:
t1.rm_member("이기수")

이기수님을 1 팀에서 삭제했습니다.


In [22]:
t1.rm_member("이기수")

이기수님은 해당 팀에 없습니다.


In [23]:
t2=Team(2)

In [24]:
t2.set_order(t2.number)

In [25]:
t2.set_order(t1.number)

In [26]:
t1.get_order()

[2, 1]

In [27]:
t1.get_count()

1

t1 = Team() # Team 클래스로부터 인스턴스를 초기화한다. 초기화할 때 넣는 인자 값은 __init__(self, 여기로 전달됨)  
초기화될 때 1번이자 최초로 실행되는게 __init__(self) 이 특별 메서드이다.

In [1]:
class Team:
    '''팀 객체를 만듭니다.'''
    count = 0
    order = []
    def __init__(self,number):
        self.number = number
        self.name = None
        self.__member = set()
        print(self.__dict__)
        self.count = self.count + 1
        print(self.__dict__)
    # 내장 함수(Built-in function) len(Team()) --> 파이썬이 __len__(self)를 찾아서 실행    
    def __len__(self):
        return len(self.__member)
    def add_member(self,name):
        if name in self.__member:
            print(f"{name}님은 이미 팀에 있습니다.")
        else:
            self.__member.add(name)
            print(f"{name}님을 {self.number}팀에 추가했습니다.")
    def rm_member(self,name):
        if name in self.__member:
            self.__member.remove(name)
            print(f"{name}님을 {self.number}팀에서 삭제했습니다.")
        else:
            print(f"{name}님은 해당 팀에 없습니다.")
    def get_count(self):
        print(f"count: {Team.count}")
    def get_order(self):
        print(f"order: {Team.order}")
    def set_order(self,num):
        if num in Team.order:
            Team.order.remove(num)
        Team.order.append(num)
t1 = Team(1)
t1.add_member('윤규헌')
t1.add_member('윤규헌')
print(len(t1))
t1.add_member('이호진')
print(len(t1))
t1.add_member("이기수")
t1.rm_member('이기수')
t1.rm_member('이기수')
t2 = Team(2)
t2.set_order(t2.number)
t1.set_order(t1.number)
t1.get_order()
t1.get_count()
t3 = Team(3)
t3.get_count()
t3.set_order(t3.number)
t3.get_order()

{'number': 1, 'name': None, '_Team__member': set()}
{'number': 1, 'name': None, '_Team__member': set(), 'count': 1}
윤규헌님을 1팀에 추가했습니다.
윤규헌님은 이미 팀에 있습니다.
1
이호진님을 1팀에 추가했습니다.
2
이기수님을 1팀에 추가했습니다.
이기수님을 1팀에서 삭제했습니다.
이기수님은 해당 팀에 없습니다.
{'number': 2, 'name': None, '_Team__member': set()}
{'number': 2, 'name': None, '_Team__member': set(), 'count': 1}
order: [2, 1]
count: 0
{'number': 3, 'name': None, '_Team__member': set()}
{'number': 3, 'name': None, '_Team__member': set(), 'count': 1}
count: 0
order: [2, 1, 3]
