# Pandas

## Series
- 1차원 Array에 Index를 추가한 것

In [1]:
import pandas as pd

In [4]:
name = ['tom','jake','kate','bob']
score = [80,80,100,50]
s = pd.Series(score)
s

0     80
1     80
2    100
3     50
dtype: int64

### Series - Index 설정
1. list로 indxe 지정

In [5]:
p = pd.Series(score, index = name)
p

tom      80
jake     80
kate    100
bob      50
dtype: int64

2. Dictionary로 index 지정

In [7]:
dic = {'Fruits':'orange','Color':'red','Car':'bmw'}
s1 = pd.Series(dic)
s1

Fruits    orange
Color        red
Car          bmw
dtype: object

### Series를 이용한 산술 연산
- 순서와 상관없이 같은 index에 해당하는 값끼리 연산

In [12]:
name1 = ['tom','jake','jane','bob'] # name1, name2의 요소 순서를 달리 설정
name2 = ['bob','jane','jake','tom']
score1 = [50,50,40,40]
score2 = [90,90,50,90]
s1 = pd.Series(score1, name1)
s2 = pd.Series(score2, name2)
print(s1)
print(s2)

tom     50
jake    50
jane    40
bob     40
dtype: int64
bob     90
jane    90
jake    50
tom     90
dtype: int64


In [13]:
s1 + 10    # s1의 모든 요소에 +10

tom     60
jake    60
jane    50
bob     50
dtype: int64

In [15]:
s1 + s2     # 같은 index의 요소들의 합이 이뤄짐

bob     130
jake    100
jane    130
tom     140
dtype: int64

In [17]:
s1[1:3]      # index가 문자열로 되어있어도 숫자로 조회 가능

jake    50
jane    40
dtype: int64

In [19]:
s1['tom']    # index 명으로도 조회 가능

50

In [21]:
s1['tom':'bob']
# 인덱스명으로 슬라이싱가능
# 인덱스명으로 조회시 끝 인덱스인 bob의 요소도 불러옴

tom     50
jake    50
jane    40
bob     40
dtype: int64

### Series - 값 추가, 수정, 삭제

In [25]:
s1

tom     50
jake    50
jane    40
bob     40
dtype: int64

In [27]:
s1['Park'] = 77    # 'Park' 새로운 값 추가
s1

tom     50
jake    50
jane    40
bob     40
Park    77
dtype: int64

In [29]:
s1['Park'] = 88    # 'Park' 값 수정
s1

tom     50
jake    50
jane    40
bob     40
Park    88
dtype: int64

In [31]:
del s1['Park']    # 'Park' 삭제
s1

tom     50
jake    50
jane    40
bob     40
dtype: int64

### Series - 논리 연산과 Filtering

In [33]:
x = s1 > 45
x

tom      True
jake     True
jane    False
bob     False
dtype: bool

In [35]:
s1[x]     # x에 해당하는 값을 보여줌

tom     50
jake    50
dtype: int64

## DataFrame

### 1. Series를 이용하여 DataFrame 생성
1. DataFrame의 Index 설정
2. DataFrame의 column 설정

1. Index 설정

In [45]:
name = ['tom','kate','jane']
score = [[50,60,70],[100,100,100],[90,80,70]]
lecture = ['math','korean','english']
df1 = pd.DataFrame(score, index=name)   # DataFrame의 index 설정
df1

Unnamed: 0,0,1,2
tom,50,60,70
kate,100,100,100
jane,90,80,70


2. column 설정

In [47]:
df1 = pd.DataFrame(score, index = name, columns = lecture)  # columns 설정
df1

Unnamed: 0,math,korean,english
tom,50,60,70
kate,100,100,100
jane,90,80,70


In [40]:
names1 = ('영철 영희 미자 숙자 금자 경주 건우').split(' ')
score1 = [10,20,30,40,50,60,70]
names2 = ('건우 경주 영철 영희 미자 숙자 금자').split(' ')
score2 = [100,200,300,400,500,600,700]
s1 = pd.Series(score1, index = names1)   # DataFrame의 index 설정
s2 = pd.Series(score2, index = names2)

d = pd.DataFrame()
d['국어'] = s1
d['영어'] = s2
d['합'] = d.국어 + d.영어
d
# 이름의 순서와 상관없이 알아서 index값에 해당하는 요소들끼리 연산하여 DataFrame 생성

Unnamed: 0,국어,영어,합
영철,10,300,310
영희,20,400,420
미자,30,500,530
숙자,40,600,640
금자,50,700,750
경주,60,200,260
건우,70,100,170


### 2. Dictionary 이용하여 DataFrame 생성

In [48]:
score_lecture = {'math':[10,20,30,40,50],'english':[40,50,60,70,80], 'korean':[80,80,70,70,90]}
names = ['tom','kate','jamn','bob','harry']
df1 = pd.DataFrame(score_lecture, index = names)
df1

Unnamed: 0,math,english,korean
tom,10,40,80
kate,20,50,80
jamn,30,60,70
bob,40,70,70
harry,50,80,90


### 3.  DataFrame - Index 변경
1. Index 전체 변경
2. Index 일부 변경

#### 1. Index 전체 변경
- df.index = ['a','b','c','d'..] 전체 Index 써준다

In [49]:
df1

Unnamed: 0,math,english,korean
tom,10,40,80
kate,20,50,80
jamn,30,60,70
bob,40,70,70
harry,50,80,90


In [55]:
df1.index = ('영철 영희 수지 지민 장현').split(' ')
df1                   # 모든 index 변경

Unnamed: 0,math,english,korean
영철,10,40,80
영희,20,50,80
수지,30,60,70
지민,40,70,70
장현,50,80,90


#### 2. Index 일부 변경
    - df.rename(index={'tom':'영희','Jerry':'철수'} 바꾸고자하는 Index만 써준다

In [60]:
df1.rename(index={'영희':'Tom'})     # 리턴값이기때문에 원본에 영향 x

Unnamed: 0,math,english,korean
영철,10,40,80
Tom,20,50,80
수지,30,60,70
지민,40,70,70
장현,50,80,90


##### inplace = True --> 원본에 적용

In [62]:
df1.rename(index={'영희':'Tom', '지민':'Jake'}, inplace=True)  # 원본에 작업 결과 적용
df1

Unnamed: 0,math,english,korean
영철,10,40,80
Tom,20,50,80
수지,30,60,70
Jake,40,70,70
장현,50,80,90


### 4. DataFrame - Column 변경
1. 전체 Column 변경
2. 특정 Column 변경
3. Column 순서 변경

#### 1. 전체 Column 변경

In [63]:
df1

Unnamed: 0,math,english,korean
영철,10,40,80
Tom,20,50,80
수지,30,60,70
Jake,40,70,70
장현,50,80,90


In [65]:
df1.columns=['수학','영어','국어']    # 전체 Column을 다 써준다
df1

Unnamed: 0,수학,영어,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
Jake,40,70,70
장현,50,80,90


#### 2. 특정 Column 변경

In [69]:
df1.rename(columns={'수학':'math'})    # return 값이라 원본에 적용 x

Unnamed: 0,math,영어,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
Jake,40,70,70
장현,50,80,90


In [71]:
df1.rename(columns={'수학':'math','영어':'체육'},inplace = True)
df1

Unnamed: 0,math,체육,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
Jake,40,70,70
장현,50,80,90


#### 3. column 순서 변경
- 변경하고자 하는 column의 순서를 list에 넣는다

In [72]:
df1

Unnamed: 0,math,체육,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
Jake,40,70,70
장현,50,80,90


In [75]:
col_ch = ['체육','국어','math']     # column에 있는 값 모두 써줘야 한다
df1[col_ch]

Unnamed: 0,체육,국어,math
영철,40,80,10
Tom,50,80,20
수지,60,70,30
Jake,70,70,40
장현,80,90,50


In [77]:
col_sort = sorted(df1.columns)    # column 정렬
df1[col_sort]

Unnamed: 0,math,국어,체육
영철,10,80,40
Tom,20,80,50
수지,30,70,60
Jake,40,70,70
장현,50,90,80


### 5. DataFrame - Row / Column 삭제
1. Row 삭제
2. Column 삭제

#### 1. Row 삭제 ( axis = 0)

In [79]:
df1

Unnamed: 0,math,체육,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
Jake,40,70,70
장현,50,80,90


In [80]:
df1.drop(['Jake'],axis=0)        # return 값이라 원본에 적용 x

Unnamed: 0,math,체육,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
장현,50,80,90


In [85]:
df1                              # inpace = True 적용 후

Unnamed: 0,math,체육,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
장현,50,80,90


In [86]:
df1.drop(['영철','Tom'], axis=0)     # 한 번에 여러 row 삭제

Unnamed: 0,math,체육,국어
수지,30,60,70
장현,50,80,90


#### 2. Column 삭제 ( axis = 1 )

In [88]:
df1

Unnamed: 0,math,체육,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
장현,50,80,90


In [90]:
df1.drop(['math'], axis = 1)       # return 값이라 원본에 적용 x

Unnamed: 0,체육,국어
영철,40,80
Tom,50,80
수지,60,70
장현,80,90


### 6. DataFrame - Row 추가 / Column 추가
1. Row 추가
2. Column 추가

#### 1. Row 추가

In [91]:
df1

Unnamed: 0,math,체육,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
장현,50,80,90


In [95]:
df1.loc['똥개'] = [80,70,90]       # loc[]  사용
df1

Unnamed: 0,math,체육,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
장현,50,80,90
똥개,80,70,90


In [97]:
df1.loc['합계'] = df1['math'].sum()    # 추가 row에 sum()함수 사용
df1

Unnamed: 0,math,체육,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
장현,50,80,90
똥개,80,70,90
합계,380,380,380


#### 2. Column 추가

In [98]:
df1

Unnamed: 0,math,체육,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
장현,50,80,90
똥개,80,70,90
합계,380,380,380


In [100]:
df1['독일어'] = [50,50,50,60,60,60]       # 새로운 column 추가
df1

Unnamed: 0,math,체육,국어,독일어
영철,10,40,80,50
Tom,20,50,80,50
수지,30,60,70,50
장현,50,80,90,60
똥개,80,70,90,60
합계,380,380,380,60


### 7. DataFrame 정보

In [101]:
df1.index       # df1의 index 정보

Index(['영철', 'Tom', '수지', '장현', '똥개', '합계'], dtype='object')

In [102]:
df1.columns     # df1의 column 정보

Index(['math', '체육', '국어', '독일어'], dtype='object')

In [103]:
df1.values      # df1의 요소 정보

array([[ 10,  40,  80,  50],
       [ 20,  50,  80,  50],
       [ 30,  60,  70,  50],
       [ 50,  80,  90,  60],
       [ 80,  70,  90,  60],
       [380, 380, 380,  60]], dtype=int64)

#### 7.1 DataFrame 부분 정보

In [106]:
df1['체육']      #  열 '체육'에 대한 정보 검색

영철      40
Tom     50
수지      60
장현      80
똥개      70
합계     380
Name: 체육, dtype: int64

In [107]:
df1[1:4]         # 행 번호 1 ~ 3 에 대한 정보 검색

Unnamed: 0,math,체육,국어,독일어
Tom,20,50,80,50
수지,30,60,70,50
장현,50,80,90,60


In [110]:
df1['영철':'똥개']           # 행 이름 '영철' ~ '똥개' 까지 정보 검색

Unnamed: 0,math,체육,국어,독일어
영철,10,40,80,50
Tom,20,50,80,50
수지,30,60,70,50
장현,50,80,90,60
똥개,80,70,90,60


In [116]:
df1['math']['영철':'수지']    # 열과 행 같이 검색

영철     10
Tom    20
수지     30
Name: math, dtype: int64

In [119]:
df1.loc['영철':'장현','math':'국어']
# loc를 활용하여 원하는 해오가 열 선택 가능
# 행을 먼저 써주고, 열 써준다

Unnamed: 0,math,체육,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
장현,50,80,90


In [123]:
df1.loc[:,'math':'국어']       # 모든 행, 해당하는 열 검색

Unnamed: 0,math,체육,국어
영철,10,40,80
Tom,20,50,80
수지,30,60,70
장현,50,80,90
똥개,80,70,90
합계,380,380,380


In [131]:
df1.iloc[1:3,[0,2]]            # Index 번호 1,2 / column 번호 0,1

Unnamed: 0,math,국어
Tom,20,80
수지,30,70


### 8. DataFrame - 산술 / 논리 연산

In [133]:
df1

Unnamed: 0,math,체육,국어,독일어
영철,10,40,80,50
Tom,20,50,80,50
수지,30,60,70,50
장현,50,80,90,60
똥개,80,70,90,60
합계,380,380,380,60


In [135]:
df1.iloc[0]+df1.iloc[1]       # 1번째 행의 값과 2번째 행 값을 더한다

math     30
체육       90
국어      160
독일어     100
dtype: int64

In [139]:
df1.math + df1.체육          # math, 체육 column 값 더한다

영철      50
Tom     70
수지      90
장현     130
똥개     150
합계     760
dtype: int64

In [141]:
df1.sum(axis = 1 )           # 각 행의 모든 값을 더한다

영철      180
Tom     200
수지      210
장현      280
똥개      300
합계     1200
dtype: int64

In [144]:
df1.sum()                   # 각 열의 모든 값을 더한다

math    570
체육      680
국어      790
독일어     330
dtype: int64

### 9. DataFrame - Filtering

In [147]:
x = df1.math > 60       # math 열의 값이 60보다 큰 행 출력
df1[x]

Unnamed: 0,math,체육,국어,독일어
똥개,80,70,90,60
합계,380,380,380,60


In [151]:
y = df1 > 70                # 모든 값이 70 보다 크면 True
y

Unnamed: 0,math,체육,국어,독일어
영철,False,False,True,False
Tom,False,False,True,False
수지,False,False,False,False
장현,False,True,True,False
똥개,True,False,True,False
합계,True,True,True,False


In [153]:
df1[y]                      # 70보다 큰 값 출력

Unnamed: 0,math,체육,국어,독일어
영철,,,80.0,
Tom,,,80.0,
수지,,,,
장현,,80.0,90.0,
똥개,80.0,,90.0,
합계,380.0,380.0,380.0,


### 10. DataFrame - 정렬
1. Index 기준 정렬
2. Column 기준 정렬

#### 1. Index 기준 정렬

In [154]:
 df1

Unnamed: 0,math,체육,국어,독일어
영철,10,40,80,50
Tom,20,50,80,50
수지,30,60,70,50
장현,50,80,90,60
똥개,80,70,90,60
합계,380,380,380,60


In [156]:
df1.sort_index()                # index 기준으로 정렬됨

Unnamed: 0,math,체육,국어,독일어
Tom,20,50,80,50
똥개,80,70,90,60
수지,30,60,70,50
영철,10,40,80,50
장현,50,80,90,60
합계,380,380,380,60


In [161]:
df1.sort_values(by='국어', ascending = False)   # '국어' 기준으로, 오름차순 정렬

Unnamed: 0,math,체육,국어,독일어
합계,380,380,380,60
장현,50,80,90,60
똥개,80,70,90,60
영철,10,40,80,50
Tom,20,50,80,50
수지,30,60,70,50


In [162]:
df1.sort_values(by='국어')
# 정렬 기본값은 내림차순

Unnamed: 0,math,체육,국어,독일어
수지,30,60,70,50
영철,10,40,80,50
Tom,20,50,80,50
장현,50,80,90,60
똥개,80,70,90,60
합계,380,380,380,60
