## Pandas 개요
- pandas는 for문을 사용하지 않고 데이터를 처리한다거나 배열 기반의 함수를 제
공하는 등 NumPy의 배열 기반 계산 스타일을 많이 차용
- pandas가 NumPy 스타일을 많이 차용했지만 가장 큰 차이점은 pandas는 표 형
식의 데이터나 다양한 형태의 데이터를 다루는 데 초점을 맞춰 설계
- 그에 비해 NumPy는 단일 산술 배열 데이터를 다루는 데 특화
- 고수준의 자료구조를 제공하고 파이썬 생태계 내의 다른 분석 라이브러리 등과 함께 사용

## 1. Pandas 자료구조

In [1]:
import pandas as pd 
import numpy as np 

### 1.1 Series
- 1차원 데이터

In [2]:
# Series 이거 하면 index 가 같이 나온다 
obj = pd.Series([4,7,-5, 3])
obj 

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
# Series 의 values 
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [4]:
# Series 의 index 
obj.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
# Series 의 type 
type(obj) 

pandas.core.series.Series

In [6]:
# Series의 index 값 바꾸기 
obj2 = pd.Series([4, 7, -5, 3 ], index = ['d', 'a', 'b','c'])
obj2

d    4
a    7
b   -5
c    3
dtype: int64

In [7]:
# index '이름'으로 색인하기 
obj2['d']

4

In [8]:
# index '값'으로 색인 
obj2[0]

4

In [9]:
# 팬시 색인 '인덱스 이름'으로 
obj2[['d' ,'c', 'a']]

d    4
c    3
a    7
dtype: int64

In [10]:
# 팬시 색인 '인덱스 값'으로 
obj2[[1,0,3]] 

a    7
d    4
c    3
dtype: int64

In [11]:
# 불리안 색인 
obj2[obj2 > 0]

d    4
a    7
c    3
dtype: int64

In [12]:
# 브로드 캐스팅 
obj2 * 2

d     8
a    14
b   -10
c     6
dtype: int64

In [13]:
# 유니버셜 함수 
np.exp(obj2) 

d      54.598150
a    1096.633158
b       0.006738
c      20.085537
dtype: float64

In [14]:
# 딕셔너리 와 시리즈 
sdata = {'Ohio':3500, 'Texas':71000, 'Oregon':16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio       3500
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [15]:
# California 얘는 새로운 삽입 , Utah 는 삭제 
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio           3500.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [16]:
# null 값 찾기 
pd.isnull(obj4) 

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [17]:
# 시리즈 이름 짓기 
obj4.name = 'population'
obj4

California        NaN
Ohio           3500.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [18]:
# 시리즈의 인덱스 이름 짓기 
obj4.index.name = 'state' 
obj4

state
California        NaN
Ohio           3500.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [19]:
# 시리즈의 columns 전체 이름 짓기  

# 이건 안돼~


### Workshop

- 딕셔너리 -> 시리즈 변환 (index, values 출력)

In [20]:
dict_data = {'a':1, 'b':2, 'c':3}
sr = pd.Series(dict_data)

sr.index, sr.values 

(Index(['a', 'b', 'c'], dtype='object'), array([1, 2, 3], dtype=int64))

- 리스트 -> 시리즈 변환 (index, values 출력)

In [21]:
list_data = ['2019-01-02', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data)

sr.index , sr.values 

(RangeIndex(start=0, stop=5, step=1),
 array(['2019-01-02', 3.14, 'ABC', 100, True], dtype=object))

- 튜플 -> 시리즈 변환 (index, values 출력)

In [22]:
tuple_data = ('영인', '2010-05-01', '여', True)
sr = pd.Series(tuple_data)

sr.index , sr.values 

(RangeIndex(start=0, stop=4, step=1),
 array(['영인', '2010-05-01', '여', True], dtype=object))

- 튜플 -> 시리즈 변환 (index 설정)

In [23]:
tuple_data = ('영인', '2010-05-01', '여', True)
index_name = ['이름', '생년월일', '성별', '학생여부']

sr = pd.Series(tuple_data, index=index_name)

sr.index, sr.values 

(Index(['이름', '생년월일', '성별', '학생여부'], dtype='object'),
 array(['영인', '2010-05-01', '여', True], dtype=object))

### 1.2 DataFrame
- 2차원 데이터

In [24]:
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
        'year':[2000, 2001, 2002, 2001, 2002, 2003], 
        'pop':[1.5, 1.7, 3.6, 2.4, 2.9, 3.2]} 
data

{'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002, 2003],
 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [25]:
# 데이터 프레임 만들기  // 딕셔너리의 키값들이 컬럼명으로 들어감 
frame = pd.DataFrame(data) 
frame 

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [26]:
# index check 
frame.index

RangeIndex(start=0, stop=6, step=1)

In [27]:
# colums check 
frame.columns

Index(['state', 'year', 'pop'], dtype='object')

In [28]:
# values check 
frame.values 

array([['Ohio', 2000, 1.5],
       ['Ohio', 2001, 1.7],
       ['Ohio', 2002, 3.6],
       ['Nevada', 2001, 2.4],
       ['Nevada', 2002, 2.9],
       ['Nevada', 2003, 3.2]], dtype=object)

In [29]:
# 데이터 딱 앞에 5행만 훑어 보기 
frame.head() 

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [30]:
# 뒤에 5개 훑어 보기 
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [31]:
# 컬럼들의 순서 지정하기 + 추가 하기  
pd.DataFrame(data, columns = ['year', 'pop', 'state', 'dept'])

Unnamed: 0,year,pop,state,dept
0,2000,1.5,Ohio,
1,2001,1.7,Ohio,
2,2002,3.6,Ohio,
3,2001,2.4,Nevada,
4,2002,2.9,Nevada,
5,2003,3.2,Nevada,


In [32]:
# 인덱스 이름 지정해주기~
frame2 = pd.DataFrame(data, columns = ['year', 'state', 'pop', 'debt'],
                      index = ['one', 'two', 'three', 'four', 'five', 'six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [33]:
# dataframe 의 열색인 
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [34]:
# 열 색인 슬라이싱 // .loc (location) 이라는 거로 데이터프레임의 인덱싱 + 슬라이싱 가능함  
frame2.loc[:, 'year': 'pop']

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9
six,2003,Nevada,3.2


In [35]:
# dataframe 의 행 색인 // .loc 이라는 걸 써야함 
frame2.loc['one']

year     2000
state    Ohio
pop       1.5
debt      NaN
Name: one, dtype: object

In [36]:
# 행 슬라이싱 
frame2.loc['one' : 'three']

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,


In [37]:
# dataframe 의 브로드캐스팅 
frame2['dept'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt,dept
one,2000,Ohio,1.5,,16.5
two,2001,Ohio,1.7,,16.5
three,2002,Ohio,3.6,,16.5
four,2001,Nevada,2.4,,16.5
five,2002,Nevada,2.9,,16.5
six,2003,Nevada,3.2,,16.5


In [38]:
# 브로드캐스팅 2 
# np.arange 사용

frame2['dept'] = np.arange(6) 
frame2

Unnamed: 0,year,state,pop,debt,dept
one,2000,Ohio,1.5,,0
two,2001,Ohio,1.7,,1
three,2002,Ohio,3.6,,2
four,2001,Nevada,2.4,,3
five,2002,Nevada,2.9,,4
six,2003,Nevada,3.2,,5


In [39]:
# 브로드 캐스팅 3 
# series 사용 
sr = pd.Series([1, 2, 3, 4, 5, 6], index=['one', 'two', 'three', 'four', 'five', 'six'])

frame2['dept'] = sr 
print('sr: ',sr ,sep = '\n' ) 
print('\n')
print(frame2)

sr: 
one      1
two      2
three    3
four     4
five     5
six      6
dtype: int64


       year   state  pop debt  dept
one    2000    Ohio  1.5  NaN     1
two    2001    Ohio  1.7  NaN     2
three  2002    Ohio  3.6  NaN     3
four   2001  Nevada  2.4  NaN     4
five   2002  Nevada  2.9  NaN     5
six    2003  Nevada  3.2  NaN     6


In [40]:
# 브로드 캐스팅 4 
# 딕셔너리 사용 
pop = {'Nevada':{2001:2.4, 2002:2.9},
       'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [41]:
# dataframe 인덱스 추가하기 
# 딕셔너리 랑 index 추가하기 
pd.DataFrame(pop, index= [2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [42]:
# dataframe 이름 정해주기 
frame3.name = 'population'
frame3.name

'population'

In [43]:
# index columns 의 분류 이름 정해주기 
frame3.index.name = ' year' 
frame3.columns.name = 'state'

In [44]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


### 1.3 Index
- 컬럼명, 인덱스 (데이터과 행과 열을 알려주는 메타 데이터) 

In [45]:
# Series 만들기 
obj = pd.Series(range(3), index = ['a','b', 'c'])
obj

a    0
b    1
c    2
dtype: int64

In [46]:
# Series 의 index 
obj.index

Index(['a', 'b', 'c'], dtype='object')

In [47]:
# Series index slicing 
obj.index[:2]

Index(['a', 'b'], dtype='object')

In [48]:
# Series indexing  // 인덱스의 이름이 나옴 
obj.index[1]  

'b'

In [49]:
# 이름을 지정해 주는 것은 안됨 
obj.index[1] = 'f'

TypeError: Index does not support mutable operations

In [50]:
# 변수 사용해서 index 이름 정해주기  
labels = pd.Index(np.arange(3) )
pd.Series([1,2,3], index = labels )

0    1
1    2
2    3
dtype: int64

### Workshop

- 딕셔너리 -> 데이터프레임

In [51]:
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

In [52]:
df = pd.DataFrame(dict_data)
df

Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


- 행인덱스/열이름 설정

In [53]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], 
                   index=['준서', '예은'],
                   columns=['나이', '성별', '학교'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [54]:
# 준서, 예은 -> 학생1, 학생2
name = ['학생1', '학생2']

df.index = name
df

Unnamed: 0,나이,성별,학교
학생1,15,남,덕영중
학생2,17,여,수리중


In [55]:
# 나이, 성별, 학교 -> 연령, 남녀, 소속
column = ['연령', '남녀', '소속'] 

df.columns = column
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [56]:
# 행인덱스/열이름 변경
# rename 사용하여 변경 (부분적으로 수정하고 싶을 때)

In [57]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], 
                   index=['준서', '예은'],
                   columns=['나이', '성별', '학교'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [58]:
# 딕셔너리를 사용한 rename 함수 // 이거는 원하는 부분만 수정이 가능함 
#                             // 원래 방식은 전체를 수정하는 방법임(위의 방법)
#                             // inplace = 'True' 는 원본까지 수정하는 거임 
df.rename(columns = {"나이" : 'age'}, index = {"준서" : "junseo"}, inplace = 'True' )
df

Unnamed: 0,age,성별,학교
junseo,15,남,덕영중
예은,17,여,수리중


## 2. 중요한 기능들

### 2.1 재색인 
- row cloumn index 값을 변경 할때 

In [59]:
# 예제 시리즈 만들기 
sr = pd.Series([1,2,3,4], index= [0,3,4,5])
sr 

0    1
3    2
4    3
5    4
dtype: int64

In [60]:
# reindex 사용 
sr.reindex(np.arange(6))

0    1.0
1    NaN
2    NaN
3    2.0
4    3.0
5    4.0
dtype: float64

In [61]:
# 보간 bfill 
sr.reindex(np.arange(6) , method = 'bfill')

0    1
1    2
2    2
3    2
4    3
5    4
dtype: int64

In [62]:
# 보간 ffill 
sr.reindex(np.arange(6) , method = 'ffill')

0    1
1    1
2    1
3    2
4    3
5    4
dtype: int64

### 2.2 로우나 컬럼 삭제하기

In [63]:
# 예제 시리즈 만들기 
obj = pd.Series(np.arange(5) , index = ['a','b', 'c', 'd', 'e'] )
obj

a    0
b    1
c    2
d    3
e    4
dtype: int32

### 2.3 색인하기, 선택하기, 거르기

### Workshop

- 행삭제

- 열 삭제

- 행 선택

- 열 선택

- 원소 선택

- 열 추가

- 행 추가

- 원소 값 변경

- 행, 열 바꾸기

## 3. 산술연산과 데이터 정렬 


In [64]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index = ['a', 'c', 'e', 'f', 'g'])

print(s1)  ,print('\n') , print(s2) 

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64


a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64


(None, None, None)

In [65]:
# s1 ,s2 더하기 해보기 
s1 +s2 

# 공통이 아닌것들을은 NaN 값이 들어감 

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [66]:
df1 = pd.DataFrame(np.arange(12).reshape(3, 4), columns = list('abcd'))
df2 = pd.DataFrame(np.arange(20).reshape(4, 5), columns = list('abcde'))
df2.loc[1, 'b'] = np.nan

In [67]:
# 합을 구할때 add() 사용하기

In [68]:
# 뺄셈핼때에는 sub() 사용하기

## 4. 함수 적용과 매핑

### Workshop

In [69]:
import seaborn as sns 

In [70]:
titanic = sns.load_dataset('titanic')

In [71]:
titanic.head() 

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [72]:
# age, fare 만 색인 해서 dataframe 만들기 

In [73]:
titanic_1 = pd.DataFrame(titanic[['age','fare']]) 
titanic_1

Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


In [74]:
# 각 열의 최대값 최소값 구하기 

In [75]:
sr_max = titanic_1.max(axis = 0)
print(sr_max)

sr_min = titanic_1.min(axis =0)
print(sr_min)

age      80.0000
fare    512.3292
dtype: float64
age     0.42
fare    0.00
dtype: float64


In [76]:
# 각열의 최대값, 최소값 차이 구하기 
def range_f (x) : 
    return x.max() - x.min() 
titanic_1.apply(range_f, axis =0 )

age      79.5800
fare    512.3292
dtype: float64

In [77]:
# 모든 원소의 포맷을 소수점 두자리로 만들기 
def fmt(x) : 
    return '%.2f'%x 
titanic_1.applymap(fmt)


Unnamed: 0,age,fare
0,22.00,7.25
1,38.00,71.28
2,26.00,7.92
3,35.00,53.10
4,35.00,8.05
...,...,...
886,27.00,13.00
887,19.00,30.00
888,,23.45
889,26.00,30.00


In [78]:
# 누락된 값(NaN) 이 있는지 bool로 확인하기  

titanic_1.isnull() 


Unnamed: 0,age,fare
0,False,False
1,False,False
2,False,False
3,False,False
4,False,False
...,...,...
886,False,False
887,False,False
888,True,False
889,False,False
