# ***Pandas***

In [None]:
'''
pandas : 데이터 조작 및 분석 기능을 제공하는 라이브러리
       : csv, excel, json 등의 데이터를 읽고 원하는 데이터 형식으로 변환
'''

In [None]:
# pandas 자료 구조 : Series, DataFrame

In [1]:
import pandas as pd
from pandas import Series, DataFrame

# ***자료구조 : Series***

In [2]:
# Series : 일차원 배열 같은 자료구조 객체
obj = Series([3, 22, 34, 11])
obj

# 자료값과 인덱스 번호를 갖고 있으며, 따로 추출이 가능하다. (index: value)
# [네임 : 밸류] 형태

0     3
1    22
2    34
3    11
dtype: int64

In [4]:
print(obj.values)
print(obj.index)

# 시리즈 객체는 인덱스 번호를 가지고 있으므로, 인덱싱이 가능하다

[ 3 22 34 11]
RangeIndex(start=0, stop=4, step=1)


In [11]:
# indexing
obj[0]
obj[[0, 1, 2]]

# 열벡터 형태로 되어있는 객체이므로, 
# 시리즈를 인덱싱할 때는 입력값에 열임을 표시하는 []를 한 번 더 사용
# ==> 인덱싱의 특징은 원본 객체에서 값을 추출해서 새로운 객체를 만들 수 있다는 점.
# ==> 시리즈 객체에서 값을 추출해서 새로운 시리즈 객체를 만들 수 있다.

# 또한, 시리즈 객체는 인덱스 번호와 값의 한 쌍으로 이루어져 있으므로,
# 딕셔너리와 유사성이 높아 대체가 가능하다

0     3
1    22
2    34
dtype: int64

In [12]:
# index를 지정하여 시리즈 객체 생성하기

obj2 = Series([4, 5, 6, 2], index=['c', 'd', 'e', 'f'])
obj2

# 위와 같이 입력항목에 index를 지정하여 만들 수 있다.

c    4
d    5
e    6
f    2
dtype: int64

In [13]:
# 요소별 연산 가능
obj2 * 2

c     8
d    10
e    12
f     4
dtype: int64

In [15]:
# 인덱스의 존재 여부(True/False return)

print('b' in obj2)
print('c' in obj2)

False
True


In [16]:
# Series 객체 -> 딕셔너리로 대체하기

data = {'kim':3400, 'hong':2000, 'kang':1000, 'lee':2400}
obj3 = Series(data)
obj3

# 딕셔너리 객체를 시리즈 함수의 입력항목으로 넣어서 
# 딕셔너리의 키:밸류를 시리즈 객체로 만들 수 있다.

kim     3400
hong    2000
kang    1000
lee     2400
dtype: int64

In [20]:
name = ['woo', 'hong', 'kang', 'lee']

obj4 = Series(data, index=name)
obj4

# 원본 딕셔너리 객체에 없는 키 값을 
# 시리즈 객체의 인덱스로 지정하려고 하면 결측치가 발생한다.

woo        NaN
hong    2000.0
kang    1000.0
lee     2400.0
dtype: float64

In [22]:
# 누락된 데이터를 찾을 때 사용하는 함수 : isnull, notnull
print(pd.isnull(obj4))         # 널이 있으면 True 반환하는 함수
print('----------------------')
print(pd.notnull(obj4))        # 널이 없으면 True 반환하는 함수

woo      True
hong    False
kang    False
lee     False
dtype: bool
----------------------
woo     False
hong     True
kang     True
lee      True
dtype: bool


In [26]:
# Series 정리
data = {'Seoul':4000, 'Busan':2000, 'Incheon':1500, 'Gwangju':1000}

obj = Series(data)
print(obj)

print('-'*30)

cities = ['Seoul', 'Daegu', 'Incheon', 'Gwangju']
obj2 = Series(data, index=cities)
print(obj2)

print('-'*30)

print(obj + obj2)
# NaN은 연산이 안 됨

Seoul      4000
Busan      2000
Incheon    1500
Gwangju    1000
dtype: int64
------------------------------
Seoul      4000.0
Daegu         NaN
Incheon    1500.0
Gwangju    1000.0
dtype: float64
------------------------------
Busan         NaN
Daegu         NaN
Gwangju    2000.0
Incheon    3000.0
Seoul      8000.0
dtype: float64


In [29]:
# Series 객체와 Series의 색인(index)은 모두 name 속성이 있음

obj2.name = '인구수'
print(obj2)

print('-'*30)

obj2.index.name = '도시'
print(obj2)

Seoul      4000.0
Daegu         NaN
Incheon    1500.0
Gwangju    1000.0
Name: 인구수, dtype: float64
------------------------------
도시
Seoul      4000.0
Daegu         NaN
Incheon    1500.0
Gwangju    1000.0
Name: 인구수, dtype: float64


In [30]:
# Series 색인(index)을 바로 변경하기
obj2.index = ['Daejeon', 'Busan', 'Jaeju', 'Jeonju']
obj2

Daejeon    4000.0
Busan         NaN
Jaeju      1500.0
Jeonju     1000.0
Name: 인구수, dtype: float64

# ***자료구조 : DataFrame***

In [None]:
# DataFrame : 2차원리스트(2차원배열) 같은 자료구조 객체
# 열벡터 형태의 Series가 좌우로 연결된 형태임

In [33]:
# DataFrame 객체 생성

x = pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]                        
])
print(x)

   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9


In [41]:
# 데이터프레임도 딕셔너리로 생성 가능

data = {
        'city': ['서울', '부산', '광주', '대구'],
        'year': [2000, 2001, 2002, 2002],
        'pop' : [4000, 2000, 1000, 1000]
        }

df = pd.DataFrame(data)
df

# 딕셔너리를 데이터프레임으로 만들 경우, 키 값이 속성(Atribute)가 된다.

Unnamed: 0,city,year,pop
0,서울,2000,4000
1,부산,2001,2000
2,광주,2002,1000
3,대구,2002,1000


In [39]:
# 컬럼 순서 변경
df = DataFrame(data, columns=['year', 'city', 'pop'])
df

Unnamed: 0,year,city,pop
0,2000,서울,4000
1,2001,부산,2000
2,2002,광주,1000
3,2002,대구,1000


In [45]:
# 인덱스 변경/추가
df2 = DataFrame(data, columns=['year', 'city', 'pop', 'debt'], index=['one', 'two', 'three', 'four'])
df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,
two,2001,부산,2000,
three,2002,광주,1000,
four,2002,대구,1000,


In [51]:
# 데이터프레임 인덱싱
# Pandas의 인덱싱은 인덱스 번호로 찾는 것이 아닌,
# 컬럼 이름으로 찾음

print(df2['pop'])
print('-'*30)
print(type(df2['pop']))

# 컬럼 이름으로 인덱싱을 하면, 열 전체를 반환해주기 때문에 
# 요소 별로 찾고 싶으면 다른 방법을 이용한다

one      4000
two      2000
three    1000
four     1000
Name: pop, dtype: int64
------------------------------
<class 'pandas.core.series.Series'>


In [52]:
# 요소 접근 (columns/index)

print(df2.columns)
print('-'*30)
print(df2.index)

Index(['year', 'city', 'pop', 'debt'], dtype='object')
------------------------------
Index(['one', 'two', 'three', 'four'], dtype='object')


In [53]:
# 행 단위로 접근하기

print(df2.loc['three'])

# loc함수를 사용하여 행 단위로 값을 반환받을 수 있지만,
# 기본적으로 Pandas, Numpy등에서는 열벡터 객체를 많이 사용하므로
# 열벡터 폼으로 반환해준다. 
# loc함수는 : 인덱스 기준으로 인덱싱

year    2002
city      광주
pop     1000
debt     NaN
Name: three, dtype: object


In [58]:
# iloc함수는 : 행 번호를 기준으로

print(df2.iloc[2])

year    2002
city      광주
pop     1000
debt     NaN
Name: three, dtype: object


In [60]:
# 값 삽입

df2['debt'] = 1000
df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,1000
two,2001,부산,2000,1000
three,2002,광주,1000,1000
four,2002,대구,1000,1000


In [61]:
# 연속된 값 삽입

df2['debt'] = [0, 1, 2, 3]
df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,0
two,2001,부산,2000,1
three,2002,광주,1000,2
four,2002,대구,1000,3


In [63]:
# 수많은 연속된 값 삽입

import numpy as np

df2['debt'] = np.arange(4)
df2

...

# 열의 길이만큼 np.arange()를 사용해서 넣을 수 있다.

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,0
two,2001,부산,2000,1
three,2002,광주,1000,2
four,2002,대구,1000,3


In [64]:
# Series 객체를 이용하여 값 삽입

val = Series([1000, 2000, 3000, 4000], index=['one', 'two', 'three', 'four'])

df2['debt'] = val
df2

# 원본 데이터프레임과 인덱스 번호가 같아야 한다.

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,1000
two,2001,부산,2000,2000
three,2002,광주,1000,3000
four,2002,대구,1000,4000


In [66]:
# Series 객체를 이용하여 값 삽입
# index 일부만 지정해서, 지정된 부분에만 값 삽입하기

val = Series([1000, 3000, 4000], index=['one', 'three', 'four'])
df2['debt'] = val
df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,1000.0
two,2001,부산,2000,
three,2002,광주,1000,3000.0
four,2002,대구,1000,4000.0


In [68]:
# 컬럼 추가하면서 True/False 삽입

df2['cap'] = df2.city == '서울'
df2

Unnamed: 0,year,city,pop,debt,cap
one,2000,서울,4000,1000.0,True
two,2001,부산,2000,,False
three,2002,광주,1000,3000.0,False
four,2002,대구,1000,4000.0,False


In [69]:
# 컬럼 삭제
del df2['cap']

df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,1000.0
two,2001,부산,2000,
three,2002,광주,1000,3000.0
four,2002,대구,1000,4000.0


In [70]:
# 전치행렬
df2.T

# 행 <> 열 변환

Unnamed: 0,one,two,three,four
year,2000,2001,2002,2002
city,서울,부산,광주,대구
pop,4000,2000,1000,1000
debt,1000,,3000,4000


In [71]:
# 데이터만 추출

df2.values

array([[2000, '서울', 4000, 1000.0],
       [2001, '부산', 2000, nan],
       [2002, '광주', 1000, 3000.0],
       [2002, '대구', 1000, 4000.0]], dtype=object)