# Pandas

* 데이터 조작 및 분석 기능을 제공하는 라이브러리

* 다양한 형식의 데이터를 읽고 원하는 데이터 형식으로 변환하는 작업에 장점이 있다.

* pandas 자료 구조 : Series, DataFrame

In [13]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

## Series 객체

In [14]:
# Series 객체는 일차원 배열 같은 자료구조 객체
obj = Series([3, 22, 34, 11]) # 리스트임. 벡터가 아냐. 벡터는 numpy로

obj

0     3
1    22
2    34
3    11
dtype: int64

In [15]:
# cf) list(python), ndarray, Series 비교
arr1 = [3, 22, 34, 11]
print(arr1, type(arr1))

print('-'*30)

import numpy as np
arr2 = np.array([3, 22, 34, 11])
print(arr2, type(arr2))

print('-'*40)
print(obj, type(obj))

[3, 22, 34, 11] <class 'list'>
------------------------------
[ 3 22 34 11] <class 'numpy.ndarray'>
----------------------------------------
0     3
1    22
2    34
3    11
dtype: int64 <class 'pandas.core.series.Series'>


In [16]:
print(obj.values, ' - ', type(obj.values))
print('-'*40)
print(obj.index)

[ 3 22 34 11]  -  <class 'numpy.ndarray'>
----------------------------------------
RangeIndex(start=0, stop=4, step=1)


In [17]:
# index를 RangeIndex 객체로 관리 -> 수정 가능
obj2 = Series([4, 5, 6, 2], index=['c', 'd', 'e', 'f'])
obj2

c    4
d    5
e    6
f    2
dtype: int64

In [18]:
# indexing
obj2['c']

4

In [19]:
obj2.index

Index(['c', 'd', 'e', 'f'], dtype='object')

In [20]:
obj2[0]      # Index가 object로 바뀌어도 index number를 통한 indexing은 가능

  obj2[0]      # Index가 object로 바뀌어도 index number를 통한 indexing은 가능


4

In [21]:
# 요소를 한꺼번에 지정 : 슬라이싱 - 연속
print(obj2[0:2])     # 미만까지로 해석
print('--------------')
print(obj2['c':'e'])  # 까지로 해석

c    4
d    5
dtype: int64
--------------
c    4
d    5
e    6
dtype: int64


In [22]:
# 요소를 한꺼번에 지정 : 연속적인 데이터가 아니어도 한꺼번에 추출 가능
print(obj2[[0, 1, 3]])
print('----------------------')
print(obj2[['c', 'd', 'f']])

c    4
d    5
f    2
dtype: int64
----------------------
c    4
d    5
f    2
dtype: int64


  print(obj2[[0, 1, 3]])


In [23]:
# 배열 연산 가능
obj2 * 2

c     8
d    10
e    12
f     4
dtype: int64

In [24]:
# cf) 파이썬의 반복 기능과 구분
[1, 2, 3] * 2

[1, 2, 3, 1, 2, 3]

In [25]:
# 인덱스 존재 여부 : in (True / False로 리턴)
print('b' in obj2)
print('-'*40)
print('c' in obj2)

False
----------------------------------------
True


In [26]:
# 파이썬 딕셔너리 자료형으로 Series 객체 생성 가능
data = {'kim' : 3400, 'hong' : 2000, 'kang' : 1000, 'lee' : 2400}

obj3 = Series(data)
obj3

kim     3400
hong    2000
kang    1000
lee     2400
dtype: int64

In [27]:
name = ['woo', 'hong', 'kang', 'lee']

obj4 = Series(data, index=name)
obj4

woo        NaN
hong    2000.0
kang    1000.0
lee     2400.0
dtype: float64

In [28]:
data = {'Seoul' : 4000, 'Busan' : 2000, 'Incheon' : 1500, 'Gwangju' : 1000}

obj = Series(data)

obj

Seoul      4000
Busan      2000
Incheon    1500
Gwangju    1000
dtype: int64

In [29]:
print(obj.index)
print('------------')
print(obj.values)

Index(['Seoul', 'Busan', 'Incheon', 'Gwangju'], dtype='object')
------------
[4000 2000 1500 1000]


In [56]:
cities = ['Seoul', 'Daegu', 'Incheon', 'Gwangju']

obj2 = Series(data, index=cities)

obj2

Seoul      NaN
Daegu      NaN
Incheon    NaN
Gwangju    NaN
dtype: object

In [57]:
obj + obj2         # NaN은 연산이 안됨

Seoul      NaN
Daegu      NaN
Incheon    NaN
Gwangju    NaN
dtype: object

In [32]:
print(obj)
print('------------')
print(obj2)

Seoul      4000
Busan      2000
Incheon    1500
Gwangju    1000
dtype: int64
------------
Seoul      4000.0
Daegu         NaN
Incheon    1500.0
Gwangju    1000.0
dtype: float64


In [33]:
obj.index

Index(['Seoul', 'Busan', 'Incheon', 'Gwangju'], dtype='object')

In [34]:
# index 객체를 통한 이름 변경 가능
obj.index = ['Seoul', 'Daegu', 'Incheon', 'Gwangju']

obj

Seoul      4000
Daegu      2000
Incheon    1500
Gwangju    1000
dtype: int64

In [35]:
obj + obj2

Seoul      8000.0
Daegu         NaN
Incheon    3000.0
Gwangju    2000.0
dtype: float64

In [36]:
# 결측치(누락데이터)를 찾을 때 사용하는 함수
print(pd.isnull(obj2))        # null 인 값
print('-'*50)
print(pd.notnull(obj2))       # null이 아닌 값

Seoul      False
Daegu       True
Incheon    False
Gwangju    False
dtype: bool
--------------------------------------------------
Seoul       True
Daegu      False
Incheon     True
Gwangju     True
dtype: bool


In [37]:
# Series 객체와 Series의 Index(색인) 객체는 모두 name 속성이 있음
obj2.name = '인구수'

obj2

Seoul      4000.0
Daegu         NaN
Incheon    1500.0
Gwangju    1000.0
Name: 인구수, dtype: float64

In [38]:
obj2.index.name = '도시'

obj2

도시
Seoul      4000.0
Daegu         NaN
Incheon    1500.0
Gwangju    1000.0
Name: 인구수, dtype: float64

## DataFrame 객체

In [39]:
# DataFrame은 2차원 배열 같은 자료구조 객체
x = DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

x

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [40]:
x[0]

0    1
1    4
2    7
Name: 0, dtype: int64

In [41]:
arr2 = np.arange(9).reshape(3, 3); arr2

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [42]:
# 인덱스 객체 확인
print(x.columns)
print('-'*40)
print(x.index)

RangeIndex(start=0, stop=3, step=1)
----------------------------------------
RangeIndex(start=0, stop=3, step=1)


In [43]:
# 딕셔너리로도 데이터프레임 생성 가능
data = {
    'city' : ['서울', '부산', '광주', '대구'],
    'year' : [2000, 2001, 2002, 2002],
    'pop'  : [4000, 2000, 1000, 1000]
}

df = DataFrame(data)
df

Unnamed: 0,city,year,pop
0,서울,2000,4000
1,부산,2001,2000
2,광주,2002,1000
3,대구,2002,1000


In [44]:
# 인덱스 객체 확인
print(df.columns)
print('-'*40)
print(df.index)

Index(['city', 'year', 'pop'], dtype='object')
----------------------------------------
RangeIndex(start=0, stop=4, step=1)


In [45]:
# 컬럼 순서를 변경해서 새로운 데이터셋 생성 가능 - 여러 데이터를 한꺼번에 추출
df2 = DataFrame(data, columns=['year', 'city', 'pop'])

df2

Unnamed: 0,year,city,pop
0,2000,서울,4000
1,2001,부산,2000
2,2002,광주,1000
3,2002,대구,1000


In [46]:
# 컬럼을 지정하면서 인덱스도 변경 가능
df3 = DataFrame(data, columns=['year', 'city', 'pop'], index=['one', 'two', 'three', 'four'])
df3

Unnamed: 0,year,city,pop
one,2000,서울,4000
two,2001,부산,2000
three,2002,광주,1000
four,2002,대구,1000


In [47]:
# 인덱스 객체에서 변경 / 추가 (열)
df4 = DataFrame(data, columns=['year', 'city', 'pop', 'debt'], index=['one', 'two', 'three', 'four'])
df4

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,
two,2001,부산,2000,
three,2002,광주,1000,
four,2002,대구,1000,


In [48]:
# 데이터프레임 indexing - 기본 컬럼 인덱싱
df4['city']   # 열 선택하는 방법 - 1

one      서울
two      부산
three    광주
four     대구
Name: city, dtype: object

In [49]:
print(type(df['city']))

<class 'pandas.core.series.Series'>


In [50]:
df4.city      # 열 선택하는 방법 - 2

one      서울
two      부산
three    광주
four     대구
Name: city, dtype: object

In [51]:
df4[['city']]   # 열 선택하는 방법 - 3 : 데이터프레임으로 리턴됨

Unnamed: 0,city
one,서울
two,부산
three,광주
four,대구


In [52]:
df4[['city', 'year']]   # 여러 열을 선택하는 방법

Unnamed: 0,city,year
one,서울,2000
two,부산,2001
three,광주,2002
four,대구,2002


In [53]:
df4['city', 'year']

KeyError: ('city', 'year')

In [None]:
# 컬럼 인덱싱은 현재 컬럼으로만 가능하다
print(df4['city'])
print('-'*40)
print(df4[1])

In [None]:
# 인덱스 인덱싱
#print(df4['one'])
print('-'*40)
#print(df4[0])

In [None]:
# 행(row) 기반 인덱싱 할 때 필요한 메소드
# .iloc[index number] : position(위치) 기반으로 indexing
# .loc[name]          : label 기반을 indexing

In [None]:
df4

In [None]:
df4.loc['three']

In [None]:
df4.loc.three

In [None]:
df4.loc[['three', 'one']]  # 여러 행을 선택하는 방법

In [None]:
df4.iloc[2]

In [None]:
df4.iloc[[2, 0]]

In [None]:
df4

In [None]:
# 값만 추출
df4.values

In [None]:
df4

In [None]:
# 값 삽입
df4.debt = 1000
df4

In [None]:
# 여러 값을 삽입
import numpy as np

df4['debt'] = np.arange(4)

df4

In [None]:
# Series 이용해서 값 삽입 (유의 - index 매칭이 필요)
val = Series([1000, 2000, 3000, 4000], index=['one', 'two', 'three', 'four'])

df4['debt'] = val

df4

In [None]:
# 컬럼을 추가하면서 연산결과를 삽입
#(df4['city'] == '서울')
df4['cap'] = (df4['city'] == '서울')
df4

In [None]:
# 특정 컬럼 삭제
del df4['cap']

df4