# Pandas

* 데이터 조작 및 분석 기능을 제공하는 라이브러리

* 다양한 형식의 데이터를 읽고 원하는 데이터 형식으로 변환하는 작업에 장점이 있다.

* pandas 자료 구조 : Series, DataFrame

In [None]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

## Series 객체

In [None]:
# Series 객체는 일차원 배열 같은 자료구조 객체
obj = Series([3, 22, 34, 11])

obj

In [None]:
# cf) list, ndarray, Series 비교
arr1 = [3, 22, 34, 11]
print(arr1, type(arr1))

print('-'*30)

import numpy as np
arr2 = np.array([3, 22, 34, 11])
print(arr2, type(arr2))

print('-'*40)
print(obj, type(obj))

In [None]:
print(obj.values, ' - ', type(obj.values))
print('-'*40)
print(obj.index)

In [None]:
# index를 RangeIndex 객체로 관리 -> 수정 가능
obj2 = Series([4, 5, 6, 2], index=['c', 'd', 'e', 'f'])
obj2

In [None]:
# indexing
obj2['c']

In [None]:
obj2.index

In [None]:
obj2[0]      # Index가 object로 바뀌어도 index number를 통한 indexing은 가능

In [None]:
# 요소를 한꺼번에 지정 : 슬라이싱 - 연속
print(obj2[0:2])     # 미만까지로 해석
print('--------------')
print(obj2['c':'e'])  # 까지로 해석

In [None]:
# 요소를 한꺼번에 지정 : 연속적인 데이터가 아니어도 한꺼번에 추출 가능
print(obj2[[0, 1, 3]])
print('----------------------')
print(obj2[['c', 'd', 'f']])

In [None]:
# 배열 연산 가능
obj2 * 2

In [None]:
# cf) 파이썬의 반복 기능과 구분
[1, 2, 3] * 2

In [None]:
# 인덱스 존재 여부 : in (True / False로 리턴)
print('b' in obj2)
print('-'*40)
print('c' in obj2)

In [None]:
# 파이썬 딕셔너리 자료형으로 Series 객체 생성 가능
data = {'kim' : 3400, 'hong' : 2000, 'kang' : 1000, 'lee' : 2400}

obj3 = Series(data)
obj3

In [None]:
name = ['woo', 'hong', 'kang', 'lee']

obj4 = Series(data, index=name)
obj4

In [None]:
data = {'Seoul' : 4000, 'Busan' : 2000, 'Incheon' : 1500, 'Gwangju' : 1000}

obj = Series(data)

obj

In [None]:
print(obj.index)
print('------------')
print(obj.values)

In [None]:
cities = ['Seoul', 'Daegu', 'Incheon', 'Gwangju']

obj2 = Series(data, index=cities)

obj2

In [None]:
obj + obj2         # NaN은 연산이 안됨

In [None]:
print(obj)
print('------------')
print(obj2)

In [None]:
obj.index

In [None]:
# index 객체를 통한 이름 변경 가능
obj.index = ['Seoul', 'Daegu', 'Incheon', 'Gwangju']

obj

In [None]:
obj + obj2

In [None]:
# 결측치(누락데이터)를 찾을 때 사용하는 함수
print(pd.isnull(obj2))        # null 인 값
print('-'*50)
print(pd.notnull(obj2))       # null이 아닌 값

In [None]:
# Series 객체와 Series의 Index(색인) 객체는 모두 name 속성이 있음
obj2.name = '인구수'

obj2

In [None]:
obj2.index.name = '도시'

obj2

## DataFrame 객체

In [None]:
# DataFrame은 2차원 배열 같은 자료구조 객체
x = DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

x

In [None]:
x[0]

In [None]:
arr2 = np.arange(9).reshape(3, 3); arr2

In [None]:
# 인덱스 객체 확인
print(x.columns)
print('-'*40)
print(x.index)

In [None]:
# 딕셔너리로도 데이터프레임 생성 가능
data = {
    'city' : ['서울', '부산', '광주', '대구'],
    'year' : [2000, 2001, 2002, 2002],
    'pop'  : [4000, 2000, 1000, 1000]
}

df = DataFrame(data)
df

In [None]:
# 인덱스 객체 확인
print(df.columns)
print('-'*40)
print(df.index)

In [None]:
# 컬럼 순서를 변경해서 새로운 데이터셋 생성 가능 - 여러 데이터를 한꺼번에 추출
df2 = DataFrame(data, columns=['year', 'city', 'pop'])

df2

In [None]:
# 컬럼을 지정하면서 인덱스도 변경 가능
df3 = DataFrame(data, columns=['year', 'city', 'pop'], index=['one', 'two', 'three', 'four'])
df3

In [None]:
# 인덱스 객체에서 변경 / 추가 (열)
df4 = DataFrame(data, columns=['year', 'city', 'pop', 'debt'], index=['one', 'two', 'three', 'four'])
df4

In [None]:
# 데이터프레임 indexing - 기본 컬럼 인덱싱
df4['city']   # 열 선택하는 방법 - 1

In [None]:
print(type(df['city']))

In [None]:
df4.city      # 열 선택하는 방법 - 2

In [None]:
df4[['city']]   # 열 선택하는 방법 - 3 : 데이터프레임으로 리턴됨

In [None]:
df4[['city', 'year']]   # 여러 열을 선택하는 방법

In [None]:
df4['city', 'year']

In [None]:
# 컬럼 인덱싱은 현재 컬럼으로만 가능하다
print(df4['city'])
print('-'*40)
print(df4[1])

In [None]:
# 인덱스 인덱싱
#print(df4['one'])
print('-'*40)
#print(df4[0])

In [None]:
# 행(row) 기반 인덱싱 할 때 필요한 메소드
# .iloc[index number] : position(위치) 기반으로 indexing
# .loc[name]          : label 기반을 indexing

In [None]:
df4

In [None]:
df4.loc['three']

In [None]:
df4.loc.three

In [None]:
df4.loc[['three', 'one']]  # 여러 행을 선택하는 방법

In [None]:
df4.iloc[2]

In [None]:
df4.iloc[[2, 0]]

In [None]:
df4

In [None]:
# 값만 추출
df4.values

In [None]:
df4

In [None]:
# 값 삽입
df4.debt = 1000
df4

In [None]:
# 여러 값을 삽입
import numpy as np

df4['debt'] = np.arange(4)

df4

In [None]:
# Series 이용해서 값 삽입 (유의 - index 매칭이 필요)
val = Series([1000, 2000, 3000, 4000], index=['one', 'two', 'three', 'four'])

df4['debt'] = val

df4

In [None]:
# 컬럼을 추가하면서 연산결과를 삽입
#(df4['city'] == '서울')
df4['cap'] = (df4['city'] == '서울')
df4

In [None]:
# 특정 컬럼 삭제
del df4['cap']

df4