# 1. pands 개요
###  pandas 개요

- 금융회사에 다니고 있던 Wes Mckinney가 처음에 금융 데이터 분석을 위해 2008년 설계
- Pandas: 계량 경제학 용어인 panel data와 analysis의 합성어
- 구조화된 데이터를 빠르고 쉬우면서 다양한 형식으로 가공할 수 있는 풍부한 자료 구조와 함수를 제공
- Pandas의 기본 구조는 numpy로


###  pandas 특징

- 빅데이터 분석에 최적화 된 필수 패키지
- 데이터는 시계열(series)이나 표(table)의 형태
- 표 데이터를 다루기 위한 시리즈(series) 클래스 변환
- 데이터프레임(dataframe) 클래스 변환

###  pandas 설치
- pandas는 기본 패키치로 설치되어 있으나, 만약 별로 설치 한다면,
- 터미널과 cmd에서 설치 시 pip install pandas 실행 또는 Jupyter notebook에서 직접 실행

In [0]:
# !pip install numpy

###pandas 패키지 import

- 데이터프레임을 사용하기 위해 pandas 패키지를 임포트 해야한다. 
- Pandas는 pd라는 축약어 사용이 관례이다.

In [0]:
import pandas as pd
# import numpy as np

# 2. 시리즈 클래스 (series class)

###시리즈 정의
- 데이터를 리스트나 1차원 배열 형식으로 series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다. 
- 시리즈 클래스는 NumPy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 
**인덱스(index)**를 붙일 수 있다. 데이터 자체는 **값(value)**라고 한다.

> 시리즈 = 인덱스(index) + 값(value)

In [0]:
# Series 정의하여 생성하기
obj = pd.Series([4, 5, -2, 8]) 
# Series 값, 인덱스, 데이터타입
obj, obj.index, obj.values, obj.dtypes, obj.shape, type(obj)

(0    4
 1    5
 2   -2
 3    8
 dtype: int64,
 RangeIndex(start=0, stop=4, step=1),
 array([ 4,  5, -2,  8]),
 dtype('int64'),
 (4,),
 pandas.core.series.Series)

In [0]:
help(pd.Series.abs)

Help on function abs in module pandas.core.generic:

abs(self:~FrameOrSeries) -> ~FrameOrSeries
    Return a Series/DataFrame with absolute numeric value of each element.
    
    This function only applies to elements that are all numeric.
    
    Returns
    -------
    abs
        Series/DataFrame containing the absolute value of each element.
    
    See Also
    --------
    numpy.absolute : Calculate the absolute value element-wise.
    
    Notes
    -----
    For ``complex`` inputs, ``1.2 + 1j``, the absolute value is
    :math:`\sqrt{ a^2 + b^2 }`.
    
    Examples
    --------
    Absolute numeric values in a Series.
    
    >>> s = pd.Series([-1.10, 2, -3.33, 4])
    >>> s.abs()
    0    1.10
    1    2.00
    2    3.33
    3    4.00
    dtype: float64
    
    Absolute numeric values in a Series with complex numbers.
    
    >>> s = pd.Series([1.2 + 1j])
    >>> s.abs()
    0    1.56205
    dtype: float64
    
    Absolute numeric values in a Series with a Timedelta el

###시리즈의 인덱스
- 인덱스의 길이는 데이터의 길이와 같아야 하며, 인덱스의 값은 인덱스 라벨(label)
- 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능

In [0]:
# 인덱스를 리스트로 별도 지정, 반드시 " " 쌍따옴표 사용
obj1 = pd.Series([4, 5, -2, 8], index=["a", "b", "c", "d"]) 
obj1, obj1.values, obj1.index, obj1.dtypes, obj1.shape, type(obj1)

(a    4
 b    5
 c   -2
 d    8
 dtype: int64,
 array([ 4,  5, -2,  8]),
 Index(['a', 'b', 'c', 'd'], dtype='object'),
 dtype('int64'),
 (4,),
 pandas.core.series.Series)

###시리즈와 딕셔너리 자료형
- Python의 dictionary 자료형을 Series data로 만들 수 있다.
- dictionary의 key가 Series의 index가 된다 

In [0]:
data = {"Kim": 35000, "Park": 67000, "Joon": 12000, "Choi": 4000}

In [0]:
obj2 = pd.Series(data) 
obj2, obj2.dtypes, obj2.shape, type(obj2), obj2.values, obj2.values.shape, type(obj2.values), obj2.index, obj2.index.shape, type(obj2.index) 

(Kim     35000
 Park    67000
 Joon    12000
 Choi     4000
 dtype: int64,
 dtype('int64'),
 (4,),
 pandas.core.series.Series,
 array([35000, 67000, 12000,  4000]),
 (4,),
 numpy.ndarray,
 Index(['Kim', 'Park', 'Joon', 'Choi'], dtype='object'),
 (4,),
 pandas.core.indexes.base.Index)

In [0]:
# 시리즈 이름 지정(DataFrame 사용) 및 index name 지정  
obj2.name = "Salary" 
obj2.index.name = "Names" 

obj2

Names
Kim     35000
Park    67000
Joon    12000
Choi     4000
Name: Salary, dtype: int64

In [0]:
obj2 * 2

Names
Kim      70000
Park    134000
Joon     24000
Choi      8000
Name: Salary, dtype: int64

In [0]:
# index 이름 변경 
obj2.index = ["A", "B", "C", "D"] 
obj2, obj2.shape, type(obj2.index), type(obj2.values)


(A    35000
 B    67000
 C    12000
 D     4000
 Name: Salary, dtype: int64,
 (4,),
 pandas.core.indexes.base.Index,
 numpy.ndarray)

###시리즈 연산
- Numpy 배열처럼 시리즈도 벡터화 연산 가능
- 시리즈의 값에만 적용되며 인덱스 값은 변하지 않는다

In [0]:
obj2 * 10

A    350000
B    670000
C    120000
D     40000
Name: Salary, dtype: int64

In [0]:
# 인덱싱 끼리 연산
obj1 = pd.Series([4, 5, -2, 8], index=["a", "b", "c", "d"]) 
obj3 = pd.Series([4, 5, -2, 8, 10], index=["a", "b", "c", "d", 'e']) 
obj3, obj3.values, obj3.index, obj3.dtypes
obj1 * obj3

a    16.0
b    25.0
c     4.0
d    64.0
e     NaN
dtype: float64

In [0]:
obj1 / obj3

a    1.0
b    1.0
c    1.0
d    1.0
e    NaN
dtype: float64

In [0]:
# values 값끼리 연산
# obj5 = pd.Series()
# print(obj5, type(obj5))
obj5 = (obj1.values > 4)
# obj5, type(obj5)
obj1.values[obj5]

array([5, 8])

###시리즈 인덱싱

- 시리즈는 numpy 배열의 인덱스 방법처럼 사용 외에 인덱스 라벨을 이용한 인덱싱
- 배열 인덱싱은 자료의 순서를 바꾸거나 특정한 자료만 선택 가능
- 라벨 값이 영문 문자열인 경우에는 마치 속성인것처럼 점(.)을 이용하여 접근

In [0]:
a = pd.Series([1024, 2048, 3096, 6192],
              index=["서울", "부산", "인천", "대구"])
a, a.T

(서울    1024
 부산    2048
 인천    3096
 대구    6192
 dtype: int64, 서울    1024
 부산    2048
 인천    3096
 대구    6192
 dtype: int64)

In [0]:
a[1], a["부산"]

(2048, 2048)

In [0]:
a[3], a["대구"]

(6192, 6192)

In [0]:
a[[0, 3, 1]]

서울    1024
대구    6192
부산    2048
dtype: int64

In [0]:
a[["서울", "대구", "부산"]]

서울    1024
대구    6192
부산    2048
dtype: int64

In [0]:
# 라벨 값이 영문 문자열인 경우에는 마치 속성인것처럼 점(.)을 이용하여 접근
obj2.A

35000

In [0]:
obj2.C

12000

###시리즈 슬라이싱(slicing)
- 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능
- 문자열 라벨을 이용한 슬라이싱은 콜론(:) 기호 뒤에 오는 인덱스에 해당하는 값이 결과에 포함

In [0]:
a[1:4]

부산    2048
인천    3096
대구    6192
dtype: int64

In [0]:
a["부산":"대구"]

부산    2048
인천    3096
대구    6192
dtype: int64

In [0]:
pd_series01 = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
pd_series01[1:3], pd_series01[['a','d']]

(b    2
 c    3
 dtype: int64, a    1
 d    4
 dtype: int64)

In [0]:
obj1 = pd.Series([4, 5, -2, 8], index=["a", "b", "c", "d"])
obj3 = pd.Series([4, 5, -2, 8, 10], index=["a", "b", "c", "d", 'e'])
obj3, obj3.values, obj3.index, obj3.dtypes

In [0]:
obj1.values + obj.values 

In [0]:
obj1.values > 4

In [0]:
obj1.index

In [0]:
obj3["b"] = 45;	

###시리즈의 데이터 갱신, 추가, 삭제
- 인덱싱을 이용하여 딕셔너리처럼 데이터를 갱신(update)하거나 추가(add)
- 데이터 삭제 시 딕셔너리처럼 del 명령 사용

In [0]:
a = pd.Series([1024, 2048, 3096, 6192],
              index=["서울", "부산", "인천", "대구"])
# 데이터 갱신
a["부산"] = 1234
a

In [0]:
# insert
a["광주"] = 3241

In [0]:
a, a.index

In [0]:
# del 명령어로 데이터 삭제
del a["서울"]
a

In [0]:
del a[1]    # Occurred Error

In [0]:
del a.values[2]    # Occurred Error

# 3. 데이터프레임(DataFrame)

###데이터프레임(DataFrame) 개요
- 시리즈가 1차원 벡터 데이터에 행 방향 인덱스(row index)이라면,
- 데이터프레임(data-frame) 클래스는 2차원 행렬 데이터에 합친 것으로
- 행 인덱스(row index)와 열 인덱스(column index)를 지정
> 데이터프레임 = 시리즈{인덱스(index) + 값(value)} + 시리즈 + 시리즈의 연속체

###데이터프레임 특성

- 데이터프레임은 공통 인덱스를 가지는 열 시리즈(column series)를 딕셔너리로 묶어놓은 것
- 데이터프레임은 numpy의 모든 2차원 배열 속성이나 메서드를 지원

###데이터프레임 생성

1. 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비
 각 열에 대한 이름(label)의 키(key)를 갖는 딕셔너리를 생성
3. pandas의 DataFrame 클래스로 생성
4. 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정



In [0]:
data01 = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 'two' : pd.Series([1, 2, 3, 4], index=['a', 'c', 'd', 'e'])}
pd_df05 = pd.DataFrame(data01)
pd_df05

In [0]:
# pd_df05.astype('int32').dtypes

In [0]:
pd_df05['one'], type(pd_df05['one'])

In [0]:
pd_sr06=pd.Series([10,20,30],index=['a','e','f'])
pd_sr06

In [0]:
pd_df05['three']=pd_sr06   # No apply 'f' row 
pd_df05['three'], type(pd_df05['three'])

In [0]:
pd_df05

In [0]:
pd_df05['four']=pd_df05['two']+pd_df05['three']   # NaN Not Calculate

In [0]:
pd_df05['four']=pd_df05['two']+4   # NaN Not Calculate
pd_df05

In [0]:
import numpy as np

pd_df05['five']=np.array([10,20,30,40,50])
pd_df05

In [0]:
del pd_df05['one']	# or pd_df05.pop('two')

In [0]:
pd_df05

In [0]:
# Series to Dataframe
obj1 = pd.Series([4, 5, -2, 8], index=["a", "b", "c", "d"])
df01 = pd.DataFrame(obj1)
df01

In [0]:
df02=pd.DataFrame([['Alex',10],['Bob',12],['Clarke',13]],columns=['Name','Age'])
df02

In [0]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df04 = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
df04

In [0]:
# Data Frame은 python의 dictionary 또는 numpy의 array로 정의
data = {
'name': ["Choi", "Choi", "Choi", "Kim", "Park"], 
'year': [2013, 2014, 2015, 2016, 2017], 
'points': [1.5, 1.7, 3.6, 2.4, 2.9]
} 
df = pd.DataFrame(data) 
df

In [0]:
# 행 방향의 index 
df.index

In [0]:
# 열 방향의 index 
df.columns

In [0]:
df.values

###데이터프레임 열 갱신 추가
- 데이터프레임은 열 시리즈의 딕셔너리로 볼 수 있으므로 열 단위로 데이터를 갱신하거나 추가, 삭제
- data에 포함되어 있지 않은 값은 nan(not a number)으로 나타내는 null과 같은 개념
- 딕셔너리, numpy의 배열, 시리즈의 다양한 방법으로 추가 가능

In [0]:
data = {
'name': ["Choi", "Choi", "Choi", "Kim", "Park"], 
'year': [2013, 2014, 2015, 2016, 2017], 
'points': [1.5, 1.7, 3.6, 2.4, 2.9]
} 
# DataFrame을 만들면서 columns와 index를 설정
df = pd.DataFrame(data, columns=["year", "name", "points", "penalty"],
                                  index=(["one", "two", "three", "four", "five"]))
df

Unnamed: 0,year,name,points,penalty
one,2013,Choi,1.5,
two,2014,Choi,1.7,
three,2015,Choi,3.6,
four,2016,Kim,2.4,
five,2017,Park,2.9,


In [0]:
# 특정 열만 선택
df[["year","points"]] 

Unnamed: 0,year,points
one,2013,1.5
two,2014,1.7
three,2015,3.6
four,2016,2.4
five,2017,2.9


In [0]:
# 특정 열을 선택하고, 값(0.5)을 대입 
df["penalty"] = 0 
df

Unnamed: 0,year,name,points,penalty
one,2013,Choi,1.5,0
two,2014,Choi,1.7,0
three,2015,Choi,3.6,0
four,2016,Kim,2.4,0
five,2017,Park,2.9,0


In [0]:
# 또는 python의 리스트로 대입
df['penalty'] = [0.1, 0.2, 0.3, 0.4, 0.5] 
df 

In [0]:
import numpy as np

# 또는 numpy의 np.arange로 새로운 열을 추가하기
df['zeros'] = np.arange(5) 
df 

In [0]:
# 또는 index인자로 특정행을 지정하여 시리즈(Series)로 추가
val = pd.Series([-1.2, -1.5, -1.7], index=['two','four','five']) 

df['debt'] = val 
df

In [0]:
# 연산 후 새로운 열을 추가하기
df["net_points"] = df["points"] - df["penalty"]
df

In [0]:
# 조건 연산으로 열 추가
df["high_points"] = df["net_points"] > 2.0 
df

In [0]:
# 열 삭제하기 
del df["high_points"] 
del df["net_points"] 
del df["zeros"] 
df

In [0]:
# 컬럼명 확인하기
df.columns

In [0]:
# index와 columns 이름 지정
df.index.name = "Order" 
df.columns.name = "Info" 
df

###데이터프레임 인덱싱

#### 열 인덱싱
- 데이터프레임을 인덱싱을 할 때도 열 라벨(column label)을 키 값으로 생각하여 인덱싱
- 인덱스로 라벨 값을 하나만 넣으면 시리즈 객체가 반환되고 라벨의 배열 또는 리스트를 넣으면 부분적인 데이터프레임이 반환
- 하나의 열만 빼내면서 데이터프레임 자료형을 유지하고 싶다면 원소가 하나인 리스트를 써서 인덱싱

#### 행 인덱싱
- 행 단위로 인덱싱을 하고자 하면 항상 슬라이싱(slicing)을 해야 한다. 
- 인덱스의 값이 문자 라벨이면 라벨 슬라이싱

In [0]:
# 열 인덱싱
df["year"] 

In [0]:
# 다른 방법의 열 인덱싱
df.year

In [0]:
# 행 인덱싱은 슬라이싱으로 0번째부터 1번째로 지정하면 1행을 반환
df[0:1]

In [0]:
# 행 인덱싱 슬라이싱으로 0번째 부터 2(3-1) 번째까지 반환
df[0:3] 

###loc 인덱싱
인덱스의 라벨값 기반의 2차원 (행, 열)인덱싱

In [0]:
# .loc 함수를 사용하여 시리즈로 인덱싱
df.loc["two"]

In [0]:
# .loc 또는 .iloc 함수를 사용하여 데이터프레임으로 인덱싱
df.loc["two":"four"]

In [0]:
df.loc["two":"four", "points"] 

In [0]:
# == df['year’] 
df.loc[:,'year']

In [0]:
df.loc[:,:] 

In [0]:
df.loc["three":"five","penalty"], type(df.loc["three":"five","year":"penalty"] )

(three    0
 four     0
 five     0
 Name: penalty, dtype: int64, pandas.core.frame.DataFrame)

In [0]:
# 새로운 행 삽입하기 
df.loc['six',:] = [2013,'Jun',4.0,0.1,2.1] 
df

ValueError: ignored

###iloc 인덱싱
인덱스의 숫자 기반의 2차원 (행, 열)인덱싱

In [0]:
# 4번째 행을 가져오기 위해 .iloc 사용:: index 번호를 사용
df.iloc[3]

In [0]:
# 슬라이싱으로 지정하여 반환
df.iloc[3:5, 0:2]

In [0]:
# 각각의 행과 열을 지정하여 반환하기
df.iloc[[0,1,3], [1,2]]

In [0]:
# 행을 전체, 열은 두번째열부터 마지막까지 슬라이싱으로 지정하여 반환
df.iloc[:,1:4] 

In [0]:
df.iloc[1,1]

###Boolean 인덱싱

In [0]:
df

In [0]:
# year가 2014보다 큰 boolean data 
df["year"] > 2014 

In [0]:
df['name'] == "Choi"

In [0]:
df.loc[df['name'] == "Choi", ['name','points']]

In [0]:
df.loc[df['name'] == "Choi"]

In [0]:
# numpy에서와 같이 논리연산을 응용할 수 있다. 
df.loc[(df["points"] > 2) & (df["points"]<3), :]

# 4. 데이터프레임 다루기

###numpy randn 데이터프레임 생성

In [0]:
# DataFrame을 만들때 index, column을 설정하지 않으면 기본값으로 0부터 시작하는 정수형 숫자로 입력된다. 
df = pd.DataFrame(np.random.randn(6,4)) 
df 

###시계열 데이트 함수 date_range

In [0]:
df.columns = ["A", "B", "C", "D"] 

In [0]:
#pandas에서 제공하는 date range함수는 datetime 자료형으로 구성된, 날짜/시간 함수 
df.index = pd.date_range('20160701', periods=6)
df

In [0]:
df.index

In [0]:
df

###numpy로 데이터프레임 결측치 다루기

In [0]:
# np.nan은 NaN값을 의미
df["F"] = [1.0, np.nan, 3.5, 6.1, np.nan, 7.0] 
df

In [0]:
# 행의 값중 하나라도 nan인 경우 그 행을 없앤다. 
df.dropna(how="any") 

In [0]:
# 행의 값의 모든 값이 nan인 경우 그 행을 없앤다.
df.dropna(how='all')

In [0]:
# NaN에 특정 value 값 넣기
df.fillna(value=0.5)

###drop 명령어

In [0]:
# 특정 행 drop하기 
df.drop(pd.to_datetime('20160701'))

In [0]:
# 2개 이상도 가능 
df.drop([pd.to_datetime('20160702'),pd.to_datetime('20160704')])

In [0]:
# 특정 열 삭제하기 
df.drop('F', axis = 1)

In [0]:
# 2개 이상의 열도 가능 
df.drop(['B','D'], axis = 1) 

# 5. pandas 데이터 입출력
- pandas는 데이터 분석을 위해 여러 포맷의 데이터 파일을 읽고 쓸수 있다.
- csv, excel, html, json, hdf5, sas, stata, sql

###pandas 데이터 불러오기

In [0]:
pd.read_csv('data/sample1.csv')

In [0]:
# c1을 인덱스로 불러오기
pd.read_csv('data/sample1.csv', index_col="c1")

###pandas 데이터 쓰기

In [0]:
df.to_csv("data/sample6.csv")

In [0]:
df.to_csv("data/sample9.csv", index=False, header=False)

###인터넷에서 데이터 불러오기

In [0]:
# 인터넷 링크의 데이터 불러오기
titanic = pd.read_excel("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.xls")
titanic.head()

In [0]:
titanic.head(3)

In [0]:
titanic.tail()

# 6. 데이터 처리하기

###정렬(Sort)
- 데이터를 정렬로 sort_index는 인덱스 값을 기준으로, 
- sort_values는 데이터 값을 기준으로 정렬

In [0]:
# np.random으로 시리즈 생성
s = pd.Series(np.random.randint(6, size=100))
s.head()

In [0]:
# value_counts 메서드로 값을 카운트
s.value_counts()

In [0]:
# sort_index 메서드로 정렬하기
s.value_counts().sort_index()

In [0]:
# ascending=False 인자로 내림차순 정리
s.sort_values(ascending=False)

###apply 함수
- 행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용
- 인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 수행

#### lambda 함수: 
- 파이썬에서 "lambda" 는 런타임에 생성해서 사용할 수 있는 익명 함수
- lambda는 쓰고 버리는 일시적인 함수로 생성된 곳에서만 적용


In [0]:
df = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df

In [0]:
# 람다 함수 사용
df.apply(lambda x: x.max() - x.min())

In [0]:
# 만약 행에 대해 적용하고 싶으면 axis=1 인수 사용
df.apply(lambda x: x.max() - x.min(), axis=1)

In [0]:
# apply로 value_counts로 값의 수를 반환
df.apply(pd.value_counts)

In [0]:
# NaN 결측치에 fillna(0)으로 0을 채우고 순차적으로 정수로 변환
df.apply(pd.value_counts).fillna(0).astype(int)

###describe 메서드
describe() 함수는 DataFrame의 계산 가능한 값들의 통계값을 보여준다

In [0]:
df.describe()

# 7. pandas 시계열 분석

##pd.to_datetime 함수

- 날짜/시간을 나타내는 문자열을 자동으로 datetime 자료형으로 바꾼 후 - 
- datetimeindex 자료형 인덱스를 생성

In [0]:
date_str = ["2018, 1, 1", "2018, 1, 4", "2018, 1, 5", "2018, 1, 6"]

idx = pd.to_datetime(date_str)
idx

In [0]:
# 인덱스를 사용하여 시리즈나 데이터프레임을 생성
np.random.seed(0)

s = pd.Series(np.random.randn(4), index=idx)
s

##pd.date_range 함수

시작일과 종료일 또는 시작일과 기간을 입력하면 범위 내의 인덱스를 생성

In [0]:
pd.date_range("2018-4-1", "2018-4-5")

In [0]:
pd.date_range(start="2018-4-1", periods=5)