# 10 minutes to Pandas와 Pandas Cheat sheet  

In [1]:
# pandas는 주로 numpy 모듈과 함께 호출된다. 
# numpy 모듈은 선형대수 밑 다양한 수학적 기능을 제공하는 모듈 
import numpy as np
import pandas as pd 

In [2]:
# 호출되었는지 확인(내가한거)
np.abs(-1)

1

In [4]:
# 확인2 
pd.DataFrame({"a":[1,2],
             "b":[3,4]},
            index = (1,2))

# 두 모듈 모두 정상 작동중! 

Unnamed: 0,a,b
1,1,3
2,2,4


## Object creation : 객체 생성 

see the data structure intro section.   
creating a **series** by passing a list of values, letting pandas create a default integer index : 

In [9]:
# 값들의 리스트로 시리즈 생성하기 
## 인덱스로 정수를 받는다.
s = pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [11]:
# 날짜/시간 인덱스 및 레이블이 지정된 열을 사용하여 numpy 배열을 전달하여 데이터 프레임 생성하기 

dates = pd.date_range('20200113', periods = 6)
dates

DatetimeIndex(['2020-01-13', '2020-01-14', '2020-01-15', '2020-01-16',
               '2020-01-17', '2020-01-18'],
              dtype='datetime64[ns]', freq='D')

In [13]:
df = pd.DataFrame(np.random.randn(6,4), index = dates, columns = list("ABCD"))
# randn(6,4) 는 정규분포에서 6행 4열의 난수를 받아온다 . 
# index는 행 번호를 지정한다. 
# coiumns 옵션은 열 이름을 지정한다. (list("ABCD")가 왜 하나씩 나눠지는지는 신기하다. )
df

Unnamed: 0,A,B,C,D
2020-01-13,0.833899,-0.872515,-0.813788,-1.645875
2020-01-14,0.277676,-1.331656,-0.967133,-1.806257
2020-01-15,-0.245389,0.693681,-0.07112,-0.571377
2020-01-16,-2.77854,0.455089,-0.455797,-1.227055
2020-01-17,-0.421423,1.601856,-0.362986,1.223342
2020-01-18,-0.269509,0.821051,-0.588988,-1.800808


In [20]:
# 시리즈 형태로 전환이 가능한 객체들을 받아적어 내려감으로써 데이터프레임 생성하기 
df2 = pd.DataFrame({'A': 1.,
                   'B' : pd.Timestamp('20210113'),
                   'C' : pd.Series(1, index = list(range(4)), dtype='float32'),
                   'D' : np.array([3]*4, dtype = 'int32'),
                   'E' : pd.Categorical(['test','train','test','train']),
                   'F' : 'foo'}
                  ,index = (0,1,2,3))
# 기본적으로 한개의 원소만 입력시 같은 값이 반복적으로 입력됨을 볼 수 있다. 
# pandas의 타임스템프 옵션을 이용하면 시간 데이터 타입을 생성가능. 상세사항은 사용시 tab 키를 활용할 것 
# pandas의 시리즈 옵션은 시리즈를 생성함. 모두 1을 값으로 갖고, 인덱스 즉 열의 번호는 지정한바와 같이 4까지의 범위로 지정, 데이터 타입 float32는 32비트의 소수를 의미한다. 
# numpy의 array 옵션을 이용하면 배열형태의 자료구조를 생성가능 
# Pandas에는 정수 기반의 범주형 데이터를 표현(인코딩)할 수 있는 **Categorical**형이라고 하는 특수한 데이터형이 존재한다.
# np.nan 은 결측치 NaN을 생성한다. 
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2021-01-13,1.0,3,test,foo
1,1.0,2021-01-13,1.0,3,train,foo
2,1.0,2021-01-13,1.0,3,test,foo
3,1.0,2021-01-13,1.0,3,train,foo


In [23]:
# 데이터프레임의 각 컬럼의 데이터 형태를 받아보기. 
df2.dtypes

# 괄호가 들어가지 않는다는 점이 특이하니 주의할것! 

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

In [24]:
#If you’re using IPython, tab completion for column names (as well as public attributes) is automatically enabled. Here’s a subset of the attributes that will be completed:
# IPython을 사용하는 경우 열 이름(공용 속성)에 대한 탭 완료가 자동으로 활성화됩니다. 다음은 완료되는 속성의 하위 집합입니다.

# 함수 입력후 shift tab tab 시에 : 적절한 에트리뷰트들을 보여쥼 
# 객체. + tab : 추천 메소드들이 나타남 
# 객체 . 함수 입력중 + tab : 문장 자동완성 

## Viewing data 
* 데이터의 구조 및 특성 파악을 위해, 데이터를 확인할 때 주로 사용합니다. 

In [25]:
# 데이터의 상단, 혹은 하단 자료 일부를 확인할때 사용합니다. 
df.head()

Unnamed: 0,A,B,C,D
2020-01-13,0.833899,-0.872515,-0.813788,-1.645875
2020-01-14,0.277676,-1.331656,-0.967133,-1.806257
2020-01-15,-0.245389,0.693681,-0.07112,-0.571377
2020-01-16,-2.77854,0.455089,-0.455797,-1.227055
2020-01-17,-0.421423,1.601856,-0.362986,1.223342


In [27]:
df.tail(3)
# 위의 두 메소드 모두, 디폴트값은 6행을 보여주며, 
# 원하는 열의 수를 괄호 안에 입력함으로써, 출력 데이터 크기를 지정 가능합니다. 

Unnamed: 0,A,B,C,D
2020-01-16,-2.77854,0.455089,-0.455797,-1.227055
2020-01-17,-0.421423,1.601856,-0.362986,1.223342
2020-01-18,-0.269509,0.821051,-0.588988,-1.800808


In [28]:
# Display the index and columns 
# index (행 이름) 와 columns(열 이름) 확인하기 

df.index

DatetimeIndex(['2020-01-13', '2020-01-14', '2020-01-15', '2020-01-16',
               '2020-01-17', '2020-01-18'],
              dtype='datetime64[ns]', freq='D')

In [29]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

DataFrame.to_numpy() gives a NumPy representation of the underlying data. Note that this can be an expensive operation when your DataFrame has columns with different data types, which comes down to a fundamental difference between pandas and NumPy: NumPy arrays have one dtype for the entire array, while pandas DataFrames have one dtype per column. When you call DataFrame.to_numpy(), pandas will find the NumPy dtype that can hold all of the dtypes in the DataFrame. This may end up being object, which requires casting every value to a Python object.

For df, our DataFrame of all floating-point values, DataFrame.to_numpy() is fast and doesn’t require copying data.

In [30]:
df.to_numpy()

array([[ 0.83389917, -0.87251468, -0.81378766, -1.6458748 ],
       [ 0.27767573, -1.33165625, -0.96713267, -1.80625741],
       [-0.24538906,  0.69368089, -0.07111971, -0.57137717],
       [-2.77854   ,  0.45508876, -0.45579703, -1.22705546],
       [-0.42142262,  1.60185612, -0.3629862 ,  1.22334232],
       [-0.26950886,  0.8210513 , -0.58898833, -1.80080829]])

In [32]:
df2.to_numpy()

# 위의 두개는 정말 모르겠다. 근데 대충 데이터프레임을 넘피의 배열구조로 전환하는 함수인것 같다. 

## 데이터프레임 . to_numpy() 메소드는 인덱스나 컬럼 레이블을 포함하지 않고, 값만을 가져온다. 

array([[1.0, Timestamp('2021-01-13 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2021-01-13 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2021-01-13 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2021-01-13 00:00:00'), 1.0, 3, 'train', 'foo']],
      dtype=object)

In [33]:
# .describe() 메소드는 데이터의 빠른 통계적 요약을 보여준다. 

df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.433881,0.227918,-0.543302,-0.971338
std,1.238847,1.109169,0.321872,1.173209
min,-2.77854,-1.331656,-0.967133,-1.806257
25%,-0.383444,-0.540614,-0.757588,-1.762075
50%,-0.257449,0.574385,-0.522393,-1.436465
75%,0.14691,0.789209,-0.386189,-0.735297
max,0.833899,1.601856,-0.07112,1.223342


In [34]:
# Transing data 
# 데이터의 트렌스포즈 형태 구하기 (행과 열을 뒤집으셔따...!)
df.T

Unnamed: 0,2020-01-13,2020-01-14,2020-01-15,2020-01-16,2020-01-17,2020-01-18
A,0.833899,0.277676,-0.245389,-2.77854,-0.421423,-0.269509
B,-0.872515,-1.331656,0.693681,0.455089,1.601856,0.821051
C,-0.813788,-0.967133,-0.07112,-0.455797,-0.362986,-0.588988
D,-1.645875,-1.806257,-0.571377,-1.227055,1.223342,-1.800808


In [37]:
# sorting by an axis 
# 하나의 축을 기준으로 정렬하기 

# axis = 0 은 행 =1 은 열 ! 
df.sort_index(axis=1, ascending = False ) 
# 여기서 ascending은 오름차순을 이야기함 --> False를 지정함으로서 내림차순 정렬 


Unnamed: 0,D,C,B,A
2020-01-13,-1.645875,-0.813788,-0.872515,0.833899
2020-01-14,-1.806257,-0.967133,-1.331656,0.277676
2020-01-15,-0.571377,-0.07112,0.693681,-0.245389
2020-01-16,-1.227055,-0.455797,0.455089,-2.77854
2020-01-17,1.223342,-0.362986,1.601856,-0.421423
2020-01-18,-1.800808,-0.588988,0.821051,-0.269509


In [38]:
# 값을 기준으로 정렬하기 
df.sort_values(by = 'B')

# B내부의 값을 기준으로 소팅해준다. 

Unnamed: 0,A,B,C,D
2020-01-14,0.277676,-1.331656,-0.967133,-1.806257
2020-01-13,0.833899,-0.872515,-0.813788,-1.645875
2020-01-16,-2.77854,0.455089,-0.455797,-1.227055
2020-01-15,-0.245389,0.693681,-0.07112,-0.571377
2020-01-18,-0.269509,0.821051,-0.588988,-1.800808
2020-01-17,-0.421423,1.601856,-0.362986,1.223342


## Selection 
* getting 
* selection by lable 
* selection by position 
* Boolean indexing 
* setting 


### Getting 

* 특정 정보 가져오기 

In [40]:
# 하나의 열을 가져오기 --> 해당 결과는 series형 구조를 반환한다.. 

df["A"] 

# 위의 코드의 결과는 df.A 의 결과와 동일하다. 

2020-01-13    0.833899
2020-01-14    0.277676
2020-01-15   -0.245389
2020-01-16   -2.778540
2020-01-17   -0.421423
2020-01-18   -0.269509
Freq: D, Name: A, dtype: float64

In [42]:
# [ ]을 통해 선택하면, 열을 슬라이싱 해준다. 

df[0:3]

# 해당 명령은 df 에서 0 1 2 번째 행들을 따로 불러준다. 

Unnamed: 0,A,B,C,D
2020-01-13,0.833899,-0.872515,-0.813788,-1.645875
2020-01-14,0.277676,-1.331656,-0.967133,-1.806257
2020-01-15,-0.245389,0.693681,-0.07112,-0.571377


### Selection by lable 

* 레이블을 이용하여 선택하기 

In [43]:
# 레이블을 이용해 데이터의 단면(Cross section) 불러오기 
df.loc[dates[0]]

# 데이트를 기준으로 0번째 열들의 정보를 불러옴 

A    0.833899
B   -0.872515
C   -0.813788
D   -1.645875
Name: 2020-01-13 00:00:00, dtype: float64

In [46]:
# 레이블로 다수의 축 선택하기 
df.loc[:,["A","B"]]

# 모든 열을 기준으로 (:), ["A","B"] 두개의 열들 호출 

Unnamed: 0,A,B
2020-01-13,0.833899,-0.872515
2020-01-14,0.277676,-1.331656
2020-01-15,-0.245389,0.693681
2020-01-16,-2.77854,0.455089
2020-01-17,-0.421423,1.601856
2020-01-18,-0.269509,0.821051


In [47]:
# 행과 열의 범위를 모두 지정하여 슬라이싱하기 
df.loc['20200113':'20200116',["A","B"]]

Unnamed: 0,A,B
2020-01-13,0.833899,-0.872515
2020-01-14,0.277676,-1.331656
2020-01-15,-0.245389,0.693681
2020-01-16,-2.77854,0.455089


In [48]:
# 위의 예제코드에서 결과값의 차원 줄이기 
df.loc['20200113',["A","B"]]

A    0.833899
B   -0.872515
Name: 2020-01-13 00:00:00, dtype: float64

In [49]:
# 한번더 줄여 이번에는 스칼라를 받아보자 
df.loc[dates[0],"A"]

0.8338991735916195

In [50]:
# 바로 위의 코드를 좀더 빠르게 작성 
df.at[dates[0],'A']

0.8338991735916195

### Selection by position 
* 위치를 활용하여 선택하기 

In [51]:
# select via the position of rhe passed integer : 
# 전달된 정수의 위치를 통해 선택합니다,. 
df.iloc[3]

# 4 번째에 위치한 열의 정보 를 가져옵니다. (0 1 2 "3")

A   -2.778540
B    0.455089
C   -0.455797
D   -1.227055
Name: 2020-01-16 00:00:00, dtype: float64

In [52]:
# By integer slices, acting similar to numpy/python:
# 파이썬의 넘피와 유사하게 정수 슬라이싱을 활용하여 정보를 가져올 수 있습니다. 
df.iloc[3:5,0:2]

Unnamed: 0,A,B
2020-01-16,-2.77854,0.455089
2020-01-17,-0.421423,1.601856


In [53]:
# 위치의 정보를 담고있는 배열을 인자로 주어 슬라이싱합니다. 
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2020-01-14,0.277676,-0.967133
2020-01-15,-0.245389,-0.07112
2020-01-17,-0.421423,-0.362986


In [54]:
# 행을 명시적으로(?) 자르기 
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2020-01-14,0.277676,-1.331656,-0.967133,-1.806257
2020-01-15,-0.245389,0.693681,-0.07112,-0.571377


In [55]:
# 열을 명시적으로 자르기 
df.iloc[:,1:3]

Unnamed: 0,B,C
2020-01-13,-0.872515,-0.813788
2020-01-14,-1.331656,-0.967133
2020-01-15,0.693681,-0.07112
2020-01-16,0.455089,-0.455797
2020-01-17,1.601856,-0.362986
2020-01-18,0.821051,-0.588988


In [56]:
# 명시적으로 특정 값만 받아오기 
df.iloc[1,1]

-1.3316562451968224

In [58]:
# 위의 코드를 좀더 빠르게 
df.iat[1,1]
# i + at 

-1.3316562451968224

### Boolean indexing
* 블리언타입을 활용하여 가져오기  
  (보통, 조건을 걸어 --> 만족하는 정보만을 가져온다.) 
 

In [60]:
# 하나의 컬럼 값을 활용하여 데이터 선택하기 
df[df['A']>0]

Unnamed: 0,A,B,C,D
2020-01-13,0.833899,-0.872515,-0.813788,-1.645875
2020-01-14,0.277676,-1.331656,-0.967133,-1.806257


In [63]:
# 데이터 프레임 전체에서 특정 조건을 만족하는 값들만 가져오기 
df[df > 0 ]  

# 조건을 만족하지 않으면, 결측치가 된다. 

Unnamed: 0,A,B,C,D
2020-01-13,0.833899,,,
2020-01-14,0.277676,,,
2020-01-15,,0.693681,,
2020-01-16,,0.455089,,
2020-01-17,,1.601856,,1.223342
2020-01-18,,0.821051,,


In [67]:
# 필터링을 위해 isin() 메소드 활용하기 

# 우선 활용을 위해 환경조성하기 
df2 = df.copy() # df를 복제하여 df2 생성 
df2
df2["E"] = ["one","one","two","three","four","three"] # E열을 새로 생성함 
df2

## isin() 메소드는 다음과 같이 활용된다. 
df2[df2["E"].isin(['two','four'])] # df의 행들 중, df2의 E열에 two 혹은 four을 포함하는 열을 가져온다.  


Unnamed: 0,A,B,C,D,E
2020-01-15,-0.245389,0.693681,-0.07112,-0.571377,two
2020-01-17,-0.421423,1.601856,-0.362986,1.223342,four


### Setting
*새로운 열 설정(추가)하기


In [78]:
#Setting a new column automatically aligns the data by the indexes.</br> : 새로운 열을 설정하면 인덱스별로 데이터가 자동 정렬됩니다. 
# 새 열을 설정하면 인덱스별로 데이터가 자동으로 정렬됩니다.

s1 = pd.Series([1,2,3,4,5,6],index = pd.date_range('20200113',periods = 6))
s1


2020-01-13    1
2020-01-14    2
2020-01-15    3
2020-01-16    4
2020-01-17    5
2020-01-18    6
Freq: D, dtype: int64

In [79]:
df2['F'] = s1
df2

Unnamed: 0,A,B,C,D,E,F
2020-01-13,0.833899,-0.872515,-0.813788,-1.645875,one,1
2020-01-14,0.277676,-1.331656,-0.967133,-1.806257,one,2
2020-01-15,-0.245389,0.693681,-0.07112,-0.571377,two,3
2020-01-16,-2.77854,0.455089,-0.455797,-1.227055,three,4
2020-01-17,-0.421423,1.601856,-0.362986,1.223342,four,5
2020-01-18,-0.269509,0.821051,-0.588988,-1.800808,three,6


In [81]:
# 레이블을 활용하여 값 설정하기 
df2.at[dates[0],'A'] = 0  #첫번째 일자의 A열 값을 0으로 수정  
df2

Unnamed: 0,A,B,C,D,E,F
2020-01-13,0.0,-0.872515,-0.813788,-1.645875,one,1
2020-01-14,0.277676,-1.331656,-0.967133,-1.806257,one,2
2020-01-15,-0.245389,0.693681,-0.07112,-0.571377,two,3
2020-01-16,-2.77854,0.455089,-0.455797,-1.227055,three,4
2020-01-17,-0.421423,1.601856,-0.362986,1.223342,four,5
2020-01-18,-0.269509,0.821051,-0.588988,-1.800808,three,6


In [83]:
# 위치를 이용하여 값 설정
df2.iat[0,1] = 1
df2


Unnamed: 0,A,B,C,D,E,F
2020-01-13,0.0,1.0,-0.813788,-1.645875,one,1
2020-01-14,0.277676,-1.331656,-0.967133,-1.806257,one,2
2020-01-15,-0.245389,0.693681,-0.07112,-0.571377,two,3
2020-01-16,-2.77854,0.455089,-0.455797,-1.227055,three,4
2020-01-17,-0.421423,1.601856,-0.362986,1.223342,four,5
2020-01-18,-0.269509,0.821051,-0.588988,-1.800808,three,6


In [85]:
# NumPy의 배열을 할당하여 값 지정하기 
df2.loc[:,'D'] = np.array([5]*len(df))
df2

Unnamed: 0,A,B,C,D,E,F
2020-01-13,0.0,1.0,-0.813788,5,one,1
2020-01-14,0.277676,-1.331656,-0.967133,5,one,2
2020-01-15,-0.245389,0.693681,-0.07112,5,two,3
2020-01-16,-2.77854,0.455089,-0.455797,5,three,4
2020-01-17,-0.421423,1.601856,-0.362986,5,four,5
2020-01-18,-0.269509,0.821051,-0.588988,5,three,6


In [94]:
# 세팅과 동시에 연산 

df
df3 = df.copy()

df3[df3>0] = -df3 
df3 



Unnamed: 0,A,B,C,D
2020-01-13,-0.833899,-0.872515,-0.813788,-5
2020-01-14,-0.277676,-1.331656,-0.967133,-5
2020-01-15,-0.245389,-0.693681,-0.07112,-5
2020-01-16,-2.77854,-0.455089,-0.455797,-5
2020-01-17,-0.421423,-1.601856,-0.362986,-5
2020-01-18,-0.269509,-0.821051,-0.588988,-5


## Missing Data

* pandas는 기본적으로 결측데이터를 대표하여 np.nan라는 값을 사용한다.  
* 해당 값은 기본적으로 연산에는 포함되지 않는다. 


In [95]:
# 인덱싱을 다시하는것 (Reindexing)은  특정 축에서의 인덱스를 수정/추가/삭제하도록 해줍니다. 
# 이는 데이터의 복사본을 반환해줍니다. 

df1 = df.reindex(index = dates[0:4],columns = list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],"E"] = 1 
df1

Unnamed: 0,A,B,C,D,E
2020-01-13,0.833899,-0.872515,-0.813788,5,1.0
2020-01-14,0.277676,-1.331656,-0.967133,5,1.0
2020-01-15,-0.245389,0.693681,-0.07112,5,
2020-01-16,-2.77854,0.455089,-0.455797,5,


In [98]:
# 결측치를 하나라도 갖는 열은 무조건 제거
df1.dropna(how = "any")

Unnamed: 0,A,B,C,D,E
2020-01-13,0.833899,-0.872515,-0.813788,5,1.0
2020-01-14,0.277676,-1.331656,-0.967133,5,1.0


In [99]:
# 결측치를 갖는 값을 모두 채워줌 
df.fillna(value = 5)

Unnamed: 0,A,B,C,D
2020-01-13,0.833899,-0.872515,-0.813788,5
2020-01-14,0.277676,-1.331656,-0.967133,5
2020-01-15,-0.245389,0.693681,-0.07112,5
2020-01-16,-2.77854,0.455089,-0.455797,5
2020-01-17,-0.421423,1.601856,-0.362986,5
2020-01-18,-0.269509,0.821051,-0.588988,5


In [100]:
# 결측치를 갖는 원소가 있는 부분을 가려내어 블리언으로 표현 

pd.isna(df1)

Unnamed: 0,A,B,C,D,E
2020-01-13,False,False,False,False,False
2020-01-14,False,False,False,False,False
2020-01-15,False,False,False,False,True
2020-01-16,False,False,False,False,True


## Operation 

### Stats (통계) 
* 연산은 일반적으로 결측치를 제외하고 수행된다. 

In [101]:
# Performing a descriptive statistic:
# 기술통계량을 구해봅시다! 

df1.mean()

A   -0.478089
B   -0.263850
C   -0.576959
D    5.000000
E    1.000000
dtype: float64

In [102]:
#다른 축에 대해서도 구해봅시다 
df.mean(1)

2020-01-13    1.036899
2020-01-14    0.744722
2020-01-15    1.344293
2020-01-16    0.555188
2020-01-17    1.454362
2020-01-18    1.240639
Freq: D, dtype: float64

In [109]:
# 차수가 다르고 정렬이 필요한 객체들로 연산을 진행합니다. 
# 거기에 더해, 판다스는 자동으로 
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)
s

# . shift(2) 역할은? 
'''
2020-01-13    1.0
2020-01-14    3.0
2020-01-15    5.0
2020-01-16    NaN
2020-01-17    6.0
2020-01-18    8.0
Freq: D, dtype: float64
이 결과는 shift를 입력하지 않았을때의 결과값        
'''

'\n2020-01-13    1.0\n2020-01-14    3.0\n2020-01-15    5.0\n2020-01-16    NaN\n2020-01-17    6.0\n2020-01-18    8.0\nFreq: D, dtype: float64\n이 결과는 shift를 입력하지 않았을때의 결과값        \n'

###  Apply 

* applying functions to data:


In [110]:
df.apply(np.cumsum)

Unnamed: 0,A,B,C,D
2020-01-13,0.833899,-0.872515,-0.813788,5
2020-01-14,1.111575,-2.204171,-1.78092,10
2020-01-15,0.866186,-1.51049,-1.85204,15
2020-01-16,-1.912354,-1.055401,-2.307837,20
2020-01-17,-2.333777,0.546455,-2.670823,25
2020-01-18,-2.603286,1.367506,-3.259812,30


In [111]:
df.apply(lambda x: x.max() - x.min())

A    3.612439
B    2.933512
C    0.896013
D    0.000000
dtype: float64

### Histogramming 
* See more at Histogramming and Discretization.

In [112]:
s = pd.Series(np.random.randint(0, 7, size=10))
s

0    2
1    2
2    1
3    6
4    5
5    3
6    1
7    6
8    6
9    1
dtype: int32

In [113]:
s.value_counts()

6    3
1    3
2    2
5    1
3    1
dtype: int64

### String Method 
* 시리즈는 아래 코드 조각에서처럼 배열의 각 요소에서 쉽게 작동할 수 있도록 문자열 처리 방법 집합을 갖추고 있습니다.
* Note that pattern-matching in str generally uses regular expressions by default (and in some cases always uses them). See more at Vectorized String Methods.


In [114]:
s = pd.Series(['A','B','C','Aaba','Baca',np.nan,'CABA','dog','cat'])
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

## Merge

### Concat  
**문자열 여러개를 하나의 문자열로 합치는 함수 
* panda는 Series 객체와 DataFrame 객체를 쉽게 결합할 수 있는 다양한 기능을 제공하며, join/merge 유형 작업의 경우 인덱스 및 관계 대수 기능을 위한 다양한 세트 로직과 함께 제공합니다.

In [118]:
# 판다스 객체들을 concat() 함수로 하나로 만들기 
df = pd.DataFrame(np.random.randn(10,4)) #10행 4열의 난수 추출 후 데이터 프레임에 담는 작업 
df
# 해당 데이터 프레임을 작은 그룹으로 분할 
pieces = [df[:3],df[3:7],df[7:]]
pieces 

[          0         1         2         3
 0  0.673029 -0.805831  0.447282 -0.591855
 1  0.358038  1.115053 -1.551074  1.467791
 2  0.029054 -0.558324 -2.413614  0.079538,
           0         1         2         3
 3  0.401881 -0.355043  0.067636  1.347746
 4  1.192414 -2.021514 -0.121981  1.248193
 5  1.108870  0.845287  0.293543  1.043709
 6  1.395938  0.412775  0.727156  1.255054,
           0         1         2         3
 7  0.869099  2.247950 -0.514337 -1.093525
 8 -0.578717  0.351596  1.300532 -1.277711
 9  0.322347  0.517697 -1.417394  0.570293]

In [119]:
pd.concat(pieces)

Unnamed: 0,0,1,2,3
0,0.673029,-0.805831,0.447282,-0.591855
1,0.358038,1.115053,-1.551074,1.467791
2,0.029054,-0.558324,-2.413614,0.079538
3,0.401881,-0.355043,0.067636,1.347746
4,1.192414,-2.021514,-0.121981,1.248193
5,1.10887,0.845287,0.293543,1.043709
6,1.395938,0.412775,0.727156,1.255054
7,0.869099,2.24795,-0.514337,-1.093525
8,-0.578717,0.351596,1.300532,-1.277711
9,0.322347,0.517697,-1.417394,0.570293


** NOTE  
Adding a column to a DataFrame is relatively fast. However, adding a row requires a copy, and may be expensive. We recommend passing a pre-built list of records to the DataFrame constructor instead of building a DataFrame by iteratively appending records to it. See Appending to dataframe for more.

데이터 프레임에 열을 추가하는 속도는 비교적 빠릅니다. 그러나 행을 추가하려면 복사본이 필요하며 비용이 많이 들 수 있습니다. DataFrame 생성자에 반복적으로 레코드를 추가하여 DataFrame을 빌드하는 대신 사전 구성된 레코드 목록을 DataFrame 생성자에게 전달하는 것이 좋습니다. 자세한 내용은 데이터 프레임에 추가를 참조하십시오.



### join

* SQL 스타일의 merge. 

In [121]:
left = left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
left

Unnamed: 0,key,lval
0,foo,1
1,foo,2


In [122]:
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [123]:
pd.merge(left,right, on = 'key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


In [124]:
# Another example that can be given is:
left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})

pd.merge(left, right, on='key')


Unnamed: 0,key,lval,rval
0,foo,1,4
1,bar,2,5
