# Pandas

https://doorbw.tistory.com/171

* 데이터분석 라이브러리
* 테이블과 같은 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있음
* 안정적으로 대용량 데이터 처리하는데 매우 편리
* import pandas as pd

In [None]:
pip install --upgrade pip
pip install --numpy scipy matplotlib ipython pandas pillow
pip install --upgrade scikit-learn
pip install mglearn

In [1]:
from IPython.core.interactiveshell import InteractiveShell

InteractiveShell.ast_node_interactivity = "all"

In [2]:
import numpy as np # 사용을 위한 import
import pandas as pd # Pandas 사용을 위한 import

## Dataframe


#### dataframe 정의

In [3]:
np.random.seed(10) #난수 생성기. 괄호 안의 값은 상관 없음.

df = pd.DataFrame({'A': np.linspace(1, 5, 4)}) #A열 : 1부터 5를 4등분
#data frame : 2계층에서 사용되는 전송 패킷(frame)

df = pd.concat([df, pd.DataFrame(np.random.randn(3, 3), columns=list('BCD')) ], axis=1) #1은 열의 방향
#concat : 괄호 안 문자열을 전부 결합해서 반환해 주는 함수.
# dataframe df와 pandas pd를 합침
# df = df(A) + pd.Dataframe(3x3 난수)
# df에 있는 A열과 BCD를 열(col)로 갖는 3x3 난수 행렬을 pandas dataframe으로 정의한 것을 col의 방향으로 합침
# 3x3이라서 맨 마지막 행은 nan임.

df.iloc[1, 2] = np.nan #location. 특정 요소에 값 저장. 1행 C열
df.style

Unnamed: 0,A,B,C,D
0,1.0,1.331587,0.715279,-1.5454
1,2.333333,-0.008384,,-0.720086
2,3.666667,0.265512,0.108549,0.004291
3,5.0,,,


#### dataframe style

In [4]:
# 색상등 변경
df.style.set_properties(**{'background-color': 'black','color': 'lawngreen', 'border-color': 'black'})

Unnamed: 0,A,B,C,D
0,1.0,1.331587,0.715279,-1.5454
1,2.333333,-0.008384,,-0.720086
2,3.666667,0.265512,0.108549,0.004291
3,5.0,,,


-------------------------------------
----------------------------------------------
-------------------------------------
## Series

* series는 nx1로 하나의 열로 되어있음. 말 그대로 series.
* dataframe은 이런 series 여러 개가 모인 것

#### series 정의

In [5]:
reobject = pd.Series([4, 7, -5, 3]) # Series 정의
reobject # 직접 입력한 값이 각 행의 첫번째 열에 들어감

# 행의 index가 앞에 출력됨.

0    4
1    7
2   -5
3    3
dtype: int64

#### series method

In [6]:
reobject.values # 행번호 없이 Series의 값만 확인
reobject.index # Series의 크기(인덱스의 범위)만 확인
reobject.dtypes # Series 자료형

array([ 4,  7, -5,  3], dtype=int64)

RangeIndex(start=0, stop=4, step=1)

dtype('int64')

#### series index 변경

In [7]:
reobject2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
reobject2

d    4
b    7
a   -5
c    3
dtype: int64

#### dictionary -> series data

In [8]:
# python의 dictionary -> Series data로 사용
# dictionary의 key = Series의 index

reSeriesData = {'lew': 57000, 'lee': 32000, 'Choi': 49000} #dictionary
reobject3 = pd.Series(reSeriesData) #dictionary를 데이터로 사용하여 pandas series 정의
reobject3

lew     57000
lee     32000
Choi    49000
dtype: int64

#### series name

In [9]:
# reobject3 라는 series의 이름을 Salary라고 지정
reobject3.name = 'Salary' # 데이터 객체의 이름을 지정

# index 이름을 first names라고 지정. 세로축이 뭔지 표시한 느낌. x축이 시간, y축이 거리 등등으로 표시하는 것 처럼.
reobject3.index.name = "first names" # 인덱스 항목을 지정
reobject3 

first names
lew     57000
lee     32000
Choi    49000
Name: Salary, dtype: int64

#### index 변경

In [10]:
reobject3.index = ['A', 'B', 'C']
reobject3 # 성씨로 되어 있던 index의 변경

A    57000
B    32000
C    49000
Name: Salary, dtype: int64

----------------------------------------------
----------------------------------------------
----------------------------------------------
## Dataframe 정의

* Data Frame 정의를 위해서는 먼저 data를 생성해야함.
* df를 관례상 객체의 이름으로 많이 사용
* df = pd.DataFrame(ysdata) # Data Frame 정의

In [11]:
# Data Frame 정의를 위해 먼저 data를 생성
redata={ 'name':['lew','lee','Park'], 'year':[2012,2015,2018], 'trial': [6, 2 , 7], 'points': [3.6, 4.4, 3.9] } 
# Data Frame 정의
df = pd.DataFrame(redata)
df

Unnamed: 0,name,year,trial,points
0,lew,2012,6,3.6
1,lee,2015,2,4.4
2,Park,2018,7,3.9


-------------------------------------------------
#### 1. dataframe method & name & function

* index, columns, values
* name
* describe()

In [12]:
df.index # 행의 index 구조
df.columns # column의 index들 출력
df.values # 값 출력

RangeIndex(start=0, stop=3, step=1)

Index(['name', 'year', 'trial', 'points'], dtype='object')

array([['lew', 2012, 6, 3.6],
       ['lee', 2015, 2, 4.4],
       ['Park', 2018, 7, 3.9]], dtype=object)

In [13]:
df.index.name = 'Num' # 행 방향 제목 달기
df.columns.name = 'Info' # 열 방향 제목 달기
df

Info,name,year,trial,points
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,lew,2012,6,3.6
1,lee,2015,2,4.4
2,Park,2018,7,3.9


In [14]:
df2 = pd.DataFrame(redata, columns=['year', 'name', 'points', 'trial'],  index=['one', 'two', 'three']) #행과 열의 인덱스
df2
# DataFrame을 만들면서 column의 순서를 정하고, 데이터 순서대로 row의 목차 이름을 지정할수 있음.

Unnamed: 0,year,name,points,trial
one,2012,lew,3.6,6
two,2015,lee,4.4,2
three,2018,Park,3.9,7


In [15]:
df2.describe() # describe() 함수는 다양한 계산 값을 보여줌.

Unnamed: 0,year,points,trial
count,3.0,3.0,3.0
mean,2015.0,3.966667,5.0
std,3.0,0.404145,2.645751
min,2012.0,3.6,2.0
25%,2013.5,3.75,4.0
50%,2015.0,3.9,6.0
75%,2016.5,4.15,6.5
max,2018.0,4.4,7.0


.
#### 2. 요소에 접근하기, 값 변경하기

In [16]:
dftest = df # 다양한 수정을 위해 DataFrame 객체 복사
dftest['year'] #column 'year'에 접근
dftest.year # 동일한 결과
dftest[['year','points']] # 원하는 열만 볼 수 있음

Num
0    2012
1    2015
2    2018
Name: year, dtype: int64

Num
0    2012
1    2015
2    2018
Name: year, dtype: int64

Info,year,points
Num,Unnamed: 1_level_1,Unnamed: 2_level_1
0,2012,3.6
1,2015,4.4
2,2018,3.9


In [17]:
# 특정 열에 대해 선택하고, 원하는 값을 대입할 수 있음
dftest['points'] = 0.5
dftest

Info,name,year,trial,points
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,lew,2012,6,0.5
1,lee,2015,2,0.5
2,Park,2018,7,0.5


In [18]:
dftest['trial'] = [900, 700, 400] # python의 List나 numpy의 array
dftest

Info,name,year,trial,points
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,lew,2012,900,0.5
1,lee,2015,700,0.5
2,Park,2018,400,0.5


.
#### 3. 새로운 열, series 추가

In [19]:
dftest['zeros'] = np.arange(3) # 새로운 열 추가
dftest

Info,name,year,trial,points,zeros
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,lew,2012,900,0.5,0
1,lee,2015,700,0.5,1
2,Park,2018,400,0.5,2


In [20]:
# 인덱스를 지정한 1차원 배열(series)을 column으로 추가
val = pd.Series([200, 1300, 900], index=[2,0,1])
dftest['debt'] = val # 새로운 Series를 추가
dftest

Info,name,year,trial,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,lew,2012,900,0.5,0,1300
1,lee,2015,700,0.5,1,900
2,Park,2018,400,0.5,2,200


In [21]:
 # 기존 열단위 값으로 계산된 결과를 새로운 열로 추가
dftest['H_points'] = dftest['points'] - dftest['trial']
dftest['L_points'] = dftest['H_points'] < -500
dftest

Info,name,year,trial,points,zeros,debt,H_points,L_points
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,lew,2012,900,0.5,0,1300,-899.5,True
1,lee,2015,700,0.5,1,900,-699.5,True
2,Park,2018,400,0.5,2,200,-399.5,False


In [22]:
# 열 단위로 삭제 가능
del dftest['H_points']
del dftest['L_points']
dftest

Info,name,year,trial,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,lew,2012,900,0.5,0,1300
1,lee,2015,700,0.5,1,900
2,Park,2018,400,0.5,2,200


.

#### 4. indexing

In [23]:
dftest[1:2] # 행 1~1. 즉, 첫 번째 행만 불러옴. 1부터 2-1까지.

Info,name,year,trial,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,lee,2015,700,0.5,1,900


In [25]:
# .loc 또는 .iloc 함수
dftest.loc[1] # Series 반환. index와 value를 dataframe처럼 표 형태가 아니라, n행 1열로 이루어진 1차원 배열로 반환.

Info
name       lee
year      2015
trial      700
points     0.5
zeros        1
debt       900
Name: 1, dtype: object

In [27]:
dftest.loc[7,:] = ['Jun',4.0,0.1,2013,2.3,100] #7행의 전체 열
dftest

Info,name,year,trial,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,lew,2012.0,900.0,0.5,0.0,1300.0
1,lee,2015.0,700.0,0.5,1.0,900.0
2,Park,2018.0,400.0,0.5,2.0,200.0
7,Jun,4.0,0.1,2013.0,2.3,100.0


In [28]:
dftest.loc[2:7] # 2번에서 7번 행 출력

Info,name,year,trial,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2,Park,2018.0,400.0,0.5,2.0,200.0
7,Jun,4.0,0.1,2013.0,2.3,100.0


In [29]:
dftest.loc[1:2, 'trial'] # 1-2번 행의 trial 열의 값 출력

Num
1    700.0
2    400.0
Name: trial, dtype: float64

In [30]:
dftest.loc[:,'year'] # 모든 행의 year 열의 값

Num
0    2012.0
1    2015.0
2    2018.0
7       4.0
Name: year, dtype: float64

In [31]:
# .iloc 사용:: index 번호의 값을 선택하여 출력
dftest.iloc[3] # 3번째 행

Info
name       Jun
year         4
trial      0.1
points    2013
zeros      2.3
debt       100
Name: 7, dtype: object

In [33]:
dftest
dftest.iloc[1,1] #1행 1열 값 출력

Info,name,year,trial,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,lew,2012.0,900.0,0.5,0.0,1300.0
1,lee,2015.0,700.0,0.5,1.0,900.0
2,Park,2018.0,400.0,0.5,2.0,200.0
7,Jun,4.0,0.1,2013.0,2.3,100.0


2015.0

In [34]:
dftest.iloc[3:5,0:2] # 4번째 행의 앞 0-1열

Info,name,year
Num,Unnamed: 1_level_1,Unnamed: 2_level_1
7,Jun,4.0


In [35]:
dftest.iloc[3:5,3:6] # 4번째 행의 3-5열

Info,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
7,2013.0,2.3,100.0


.
#### 5. 해당 요소의 값 비교를 통해 출력

In [36]:
dftest
dftest['year'] > 2014 # year의 각 요소들이 2014보다 큰가? Boolean - True/False
dftest.loc[df['year']>2014,:] # year가 2014보다 큰 행의 전체 열 출력

Info,name,year,trial,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,lew,2012.0,900.0,0.5,0.0,1300.0
1,lee,2015.0,700.0,0.5,1.0,900.0
2,Park,2018.0,400.0,0.5,2.0,200.0
7,Jun,4.0,0.1,2013.0,2.3,100.0


Num
0    False
1     True
2     True
7    False
Name: year, dtype: bool

Info,name,year,trial,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,lee,2015.0,700.0,0.5,1.0,900.0
2,Park,2018.0,400.0,0.5,2.0,200.0


#### 5-1. 관련 함수
* dropna
* fillna
* isnull (그 외에도 isalpha 등)

In [37]:
dftest.iloc[0, 2] = np.nan ; dftest.iloc[2, 2] = np.nan ; #값 설정
dftest
dftest.dropna(how='any') # 행의 값중 하나라도 nan인 경우 그 행 삭제
# dftest.dropna(how='all') # 행의 값의 모든 값이 nan인 경우 그 행 삭제
# 계산 오류를 막기 위해 데이터가 부족한 행단위 삭제를 할 때 활용

Info,name,year,trial,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,lew,2012.0,,0.5,0.0,1300.0
1,lee,2015.0,700.0,0.5,1.0,900.0
2,Park,2018.0,,0.5,2.0,200.0
7,Jun,4.0,0.1,2013.0,2.3,100.0


Info,name,year,trial,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,lee,2015.0,700.0,0.5,1.0,900.0
7,Jun,4.0,0.1,2013.0,2.3,100.0


In [38]:
dftest = df #위에서 nan값 넣은 것을 다시 원상복귀하려고 원본 df를 다시 집어넣음
dftest.iloc[0, 2] = np.nan ; dftest.iloc[2, 2] = np.nan ; #동일한 위치지만, 다시 Nan설정
dftest
dftest.fillna(value=0.77777) # nan값에 값 넣기

Info,name,year,trial,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,lew,2012.0,,0.5,0.0,1300.0
1,lee,2015.0,700.0,0.5,1.0,900.0
2,Park,2018.0,,0.5,2.0,200.0
7,Jun,4.0,0.1,2013.0,2.3,100.0


Info,name,year,trial,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,lew,2012.0,0.77777,0.5,0.0,1300.0
1,lee,2015.0,700.0,0.5,1.0,900.0
2,Park,2018.0,0.77777,0.5,2.0,200.0
7,Jun,4.0,0.1,2013.0,2.3,100.0


In [39]:
#is 함수
dftest = df
dftest.iloc[0, 2] = np.nan ; dftest.iloc[2, 2] = np.nan ; 
dftest.isnull() # nan값인지 확인

Info,name,year,trial,points,zeros,debt
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,False,False,True,False,False,False
1,False,False,False,False,False,False
2,False,False,True,False,False,False
7,False,False,False,False,False,False


In [40]:
redata = [[1.4, np.nan], [7.1, -4.5],  [np.nan, np.nan], [0.75, -1.3]] #4x2
dftest = pd.DataFrame(redata, columns=["one", "two"], index=["a", "b", "c", "d"]) #index 설정
dftest

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [41]:
dftest.sum(axis=0) # 행방향으로의 합

one    9.25
two   -5.80
dtype: float64

In [42]:
dftest.sum(axis=1) # 열방향으로의 합

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [43]:
dftest['one'].sum() # 특정 행 또는 특정 열에서만 계산하기

9.25

In [45]:
dftest2 = pd.DataFrame(np.random.randn(3, 4),
                   columns=["A", "B", "C", "D"],
                   index=pd.date_range("20210120", periods=3)) #3x4 dataframe생성. 날짜
dftest2

Unnamed: 0,A,B,C,D
2021-01-20,-1.743372,0.26607,2.384967,1.123691
2021-01-21,1.672622,0.099149,1.397996,-0.271248
2021-01-22,0.613204,-0.267317,-0.549309,0.132708


In [48]:
dftest2.sort_index(axis=0) # 행 방향 내림차순 정렬

Unnamed: 0,A,B,C,D
2021-01-20,-1.743372,0.26607,2.384967,1.123691
2021-01-21,1.672622,0.099149,1.397996,-0.271248
2021-01-22,0.613204,-0.267317,-0.549309,0.132708


In [49]:
dftest2.sort_index(axis=0, ascending=False) # 부호 상관 없이 절댓값의 크기로 내림차순 정렬

Unnamed: 0,A,B,C,D
2021-01-22,0.613204,-0.267317,-0.549309,0.132708
2021-01-21,1.672622,0.099149,1.397996,-0.271248
2021-01-20,-1.743372,0.26607,2.384967,1.123691


In [47]:
dftest2.sort_index(axis=1, ascending=False) # 열 방향 내림차순 렬

Unnamed: 0,D,C,B,A
2021-01-20,1.123691,2.384967,0.26607,-1.743372
2021-01-21,-0.271248,1.397996,0.099149,1.672622
2021-01-22,0.132708,-0.549309,-0.267317,0.613204
