Pandas 문법 정리

일반적으로 각 패키지는 pd, np, plt의 이름으로 불러옴

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

1. Object Creation

Pandas는 값을 가지고 있는 리스트를 통해 Series를 만듦

* Series : 모든 유형의 데이터를 보유하는 1차원 배열, 테이블의 열
* DataFrame : 2차원 배열 또는 행과 열이 있는 테이블과 같은 2차원 데이터 구조이다. 

In [2]:
s = pd.Series([1, 3, 5, np.nan, 6, 7])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    7.0
dtype: float64

datatime 인덱스와 레이블이 있는 열을 가지고 있는 numpy 배열을 전달하여 데이터 프레임 만들기

* NaN : 비어있는 값, 단순한 등호로 비교가 불가하기 때문에 isnan()으로 비교를 해야한다.
* numpy : 배열을 사용하기 위한 파이썬의 표준 패키지 (파이썬은 자체적으로 배열 제공 x)
* randn(m,n) : random 내장 함수, 기대값이 0, 표준 편차가 1인 가우시안 표준 정규 분포를 따르는 난수를 생성한 m*n 행렬 return

In [3]:
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [4]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,0.856352,-0.501486,-1.491593,-1.207204
2013-01-02,1.325485,-1.245503,1.556902,-1.156066
2013-01-03,-1.161304,-0.465613,-1.046907,0.356361
2013-01-04,0.115487,0.774714,-0.285957,1.153654
2013-01-05,0.988926,1.133968,-0.341786,0.610685
2013-01-06,-1.99072,-1.24769,0.362129,0.807084


Series와 같은 것으로 변환될 수 있는 객체들의 dictonary로 구성된 데이터 프레임 만들기

* dictonary : 자료형 중 하나로 키와 값으로 이루어짐

In [5]:
df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo' })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


데이터프레임 결과물의 열의 데이터 타입 확인(.dtypes)

In [6]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

2. Viewing Data (데이터 확인하기)

head(), tail()은 데이터의 전부가 아닌 상단, 하단 부분만 보여준다.
() 안의 숫자 입력 가능 / 위, 아래부터 숫자만큼 불러와줌. / 기본값은 5여서 숫자를 입력하지 않는다면 자동으로 5줄 출력

(ex)

In [7]:
df.tail(3) #끝에서 마지막 3줄을 불러옴

Unnamed: 0,A,B,C,D
2013-01-04,0.115487,0.774714,-0.285957,1.153654
2013-01-05,0.988926,1.133968,-0.341786,0.610685
2013-01-06,-1.99072,-1.24769,0.362129,0.807084


In [8]:
df.head() 

Unnamed: 0,A,B,C,D
2013-01-01,0.856352,-0.501486,-1.491593,-1.207204
2013-01-02,1.325485,-1.245503,1.556902,-1.156066
2013-01-03,-1.161304,-0.465613,-1.046907,0.356361
2013-01-04,0.115487,0.774714,-0.285957,1.153654
2013-01-05,0.988926,1.133968,-0.341786,0.610685


index, column, numpy 데이터에 대한 세부 정보 확인하기

In [9]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [10]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [11]:
df.values #numpy 데이터

array([[ 0.85635206, -0.50148649, -1.49159325, -1.20720421],
       [ 1.3254851 , -1.24550271,  1.55690151, -1.15606591],
       [-1.16130413, -0.46561284, -1.04690717,  0.35636109],
       [ 0.11548749,  0.77471404, -0.28595721,  1.15365403],
       [ 0.98892639,  1.13396786, -0.3417855 ,  0.6106849 ],
       [-1.9907197 , -1.24769039,  0.36212948,  0.80708378]])

데이터의 대략적인 통계적 정보 요악 확인하기

* mean : 평균

In [12]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.022371,-0.258602,-0.207869,0.094086
std,1.325907,1.006092,1.078451,1.022052
min,-1.99072,-1.24769,-1.491593,-1.207204
25%,-0.842106,-1.059499,-0.870627,-0.777959
50%,0.48592,-0.48355,-0.313871,0.483523
75%,0.955783,0.464632,0.200108,0.757984
max,1.325485,1.133968,1.556902,1.153654


데이터 전치하기

In [13]:
df.T #위의 df.head()랑 비교

Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
A,0.856352,1.325485,-1.161304,0.115487,0.988926,-1.99072
B,-0.501486,-1.245503,-0.465613,0.774714,1.133968,-1.24769
C,-1.491593,1.556902,-1.046907,-0.285957,-0.341786,0.362129
D,-1.207204,-1.156066,0.356361,1.153654,0.610685,0.807084


축 별로 정렬

* 축(axis)는 n차원 배열을 구성하는 요소 / 2차원 배열에서 axis = 0 은 행을 의미, axis = 1은 열을 의미
* ascending : 오름차순, 내림차순 결정 / (ex) ascending = true 는 오름차순, = false 는 내림차순

In [14]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,-1.207204,-1.491593,-0.501486,0.856352
2013-01-02,-1.156066,1.556902,-1.245503,1.325485
2013-01-03,0.356361,-1.046907,-0.465613,-1.161304
2013-01-04,1.153654,-0.285957,0.774714,0.115487
2013-01-05,0.610685,-0.341786,1.133968,0.988926
2013-01-06,0.807084,0.362129,-1.24769,-1.99072


값 별로 정렬

In [15]:
df.sort_values(by='B', ascending=False) #B를 기준으로 정렬

Unnamed: 0,A,B,C,D
2013-01-05,0.988926,1.133968,-0.341786,0.610685
2013-01-04,0.115487,0.774714,-0.285957,1.153654
2013-01-03,-1.161304,-0.465613,-1.046907,0.356361
2013-01-01,0.856352,-0.501486,-1.491593,-1.207204
2013-01-02,1.325485,-1.245503,1.556902,-1.156066
2013-01-06,-1.99072,-1.24769,0.362129,0.807084
