# 파이썬을 이용한 데이터 분석은 pandas 사용빈도가 굉장히 높습니다.
pandas에서 데이터를 다루기 위한 테이블을 **DataFrame**이라고 합니다. DataFrame이란, 데이터의 모음

In [3]:
import pandas as pd # pandas 모듈 불러오기
import numpy as np # numpy 모듈 불러오기. 통계, 수식 등등 수학적인 계산이 필요할 때 사용할 수 있다.

# Series는 DataFrame의 최소단위입니다.
파이썬의 list를 Series로 만들어 볼 수 있다.

In [4]:
s = pd.Series([1, 2, 3, np.nan, 6, 7]) # NaN, nan -> not a number ( 숫자가 아닌 자료형 -> 숫자계의 null )
type(s)

pandas.core.series.Series

In [5]:
s

0    1.0
1    2.0
2    3.0
3    NaN
4    6.0
5    7.0
dtype: float64

기본적으로 numpy 배열은 실수만을 다룹니다. 정수 형태의 데이터를 다루려면 특별한 처리가 필요해요

# 날짜 데이터 다루기
**date_range**를 사용해서 손쉽게 날짜 데이터를 생성할 수 있습니다. 보통 시계열 분석을 위해 날짜 데이터를 많이 사용한다.

* 시계열 분석 : 시간의 흐름에 따라서 데이터가 어떻게 변화될지 예측 및 분석 하는 것

In [6]:
dates = pd.date_range('20200709', periods=5) # 2020-07-09일 부터 5일간의 날짜를 생성
dates

DatetimeIndex(['2020-07-09', '2020-07-10', '2020-07-11', '2020-07-12',
               '2020-07-13'],
              dtype='datetime64[ns]', freq='D')

# 데이터 프레임 만들어 보기

* 첫 번째 인자에는 데이터 프레임을 채울 데이터를 입력한다. ( 2차원 배열로 )
* index 인자 : 데이터 프레임의 인덱스로 지정할 값을 지정 ( 1 차원 배열 )
* columns 인자 : 데이터 프레임에서 사용할 컬럼들을 지정 ( 1차원 배열 )

In [7]:
df = pd.DataFrame( np.random.randn(5, 4), # 첫 번째 인자에는 데이터프레임에 채울 데이터 ( 2차월 배열 ) -> 랜덤한 숫자를 5행 4열로 채우기
                   index = dates, # 인덱스 지정하기, 행의 개수와 인덱스의 개수는 언제나 일치해야 한다.
                   columns = ['A', 'B', 'C', 'D'] # 데이터의 열의 개수와 일치해야 한다.
)
df.head()

Unnamed: 0,A,B,C,D
2020-07-09,1.131003,-1.428743,-1.562136,1.292173
2020-07-10,1.942113,-0.484246,-0.638399,0.217717
2020-07-11,0.480477,1.191977,0.160117,-1.58899
2020-07-12,-0.785944,-0.278663,-1.048295,-0.210394
2020-07-13,1.206647,-0.567838,-1.036765,-1.651573


* head 메소드는 데이터프레임의 0번째 행부터 몇개를 볼지를 지정한다. ( 일부만 확인 )
* tail 메소드는 데이터프레임의 마지막 행부터 몇개를 볼지를 지정한다. ( head와 반대 )

In [8]:
df.head(3)

Unnamed: 0,A,B,C,D
2020-07-09,1.131003,-1.428743,-1.562136,1.292173
2020-07-10,1.942113,-0.484246,-0.638399,0.217717
2020-07-11,0.480477,1.191977,0.160117,-1.58899


index란 -> 행을 대표하는 데이터. 즉 중복이 되면 안되는 데이터 rdbms의 primary key의 역할을 한다.

# 데이터 프레임의 각종 정보 확인하기
* index : 데이터 프레임의 인덱스 확인하기
* columns : 데이터 프레임의 컬럼 이름 확인하기
* values : 데이터 프레임의 모든 값을 확인
* info() : 데이터 프레임에 대한 간단한 개요 확인하기

In [9]:
df.index

DatetimeIndex(['2020-07-09', '2020-07-10', '2020-07-11', '2020-07-12',
               '2020-07-13'],
              dtype='datetime64[ns]', freq='D')

In [10]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [11]:
df.values

array([[ 1.13100258, -1.42874285, -1.56213553,  1.29217295],
       [ 1.94211329, -0.48424579, -0.63839929,  0.21771743],
       [ 0.48047737,  1.19197729,  0.1601174 , -1.58899023],
       [-0.78594429, -0.27866295, -1.04829521, -0.21039374],
       [ 1.20664663, -0.56783845, -1.03676503, -1.65157292]])

In [15]:
df.values.shape # 배열의 모양 확인하기

(5, 4)

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 5 entries, 2020-07-09 to 2020-07-13
Freq: D
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       5 non-null      float64
 1   B       5 non-null      float64
 2   C       5 non-null      float64
 3   D       5 non-null      float64
dtypes: float64(4)
memory usage: 200.0 bytes


info() 사용하는 시점
* RDBMS나 excel, csv 등에서 가지고온 데이터는 내가 원하는 타입이 아닐 수도 있어요.
* 나는 숫자 데이터를 가지고온거 같은데 가지고 와서 보니까 문자열인 경우도 종종 있다.


In [17]:
df.describe() # 통계적 개요 확인하기 -> 개수(count) 평균(mean) 최솟값(min) 최댓값(max) 표준편차(std), 사분위

Unnamed: 0,A,B,C,D
count,5.0,5.0,5.0,5.0
mean,0.794859,-0.313503,-0.825096,-0.388213
std,1.024272,0.949379,0.640966,1.251041
min,-0.785944,-1.428743,-1.562136,-1.651573
25%,0.480477,-0.567838,-1.048295,-1.58899
50%,1.131003,-0.484246,-1.036765,-0.210394
75%,1.206647,-0.278663,-0.638399,0.217717
max,1.942113,1.191977,0.160117,1.292173


# 데이터 정렬
sort_values 함수를 사용한다.

* by : 정렬의 기준이 되는 컬럼의 이름
* ascending : 내림차순(False), 오름차순(True)

In [19]:
df.sort_values(by='B', ascending=True)

Unnamed: 0,A,B,C,D
2020-07-09,1.131003,-1.428743,-1.562136,1.292173
2020-07-13,1.206647,-0.567838,-1.036765,-1.651573
2020-07-10,1.942113,-0.484246,-0.638399,0.217717
2020-07-12,-0.785944,-0.278663,-1.048295,-0.210394
2020-07-11,0.480477,1.191977,0.160117,-1.58899


# 데이터 선택
일반 딕셔너리 사용하듯이 컬럼의 이름을 집어 넣으면 해당 컬럼의 시리즈(또는 데이터 프레임 형식으로)가 한꺼번에 선택이 된다.

In [20]:
# 컬럼 하나만 선택해서 보는 경우
df['A']

2020-07-09    1.131003
2020-07-10    1.942113
2020-07-11    0.480477
2020-07-12   -0.785944
2020-07-13    1.206647
Freq: D, Name: A, dtype: float64

In [21]:
# 여러개의 컬럼을 동시 선택
cols = ['A','C'] # 리스트 형식으로 선택할 컬럼을 만든다.
df[cols]

#df[['A','C']]

Unnamed: 0,A,C
2020-07-09,1.131003,-1.562136
2020-07-10,1.942113,-0.638399
2020-07-11,0.480477,0.160117
2020-07-12,-0.785944,-1.048295
2020-07-13,1.206647,-1.036765


# 슬라이스 기법을 활용해서 범위 데이터 추출
slice( [ start : end : step ] ) 

In [22]:
# offset을 사용하면 행 범위를 지정 하는 것
df[0 : 3] # 0 ~ 2 까지 출력

Unnamed: 0,A,B,C,D
2020-07-09,1.131003,-1.428743,-1.562136,1.292173
2020-07-10,1.942113,-0.484246,-0.638399,0.217717
2020-07-11,0.480477,1.191977,0.160117,-1.58899


In [23]:
# index를 사용해서 행 범위를 지정 하기
df['20200711':'20200713']

Unnamed: 0,A,B,C,D
2020-07-11,0.480477,1.191977,0.160117,-1.58899
2020-07-12,-0.785944,-0.278663,-1.048295,-0.210394
2020-07-13,1.206647,-0.567838,-1.036765,-1.651573


# 특정 위치에 있는 데이터를 확인하기 ★★★★★ 중요하다!
* loc를 활용
* 행과 열을 동시에 선택할 수 있다.
* loc[ 행 선택(조건), 열 선택 ] )


In [24]:
df.loc['20200709']

A    1.131003
B   -1.428743
C   -1.562136
D    1.292173
Name: 2020-07-09 00:00:00, dtype: float64

loc를 사용해서 A, C 컬럼만 확인 df[['A','C']]

In [30]:
df.loc[ : # : 을 기준으로 지정된 정보가 없다 -> 전체 행
       , ['A','C']]

Unnamed: 0,A,C
2020-07-09,1.131003,-1.562136
2020-07-10,1.942113,-0.638399
2020-07-11,0.480477,0.160117
2020-07-12,-0.785944,-1.048295
2020-07-13,1.206647,-1.036765


In [32]:
# 20200709 ~ 20200711일 까지의 A, D 데이터를 보고 싶다.
# 날짜는 행을 의미하고, A, D 열을 의미한다.

df.loc['20200709':'20200711', # 행 선택 부분
       ['A','D'] # 열 선택 부분
      ]

Unnamed: 0,A,D
2020-07-09,1.131003,1.292173
2020-07-10,1.942113,0.217717
2020-07-11,0.480477,-1.58899


In [35]:
# 20200713일의 A 데이터만 보고 싶다
df.loc['20200713',['A', 'D']]

A    1.206647
D   -1.651573
Name: 2020-07-13 00:00:00, dtype: float64

# 특정 조건을 만족시키는 데이터를 얻어내는 방법 ★★★★★
데이터 전처리를 할 때 누락값이나 NaN값 등 잘못된 데이터를 처리하기 위해 반드시 필요한 문법

### 1. 특정 컬럼 선택을 통해 해당 컬럼을 기준으로 데이터 산출하기

In [39]:
df

Unnamed: 0,A,B,C,D
2020-07-09,1.131003,-1.428743,-1.562136,1.292173
2020-07-10,1.942113,-0.484246,-0.638399,0.217717
2020-07-11,0.480477,1.191977,0.160117,-1.58899
2020-07-12,-0.785944,-0.278663,-1.048295,-0.210394
2020-07-13,1.206647,-0.567838,-1.036765,-1.651573


In [40]:
df[df['D'] > 0] # df에서 D 시리즈의 값이 0보다 큰 행들만 선택

Unnamed: 0,A,B,C,D
2020-07-09,1.131003,-1.428743,-1.562136,1.292173
2020-07-10,1.942113,-0.484246,-0.638399,0.217717


데이터 전체를 기준으로 조건을 걸면 조건에 맞지 않는 데이터는 NaN이 된다.

In [41]:
df > 0

Unnamed: 0,A,B,C,D
2020-07-09,True,False,False,True
2020-07-10,True,False,False,True
2020-07-11,True,True,True,False
2020-07-12,False,False,False,False
2020-07-13,True,False,False,False


In [42]:
df[df > 0]

Unnamed: 0,A,B,C,D
2020-07-09,1.131003,,,1.292173
2020-07-10,1.942113,,,0.217717
2020-07-11,0.480477,1.191977,0.160117,
2020-07-12,,,,
2020-07-13,1.206647,,,


# 데이터 프레임 복사하기
객체의 할당과 복사. copy, slice

In [44]:
df2 = df.copy() # 데이터 프레임 자체를 전체 복사
df2['E'] = ['one','one', 'two', 'three', 'four'] # 딕셔너리에서 없는 키값에 값을 넣으면 추가 되듯이, 데이터프레임도 마찬가지

# 주의사항 : 새롭게 들어가는 데이터의 리스트는 반드시 데이터 프레임의 행의 개수와 일치해야 한다.

In [45]:
df

Unnamed: 0,A,B,C,D
2020-07-09,1.131003,-1.428743,-1.562136,1.292173
2020-07-10,1.942113,-0.484246,-0.638399,0.217717
2020-07-11,0.480477,1.191977,0.160117,-1.58899
2020-07-12,-0.785944,-0.278663,-1.048295,-0.210394
2020-07-13,1.206647,-0.567838,-1.036765,-1.651573


In [46]:
df2

Unnamed: 0,A,B,C,D,E
2020-07-09,1.131003,-1.428743,-1.562136,1.292173,one
2020-07-10,1.942113,-0.484246,-0.638399,0.217717,one
2020-07-11,0.480477,1.191977,0.160117,-1.58899,two
2020-07-12,-0.785944,-0.278663,-1.048295,-0.210394,three
2020-07-13,1.206647,-0.567838,-1.036765,-1.651573,four


# 데이터 존재 유무 판단
isin 함수를 이용해서 특정 데이터가 있는지 검사할 수 있다.

In [49]:
df2['E']

2020-07-09      one
2020-07-10      one
2020-07-11      two
2020-07-12    three
2020-07-13     four
Freq: D, Name: E, dtype: object

In [48]:
df2['E'].isin(['two','four'])

2020-07-09    False
2020-07-10    False
2020-07-11     True
2020-07-12    False
2020-07-13     True
Freq: D, Name: E, dtype: bool

In [51]:
df2[df2['E'].isin(['two','four'])]

Unnamed: 0,A,B,C,D,E
2020-07-11,0.480477,1.191977,0.160117,-1.58899,two
2020-07-13,1.206647,-0.567838,-1.036765,-1.651573,four


# 데이터 프레임에서 간단한 연산 및 통계 수행하기
apply 함수를 사용합니다. numpy와 자주 같이 사용 됩니다.

In [53]:
df.apply(np.mean) # 각 컬럼의 평균값

A    0.794859
B   -0.313503
C   -0.825096
D   -0.388213
dtype: float64

In [54]:
df.apply(np.cumsum) # 각 컬럼의 누적합

Unnamed: 0,A,B,C,D
2020-07-09,1.131003,-1.428743,-1.562136,1.292173
2020-07-10,3.073116,-1.912989,-2.200535,1.50989
2020-07-11,3.553593,-0.721011,-2.040417,-0.0791
2020-07-12,2.767649,-0.999674,-3.088713,-0.289494
2020-07-13,3.974296,-1.567513,-4.125478,-1.941067


In [55]:
df.apply(lambda x : x.max() - x.min()) # 각 시리즈별 최댓값 - 최솟값

A    2.728058
B    2.620720
C    1.722253
D    2.943746
dtype: float64

# 10분 판다스를 참고해서 많은 기능들을 익혀야 해요

너무 쉬워서 연습을 안해서 못하는 경우가 많아요