# 파이썬을 이용한 데이터 분석은 pandas 사용빈도가 굉장히 높다!

pandas에서 데이터를 다루기 위한 테이블을 **DataFrame**이라고 한다.<br>
DataFrame이랑 데이터의 모음

In [2]:
import pandas as pd # pandas 모듈 불러오기
import numpy as np # numpy 모듈 불러오기. 통계, 수식 등등 수학적인 계산이 필요할 때 사용

## Series 는 DataFrame의 최소단위입니다.
파이썬의 list를 Series로 만들어 볼 수 있다.

In [5]:
s= pd.Series([1,2,3,np.nan, 6,7]) # NaN, nan -> not a number(숫자가 아닌 자료형 -> 숫자계의 null)
type(s)

pandas.core.series.Series

In [6]:
s

0    1.0
1    2.0
2    3.0
3    NaN
4    6.0
5    7.0
dtype: float64

기본적으로 numpy 배열은 실수만을 다룬다. 정수 형태의 데이터를 다루려면 특별한 처리가 필요함.

# 날짜 데이터 다루기
**date_range**을 사용해서 손쉽게 날짜 데이터를 생성할 수 있다. 보통은 시계열 분석을 위해 날짜 데이터를 많이 사용
* 시계열 분석 : 시간의 흐름에 따라서 데이터가 어떻게 변화될지 예측 및 분석하는 것

In [9]:
dates = pd.date_range("20200709",periods= 5)
dates

DatetimeIndex(['2020-07-09', '2020-07-10', '2020-07-11', '2020-07-12',
               '2020-07-13'],
              dtype='datetime64[ns]', freq='D')

# 데이터 프레임 만들어 보기
* 첫 번째 인자에는 데이터 프레임을 채울 데이터를 입력한다.(2차원 배열로)
* index 인자 : 데이터 프레임의 인덱스로 지정할 값을 지정(1치원 배열)
* columns 인자 : 데이터 프레임에서 사용할 컬럼들을 지정(1치원 배열)

In [10]:
df = pd.DataFrame(np.random.randn(5,4), # 첫 번째 인자에는 데이터프레임에 채울 데이터(2차원 배열) -> 랜덤한 숫자를 5행 4열로 채운다
                  index = dates, # 인덱스 지정하기. 행의 개수와 인덱스의 개수는 언제나 일치해야 한다.
                  columns=['A','B','C','D'] # 데이터의 열의 개수와 일치해야 한다.
                 )
df.head()

Unnamed: 0,A,B,C,D
2020-07-09,-0.259016,-0.053434,0.094656,0.272462
2020-07-10,1.844658,0.062865,-1.038972,0.54673
2020-07-11,0.164361,-1.868173,-0.105984,0.216624
2020-07-12,-1.518766,-0.088612,-1.891614,0.156646
2020-07-13,-0.802737,-1.202828,-0.674076,-1.512939


* head 메소드는 데이터프레임의 0번째 행부터 몇개를 볼지를 지정한다.(일부만 확인)
* tail 메소드는 데이터 프레임의 마지막 행부터 몇개를 볼지를 지정한다.(head와 반대)

In [11]:
df.head(3)

Unnamed: 0,A,B,C,D
2020-07-09,-0.259016,-0.053434,0.094656,0.272462
2020-07-10,1.844658,0.062865,-1.038972,0.54673
2020-07-11,0.164361,-1.868173,-0.105984,0.216624


index란 -> 행을 대표하는 데이터. 즉, 중복되면 안되는 데이터 rdms의 primary key의 역할을 한다

# 데이터 프레임의 각종 정보 확인하기
* index : 데이터 프레임의 인덱스 확인하기
* columns : 데이터 프레임의 컬럼 이름 확인하기
* values : 데이터 프레임의 모든 값을 확인
* info() : 데이터 프레임에 대한 간단한 개요 확인하기

In [12]:
df.index

DatetimeIndex(['2020-07-09', '2020-07-10', '2020-07-11', '2020-07-12',
               '2020-07-13'],
              dtype='datetime64[ns]', freq='D')

In [14]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [15]:
df.values

array([[-0.2590162 , -0.05343402,  0.09465598,  0.27246228],
       [ 1.84465773,  0.06286469, -1.0389722 ,  0.54672957],
       [ 0.16436109, -1.86817263, -0.10598376,  0.21662363],
       [-1.51876602, -0.08861189, -1.89161436,  0.15664618],
       [-0.80273657, -1.20282777, -0.67407573, -1.5129385 ]])

In [16]:
df.values.shape

(5, 4)

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 5 entries, 2020-07-09 to 2020-07-13
Freq: D
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       5 non-null      float64
 1   B       5 non-null      float64
 2   C       5 non-null      float64
 3   D       5 non-null      float64
dtypes: float64(4)
memory usage: 200.0 bytes


info()를 사용하는 시점
* RDBMS나 excel, cvs 등에서 가지고 온 데이터는 내가 원하는 타임이 아닐 수 도 있다.
* 나는 숫자 데이터를 가지고 온 것 같은데 가지고 와서 보니 문자열인 경우도 종종 있다.

ex) 나이 "100" -> 문자열 데이터

In [18]:
df.describe() # 통계적 개요 확인하기 -> 개수(count), 평균(mean), 최소값(min), 최대값(max), 표준편차(std), 사분위

Unnamed: 0,A,B,C,D
count,5.0,5.0,5.0,5.0
mean,-0.1143,-0.630036,-0.723198,-0.064095
std,1.263188,0.861219,0.793278,0.823568
min,-1.518766,-1.868173,-1.891614,-1.512939
25%,-0.802737,-1.202828,-1.038972,0.156646
50%,-0.259016,-0.088612,-0.674076,0.216624
75%,0.164361,-0.053434,-0.105984,0.272462
max,1.844658,0.062865,0.094656,0.54673


## 데이터 정렬
sort_vaules 함수를 사용한다.
* by : 정렬의 기준이 되는 칼럼의 이름
* ascending : 내림차순(False), 오름차순(True)

In [19]:
df.sort_values(by='B',ascending=True)

Unnamed: 0,A,B,C,D
2020-07-11,0.164361,-1.868173,-0.105984,0.216624
2020-07-13,-0.802737,-1.202828,-0.674076,-1.512939
2020-07-12,-1.518766,-0.088612,-1.891614,0.156646
2020-07-09,-0.259016,-0.053434,0.094656,0.272462
2020-07-10,1.844658,0.062865,-1.038972,0.54673


## 데이터 선택
일반 딕셔너리 사용하듯이 컬럼의 이름을 집어 넣으면 해당 칼럼의 시리즈(또는 데이터 프레임 형식으려)가 한꺼번에 선택이 된다.

In [20]:
# 칼럼 하나만 선택해서 보는 경우
df['A']

2020-07-09   -0.259016
2020-07-10    1.844658
2020-07-11    0.164361
2020-07-12   -1.518766
2020-07-13   -0.802737
Freq: D, Name: A, dtype: float64

In [21]:
# 여러개의 칼럼을 동시 선택
cols = ['A','C'] # 리스트 형식으로 만든다.
df[cols]
# df[['A','C'] ]

Unnamed: 0,A,C
2020-07-09,-0.259016,0.094656
2020-07-10,1.844658,-1.038972
2020-07-11,0.164361,-0.105984
2020-07-12,-1.518766,-1.891614
2020-07-13,-0.802737,-0.674076


## 슬라이스 기법을 활용해서 범위 데이터 추출
slice([start:end:step])

In [22]:
# offset을 사용하여 행 범위를 지정하는 것
df[0:3] # 0-2 까지 출력

Unnamed: 0,A,B,C,D
2020-07-09,-0.259016,-0.053434,0.094656,0.272462
2020-07-10,1.844658,0.062865,-1.038972,0.54673
2020-07-11,0.164361,-1.868173,-0.105984,0.216624


In [23]:
# index를 사용해서 행 범위를 지정하기
df['20200711':'20200713']

Unnamed: 0,A,B,C,D
2020-07-11,0.164361,-1.868173,-0.105984,0.216624
2020-07-12,-1.518766,-0.088612,-1.891614,0.156646
2020-07-13,-0.802737,-1.202828,-0.674076,-1.512939


# 특정 위치에 있는 데이터를 확인하기(★★★★★중요)
* loc를 활용
* 행과 열을 동시에 선택할 수 있다.
* loc[행 선택(조건), 열 선택]

In [27]:
df.loc["20200709"] # 열은 생략할 수 있다. 생략 시 모든 열 출력

A   -0.259016
B   -0.053434
C    0.094656
D    0.272462
Name: 2020-07-09 00:00:00, dtype: float64

In [28]:
df.loc[: # :을 기준으로 지정된 정보가 없다 -> 전체 행
      ,['A','C']]

Unnamed: 0,A,C
2020-07-09,-0.259016,0.094656
2020-07-10,1.844658,-1.038972
2020-07-11,0.164361,-0.105984
2020-07-12,-1.518766,-1.891614
2020-07-13,-0.802737,-0.674076


In [29]:
# 20200709 ~ 20200711 까지의 A,D 데이터를 보고 싶다
# 날짜는 행을 의미하고, A, D열을 의미한다.
df.loc['20200709':'20200711,' # 행 선택 부분
      ,['A','C'] # 열 선택 부분
      ]

Unnamed: 0,A,C
2020-07-09,-0.259016,0.094656
2020-07-10,1.844658,-1.038972
2020-07-11,0.164361,-0.105984


In [30]:
df.loc['20200713',['A','D']]

A   -0.802737
D   -1.512939
Name: 2020-07-13 00:00:00, dtype: float64

# 특정 조건을 만족시키는 데이터를 얻어내는 방법★★★★★
데이터 전처리를 할 때 누락값이나 NaN값 등 잘못된 데이터를 처리하기 위해 반드시 필요한 문법<br>

### 1. 특정 컬럼 선택을 통해 해당 컬럼을 기준으로 데이터 산출하기

In [31]:
df[df['A']>0] # df에서 A 시리즈의 값이 0보다 큰 행들만 선택

Unnamed: 0,A,B,C,D
2020-07-10,1.844658,0.062865,-1.038972,0.54673
2020-07-11,0.164361,-1.868173,-0.105984,0.216624


## 데이터 프레임 복사하기
객체의 할당과 복사. copy.slice

In [32]:
df2 = df.copy() # 데이터 프레임 자체를 전체 복사
df2['E'] = ['one','one','two','three','four'] # 딕셔너리에서 없는 키값에 값을 넣으면 추가 되듯이 데이터 프레임도 마찬가지

# 주의사힝 : 새롭게 들어가는 데이터 리스트는 

In [33]:
df

Unnamed: 0,A,B,C,D
2020-07-09,-0.259016,-0.053434,0.094656,0.272462
2020-07-10,1.844658,0.062865,-1.038972,0.54673
2020-07-11,0.164361,-1.868173,-0.105984,0.216624
2020-07-12,-1.518766,-0.088612,-1.891614,0.156646
2020-07-13,-0.802737,-1.202828,-0.674076,-1.512939


In [34]:
df2

Unnamed: 0,A,B,C,D,E
2020-07-09,-0.259016,-0.053434,0.094656,0.272462,one
2020-07-10,1.844658,0.062865,-1.038972,0.54673,one
2020-07-11,0.164361,-1.868173,-0.105984,0.216624,two
2020-07-12,-1.518766,-0.088612,-1.891614,0.156646,three
2020-07-13,-0.802737,-1.202828,-0.674076,-1.512939,four


## 데이터 존재 유무 판단
isin 함수를 이용해서 특정 데이터가 있는지 없는지 검사할 수 있다.

In [35]:
df2['E']

2020-07-09      one
2020-07-10      one
2020-07-11      two
2020-07-12    three
2020-07-13     four
Freq: D, Name: E, dtype: object

In [37]:
df2['E'].isin(['two','four'])

2020-07-09    False
2020-07-10    False
2020-07-11     True
2020-07-12    False
2020-07-13     True
Freq: D, Name: E, dtype: bool

In [38]:
df[df2['E'].isin(['two','four'])]
# E 컬럼이 two, foru인 컬럼만 출력

Unnamed: 0,A,B,C,D
2020-07-11,0.164361,-1.868173,-0.105984,0.216624
2020-07-13,-0.802737,-1.202828,-0.674076,-1.512939


# 데이터 프레임에서 간단한 연산 및 통계 수행하기
apply 함수를 사용한다. numpy와 자주 같이 사용된다.

In [40]:
df.apply(np.mean) # 각 컬럼의 평균값

A   -0.114300
B   -0.630036
C   -0.723198
D   -0.064095
dtype: float64

In [41]:
df.apply(np.cumsum) # 각 컬럼의 누적합

Unnamed: 0,A,B,C,D
2020-07-09,-0.259016,-0.053434,0.094656,0.272462
2020-07-10,1.585642,0.009431,-0.944316,0.819192
2020-07-11,1.750003,-1.858742,-1.0503,1.035815
2020-07-12,0.231237,-1.947354,-2.941914,1.192462
2020-07-13,-0.5715,-3.150182,-3.61599,-0.320477


In [42]:
df.apply(lambda x : x.max() - x.min()) # 각 시리즈 별 최댓값 - 최솟값

A    3.363424
B    1.931037
C    1.986270
D    2.059668
dtype: float64

## 10분 판다스를 참고해서 많은 기능등을 익힐 수 있다. 
- 너무 쉬워서 연습을 못하는 경우가 많다.