<a href="https://colab.research.google.com/github/younghun-cha/Healthcare-Big-Data-Engineer/blob/main/AI/02-Data_Preprocessing/01_pandas_%EA%B8%B0%EC%B4%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 파이썬 - pandas 기초 실습

# 1. pands 개요
### 1.1 pandas 개요

- 금융회사에 다니고 있던 Wes Mckinney가 처음에 금융 데이터 분석을 위해 2008년 설계
- Pandas: 계량 경제학 용어인 panel data와 analysis의 합성어
- 구조화된 데이터를 빠르고 쉬우면서 다양한 형식으로 가공할 수 있는 풍부한 자료 구조와 함수를 제공
- Pandas의 기본 구조는 numpy로


### 1.2 pandas 특징

- 빅데이터 분석에 최적화 된 필수 패키지
- 데이터는 시계열(series)이나 표(table)의 형태
- 표 데이터를 다루기 위한 시리즈(series) 클래스 변환
- 데이터프레임(dataframe) 클래스 변환

### 1.3 pandas 설치
- pandas는 기본 패키치로 설치되어 있으나, 만약 별로 설치 한다면,
- 터미널과 cmd에서 설치 시 pip install pandas 실행 또는 Jupyter notebook에서 직접 실행

In [3]:
!pip install numpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


### 1.4 pandas 패키지 import

- 데이터프레임을 사용하기 위해 pandas 패키지를 임포트 해야한다. 
- Pandas는 pd라는 축약어 사용이 관례이다.

In [4]:
import pandas as pd
import numpy as np

# 2. 시리즈 클래스 (series class)

### 2.1 시리즈 정의
- 데이터를 리스트나 1차원 배열 형식으로 series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다. 
- 시리즈 클래스는 NumPy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 
**인덱스(index)**를 붙일 수 있다. 데이터 자체는 **값(value)**라고 한다.

> 시리즈 = 인덱스(index) + 값(value)

In [5]:
# Series 정의하여 생성하기
obj = pd.Series([4, 5, -2, 8]) 
obj 

0    4
1    5
2   -2
3    8
dtype: int64

### 2.2 시리즈 확인

In [6]:
# Series의 값만 확인하기 
obj.values

array([ 4,  5, -2,  8])

In [7]:
# series의 인덱스 확인하기
obj.index

RangeIndex(start=0, stop=4, step=1)

In [8]:
# series의 데이터타입 확인하기
obj.dtypes

dtype('int64')

### 2.3 시리즈의 인덱스
- 인덱스의 길이는 데이터의 길이와 같아야 하며, 인덱스의 값은 인덱스 라벨(label)
- 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능

In [9]:
# 인덱스를 리스트로 별도 지정, 반드시 " " 쌍따옴표 사용
obj1 = pd.Series([4, 5, -2, 8], index=["a", "b", "c", "d"]) 
obj1

a    4
b    5
c   -2
d    8
dtype: int64

### 2.4 시리즈와 딕셔너리 자료형
- Python의 dictionary 자료형을 Series data로 만들 수 있다.
- dictionary의 key가 Series의 index가 된다 

In [10]:
data = {"Kim": 35000, "Park": 67000, "Joon": 12000, "Choi": 4000}

In [11]:
obj2 = pd.Series(data) 
obj2

Kim     35000
Park    67000
Joon    12000
Choi     4000
dtype: int64

In [12]:
# 시리즈 이름 지정 및 index name 지정  
obj2.name = "Salary" 
obj2.index.name = "Names" 

obj2

Names
Kim     35000
Park    67000
Joon    12000
Choi     4000
Name: Salary, dtype: int64

In [13]:
# index 이름 변경 
obj2.index = ["A", "B", "C", "D"] 
obj2 


A    35000
B    67000
C    12000
D     4000
Name: Salary, dtype: int64

### 2.5 2.4 시리즈 연산
- Numpy 배열처럼 시리즈도 벡터화 연산 가능
- 시리즈의 값에만 적용되며 인덱스 값은 변하지 않는다

In [14]:
obj * 10

0    40
1    50
2   -20
3    80
dtype: int64

In [15]:
# 인덱싱 끼리 연산
obj1 * obj1

a    16
b    25
c     4
d    64
dtype: int64

In [16]:
# values 값끼리 연산
obj1.values + obj.values

array([ 8, 10, -4, 16])

### 2.5 시리즈 인덱싱

- 시리즈는 numpy 배열의 인덱스 방법처럼 사용 외에 인덱스 라벨을 이용한 인덱싱
- 배열 인덱싱은 자료의 순서를 바꾸거나 특정한 자료만 선택 가능
- 라벨 값이 영문 문자열인 경우에는 마치 속성인것처럼 점(.)을 이용하여 접근

In [17]:
a = pd.Series([1024, 2048, 3096, 6192],
              index=["서울", "부산", "인천", "대구"])
a

서울    1024
부산    2048
인천    3096
대구    6192
dtype: int64

In [18]:
a[1], a["부산"]

(2048, 2048)

In [19]:
a[3], a["대구"]

(6192, 6192)

In [20]:
a[[0, 3, 1]]

서울    1024
대구    6192
부산    2048
dtype: int64

In [21]:
a[["서울", "대구", "부산"]]

서울    1024
대구    6192
부산    2048
dtype: int64

In [22]:
# 라벨 값이 영문 문자열인 경우에는 마치 속성인것처럼 점(.)을 이용하여 접근
obj2.A

35000

In [23]:
obj2.C

12000

### 2.6 시리즈 슬라이싱(slicing)
- 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능
- 문자열 라벨을 이용한 슬라이싱은 콜론(:) 기호 뒤에 오는 인덱스에 해당하는 값이 결과에 포함

In [24]:
a[1:3]

부산    2048
인천    3096
dtype: int64

In [25]:
a["부산":"대구"]

부산    2048
인천    3096
대구    6192
dtype: int64

### 2.7 시리즈의 데이터 갱신, 추가, 삭제
- 인덱싱을 이용하여 딕셔너리처럼 데이터를 갱신(update)하거나 추가(add)
- 데이터 삭제 시 딕셔너리처럼 del 명령 사용

In [26]:
# 데이터 갱신
a["부산"] = 1234
a

서울    1024
부산    1234
인천    3096
대구    6192
dtype: int64

In [27]:
# 데이터 갱신
a["대구"] = 6543
a

서울    1024
부산    1234
인천    3096
대구    6543
dtype: int64

In [28]:
# del 명령어로 데이터 삭제
del a["서울"]
a

부산    1234
인천    3096
대구    6543
dtype: int64

# 3. 데이터프레임(DataFrame)

### 3.1 데이터프레임(DataFrame) 개요
- 시리즈가 1차원 벡터 데이터에 행 방향 인덱스(row index)이라면,
- 데이터프레임(data-frame) 클래스는 2차원 행렬 데이터에 합친 것으로
- 행 인덱스(row index)와 열 인덱스(column index)를 지정
> 데이터프레임 = 시리즈{인덱스(index) + 값(value)} + 시리즈 + 시리즈의 연속체

![](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FN4NAc%2FbtqRoP1ml8o%2Fx4DD7ITezrXVcJKgEYR5a1%2Fimg.png)

### 3.2 데이터프레임 특성

- 데이터프레임은 공통 인덱스를 가지는 열 시리즈(column series)를 딕셔너리로 묶어놓은 것
- 데이터프레임은 numpy의 모든 2차원 배열 속성이나 메서드를 지원

### 3.3 데이터프레임 생성

1. 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비
2. 각 열에 대한 이름(label)의 키(key)를 갖는 딕셔너리를 생성
3. pandas의 DataFrame 클래스로 생성
4. 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정



In [29]:
# Data Frame은 python의 dictionary 또는 numpy의 array로 정의
data = {
'name': ["Choi", "Choi", "Choi", "Kim", "Park"], 
'year': [2013, 2014, 2015, 2016, 2017], 
'points': [1.5, 1.7, 3.6, 2.4, 2.9]
} 
df = pd.DataFrame(data) 
df 

Unnamed: 0,name,year,points
0,Choi,2013,1.5
1,Choi,2014,1.7
2,Choi,2015,3.6
3,Kim,2016,2.4
4,Park,2017,2.9


In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    5 non-null      object 
 1   year    5 non-null      int64  
 2   points  5 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 248.0+ bytes


In [31]:
df.describe()

Unnamed: 0,year,points
count,5.0,5.0
mean,2015.0,2.42
std,1.581139,0.864292
min,2013.0,1.5
25%,2014.0,1.7
50%,2015.0,2.4
75%,2016.0,2.9
max,2017.0,3.6


In [32]:
# 행 방향의 index 
df.index

RangeIndex(start=0, stop=5, step=1)

In [33]:
# 열 방향의 index 
df.columns

Index(['name', 'year', 'points'], dtype='object')

In [34]:
df.values

array([['Choi', 2013, 1.5],
       ['Choi', 2014, 1.7],
       ['Choi', 2015, 3.6],
       ['Kim', 2016, 2.4],
       ['Park', 2017, 2.9]], dtype=object)

### 3.4 데이터프레임 열 갱신 추가
- 데이터프레임은 열 시리즈의 딕셔너리로 볼 수 있으므로 열 단위로 데이터를 갱신하거나 추가, 삭제
- data에 포함되어 있지 않은 값은 nan(not a number)으로 나타내는 null과 같은 개념
- 딕셔너리, numpy의 배열, 시리즈의 다양한 방법으로 추가 가능

In [35]:
# DataFrame을 만들면서 columns와 index를 설정
df = pd.DataFrame(data, columns=["year", "name", "points", "penalty"],
                                  index=(["one", "two", "three", "four", "five"]))
df

Unnamed: 0,year,name,points,penalty
one,2013,Choi,1.5,
two,2014,Choi,1.7,
three,2015,Choi,3.6,
four,2016,Kim,2.4,
five,2017,Park,2.9,


In [36]:
# 특정 열만 선택
df[["year","points"]] 

Unnamed: 0,year,points
one,2013,1.5
two,2014,1.7
three,2015,3.6
four,2016,2.4
five,2017,2.9


In [37]:
df['points']

one      1.5
two      1.7
three    3.6
four     2.4
five     2.9
Name: points, dtype: float64

In [38]:
# 특정 열을 선택하고, 값(0.5)을 대입 
df["penalty"] = 0.5 
df

Unnamed: 0,year,name,points,penalty
one,2013,Choi,1.5,0.5
two,2014,Choi,1.7,0.5
three,2015,Choi,3.6,0.5
four,2016,Kim,2.4,0.5
five,2017,Park,2.9,0.5


In [39]:
# 또는 python의 리스트로 대입
df['penalty'] = [0.1, 0.2, 0.3, 0.4, 0.5] 
df 

Unnamed: 0,year,name,points,penalty
one,2013,Choi,1.5,0.1
two,2014,Choi,1.7,0.2
three,2015,Choi,3.6,0.3
four,2016,Kim,2.4,0.4
five,2017,Park,2.9,0.5


In [40]:
import numpy as np

# 또는 numpy의 np.arange로 새로운 열을 추가하기
df['zeros'] = np.arange(5) 
df 

Unnamed: 0,year,name,points,penalty,zeros
one,2013,Choi,1.5,0.1,0
two,2014,Choi,1.7,0.2,1
three,2015,Choi,3.6,0.3,2
four,2016,Kim,2.4,0.4,3
five,2017,Park,2.9,0.5,4


In [41]:
# 또는 index인자로 특정행을 지정하여 시리즈(Series)로 추가
val = pd.Series([-1.2, -1.5, -1.7], index=['two','four','five']) 

df['debt'] = val 
df

Unnamed: 0,year,name,points,penalty,zeros,debt
one,2013,Choi,1.5,0.1,0,
two,2014,Choi,1.7,0.2,1,-1.2
three,2015,Choi,3.6,0.3,2,
four,2016,Kim,2.4,0.4,3,-1.5
five,2017,Park,2.9,0.5,4,-1.7


In [42]:
# 연산 후 새로운 열을 추가하기
df["net_points"] = df["points"] - df["penalty"]
df

Unnamed: 0,year,name,points,penalty,zeros,debt,net_points
one,2013,Choi,1.5,0.1,0,,1.4
two,2014,Choi,1.7,0.2,1,-1.2,1.5
three,2015,Choi,3.6,0.3,2,,3.3
four,2016,Kim,2.4,0.4,3,-1.5,2.0
five,2017,Park,2.9,0.5,4,-1.7,2.4


In [43]:
# 조건 연산으로 열 추가
df["high_points"] = df["net_points"] > 2.0 
df

Unnamed: 0,year,name,points,penalty,zeros,debt,net_points,high_points
one,2013,Choi,1.5,0.1,0,,1.4,False
two,2014,Choi,1.7,0.2,1,-1.2,1.5,False
three,2015,Choi,3.6,0.3,2,,3.3,True
four,2016,Kim,2.4,0.4,3,-1.5,2.0,False
five,2017,Park,2.9,0.5,4,-1.7,2.4,True


In [44]:
# 열 삭제하기 
del df["high_points"] 
del df["net_points"] 
del df["zeros"] 
df

Unnamed: 0,year,name,points,penalty,debt
one,2013,Choi,1.5,0.1,
two,2014,Choi,1.7,0.2,-1.2
three,2015,Choi,3.6,0.3,
four,2016,Kim,2.4,0.4,-1.5
five,2017,Park,2.9,0.5,-1.7


In [45]:
# 컬럼명 확인하기
df.columns

Index(['year', 'name', 'points', 'penalty', 'debt'], dtype='object')

In [46]:
# index와 columns 이름 지정
df.index.name = "Order" 
df.columns.name = "Info" 
df

Info,year,name,points,penalty,debt
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,2013,Choi,1.5,0.1,
two,2014,Choi,1.7,0.2,-1.2
three,2015,Choi,3.6,0.3,
four,2016,Kim,2.4,0.4,-1.5
five,2017,Park,2.9,0.5,-1.7


### 3.4 데이터프레임 인덱싱

#### 열 인덱싱
- 데이터프레임을 인덱싱을 할 때도 열 라벨(column label)을 키 값으로 생각하여 인덱싱
- 인덱스로 라벨 값을 하나만 넣으면 시리즈 객체가 반환되고 라벨의 배열 또는 리스트를 넣으면 부분적인 데이터프레임이 반환
- 하나의 열만 빼내면서 데이터프레임 자료형을 유지하고 싶다면 원소가 하나인 리스트를 써서 인덱싱

#### 행 인덱싱
- 행 단위로 인덱싱을 하고자 하면 항상 슬라이싱(slicing)을 해야 한다. 
- 인덱스의 값이 문자 라벨이면 라벨 슬라이싱

In [47]:
# 열 인덱싱
df["year"] 

Order
one      2013
two      2014
three    2015
four     2016
five     2017
Name: year, dtype: int64

In [48]:
# 다른 방법의 열 인덱싱
df.year

Order
one      2013
two      2014
three    2015
four     2016
five     2017
Name: year, dtype: int64

In [49]:
# 행 인덱싱은 슬라이싱으로 0번째부터 1번째로 지정하면 1행을 반환
df[0:1]

Info,year,name,points,penalty,debt
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,2013,Choi,1.5,0.1,


In [50]:
# 행 인덱싱 슬라이싱으로 0번째 부터 2(3-1) 번째까지 반환
df[0:3] 

Info,year,name,points,penalty,debt
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,2013,Choi,1.5,0.1,
two,2014,Choi,1.7,0.2,-1.2
three,2015,Choi,3.6,0.3,


### 3.5 loc 인덱싱
인덱스의 라벨값 기반의 2차원 (행, 열)인덱싱

In [51]:
# .loc 함수를 사용하여 시리즈로 인덱싱
df.loc["two"]

Info
year       2014
name       Choi
points      1.7
penalty     0.2
debt       -1.2
Name: two, dtype: object

In [52]:
# .loc 또는 .iloc 함수를 사용하여 데이터프레임으로 인덱싱
df.loc["two":"four"]

Info,year,name,points,penalty,debt
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
two,2014,Choi,1.7,0.2,-1.2
three,2015,Choi,3.6,0.3,
four,2016,Kim,2.4,0.4,-1.5


In [53]:
df.loc["two":"four", "points"] 

Order
two      1.7
three    3.6
four     2.4
Name: points, dtype: float64

In [54]:
# == df['year’] 
df.loc[:,'year']

Order
one      2013
two      2014
three    2015
four     2016
five     2017
Name: year, dtype: int64

In [55]:
df.loc[:,['year','name']] 

Info,year,name
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
one,2013,Choi
two,2014,Choi
three,2015,Choi
four,2016,Kim
five,2017,Park


In [56]:
df.loc["three":"five","year":"penalty"] 

Info,year,name,points,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
three,2015,Choi,3.6,0.3
four,2016,Kim,2.4,0.4
five,2017,Park,2.9,0.5


### 3.6 iloc 인덱싱
인덱스의 숫자 기반의 2차원 (행, 열)인덱싱

In [57]:
# 새로운 행 삽입하기 
df.loc['six',:] = [2013,'Jun',4.0,0.1,2.1] 
df

Info,year,name,points,penalty,debt
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,2013.0,Choi,1.5,0.1,
two,2014.0,Choi,1.7,0.2,-1.2
three,2015.0,Choi,3.6,0.3,
four,2016.0,Kim,2.4,0.4,-1.5
five,2017.0,Park,2.9,0.5,-1.7
six,2013.0,Jun,4.0,0.1,2.1


In [58]:
# 4번째 행을 가져오기 위해 .iloc 사용:: index 번호를 사용
df.iloc[3]

Info
year       2016.0
name          Kim
points        2.4
penalty       0.4
debt         -1.5
Name: four, dtype: object

In [59]:
# 슬라이싱으로 지정하여 반환
df.iloc[3:5, 0:2]

Info,year,name
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
four,2016.0,Kim
five,2017.0,Park


In [60]:
# 각각의 행과 열을 지정하여 반환하기
df.iloc[[0,1,3], [1,2]]

Info,name,points
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
one,Choi,1.5
two,Choi,1.7
four,Kim,2.4


In [61]:
# 행을 전체, 열은 두번째열부터 마지막까지 슬라이싱으로 지정하여 반환
df.iloc[:,1:4] 

Info,name,points,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,Choi,1.5,0.1
two,Choi,1.7,0.2
three,Choi,3.6,0.3
four,Kim,2.4,0.4
five,Park,2.9,0.5
six,Jun,4.0,0.1


In [62]:
df.iloc[1,1]

'Choi'

### 3.7 Boolean 인덱싱

In [63]:
df

Info,year,name,points,penalty,debt
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,2013.0,Choi,1.5,0.1,
two,2014.0,Choi,1.7,0.2,-1.2
three,2015.0,Choi,3.6,0.3,
four,2016.0,Kim,2.4,0.4,-1.5
five,2017.0,Park,2.9,0.5,-1.7
six,2013.0,Jun,4.0,0.1,2.1


In [64]:
# year가 2014보다 큰 boolean data 
df["year"] > 2014 

Order
one      False
two      False
three     True
four      True
five      True
six      False
Name: year, dtype: bool

In [65]:
df.loc[df['name'] == "Choi", ['name','points']]

Info,name,points
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
one,Choi,1.5
two,Choi,1.7
three,Choi,3.6


In [66]:
# numpy에서와 같이 논리연산을 응용할 수 있다. 
df.loc[(df["points"] > 2) & (df["points"]<3), :]

Info,year,name,points,penalty,debt
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
four,2016.0,Kim,2.4,0.4,-1.5
five,2017.0,Park,2.9,0.5,-1.7


# 4. 데이터프레임 다루기

### 4.1 numpy randn 데이터프레임 생성

In [67]:
# DataFrame을 만들때 index, column을 설정하지 않으면 기본값으로 0부터 시작하는 정수형 숫자로 입력된다. 
df = pd.DataFrame(np.random.randn(6,4)) 
df 

Unnamed: 0,0,1,2,3
0,0.330822,1.061816,-0.271138,0.164106
1,0.155836,1.447187,1.27785,-0.668987
2,-1.074468,-1.574007,0.639077,0.480052
3,0.667285,2.372768,-1.638681,-0.04664
4,0.827456,0.106106,-0.231914,-0.473081
5,1.895407,0.213604,0.375548,0.477794


### 4.2 시계열 데이트 함수 date_range

In [68]:
df.columns = ["A", "B", "C", "D"] 

In [69]:
#pandas에서 제공하는 date range함수는 datetime 자료형으로 구성된, 날짜/시간 함수 
df.index = pd.date_range('20160701', periods=6)
df

Unnamed: 0,A,B,C,D
2016-07-01,0.330822,1.061816,-0.271138,0.164106
2016-07-02,0.155836,1.447187,1.27785,-0.668987
2016-07-03,-1.074468,-1.574007,0.639077,0.480052
2016-07-04,0.667285,2.372768,-1.638681,-0.04664
2016-07-05,0.827456,0.106106,-0.231914,-0.473081
2016-07-06,1.895407,0.213604,0.375548,0.477794


In [70]:
df.index

DatetimeIndex(['2016-07-01', '2016-07-02', '2016-07-03', '2016-07-04',
               '2016-07-05', '2016-07-06'],
              dtype='datetime64[ns]', freq='D')

In [71]:
df

Unnamed: 0,A,B,C,D
2016-07-01,0.330822,1.061816,-0.271138,0.164106
2016-07-02,0.155836,1.447187,1.27785,-0.668987
2016-07-03,-1.074468,-1.574007,0.639077,0.480052
2016-07-04,0.667285,2.372768,-1.638681,-0.04664
2016-07-05,0.827456,0.106106,-0.231914,-0.473081
2016-07-06,1.895407,0.213604,0.375548,0.477794


### 4.3 numpy로 데이터프레임 결측치 다루기

In [72]:
# np.nan은 NaN값을 의미
df["F"] = [1.0, np.nan, 3.5, 6.1, np.nan, 7.0] 
df

Unnamed: 0,A,B,C,D,F
2016-07-01,0.330822,1.061816,-0.271138,0.164106,1.0
2016-07-02,0.155836,1.447187,1.27785,-0.668987,
2016-07-03,-1.074468,-1.574007,0.639077,0.480052,3.5
2016-07-04,0.667285,2.372768,-1.638681,-0.04664,6.1
2016-07-05,0.827456,0.106106,-0.231914,-0.473081,
2016-07-06,1.895407,0.213604,0.375548,0.477794,7.0


In [73]:
# 행의 값중 하나라도 nan인 경우 그 행을 없앤다. 
df.dropna(how="any") 

Unnamed: 0,A,B,C,D,F
2016-07-01,0.330822,1.061816,-0.271138,0.164106,1.0
2016-07-03,-1.074468,-1.574007,0.639077,0.480052,3.5
2016-07-04,0.667285,2.372768,-1.638681,-0.04664,6.1
2016-07-06,1.895407,0.213604,0.375548,0.477794,7.0


In [74]:
# 행의 값의 모든 값이 nan인 경우 그 행을 없앤다.
df.dropna(how='all')

Unnamed: 0,A,B,C,D,F
2016-07-01,0.330822,1.061816,-0.271138,0.164106,1.0
2016-07-02,0.155836,1.447187,1.27785,-0.668987,
2016-07-03,-1.074468,-1.574007,0.639077,0.480052,3.5
2016-07-04,0.667285,2.372768,-1.638681,-0.04664,6.1
2016-07-05,0.827456,0.106106,-0.231914,-0.473081,
2016-07-06,1.895407,0.213604,0.375548,0.477794,7.0


In [75]:
# NaN에 특정 value 값 넣기
df.fillna(value=0.5)

Unnamed: 0,A,B,C,D,F
2016-07-01,0.330822,1.061816,-0.271138,0.164106,1.0
2016-07-02,0.155836,1.447187,1.27785,-0.668987,0.5
2016-07-03,-1.074468,-1.574007,0.639077,0.480052,3.5
2016-07-04,0.667285,2.372768,-1.638681,-0.04664,6.1
2016-07-05,0.827456,0.106106,-0.231914,-0.473081,0.5
2016-07-06,1.895407,0.213604,0.375548,0.477794,7.0


### 4.4 drop 명령어

In [76]:
# 특정 행 drop하기 
df.drop(pd.to_datetime('20160701'))

Unnamed: 0,A,B,C,D,F
2016-07-02,0.155836,1.447187,1.27785,-0.668987,
2016-07-03,-1.074468,-1.574007,0.639077,0.480052,3.5
2016-07-04,0.667285,2.372768,-1.638681,-0.04664,6.1
2016-07-05,0.827456,0.106106,-0.231914,-0.473081,
2016-07-06,1.895407,0.213604,0.375548,0.477794,7.0


In [77]:
# 2개 이상도 가능 
df.drop([pd.to_datetime('20160702'),pd.to_datetime('20160704')])

Unnamed: 0,A,B,C,D,F
2016-07-01,0.330822,1.061816,-0.271138,0.164106,1.0
2016-07-03,-1.074468,-1.574007,0.639077,0.480052,3.5
2016-07-05,0.827456,0.106106,-0.231914,-0.473081,
2016-07-06,1.895407,0.213604,0.375548,0.477794,7.0


In [78]:
# 특정 열 삭제하기 
df.drop('F', axis=1)

Unnamed: 0,A,B,C,D
2016-07-01,0.330822,1.061816,-0.271138,0.164106
2016-07-02,0.155836,1.447187,1.27785,-0.668987
2016-07-03,-1.074468,-1.574007,0.639077,0.480052
2016-07-04,0.667285,2.372768,-1.638681,-0.04664
2016-07-05,0.827456,0.106106,-0.231914,-0.473081
2016-07-06,1.895407,0.213604,0.375548,0.477794


In [79]:
# 2개 이상의 열도 가능 
df.drop(['B','D'], axis = 1) 

Unnamed: 0,A,C,F
2016-07-01,0.330822,-0.271138,1.0
2016-07-02,0.155836,1.27785,
2016-07-03,-1.074468,0.639077,3.5
2016-07-04,0.667285,-1.638681,6.1
2016-07-05,0.827456,-0.231914,
2016-07-06,1.895407,0.375548,7.0


# 5. pandas 데이터 입출력
- pandas는 데이터 분석을 위해 여러 포맷의 데이터 파일을 읽고 쓸수 있다.
- csv, excel, html, json, hdf5, sas, stata, sql

### 5.1 pandas 데이터 불러오기

In [80]:
data = pd.read_csv('data/sample1.csv')
data

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [81]:
stock = pd.read_excel('data/stock price.xlsx', index_col=0)
stock.head()

Unnamed: 0_level_0,stock_name,value,price
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
128940,한미약품,59385.666667,421000
130960,CJ E&M,58540.666667,98900
138250,엔에스쇼핑,14558.666667,13200
139480,이마트,239230.833333,254500
142280,녹십자엠에스,468.833333,10200


In [82]:
pd.read_csv('data/sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [83]:
# c1을 인덱스로 불러오기
pd.read_csv('data/sample1.csv', index_col="c1")

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


### 5.2 pandas 데이터 쓰기

In [84]:
df.to_csv("sample10.csv")

In [85]:
df.to_csv("data/sample9.csv", index=False, header=False)

# 6. 데이터 처리하기

### 6.1 정렬(Sort)
- 데이터를 정렬로 sort_index는 인덱스 값을 기준으로, 
- sort_values는 데이터 값을 기준으로 정렬

In [86]:
# np.random으로 시리즈 생성
s = pd.Series(np.random.randint(6, size=100))
s.head()

0    4
1    5
2    0
3    4
4    3
dtype: int64

In [87]:
# value_counts 메서드로 값을 카운트
s.value_counts()

1    22
5    20
2    19
3    17
4    11
0    11
dtype: int64

In [88]:
# sort_index 메서드로 정렬하기
s.value_counts().sort_index()

0    11
1    22
2    19
3    17
4    11
5    20
dtype: int64

In [89]:
# ascending=False 인자로 내림차순 정리
s.sort_values(ascending=False).head()

28    5
44    5
59    5
86    5
29    5
dtype: int64

### 6.2 apply 함수
- 행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용
- 인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 수행

#### lambda 함수: 
- 파이썬에서 "lambda" 는 런타임에 생성해서 사용할 수 있는 익명 함수
- lambda는 쓰고 버리는 일시적인 함수로 생성된 곳에서만 적용


In [90]:
df = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [91]:
# 람다 함수 사용
df.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64

In [92]:
# 만약 행에 대해 적용하고 싶으면 axis=1 인수 사용
df.apply(lambda x: x.max() - x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [93]:
# apply로 value_counts로 값의 수를 반환
df.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [94]:
# NaN 결측치에 fillna(0)으로 0을 채우고 순차적으로 정수로 변환
df.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


### 6.3 describe 메서드
describe() 함수는 DataFrame의 계산 가능한 값들의 통계값을 보여준다

In [95]:
df.describe()

Unnamed: 0,A,B,C
count,5.0,5.0,5.0
mean,3.0,2.2,3.2
std,1.224745,0.83666,1.643168
min,1.0,1.0,1.0
25%,3.0,2.0,2.0
50%,3.0,2.0,4.0
75%,4.0,3.0,4.0
max,4.0,3.0,5.0
