# Pandas 고급

In [1]:
import pandas as pd
import numpy as np

와인을 구성하는 화학적 성분을 나타내는 데이터셋을 사용합니다.

In [2]:
df = pd.read_csv("data/winequality-red.csv", sep=";")
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


### DataFrame 을 csv file 로 write

원본 DataFrame의 특정 열만으로 새로운 DataFrame을 만들어 csv 파일로 저장합니다.

In [3]:
df2 = df.loc[:, ['quality', 'alcohol', 'pH']]
df2.to_csv('data/winequality-2.csv')

저장한 csv 파일을 읽어 들입니다.

In [4]:
pd.read_csv('data/winequality-2.csv', index_col=0).head()

Unnamed: 0,quality,alcohol,pH
0,5,9.4,3.51
1,5,9.8,3.2
2,5,9.8,3.26
3,6,9.8,3.16
4,5,9.4,3.51


### df.apply + lambda 
- 특정 column 에 함수의 반환값 저장

익명 함수를 DataFrame에 적용하여 그 결과를 새로운 column에 저장합니다.

In [5]:
df["New_val"] = df.apply(lambda x : (x["fixed acidity"] + x["citric acid"]) / 2 , axis = 1 )
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,New_val
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,3.7
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,3.9
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,3.92
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,5.88
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,3.7


### lambda 보다 더 복잡한 함수 적용

익명 함수로 처리하기 어려운 복잡한 알고리즘이 필요한 경우 별도의 함수를 선언하여 적용할 수 있습니다.

In [6]:
def custom(alcohol , ph) :
    if alcohol < 10 :
        return ph * 1.5
    else :
        return ph * -1

df["New_pH"] = df.apply(lambda x : custom(x["alcohol"], x["pH"]) , axis = 1 )
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,New_val,New_pH
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,3.7,5.265
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,3.9,4.8
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,3.92,4.89
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,5.88,4.74
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,3.7,5.265


## Method Chaining

method chaining은 동일한 객체에 대한 여러 메서드 호출을 단일 문으로 연결하는 것입니다.

In [7]:
df = pd.read_csv('data/winequality-red.csv', sep=';')
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


method chaining 사용 않을 경우 다음과 같이 여러 줄로 coding하게 됩니다.

In [8]:
tmp = df.where(df['quality'] == 3)
tmp = tmp.dropna()
tmp = tmp.reset_index()
tmp = tmp.rename(columns={'fixed acidity': 'acid', 'quality': 'target'})
tmp = tmp.loc[:, ['acid', 'target']]
tmp.head()

Unnamed: 0,acid,target
0,11.6,3.0
1,10.4,3.0
2,7.4,3.0
3,10.4,3.0
4,8.3,3.0


method chaining을 사용할 경우 한 줄로 코딩 가능합니다.  

python은 `()`를 이용하면 여러 line 에 걸쳐 coding 가능합니다.

In [9]:
(df.where(df['quality'] == 3)
    .dropna()
    .reset_index()
    .rename(columns={'fixed acidity': 'acid', 'quality': 'target'})
    .loc[:, ['acid', 'target']]).head()

Unnamed: 0,acid,target
0,11.6,3.0
1,10.4,3.0
2,7.4,3.0
3,10.4,3.0
4,8.3,3.0


## groupby

groupby는 하나 이상의 열을 기준으로 데이터 프레임을 그룹화한 다음 그룹에 집계 함수(또는 여러 집계 함수)를 적용할 수 있는 Pandas의 메서드입니다.

groupby 를 사용하지 않고 for loop을 이용하여 wine quaility 등급별 평균 `fixed acidity`를 구해 봅니다.  

In [10]:
df['quality'].unique()

array([5, 6, 7, 4, 8, 3], dtype=int64)

In [11]:
for quality in sorted(df['quality'].unique()):
    avg = np.mean(df.where(df['quality'] == quality)
                  .dropna()['fixed acidity'])
    print(f"quality {quality} 의 평균 fixed acidity 는 {avg:.2f}")

quality 3 의 평균 fixed acidity 는 8.36
quality 4 의 평균 fixed acidity 는 7.78
quality 5 의 평균 fixed acidity 는 8.17
quality 6 의 평균 fixed acidity 는 8.35
quality 7 의 평균 fixed acidity 는 8.87
quality 8 의 평균 fixed acidity 는 8.57


group by 를 사용하여 wine quaility 등급별 평균 `fixed acidity`를 구해 봅니다.

In [12]:
for group, frame in df.groupby('quality'):
    print(group)
    print(frame.shape)
    print(frame)

3
(10, 12)
      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
459            11.6             0.580         0.66            2.20      0.074   
517            10.4             0.610         0.49            2.10      0.200   
690             7.4             1.185         0.00            4.25      0.097   
832            10.4             0.440         0.42            1.50      0.145   
899             8.3             1.020         0.02            3.40      0.084   
1299            7.6             1.580         0.00            2.10      0.137   
1374            6.8             0.815         0.00            1.20      0.267   
1469            7.3             0.980         0.05            2.10      0.061   
1478            7.1             0.875         0.05            5.70      0.082   
1505            6.7             0.760         0.02            1.80      0.078   

      free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
459                 

In [13]:
for group, frame in df.groupby('quality'):
    avg = np.mean(frame['fixed acidity'])
    print(f"quality {group} 의 평균 fixed acidity 는 {avg:.2f}")

quality 3 의 평균 fixed acidity 는 8.36
quality 4 의 평균 fixed acidity 는 7.78
quality 5 의 평균 fixed acidity 는 8.17
quality 6 의 평균 fixed acidity 는 8.35
quality 7 의 평균 fixed acidity 는 8.87
quality 8 의 평균 fixed acidity 는 8.57


### groupby + aggregate method 사용
groupby() 함수는 "집계"를 의미하며 각 그룹에 적용할 함수를 하나 이상 지정할 수 있습니다.
- agg : alias of aggretate

In [14]:
df.groupby('quality').agg({'fixed acidity': "mean"})

Unnamed: 0_level_0,fixed acidity
quality,Unnamed: 1_level_1
3,8.36
4,7.779245
5,8.167254
6,8.347179
7,8.872362
8,8.566667


## Column Value Update
DataFrame의 특정 column 값을 update 할 수 있습니다. 

새로운 DataFrame을 생성 하겠습니다.

In [15]:
df = pd.DataFrame([{"name": "홍길동", "Item": "김치", "Cost": 22.50},
                                {"name": "김철수", "Item": "생선", "Cost": 2.50},
                                {"name": "이영희", "Item": "숫가락", "Cost": 5.00}],
                                index=['Store 1', 'Store 1', 'Store 2'])
df

Unnamed: 0,name,Item,Cost
Store 1,홍길동,김치,22.5
Store 1,김철수,생선,2.5
Store 2,이영희,숫가락,5.0


row 갯수에 해당하는 list 를 이용하여 새로운 column을 추가할 수 있습니다. 

In [16]:
df['Date'] = ['December 1', 'January 1', 'mid-May']
df

Unnamed: 0,name,Item,Cost,Date
Store 1,홍길동,김치,22.5,December 1
Store 1,김철수,생선,2.5,January 1
Store 2,이영희,숫가락,5.0,mid-May


**broadcasting**     
데이터프레임 브로드캐스팅은 데이터프레임의 모든 요소에 스칼라 값을 적용하거나 동일한 모양의 다른 데이터프레임의 값을 사용하여 한 데이터프레임의 모든 요소에 연산을 적용할 수 있는 Pandas의 기능입니다.

In [17]:
df['Delivered'] = True
df

Unnamed: 0,name,Item,Cost,Date,Delivered
Store 1,홍길동,김치,22.5,December 1,True
Store 1,김철수,생선,2.5,January 1,True
Store 2,이영희,숫가락,5.0,mid-May,True


reset_index 메소드를 이용하여 index를 재설정할 수 있습니다.   
index 값은 `index`라는 새로운 column에 저장됩니다.

In [18]:
adf = df.reset_index()
adf

Unnamed: 0,index,name,Item,Cost,Date,Delivered
0,Store 1,홍길동,김치,22.5,December 1,True
1,Store 1,김철수,생선,2.5,January 1,True
2,Store 2,이영희,숫가락,5.0,mid-May,True


`index` column 명을 `Store`로 변경합니다.

In [19]:
adf.rename(columns={'index': 'Store'}, inplace=True)
adf

Unnamed: 0,Store,name,Item,Cost,Date,Delivered
0,Store 1,홍길동,김치,22.5,December 1,True
1,Store 1,김철수,생선,2.5,January 1,True
2,Store 2,이영희,숫가락,5.0,mid-May,True


특정 column 의 값을 Series를 이용하여 update 합니다. row의 갯수가 부족하면 NaN으로 채워집니다.

In [20]:
adf['Date'] = pd.Series(['January 1', 'mid-May'])
adf

Unnamed: 0,Store,name,Item,Cost,Date,Delivered
0,Store 1,홍길동,김치,22.5,January 1,True
1,Store 1,김철수,생선,2.5,mid-May,True
2,Store 2,이영희,숫가락,5.0,,True


특정 column의 값을 dictionary를 이용하여 update 합니다. dictionary의 key 값을 index 값으로 매칭 시킵니다.

In [21]:
adf['Date'] = pd.Series({0: 'January 1', 2: 'mid-May'})
adf

Unnamed: 0,Store,name,Item,Cost,Date,Delivered
0,Store 1,홍길동,김치,22.5,January 1,True
1,Store 1,김철수,생선,2.5,,True
2,Store 2,이영희,숫가락,5.0,mid-May,True


# 병합(Merging) 과 연결(Concatenating)

## 병합(merging)

데이터프레임 병합은 하나 이상의 공통 열을 기반으로 두 개 이상의 데이터프레임을 단일 데이터프레임으로 결합하는 프로세스입니다. 다음은 예제입니다.  

이 예제에서는 merge() 함수를 사용하여 키 열을 기준으로 두 데이터 프레임 df1 및 df2를 병합합니다. 병합된 결과 데이터 프레임에는 `key` 열에 공통 값이 있는 행만 포함됩니다.

In [22]:
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

# 'key있는 두 개의 데이터프레임을 병합합니다.
merged_df = pd.merge(df1, df2, on='key')
merged_df

Unnamed: 0,key,value_x,value_y
0,B,2,5
1,D,4,6


### 연결(concatenating)
데이터프레임 연결은 특정 축(행 또는 열)을 따라 두 개 이상의 데이터프레임을 결합하는 프로세스입니다. 다음은 예시입니다.  
이 예제에서는 concat() 함수를 사용하여 행 축을 따라 두 데이터 프레임 df1과 df2를 연결합니다. 결과적으로 연결된 데이터 프레임에는 두 데이터 프레임의 모든 행이 포함됩니다.

- DataFrame 들의 dimension 이 반드시 같아야 합니다.  
- SQL 의 UNION 에 해당 합니다.

In [23]:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [4, 5, 6], 'B': [7, 8, 9]})

# axis=0 으로 지정하면 행 축을 따라 두 데이터 프레임을 연결합니다.
concatenated_df = pd.concat([df1, df2], axis=0)
concatenated_df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
0,4,7
1,5,8
2,6,9


In [24]:
# axis = 1 로 지정하면 column 축을 기준으로 프레임을 연결합니다.
pd.concat([df1, df2], axis=1)  

Unnamed: 0,A,B,A.1,B.1
0,1,4,4,7
1,2,5,5,8
2,3,6,6,9
