# Pandas 고급 - 1

In [25]:
import pandas as pd
import numpy as np

와인을 구성하는 화학적 성분을 나타내는 데이터셋을 사용합니다.

In [26]:
url = "https://raw.githubusercontent.com/ironmanciti/Python_Data_Analysis_1Day/main/data/winequality-red.csv"
df = pd.read_csv(url, sep=";")
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


### DataFrame 을 csv file 로 write

원본 DataFrame의 특정 열만으로 새로운 DataFrame을 만들어 csv 파일로 저장합니다.

In [27]:
df2 = df.loc[:, ['quality', 'alcohol', 'pH']]
df2.to_csv('winequality-2.csv')

저장한 csv 파일을 읽어 들입니다.

In [28]:
pd.read_csv('winequality-2.csv', index_col=0).head()

Unnamed: 0,quality,alcohol,pH
0,5,9.4,3.51
1,5,9.8,3.2
2,5,9.8,3.26
3,6,9.8,3.16
4,5,9.4,3.51


### df.apply + lambda
- 특정 column 에 함수의 반환값 저장

익명 함수를 DataFrame에 적용하여 그 결과를 새로운 column에 저장합니다.

In [29]:
df["New_val"] = df.apply(lambda x : (x["fixed acidity"] + x["citric acid"]) / 2 , axis = 1 )
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,New_val
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,3.7
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,3.9
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,3.92
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,5.88
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,3.7


### lambda 보다 더 복잡한 함수 적용

익명 함수로 처리하기 어려운 복잡한 알고리즘이 필요한 경우 별도의 함수를 선언하여 적용할 수 있습니다.

In [30]:
def custom(alcohol , ph) :
    if alcohol < 10 :
        return ph * 1.5
    else :
        return ph * -1

df["New_pH"] = df.apply(lambda x : custom(x["alcohol"], x["pH"]) , axis = 1 )
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,New_val,New_pH
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,3.7,5.265
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,3.9,4.8
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,3.92,4.89
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,5.88,4.74
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,3.7,5.265


# 병합(Merging) 과 연결(Concatenating)

## 병합(merging)

데이터프레임 병합은 하나 이상의 공통 열을 기반으로 두 개 이상의 데이터프레임을 단일 데이터프레임으로 결합하는 프로세스입니다. 다음은 예제입니다.  

이 예제에서는 merge() 함수를 사용하여 키 열을 기준으로 두 데이터 프레임 df1 및 df2를 병합합니다. 병합된 결과 데이터 프레임에는 `key` 열에 공통 값이 있는 행만 포함됩니다.

In [31]:
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

# 'key있는 두 개의 데이터프레임을 병합합니다.
merged_df = pd.merge(df1, df2, on='key')
merged_df

Unnamed: 0,key,value_x,value_y
0,B,2,5
1,D,4,6


### 연결(concatenating)
데이터프레임 연결은 특정 축(행 또는 열)을 따라 두 개 이상의 데이터프레임을 결합하는 프로세스입니다. 다음은 예시입니다.  
이 예제에서는 concat() 함수를 사용하여 행 축을 따라 두 데이터 프레임 df1과 df2를 연결합니다. 결과적으로 연결된 데이터 프레임에는 두 데이터 프레임의 모든 행이 포함됩니다.

- DataFrame 들의 dimension 이 반드시 같아야 합니다.  
- SQL 의 UNION 에 해당 합니다.

In [32]:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [4, 5, 6], 'B': [7, 8, 9]})

# axis=0 으로 지정하면 행 축을 따라 두 데이터 프레임을 연결합니다.
concatenated_df = pd.concat([df1, df2], axis=0)
concatenated_df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
0,4,7
1,5,8
2,6,9


In [33]:
# axis = 1 로 지정하면 column 축을 기준으로 프레임을 연결합니다.
pd.concat([df1, df2], axis=1)

Unnamed: 0,A,B,A.1,B.1
0,1,4,4,7
1,2,5,5,8
2,3,6,6,9


## Method Chaining

method chaining은 동일한 객체에 대한 여러 메서드 호출을 단일 문으로 연결하는 것입니다.

method chaining 사용 않을 경우 다음과 같이 여러 줄로 coding하게 됩니다.

In [34]:
tmp = df.where(df['quality'] == 3)
tmp = tmp.dropna()
tmp = tmp.reset_index()
tmp = tmp.rename(columns={'fixed acidity': 'acid', 'quality': 'target'})
tmp = tmp.loc[:, ['acid', 'target']]
tmp.head()

Unnamed: 0,acid,target
0,11.6,3.0
1,10.4,3.0
2,7.4,3.0
3,10.4,3.0
4,8.3,3.0


method chaining을 사용할 경우 한 줄로 코딩 가능합니다.  

python은 `()`를 이용하면 여러 line 에 걸쳐 coding 가능합니다.

In [35]:
(df.where(df['quality'] == 3)
    .dropna()
    .reset_index()
    .rename(columns={'fixed acidity': 'acid', 'quality': 'target'})
    .loc[:, ['acid', 'target']]).head()

Unnamed: 0,acid,target
0,11.6,3.0
1,10.4,3.0
2,7.4,3.0
3,10.4,3.0
4,8.3,3.0


## groupby

groupby는 하나 이상의 열을 기준으로 데이터 프레임을 그룹화한 다음 그룹에 집계 함수(또는 여러 집계 함수)를 적용할 수 있는 Pandas의 메서드입니다.

groupby 를 사용하지 않고 for loop을 이용하여 wine quaility 등급별 평균 `fixed acidity`를 구해 봅니다.  

In [36]:
df['quality'].unique()

array([5, 6, 7, 4, 8, 3])

group by 를 사용하여 wine quaility 등급별 평균 `fixed acidity`를 구해 봅니다.

In [37]:
for group, frame in df.groupby('quality'):
    avg = np.mean(frame['fixed acidity'])
    print(f"quality {group} 의 평균 fixed acidity 는 {avg:.2f}")

quality 3 의 평균 fixed acidity 는 8.36
quality 4 의 평균 fixed acidity 는 7.78
quality 5 의 평균 fixed acidity 는 8.17
quality 6 의 평균 fixed acidity 는 8.35
quality 7 의 평균 fixed acidity 는 8.87
quality 8 의 평균 fixed acidity 는 8.57


### groupby + aggregate method 사용
groupby() 함수는 "집계"를 의미하며 각 그룹에 적용할 함수를 하나 이상 지정할 수 있습니다.
- agg : alias of aggretate

`fixed acidity` 열에 np.mean 함수를 적용합니다.

In [38]:
df.groupby('quality').agg({'fixed acidity': np.mean})

Unnamed: 0_level_0,fixed acidity
quality,Unnamed: 1_level_1
3,8.36
4,7.779245
5,8.167254
6,8.347179
7,8.872362
8,8.566667


## Pivot Tabels

- 피벗 테이블은 하나 이상의 열에 따라 데이터를 그룹화하고 집계하여 데이터 프레임의 데이터를 요약하고 집계하는 방법입니다.

- 여러 데이터 중에서 자신이 원하는 데이터만을 가지고 원하는 행과 열에 데이터를 배치하여 새로운 보고서를 만들 수 있습니다.

자동차 연비 data 를 불러옵니다.

In [39]:
url = "https://raw.githubusercontent.com/ironmanciti/Python_Data_Analysis_1Day/main/data/cars.csv"
df = pd.read_csv(url)
df.head()

Unnamed: 0,YEAR,Make,Model,Size,(kW),Unnamed: 5,TYPE,CITY (kWh/100 km),HWY (kWh/100 km),COMB (kWh/100 km),CITY (Le/100 km),HWY (Le/100 km),COMB (Le/100 km),(g/km),RATING,(km),TIME (h)
0,2012,MITSUBISHI,i-MiEV,SUBCOMPACT,49,A1,B,16.9,21.4,18.7,1.9,2.4,2.1,0,,100,7
1,2012,NISSAN,LEAF,MID-SIZE,80,A1,B,19.3,23.0,21.1,2.2,2.6,2.4,0,,117,7
2,2013,FORD,FOCUS ELECTRIC,COMPACT,107,A1,B,19.0,21.1,20.0,2.1,2.4,2.2,0,,122,4
3,2013,MITSUBISHI,i-MiEV,SUBCOMPACT,49,A1,B,16.9,21.4,18.7,1.9,2.4,2.1,0,,100,7
4,2013,NISSAN,LEAF,MID-SIZE,80,A1,B,19.3,23.0,21.1,2.2,2.6,2.4,0,,117,7


### pivot table 작성예 1
- 연도, 제작사 (`YEAR`, `Make`) 별로 평균 배터리용량 `(kw)` 을 보여주는 pivot table을 생성합니다.  

- 연도를 index 로 하고, 제작사를 column 에 배치합니다.

- pivot table의 value 는 해당연도 제작사 배터리 용량의 평균값을 표시 합니다.

In [40]:
df.pivot_table(values='(kW)', index='YEAR',
               columns='Make', aggfunc=np.mean)

Make,BMW,CHEVROLET,FORD,KIA,MITSUBISHI,NISSAN,SMART,TESLA
YEAR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2012,,,,,49.0,80.0,,
2013,,,107.0,,49.0,80.0,35.0,280.0
2014,,104.0,107.0,,49.0,80.0,35.0,268.333333
2015,125.0,104.0,107.0,81.0,49.0,80.0,35.0,320.666667
2016,125.0,104.0,107.0,81.0,49.0,80.0,35.0,409.7


### pivot table 작성 예 2

- 위와 동일한 방법으로 평균과 최소량을 동시에 보여주는 pivot table을 생성합니다.

In [41]:
df.pivot_table(values='(kW)', index='YEAR',
               columns='Make', aggfunc=[np.mean, np.min])

Unnamed: 0_level_0,mean,mean,mean,mean,mean,mean,mean,mean,min,min,min,min,min,min,min,min
Make,BMW,CHEVROLET,FORD,KIA,MITSUBISHI,NISSAN,SMART,TESLA,BMW,CHEVROLET,FORD,KIA,MITSUBISHI,NISSAN,SMART,TESLA
YEAR,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
2012,,,,,49.0,80.0,,,,,,,49.0,80.0,,
2013,,,107.0,,49.0,80.0,35.0,280.0,,,107.0,,49.0,80.0,35.0,270.0
2014,,104.0,107.0,,49.0,80.0,35.0,268.333333,,104.0,107.0,,49.0,80.0,35.0,225.0
2015,125.0,104.0,107.0,81.0,49.0,80.0,35.0,320.666667,125.0,104.0,107.0,81.0,49.0,80.0,35.0,280.0
2016,125.0,104.0,107.0,81.0,49.0,80.0,35.0,409.7,125.0,104.0,107.0,81.0,49.0,80.0,35.0,283.0


`margins = True`를 추가하면 aggfunc 별로 subtotal이  추가  됩니다.

In [42]:
df.pivot_table(values='(kW)', index='YEAR',
               columns='Make', aggfunc=[np.mean, np.min], margins=True)

Unnamed: 0_level_0,mean,mean,mean,mean,mean,mean,mean,mean,mean,min,min,min,min,min,min,min,min,min
Make,BMW,CHEVROLET,FORD,KIA,MITSUBISHI,NISSAN,SMART,TESLA,All,BMW,CHEVROLET,FORD,KIA,MITSUBISHI,NISSAN,SMART,TESLA,All
YEAR,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2012,,,,,49.0,80.0,,,64.5,,,,,49.0,80.0,,,49
2013,,,107.0,,49.0,80.0,35.0,280.0,158.444444,,,107.0,,49.0,80.0,35.0,270.0,35
2014,,104.0,107.0,,49.0,80.0,35.0,268.333333,135.0,,104.0,107.0,,49.0,80.0,35.0,225.0,35
2015,125.0,104.0,107.0,81.0,49.0,80.0,35.0,320.666667,181.428571,125.0,104.0,107.0,81.0,49.0,80.0,35.0,280.0,35
2016,125.0,104.0,107.0,81.0,49.0,80.0,35.0,409.7,252.263158,125.0,104.0,107.0,81.0,49.0,80.0,35.0,283.0,35
All,125.0,104.0,107.0,81.0,49.0,80.0,35.0,345.478261,190.622642,125.0,104.0,107.0,81.0,49.0,80.0,35.0,225.0,35
