In [1]:
import matplotlib

In [2]:
import numpy as np
import pandas as pd
se = pd.Series([1,2,np.nan,4]) # default : float
se # index, data

0    1.0
1    2.0
2    NaN
3    4.0
dtype: float64

In [3]:
### 시리즈.isna() : 결측값이 있는지 boolean값으로 반환

In [4]:
a = se.isna()
a

0    False
1    False
2     True
3    False
dtype: bool

In [5]:
se[0] , se[1] # 리스트와 동일한 방법으로 indexing

(1.0, 2.0)

In [6]:
indexed = pd.Series([1,2,np.nan,4],index = ['a','b','c','d']) # index를 다른 문자열로 변경
indexed

a    1.0
b    2.0
c    NaN
d    4.0
dtype: float64

In [7]:
indexed['a'],indexed['d']

(1.0, 4.0)

### 딕셔너리도 시리즈로 만들 수 있다.

In [9]:
income = {'1월':950,'2월':620,'3월':6050,'4월':700}
income_se = pd.Series(income)
income_se

1월     950
2월     620
3월    6050
4월     700
dtype: int64

### 시리즈 + 시리즈 = 데이터프레임

In [11]:
month_se = pd.Series(['1월','2월','3월','4월'])  
income_se = pd.Series([950,620,6050,700])  
expenses_se = pd.Series([5040,2350,230,480])  
df = pd.DataFrame({'월':month_se,'수익':income_se,  '지출':expenses_se})  
df # 웹?문?서 형태로 출력

Unnamed: 0,월,수익,지출
0,1월,950,5040
1,2월,620,2350
2,3월,6050,230
3,4월,700,480


In [12]:
print(df) # 텍스트 형태로 출력

    월    수익    지출
0  1월   950  5040
1  2월   620  2350
2  3월  6050   230
3  4월   700   480


### 기본적인 통계 제공

In [14]:
df.max() # 최댓값

월       4월
수익    6050
지출    5040
dtype: object

In [15]:
df.min() # 최솟값

월      1월
수익    620
지출    230
dtype: object

### 데이터 불러오기

In [17]:
path = 'https://github.com/dongupak/DataML/raw/main/csv/'  # 온라인 링크에서 불러오기
file = path + 'vehicle_prod.csv'
df = pd.read_csv(file,index_col = 0) # 0번째 열을 인덱스로 지정)
df

Unnamed: 0,2007,2008,2009,2010,2011
China,7.71,7.95,11.96,15.84,16.33
EU,19.02,17.71,15.0,16.7,17.48
US,10.47,8.45,5.58,7.6,8.4
Japan,10.87,10.83,7.55,9.09,7.88
Korea,4.04,3.78,3.45,4.2,4.62
Mexico,2.01,2.05,1.5,2.25,2.54


#### 로컬 저장소에서 불러오기

In [19]:
path_1 ='./data/iris.csv' # 상대 경로
df_1 = pd.read_csv(path_1)
df_1

FileNotFoundError: [Errno 2] No such file or directory: './data/iris.csv'

In [None]:
path_2  = 'D:/Python/데이터처리프로그래밍/data/vehicle_prod.csv' # 절대 경로 지정
df_2 = pd.read_csv(path_2)
df_2

In [None]:
path_1 ='./data/iris.csv' # 상대 경로
df_1 = pd.read_csv(path_1)
df_1 # 자동으로 인덱스 생성

In [None]:
df_11 = pd.read_csv(path_1,index_col = 0) # 0번째 열을 인덱스로 지정
df_11

### 데이터 구조 파악

In [None]:
df

In [None]:
df.columns # 데이터프레임의 컬럼 출력

In [None]:
df.index # 데이터프레임의 인덱스 출력

In [None]:
df['2007'] # 데이터프레임의 2007 인덱스를 가진 시리즈 출력

In [None]:
df.columns.tolist() # 데이터프레임의 컬럼명을 리스트로 변환

### 열 추가, 삭제하기

In [None]:
df.sum() # 행 방향으로 더하기, default : axis = 0

In [None]:
df['total'] = df.sum(axis= 1) # 열 방향으로 더해서 새로운 열(total)에 저장.
df

In [None]:
df['total'] = df.sum(axis=0)
df

In [None]:
df.loc['total'] = df.sum(axis = 0) # 행 추가
df

# 파이썬에 이미지 삽입

In [None]:
from IPython.display import Image

### 이미지 객체 사용

In [None]:
Image("https://st3.depositphotos.com/8696740/12816/v/950/depositphotos_128167954-stock-illustration-nature-flowers-wreath.jpg")

### 마크다운에 삽입

In [None]:
"""
![iris](https://st4.depositphotos.com/3266583/20886/v/1600/depositphotos_208869254-stock-illustration-nature-flower-purple-orchid-vector.jpg)
"""

![iris](https://st4.depositphotos.com/3266583/20886/v/1600/depositphotos_208869254-stock-illustration-nature-flower-purple-orchid-vector.jpg)

In [25]:
import seaborn as sns
import pandas as pd
import matplotlib

# Seaborn 데이터셋 로드
iris = sns.load_dataset('iris')
print(iris.shape)


(150, 5)


### df.drop(라벨, axis = 축(default = 0), inplace = False) :  삭제할 행/열의 라벨, 삭제할 방향(0 : 행, 1 : 열), inplace(True : 원본 변경, False : 새로운 데이터프레임 반환)

In [None]:
import pan

In [3]:
import pandas as pd
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
'Age': [28, 24, 35, 32],
'City': ['New York', 'Paris', 'Berlin', 'London'] } # 데이터프레임 생성
df = pd.DataFrame(data) # 딕셔너리를 데이터프레임으로 
df

Unnamed: 0,Name,Age,City
0,John,28,New York
1,Anna,24,Paris
2,Peter,35,Berlin
3,Linda,32,London


### DataFrame.loc[index, column명] : 인덱스, 열 이름으로 데이터 선택
- index: 선택하려는 행의 인덱스명
- column: 선택하려는 열의 이름

In [6]:
# df[0] ## 인덱싱 하려면 데이터프레임.loc 사용
a = df.loc[0] # 0번째 행 리턴, 시리즈 리턴
print(a)
type(a)

Name        John
Age           28
City    New York
Name: 0, dtype: object


pandas.core.series.Series

In [8]:
a = df.loc[: , 'Name'] # 하나의 시리즈(열)만 리턴
a

0     John
1     Anna
2    Peter
3    Linda
Name: Name, dtype: object

In [14]:
df.loc[[0,2],'Name'] # 0 ~ 2 행 출력, 데이터프레임 리턴

0     John
2    Peter
Name: Name, dtype: object

In [59]:
a = df.loc[[0]] # 0행 출력, 데이터프레임 리턴
print(a)
type(a)

   Name  Age      City
0  John   28  New York


pandas.core.frame.DataFrame

In [65]:
df.loc[[0,2]] # 0, 2행 출력

Unnamed: 0,Name,Age,City
0,John,28,New York
2,Peter,35,Berlin


### 데이터프레임.iloc : 인덱스 숫자를 기반으로 데이터를 선택

In [75]:
df.loc[2]

Name     Peter
Age         35
City    Berlin
Name: 2, dtype: object

In [71]:
df.iloc[2] # 3번째 행 선택

Name     Peter
Age         35
City    Berlin
Name: 2, dtype: object

In [73]:
df.iloc[2,0]

'Peter'

In [None]:
df.iloc[:,1] 

### ★ loc는 끝값을 포함하지만, iloc는 끝값을 포함하지 않는다

In [93]:
df.loc[1:3] # 1행 ~ 3행 선택

Unnamed: 0,Name,Age,City
1,Anna,24,Paris
2,Peter,35,Berlin
3,Linda,32,London


In [87]:
df.iloc[1:3] # 1행 ~ 2행 선택

Unnamed: 0,Name,Age,City
1,Anna,24,Paris
2,Peter,35,Berlin


In [95]:
# 시계열 데이터 샘플 생성
dates = pd.date_range('20240927', periods=6)
df = pd.DataFrame({'Sales':[100,150,200,250,300,350]}, index=dates)
df

Unnamed: 0,Sales
2024-09-27,100
2024-09-28,150
2024-09-29,200
2024-09-30,250
2024-10-01,300
2024-10-02,350


In [97]:
# loc 사용 예시: 특정 날짜 범위의 데이터 선택
# 2024년 9월 28일부터 9월 30일까지의 판매 데이터 선택
print("loc 사용 예시 (특정 날짜 범위의 데이터 선택):")
df.loc['2024-09-28':'2024-09-30'] # loc는 끝값 포함!

loc 사용 예시 (특정 날짜 범위의 데이터 선택):


Unnamed: 0,Sales
2024-09-28,150
2024-09-29,200
2024-09-30,250


In [107]:
df['Sales'] > 200

2024-09-27    False
2024-09-28    False
2024-09-29    False
2024-09-30     True
2024-10-01     True
2024-10-02     True
Freq: D, Name: Sales, dtype: bool

In [111]:
df.loc[df['Sales'] > 250] # 조건 인덱싱

Unnamed: 0,Sales
2024-10-01,300
2024-10-02,350


In [117]:
#df.iloc[df['Sales'] > 250] ## iloc는 숫자만 인덱스로 받을 수 있다

ValueError: iLocation based boolean indexing cannot use an indexable as a mask

In [None]:
iris = sns.load_dataset('iris')

In [119]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [139]:
# 아이리스 데이터셋에서 첫 번째, 세 번째 열을 선택하여 15 ~ 25번째 행의 데이터를 출력하는 코드를 작성하시오.
# iloc 사용
iris.iloc[15:26,[0,2]]

Unnamed: 0,sepal_length,petal_length
15,5.7,1.5
16,5.4,1.3
17,5.1,1.4
18,5.7,1.7
19,5.1,1.5
20,5.4,1.7
21,5.1,1.5
22,4.6,1.0
23,5.1,1.7
24,4.8,1.9


In [145]:
# loc 사용, 끝값 포함!
iris.loc[15:25,['sepal_length','petal_length']]

Unnamed: 0,sepal_length,petal_length
15,5.7,1.5
16,5.4,1.3
17,5.1,1.4
18,5.7,1.7
19,5.1,1.5
20,5.4,1.7
21,5.1,1.5
22,4.6,1.0
23,5.1,1.7
24,4.8,1.9


In [157]:
iris['species'] == 'setosa'

0       True
1       True
2       True
3       True
4       True
       ...  
145    False
146    False
147    False
148    False
149    False
Name: species, Length: 150, dtype: bool

In [171]:
# 아이리스 데이터셋에서 sepal_length가 5 이상이고, species가 setosa 인 컬럼을 추출하는 코드를 작성하시오
iris.loc[(iris['sepal_length'] >= 5.0) & (iris['species'] == 'setosa')]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
7,5.0,3.4,1.5,0.2,setosa
10,5.4,3.7,1.5,0.2,setosa
14,5.8,4.0,1.2,0.2,setosa
15,5.7,4.4,1.5,0.4,setosa
16,5.4,3.9,1.3,0.4,setosa
17,5.1,3.5,1.4,0.3,setosa
18,5.7,3.8,1.7,0.3,setosa


In [173]:
iris.loc[(iris['sepal_length'] >= 5.0) and (iris['species'] == 'setosa')]

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

### 참고

`pandas`에서 데이터프레임의 필터링을 할 때, `&`와 `and`의 차이가 발생하는 이유는 **연산 대상**과 **파이썬의 논리 연산 처리 방식** 때문입니다. 이 부분이 중요한 차이점을 만듭니다.

### 1. `&` 연산자 (`bitwise AND`):
- **대상**: `&` 연산자는 **시리즈(Series)** 객체 간의 **비트 연산**을 수행하는 연산자입니다.
- **사용 방식**: `pandas`에서 두 개 이상의 조건을 결합할 때는 `&` 연산자를 사용해야 합니다. 이 연산자는 각 조건이 반환하는 시리즈 객체 간의 **비트 연산**을 수행하여 결과적으로 논리적 AND를 수행합니다.
- **중요**: `&`를 사용할 때는 반드시 **각 조건을 괄호**로 감싸서 연산 우선순위를 명시해야 합니다. 그렇지 않으면 연산자 우선순위 때문에 잘못된 동작이 발생할 수 있습니다.

```python
iris.loc[(iris['sepal_length'] >= 5.0) & (iris['species'] == 'setosa')]
```

이 코드는 두 개의 조건을 만족하는 행을 필터링하여 `True` 값이 있는 곳만 반환합니다.

### 2. `and` 연산자:
- **대상**: `and`는 파이썬의 **논리 연산자**로, 단순한 **불리언 값**에 대해 사용됩니다. 그러나 `pandas`의 시리즈는 여러 값을 가진 **벡터화된 연산**을 지원하므로, `and`는 벡터화된 연산에 적합하지 않습니다.
- **문제 발생**: `and` 연산자는 **단일 불리언 값**에 대해서만 동작하기 때문에, `pandas.Series` 객체를 비교할 때는 `and`가 전체 시리즈에 대해 단일한 `True` 또는 `False` 값을 요구합니다. 하지만 시리즈는 여러 값들을 담고 있으므로, 이를 하나의 불리언 값으로 평가할 수 없기 때문에 오류가 발생하는 것입니다. 즉, `and`는 벡터화된 연산에 사용할 수 없으므로 `ValueError: The truth value of a Series is ambiguous` 오류가 발생합니다.

```python
iris.loc[(iris['sepal_length'] >= 5.0) and (iris['species'] == 'setosa')]
```

이 코드에서는 `and`가 `iris['sepal_length'] >= 5.0`과 `iris['species'] == 'setosa'` 두 개의 시리즈를 비교하려고 하지만, 각각은 벡터 연산을 수행하는 시리즈이기 때문에 파이썬은 이를 단일 불리언 값으로 평가할 수 없어 오류가 발생합니다.

### 오류 해결 방법:
`and` 대신 **벡터화된 논리 연산자**인 `&`를 사용해야 합니다. 또한, 각 조건을 **괄호로 묶어** 연산 우선순위를 명시적으로 지정하는 것이 필요합니다.

### 결론:
- `&`: `pandas`의 **시리즈 간 논리 연산**에서 사용됩니다.
- `and`: 파이썬의 **단일 불리언 연산**에 사용되며, 시리즈에는 사용할 수 없습니다.

좋은 지적이야! 하지만, `pandas.Series`의 조건문이 1개이더라도 각 조건이 반환하는 것은 단일 불리언 값이 아니라, **각각의 요소에 대해 개별적으로 평가된 불리언 값들의 시리즈(Series)**입니다.

### 예시를 살펴보자:
```python
import pandas as pd

# 간단한 데이터프레임 생성
data = {'sepal_length': [5.1, 4.9, 5.5],
        'species': ['setosa', 'versicolor', 'setosa']}
df = pd.DataFrame(data)

# 조건 1: sepal_length가 5 이상인 값
condition_1 = df['sepal_length'] >= 5.0
print(condition_1)
```

이 코드의 출력은:
```
0     True
1    False
2     True
Name: sepal_length, dtype: bool
```

위에서 `df['sepal_length'] >= 5.0`의 조건은 **각 행에 대해 평가**되어, 그 결과가 `Series([True, False, True])`라는 **불리언 시리즈**로 반환됩니다. 이처럼, 조건이 하나라 할지라도 `pandas`는 그 조건을 데이터프레임의 **각각의 행**에 대해 평가하여 불리언 값들의 시리즈를 반환합니다.

### 그렇다면 왜 `and`는 동작하지 않을까?

`and` 연산자는 **단일 불리언 값**만 비교할 수 있기 때문에, 위에서 반환된 `Series([True, False, True])`와 같은 **시리즈 전체**에 대해 평가할 수 없습니다. `and`는 시리즈에 대해 직접 동작하지 않고, 단일한 참/거짓 값을 기대하기 때문입니다.

즉, 다음과 같이 쓰면 오류가 발생합니다:

```python
df['sepal_length'] >= 5.0 and df['species'] == 'setosa'
```

이 경우 `and`는 `condition_1` (`Series([True, False, True])`)와 `df['species'] == 'setosa'` (`Series([True, False, True])`)를 비교하려 하지만, 이는 **단일 불리언 값**이 아니므로 `ValueError`가 발생합니다.

### 반면에 `&`는 어떻게 동작하나?

`&` 연산자는 시리즈 간의 **비트 단위 논리 연산**을 수행하여, 각 시리즈의 대응되는 요소에 대해 **AND 연산**을 수행합니다. 예를 들어:

```python
# AND 연산자 사용
df[(df['sepal_length'] >= 5.0) & (df['species'] == 'setosa')]
```

이 경우에도 두 조건이 각 행에 대해 평가되고, 각 조건의 결과가 시리즈로 반환됩니다. 하지만 `&` 연산자는 두 시리즈의 **각각의 요소들 간에** AND 연산을 수행하여 **벡터화된 논리 연산**을 처리합니다.

### 간단한 예시:
```python
condition_1 = df['sepal_length'] >= 5.0   # Series([True, False, True])
condition_2 = df['species'] == 'setosa'   # Series([True, False, True])

# & 연산자를 사용한 AND 연산
result = condition_1 & condition_2
print(result)
```

출력:
```
0     True
1    False
2     True
dtype: bool
```

이 결과는 두 시리즈의 각 요소를 비교하여 **AND** 연산을 수행한 결과로, `True`와 `False` 값을 가진 또 다른 시리즈입니다.

### 결론:
- **`and`**: 단일 불리언 값에만 사용됩니다. 여러 값(즉, 시리즈나 배열)을 비교하려 하면 오류가 발생합니다.
- **`&`**: 시리즈나 배열과 같은 벡터화된 데이터에 대해 **각각의 요소 간** 논리 연산을 수행할 수 있습니다.

따라서 `pandas` 데이터프레임에서 여러 조건을 결합할 때는 `and`가 아닌 **`&`** 연산자를 사용해야 합니다.

### pivot() : 데이터 구조 변경

In [182]:
df = pd.DataFrame({'상품' : ['시계', '반지', '반지', '목걸이', '팔찌'],
'재질' : ['금', '은', '백금', '금', '은'],
'가격': [500000, 20000, 350000, 300000, 60000]})
df

Unnamed: 0,상품,재질,가격
0,시계,금,500000
1,반지,은,20000
2,반지,백금,350000
3,목걸이,금,300000
4,팔찌,은,60000


In [188]:
new_df = df.pivot(index='상품', columns='재질', values='가격')
new_df

재질,금,백금,은
상품,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
목걸이,300000.0,,
반지,,350000.0,20000.0
시계,500000.0,,
팔찌,,,60000.0


In [190]:
new_df.fillna(value=0)

재질,금,백금,은
상품,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
목걸이,300000.0,0.0,0.0
반지,0.0,350000.0,20000.0
시계,500000.0,0.0,0.0
팔찌,0.0,0.0,60000.0


### 인덱스가 2개 이상, 컬럼이 2개 이상 -> pivot_table() 사용

### 타이타닉 

In [197]:
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [200]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [204]:
titanic.describe() # int, float형에 대해서 통계 출력

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [206]:
df = sns.load_dataset('titanic')[['age', 'sex', 'class', 'fare', 'survived']] # 데이터프레임의 일부 컬럼만 추출
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


### 피봇 테이블 생성

In [245]:
pd.pivot_table(df, # 데이터프레임
index= 'class', # 행 위치에 들어갈 열(기준)
columns='sex', # 열 위치에 들어갈 열 (기준)
values='age', # 데이터로 사용할 열
aggfunc='mean', # 데이터 집계함수, default : mean / sum, mean, min, max , count
observed = True) # 기본값: False, observed=True로 설정하면, 데이터프레임에서 실제로 관찰된 값만 포함하여 피벗 테이블을 생성합니다. 
# 즉, 빈 범주 또는 결측치가 있는 범주는 생략됩니다. 반면 observed=False로 설정하면, 모든 범주가 포함되어 결과에 나타납니다.)

sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,34.611765,41.281386
Second,28.722973,30.740707
Third,21.75,26.507589


In [256]:
df1 = pd.pivot_table(df, # 피벗할 데이터프레임
index = 'class', # 행 위치에 들어갈 열 (기준)
columns = 'sex', # 열 위치에 들어갈 열 (기준)
values = 'survived', # 데이터로 사용할 열
aggfunc = ['mean','sum'], # 데이터 집계함수, aggfunc = ['mean']
observed = True)
df1

Unnamed: 0_level_0,mean,mean,sum,sum
sex,female,male,female,male
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
First,0.968085,0.368852,91,45
Second,0.921053,0.157407,70,17
Third,0.5,0.135447,72,47


### ★ mean / sum과 sex 위치 바꾸기

### ★ 코드 보고 표 작성하기

In [263]:
df3 = pd.pivot_table(df, # 피벗할 데이터프레임
index = ['class','sex'], # 행 위치에 들어갈 열 (기준), 순서가 존재한다
columns = 'survived', # 열 위치에 들어갈 열 (기준)
values = ['age','fare'], # 데이터로 사용할 열
aggfunc = ['mean','max'], # 데이터 집계함수, aggfunc = ['mean']
observed = True)
df3

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958


In [267]:
df5 = pd.pivot_table(df, # 피벗할 데이터프레임
index = ['sex','class'], # 행 위치에 들어갈 열 (기준), 순서가 존재한다
columns = 'survived', # 열 위치에 들어갈 열 (기준)
values = ['age','fare'], # 데이터로 사용할 열
aggfunc = ['mean','max'], # 데이터 집계함수, aggfunc = ['mean']
observed = True)
df5

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
sex,class,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
female,First,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
female,Second,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
female,Third,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
male,First,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
male,Second,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
male,Third,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958


In [277]:
df5 = pd.pivot_table(df, # 피벗할 데이터프레임
index = ['sex','class'], # 행 위치에 들어갈 열 (기준), 순서가 존재한다
columns = ['survived'], # 열 위치에 들어갈 열 (기준)
values = ['age','fare'], # 데이터로 사용할 열
aggfunc = ['max'], # 데이터 집계함수, aggfunc = ['mean'], 리스트로 작성하면 aggfunc 명이 나타난다.
observed = True)
df5

Unnamed: 0_level_0,Unnamed: 1_level_0,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1
sex,class,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
female,First,50.0,63.0,151.55,512.3292
female,Second,57.0,55.0,26.0,65.0
female,Third,48.0,63.0,69.55,31.3875
male,First,71.0,80.0,263.0,512.3292
male,Second,70.0,62.0,73.5,39.0
male,Third,74.0,45.0,69.55,56.4958


### 실습 과제 iris 데이터셋에서 species 별로 sepal_length의 평균을 보여주는 피벗 테이블을 만드는 코드를 작성하시오

### pd.pivot_table(데이터프레임) , 데이터프레임.pivot_table 둘 다 가능

In [281]:
iris.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

In [299]:
df6 = iris.pivot_table( # 피벗할 데이터프레임
index = ['species'], # 행 위치에 들어갈 열 (기준), 순서가 존재한다 
values = ['sepal_length'], # 데이터로 사용할 열
aggfunc = ['max','min'], # 데이터 집계함수, aggfunc = ['mean'], 리스트로 작성하면 aggfunc 명이 나타난다.
observed = True)
df6

Unnamed: 0_level_0,max,min
Unnamed: 0_level_1,sepal_length,sepal_length
species,Unnamed: 1_level_2,Unnamed: 2_level_2
setosa,5.8,4.3
versicolor,7.0,4.9
virginica,7.9,4.9


### 데이터프레임.concat

axis = 0 : 행을 기준으로 연결<br>
axis = 1 : 열을 기준으로 연결

join = 'inner' : 교집합 <br>
join = 'outer' : 합집합

In [27]:
import pandas as pd
df1 = pd.DataFrame( {'name':['A','B','C','D'],
'age':[18,30,25,42],
'city':['Seoul','Incheon','Seoul','Busan'] },
index=[0,1,2,3])
df2 = pd.DataFrame( {'name':['B','C','D','E'],
'age':[30,25,42,11],
'city':['Incheon','Seoul','Busan','Suwon'],
'height':[150, 170, 180, 135] },
index=[1,2,3,4])
df1, df2 # 결과가 2개이면 튜플, 1개면 데이터프레임 return

(  name  age     city
 0    A   18    Seoul
 1    B   30  Incheon
 2    C   25    Seoul
 3    D   42    Busan,
   name  age     city  height
 1    B   30  Incheon     150
 2    C   25    Seoul     170
 3    D   42    Busan     180
 4    E   11    Suwon     135)

In [35]:
df3 = pd.concat([df1, df2]) # 리스트를 쓰는 이유 : 순서가 있어서?, defalt : axis = 0, join = 'outer'

df3

Unnamed: 0,name,age,city,height
0,A,18,Seoul,
1,B,30,Incheon,
2,C,25,Seoul,
3,D,42,Busan,
1,B,30,Incheon,150.0
2,C,25,Seoul,170.0
3,D,42,Busan,180.0
4,E,11,Suwon,135.0


In [45]:
df_3_ig = pd.concat([df1, df2],join = 'inner', ignore_index = True) # 인덱스를 무시하고 새로운 인덱스 생성
df_3_ig

Unnamed: 0,name,age,city
0,A,18,Seoul
1,B,30,Incheon
2,C,25,Seoul
3,D,42,Busan
4,B,30,Incheon
5,C,25,Seoul
6,D,42,Busan
7,E,11,Suwon


In [47]:
df_3 = pd.concat([df1, df2],join = 'inner') # 튜플로 작성해도 상관 없다.
df_3 # join = 'inner'면 공통된 열만 남는다.

Unnamed: 0,name,age,city
0,A,18,Seoul
1,B,30,Incheon
2,C,25,Seoul
3,D,42,Busan
1,B,30,Incheon
2,C,25,Seoul
3,D,42,Busan
4,E,11,Suwon


In [51]:
df_c = pd.concat([df1, df2], axis = 1, join = 'inner') # 열 방향 결합, 교집합으로 공통된 행만 남긴다.
df_c

Unnamed: 0,name,age,city,name.1,age.1,city.1,height
1,B,30,Incheon,B,30,Incheon,150
2,C,25,Seoul,C,25,Seoul,170
3,D,42,Busan,D,42,Busan,180


In [63]:
import seaborn as sns
import pandas as pd
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [75]:
df1 = titanic[['age','fare']]
df1

Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


In [77]:
df2 = titanic[['sex','class']]
df2

Unnamed: 0,sex,class
0,male,Third
1,female,First
2,female,Third
3,female,First
4,male,Third
...,...,...
886,male,Second
887,female,First
888,female,Third
889,male,First


In [79]:
df3 = pd.concat([df1,df2],axis =1 ) # 열 기주 결합
df3

Unnamed: 0,age,fare,sex,class
0,22.0,7.2500,male,Third
1,38.0,71.2833,female,First
2,26.0,7.9250,female,Third
3,35.0,53.1000,female,First
4,35.0,8.0500,male,Third
...,...,...,...,...
886,27.0,13.0000,male,Second
887,19.0,30.0000,female,First
888,,23.4500,female,Third
889,26.0,30.0000,male,First


In [121]:
import pandas as pd
df1 = pd.read_excel('./data/subway_fare.xlsx', sheet_name='reserved_ride')
df2 = pd.read_excel('./data/subway_fare.xlsx', sheet_name='free_ride')
df1, df2

(       사용월  호선명       지하철역   유임승차인원   유임하차인원
 0   202406  1호선         종각   914353   912364
 1   202406  1호선        제기동   230693   220271
 2   202406  2호선         합정   879304   962157
 3   202406  2호선         잠실  2083604  2053741
 4   202406  3호선       종로3가   256493   298838
 5   202406  3호선         금호   175799   160279
 6   202406  4호선  동대문역사문화공원   499102   437082
 7   202406  4호선      한성대입구   339558   329021
 8   202406  5호선         마포   336201   342120
 9   202406  5호선         군자   290513   321256
 10  202406  6호선         망원   368910   396240
 11  202406  6호선         창신    81569    66700
 12  202406  7호선         먹골   223381   216379
 13  202406  7호선         군자   349177   265871
 14  202406  8호선         잠실   398620   475358
 15  202406  8호선         산성   147386   147649,
        사용월  호선명       지하철역  무임승차인원  무임하차인원
 0   202406  1호선         종각  146932  137905
 1   202406  1호선         시청   97573   95530
 2   202406  2호선         합정   71736   73043
 3   202406  2호선         잠실  228907  2185

### pd.merge() : 병합 -> 행 방향이 없고 열(특성)을 붙히는 함수

how : '어떻게' 병합할지 결정 <br>
on : '어떤 기준으로' 병합할지 결정

In [125]:
df3 = df1.merge(df2) # default : how = 'inner', 두 데이터프레임에 모두 존재하는 행만 병합
df3 = pd.merge(df1, df2) # 위와 같은 수식
df3

Unnamed: 0,사용월,호선명,지하철역,유임승차인원,유임하차인원,무임승차인원,무임하차인원
0,202406,1호선,종각,914353,912364,146932,137905
1,202406,2호선,합정,879304,962157,71736,73043
2,202406,2호선,잠실,2083604,2053741,228907,218545
3,202406,3호선,종로3가,256493,298838,66253,74210
4,202406,4호선,동대문역사문화공원,499102,437082,65660,58995
5,202406,4호선,한성대입구,339558,329021,76969,75073
6,202406,5호선,마포,336201,342120,65737,65297
7,202406,5호선,군자,290513,321256,40679,46078
8,202406,6호선,망원,368910,396240,87837,91869
9,202406,6호선,창신,81569,66700,19997,18651


In [127]:
df_left = pd.merge(df1,df2,how = 'left') # df1에 있는 행 기준으로 결합
df_left

Unnamed: 0,사용월,호선명,지하철역,유임승차인원,유임하차인원,무임승차인원,무임하차인원
0,202406,1호선,종각,914353,912364,146932.0,137905.0
1,202406,1호선,제기동,230693,220271,,
2,202406,2호선,합정,879304,962157,71736.0,73043.0
3,202406,2호선,잠실,2083604,2053741,228907.0,218545.0
4,202406,3호선,종로3가,256493,298838,66253.0,74210.0
5,202406,3호선,금호,175799,160279,,
6,202406,4호선,동대문역사문화공원,499102,437082,65660.0,58995.0
7,202406,4호선,한성대입구,339558,329021,76969.0,75073.0
8,202406,5호선,마포,336201,342120,65737.0,65297.0
9,202406,5호선,군자,290513,321256,40679.0,46078.0


In [129]:
df_right = pd.merge(df1,df2, how = 'right') # df2에 있는 행 기준으로 병합
df_right

Unnamed: 0,사용월,호선명,지하철역,유임승차인원,유임하차인원,무임승차인원,무임하차인원
0,202406,1호선,종각,914353.0,912364.0,146932,137905
1,202406,1호선,시청,,,97573,95530
2,202406,2호선,합정,879304.0,962157.0,71736,73043
3,202406,2호선,잠실,2083604.0,2053741.0,228907,218545
4,202406,3호선,종로3가,256493.0,298838.0,66253,74210
5,202406,3호선,가락시장,,,81634,79742
6,202406,4호선,동대문역사문화공원,499102.0,437082.0,65660,58995
7,202406,4호선,한성대입구,339558.0,329021.0,76969,75073
8,202406,5호선,마포,336201.0,342120.0,65737,65297
9,202406,5호선,군자,290513.0,321256.0,40679,46078


In [131]:
df_outer = pd.merge(df1,df2, how = 'outer') # 합집합
df_outer

Unnamed: 0,사용월,호선명,지하철역,유임승차인원,유임하차인원,무임승차인원,무임하차인원
0,202406,1호선,시청,,,97573.0,95530.0
1,202406,1호선,제기동,230693.0,220271.0,,
2,202406,1호선,종각,914353.0,912364.0,146932.0,137905.0
3,202406,2호선,잠실,2083604.0,2053741.0,228907.0,218545.0
4,202406,2호선,합정,879304.0,962157.0,71736.0,73043.0
5,202406,3호선,가락시장,,,81634.0,79742.0
6,202406,3호선,금호,175799.0,160279.0,,
7,202406,3호선,종로3가,256493.0,298838.0,66253.0,74210.0
8,202406,4호선,동대문역사문화공원,499102.0,437082.0,65660.0,58995.0
9,202406,4호선,한성대입구,339558.0,329021.0,76969.0,75073.0


### on : 무엇을 기준으로 할 것인가, default : 공통된 모든 열을 비교

In [None]:
left_on : 왼쪽 데이터프레임에서 기준 특성을 지정
right_on : 오른쪽 데이터프레임에서 기준 특성을 지정, 쌍으로 써 줘야 한다.


In [143]:
df1,df2

(       사용월  호선명       지하철역   유임승차인원   유임하차인원
 0   202406  1호선         종각   914353   912364
 1   202406  1호선        제기동   230693   220271
 2   202406  2호선         합정   879304   962157
 3   202406  2호선         잠실  2083604  2053741
 4   202406  3호선       종로3가   256493   298838
 5   202406  3호선         금호   175799   160279
 6   202406  4호선  동대문역사문화공원   499102   437082
 7   202406  4호선      한성대입구   339558   329021
 8   202406  5호선         마포   336201   342120
 9   202406  5호선         군자   290513   321256
 10  202406  6호선         망원   368910   396240
 11  202406  6호선         창신    81569    66700
 12  202406  7호선         먹골   223381   216379
 13  202406  7호선         군자   349177   265871
 14  202406  8호선         잠실   398620   475358
 15  202406  8호선         산성   147386   147649,
        사용월  호선명       지하철역  무임승차인원  무임하차인원
 0   202406  1호선         종각  146932  137905
 1   202406  1호선         시청   97573   95530
 2   202406  2호선         합정   71736   73043
 3   202406  2호선         잠실  228907  2185

In [141]:
df7 = pd.merge(df1,df2, on = '지하철역') # default : inner
df7

Unnamed: 0,사용월_x,호선명_x,지하철역,유임승차인원,유임하차인원,사용월_y,호선명_y,무임승차인원,무임하차인원
0,202406,1호선,종각,914353,912364,202406,1호선,146932,137905
1,202406,2호선,합정,879304,962157,202406,2호선,71736,73043
2,202406,2호선,잠실,2083604,2053741,202406,2호선,228907,218545
3,202406,2호선,잠실,2083604,2053741,202406,8호선,84046,82476
4,202406,3호선,종로3가,256493,298838,202406,3호선,66253,74210
5,202406,4호선,동대문역사문화공원,499102,437082,202406,4호선,65660,58995
6,202406,4호선,한성대입구,339558,329021,202406,4호선,76969,75073
7,202406,5호선,마포,336201,342120,202406,5호선,65737,65297
8,202406,5호선,군자,290513,321256,202406,5호선,40679,46078
9,202406,5호선,군자,290513,321256,202406,7호선,96054,79789


병합 결과에서 4개의 행이 나오는 이유는, `지하철역`이 동일하더라도 `호선명`이 다르기 때문에 각각의 호선에 대한 조합으로 병합되기 때문입니다. 잠실역은 `df1`과 `df2` 모두에서 2호선과 8호선으로 나타나므로, 이들이 서로 교차 병합되어 총 4개의 조합이 생성됩니다.

### 데이터프레임

#### df1 (유임승차인원, 유임하차인원 포함)
| 사용월 | 호선명 | 지하철역 | 유임승차인원 | 유임하차인원 |
|--------|--------|----------|--------------|--------------|
| 202406 | 2호선  | 잠실     | 2083604      | 2053741      |
| 202406 | 8호선  | 잠실     | 398620       | 475358       |

#### df2 (무임승차인원, 무임하차인원 포함)
| 사용월 | 호선명 | 지하철역 | 무임승차인원 | 무임하차인원 |
|--------|--------|----------|--------------|--------------|
| 202406 | 2호선  | 잠실     | 228907       | 218545       |
| 202406 | 8호선  | 잠실     | 84046        | 82476        |

### 병합된 결과 (잠실역만 표시):

| 지하철역 | 사용월_x | 호선명_x | 유임승차인원 | 유임하차인원 | 사용월_y | 호선명_y | 무임승차인원 | 무임하차인원 |
|----------|----------|----------|--------------|--------------|----------|----------|--------------|--------------|
| 잠실     | 202406   | 2호선    | 2083604      | 2053741      | 202406   | 2호선    | 228907       | 218545       |
| 잠실     | 202406   | 2호선    | 2083604      | 2053741      | 202406   | 8호선    | 84046        | 82476        |
| 잠실     | 202406   | 8호선    | 398620       | 475358       | 202406   | 2호선    | 228907       | 218545       |
| 잠실     | 202406   | 8호선    | 398620       | 475358       | 202406   | 8호선    | 84046        | 82476        |

### 설명

1. **병합 기준**: `지하철역`이 `잠실`로 동일하지만, `호선명`은 `2호선`과 `8호선` 두 값이 있습니다.
   - **df1**에서 잠실역은 2호선과 8호선으로 구분되어 있고, **df2**에서도 잠실역은 2호선과 8호선으로 구분됩니다.
   - 병합할 때 두 데이터프레임의 모든 `호선명` 값에 대해 조합이 이루어지므로, 2호선과 8호선이 각각 서로 매칭되면서 4개의 조합이 생성됩니다.

2. **잠실역 조합**:
   - `df1`의 **2호선 잠실**은 `df2`의 **2호선 잠실**과 **8호선 잠실** 모두와 병합됩니다.
   - 마찬가지로, `df1`의 **8호선 잠실**은 `df2`의 **2호선 잠실**과 **8호선 잠실** 모두와 병합됩니다.

   그 결과, `잠실`에 대한 2호선-2호선, 2호선-8호선, 8호선-2호선, 8호선-8호선의 4가지 경우가 병합되어 4개의 행이 나옵니다.

### 결론
잠실역의 경우 `호선명`이 다르게 나타나기 때문에 모든 호선에 대한 조합으로 병합이 이루어지며, 결과적으로 4개의 행이 출력됩니다.

In [145]:
df8 = df1.merge(df2,on = '지하철역', suffixes = ('_left','_right')) # 접미사 지정
df8

Unnamed: 0,사용월_left,호선명_left,지하철역,유임승차인원,유임하차인원,사용월_right,호선명_right,무임승차인원,무임하차인원
0,202406,1호선,종각,914353,912364,202406,1호선,146932,137905
1,202406,2호선,합정,879304,962157,202406,2호선,71736,73043
2,202406,2호선,잠실,2083604,2053741,202406,2호선,228907,218545
3,202406,2호선,잠실,2083604,2053741,202406,8호선,84046,82476
4,202406,3호선,종로3가,256493,298838,202406,3호선,66253,74210
5,202406,4호선,동대문역사문화공원,499102,437082,202406,4호선,65660,58995
6,202406,4호선,한성대입구,339558,329021,202406,4호선,76969,75073
7,202406,5호선,마포,336201,342120,202406,5호선,65737,65297
8,202406,5호선,군자,290513,321256,202406,5호선,40679,46078
9,202406,5호선,군자,290513,321256,202406,7호선,96054,79789


In [147]:
data = df2.rename( columns={"지하철역": "Station"} )
data

Unnamed: 0,사용월,호선명,Station,무임승차인원,무임하차인원
0,202406,1호선,종각,146932,137905
1,202406,1호선,시청,97573,95530
2,202406,2호선,합정,71736,73043
3,202406,2호선,잠실,228907,218545
4,202406,3호선,종로3가,66253,74210
5,202406,3호선,가락시장,81634,79742
6,202406,4호선,동대문역사문화공원,65660,58995
7,202406,4호선,한성대입구,76969,75073
8,202406,5호선,마포,65737,65297
9,202406,5호선,군자,40679,46078


In [149]:
df9 = df1.merge(data, left_on='지하철역', right_on='Station') # on = '지하철역'과 같은 결과 왜?
df9

Unnamed: 0,사용월_x,호선명_x,지하철역,유임승차인원,유임하차인원,사용월_y,호선명_y,Station,무임승차인원,무임하차인원
0,202406,1호선,종각,914353,912364,202406,1호선,종각,146932,137905
1,202406,2호선,합정,879304,962157,202406,2호선,합정,71736,73043
2,202406,2호선,잠실,2083604,2053741,202406,2호선,잠실,228907,218545
3,202406,2호선,잠실,2083604,2053741,202406,8호선,잠실,84046,82476
4,202406,3호선,종로3가,256493,298838,202406,3호선,종로3가,66253,74210
5,202406,4호선,동대문역사문화공원,499102,437082,202406,4호선,동대문역사문화공원,65660,58995
6,202406,4호선,한성대입구,339558,329021,202406,4호선,한성대입구,76969,75073
7,202406,5호선,마포,336201,342120,202406,5호선,마포,65737,65297
8,202406,5호선,군자,290513,321256,202406,5호선,군자,40679,46078
9,202406,5호선,군자,290513,321256,202406,7호선,군자,96054,79789


### merge() 함수로 sepal_length, sepal_width 열이 포함된 df1과 petal_length, petal_width가 포합된 df2를 병합하시오.

In [155]:
import seaborn as sns
import pandas as pd
iris = sns.load_dataset('iris')
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [167]:
df1 = iris[['sepal_length','sepal_width']]
df2 = iris[['petal_length','petal_width']]
df1,df2

(     sepal_length  sepal_width
 0             5.1          3.5
 1             4.9          3.0
 2             4.7          3.2
 3             4.6          3.1
 4             5.0          3.6
 ..            ...          ...
 145           6.7          3.0
 146           6.3          2.5
 147           6.5          3.0
 148           6.2          3.4
 149           5.9          3.0
 
 [150 rows x 2 columns],
      petal_length  petal_width
 0             1.4          0.2
 1             1.4          0.2
 2             1.3          0.2
 3             1.5          0.2
 4             1.4          0.2
 ..            ...          ...
 145           5.2          2.3
 146           5.0          1.9
 147           5.2          2.0
 148           5.4          2.3
 149           5.1          1.8
 
 [150 rows x 2 columns])

In [161]:
# df3 = pd.merge(df1,df2) 
## MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False
# 공통된 특성이 없어 병합되지 않는다

In [165]:
df3 = pd.concat((df1,df2))
df3

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,,
1,4.9,3.0,,
2,4.7,3.2,,
3,4.6,3.1,,
4,5.0,3.6,,
...,...,...,...,...
145,,,5.2,2.3
146,,,5.0,1.9
147,,,5.2,2.0
148,,,5.4,2.3


인덱스를 기준으로 병합시킬 수 있다.

In [173]:
df_merge = pd.merge(df1,df2,left_index = True, right_index = True) # left_index와 right_index는 쌍으로 써야 한다.
df_merge

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [176]:
df_m = pd.merge(df1,df2, left_on = 'sepal_length', right_on = 'petal_length')
df_m

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,5.1,1.6
1,5.1,3.5,5.1,1.9
2,5.1,3.5,5.1,2.0
3,5.1,3.5,5.1,2.4
4,5.1,3.5,5.1,1.5
...,...,...,...,...
399,6.7,3.0,6.7,2.2
400,6.7,3.0,6.7,2.0
401,6.3,2.5,6.3,1.8
402,5.9,3.0,5.9,2.1


왜 404개인지 알아오기

### Groupby : 데이터를 그룹별로 분할

- split - apply - combine 과정으로 이루어진다

In [184]:
df = sns.load_dataset('tips')
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [252]:
grouped = df.groupby('sex',observed=True) # 'sex' 열을 기준으로 그룹화하기(split)
grouped # 데이터프레임이 아니라서 출력 불가

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001AD3AF79A30>

In [214]:
grouped_mean = grouped['tip'].mean()
grouped_mean

sex
Male      3.089618
Female    2.833448
Name: tip, dtype: float64

In [208]:
grouped_mean = grouped[['tip', 'size']].mean() # 리스트를 인자로 넘기면 데이터프레임 출력
grouped_mean

Unnamed: 0_level_0,tip,size
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,3.089618,2.630573
Female,2.833448,2.45977


In [250]:
grouped_m = df.groupby('sex',observed=True).get_group('Male') # DataFrameGroupBy에서 'Male' 특성을 가지는 그룹만 데이터프레임으로 출력
grouped_m

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
5,25.29,4.71,Male,No,Sun,Dinner,4
6,8.77,2.00,Male,No,Sun,Dinner,2
...,...,...,...,...,...,...,...
236,12.60,1.00,Male,Yes,Sat,Dinner,2
237,32.83,1.17,Male,Yes,Sat,Dinner,2
239,29.03,5.92,Male,No,Sat,Dinner,3
241,22.67,2.00,Male,Yes,Sat,Dinner,2


In [254]:
result = grouped[['total_bill']].agg(['mean','min','max']) # 집계 함수 여러 가지 사용
result

Unnamed: 0_level_0,total_bill,total_bill,total_bill
Unnamed: 0_level_1,mean,min,max
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Male,20.744076,7.25,50.81
Female,18.056897,3.07,44.3


In [256]:
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [270]:
df_t = titanic.groupby(['age','sex','class','fare','survived'],observed = "False") # 여러 개의 열을 기준으로 하는 그룹화
df_t

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001AD3B152D50>

In [278]:
df_l = titanic.loc[:,['age','sex','class','fare','survived']]
df_l.shape

(891, 5)

In [287]:
grouped = df_l.groupby(['class'],observed = 'False')
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001AD3B2423C0>

In [290]:
grouped.size()

class
First     216
Second    184
Third     491
dtype: int64

In [295]:
# 여러 열 기준으로 그룹화
grouped_t = df_l.groupby(['sex','class'])
grouped_t 

  grouped_t = df_l.groupby(['sex','class'])


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001AD3B4B0080>

In [297]:
grouped_t.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
sex,class,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,First,34.611765,106.125798,0.968085
female,Second,28.722973,21.970121,0.921053
female,Third,21.75,16.11881,0.5
male,First,41.281386,67.226127,0.368852
male,Second,30.740707,19.741782,0.157407
male,Third,26.507589,12.661633,0.135447
