 # Pandas


Pandas 데이터 프레임의 장점
- **구조화된 데이터를 효과적으로 처리하고 저장**
- 대용량 데이터를 빠르고 쉽게 다를 수 있다 (한계용량: 엑셀 약 100MB, Pandas DataFrame 1GB~ 100GB)
- 복잡한 기능을 구현하기 쉽다
- 데이터 전처리를 쉽게 할 수 있다
- 다른 시스템(웹 개발, 데이터베이스, 머신러닝 등)과 연동이 쉽다
- Numpy 라이브러리에서 지원하는 수학 및 통계 연산을 그대로 이용할 수 있다. (Numpy를 기반으로 설계했기 때문에!)
- excel, csv 파일을 읽고, 저장할 수 있다.

학습목표
  * *pandas* 라이브러리의 `DataFrame` 및 `Series` 데이터 구조에 학습하기
  * `DataFrame` 및 `Series` 내의 데이터 액세스 및 조작
  *  *pandas* 연산과 함수, 정렬하기
  * *pandas* `DataFrame`으로 csv 등의 데이터 가져오기
  * `DataFrame` 조건으로 검색하기
  * `DataFrame` 함수로 데이터 처리하기
  * `DataFrame` 그룹으로 묶기
  * 멀티인덱스와 피봇테이블

- 판다스 공식 문서 : https://pandas.pydata.org/pandas-docs/stable/index.html#

In [1]:
# Pandas 라이브러리를 pd라는 별칭으로 불러옵니다.
import pandas as pd

### 2.1 구조적 데이터 생성하기

 *Pandas*의 기본 데이터 구조는 두 가지 클래스로 구현됩니다.

  * `DataFrame`은 행 및 이름이 지정된 열이 포함된 관계형 데이터 테이블입니다. (-> table)
  * `Series`는 하나의 열입니다. `DataFrame`에는 하나 이상의 `Series`와 각 `Series`의 이름이 포함됩니다. (-> column)

#### Series를 활용한 데이터 생성

 `Series`를 만드는 한 가지 방법은 `Series` 객체를 만드는 것입니다. 예를 들면 다음과 같습니다.

In [2]:
pd.Series(['San Francisco', 'San Jose', 'Sacramento'])

0    San Francisco
1         San Jose
2       Sacramento
dtype: object

In [3]:
# Series는 1차원 데이터를 다룬다.
# 세로축 라벨을 index라고 하고, 입력한 시퀀스 데이터를 values라고 한다.
s1 = pd.Series([10, 20, 30, 40, 50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [4]:
# Series의 인덱스를 확인합니다.
s1.index

RangeIndex(start=0, stop=5, step=1)

In [5]:
# Series의 값들을 확인합니다.
s1.values

array([10, 20, 30, 40, 50])

In [6]:
# pandas는 데이터 타입이 섞여도 된다. Numpy는 같은 데이터 타입의 배열만 처리 가능
# 다양한 데이터 타입의 요소를 포함하는 Series를 생성합니다.
s2 = pd.Series(['a', 'b', 'c', 1, 2, 3])
s2

0    a
1    b
2    c
3    1
4    2
5    3
dtype: object

In [7]:
# Series의 특정 인덱스에 해당하는 요소의 데이터 타입을 확인합니다.
type(s2[2]), type(s2[3])

(str, int)

In [8]:
# np.nan을 이용해서 특정 데이터가 없음을 표시합니다.
# numpy 라이브러리를 np라는 별칭으로 불러옵니다.
import numpy as np

s3 = pd.Series([np.nan,10,30])
s3

0     NaN
1    10.0
2    30.0
dtype: float64

In [9]:
# 인덱스 명을 지정하여 Series를 생성합니다.
index_date = ['2018-10-07','2018-10-08','2018-10-09','2018-10-10']
s4 = pd.Series([200, 195, np.nan, 205], index = index_date)
s4

2018-10-07    200.0
2018-10-08    195.0
2018-10-09      NaN
2018-10-10    205.0
dtype: float64

In [10]:
# 딕셔너리를 이용하여 데이터와 인덱스를 함께 입력하여 Series를 생성합니다.
s5 = pd.Series({'국어': 100, '영어': 95, '수학': 90})
s5

국어    100
영어     95
수학     90
dtype: int64

#### DataFrame을 활용한 데이터 생성
- 여러 개의 Series(열)이 모여있는 테이블

배열을 사용해서 데이터 프레임을 만들 수도 있습니다

In [11]:
# pandas에서 표(Table)와 같은 2차원 데이터 처리를 위해 DataFrame을 제공
# DataFrame을 이용하여 라벨이 있는 2차원 데이터를 생성하고 처리
# df = pd.DataFrame(data, index = index_data, columns = columns_data)

import pandas as pd

# 리스트의 리스트를 사용하여 DataFrame을 생성합니다.
pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [12]:
# 인덱스명과 칼럼명을 지정해주어 DataFrame을 생성합니다.
import numpy as np
import pandas as pd

data = np.array([[1, 2, 3], [4, 5, 6], [7, 8 ,9], [10, 11, 12]])
# 날짜 범위를 인덱스로 사용하기 위해 생성합니다.
index_date = pd.date_range('2019-09-01', periods=4)
# 컬럼 이름을 정의합니다.
columns_list = ['A', 'B', 'C']
# 데이터, 인덱스, 컬럼을 지정하여 DataFrame을 생성합니다.
pd.DataFrame(data, index=index_date, columns=columns_list)

Unnamed: 0,A,B,C
2019-09-01,1,2,3
2019-09-02,4,5,6
2019-09-03,7,8,9
2019-09-04,10,11,12


In [13]:
# 리스트로 데이터프레임 만들기
# 리스트의 리스트를 사용하여 DataFrame의 데이터를 정의합니다.
table1 = [
    ['2021-12-06', 1000, 'False', 'gum'],
    ['2021-12-07', 3000, 'True', 'snack'],
    ['2021-12-08', 2000, 'True', 'beverage'],
    ['2021-12-09', 1000, 'True', 'gum']
]
# 컬럼 이름을 지정하여 DataFrame을 생성합니다.
df = pd.DataFrame(table1, columns = ['일자','가격','구매여부','제품'])
df

Unnamed: 0,일자,가격,구매여부,제품
0,2021-12-06,1000,False,gum
1,2021-12-07,3000,True,snack
2,2021-12-08,2000,True,beverage
3,2021-12-09,1000,True,gum


In [14]:
# 딕셔너리로 데이터프레임 만들기
# 딕셔너리를 사용하여 DataFrame의 데이터를 정의합니다. 각 키는 컬럼 이름이 됩니다.
table2 = {
    '일자':['2021-12-06','2021-12-07','2021-12-08','2021-12-09'],
    '가격':[1000,3000,2000,1000],
    '구매여부':['False','True','True','True'],
    '제품': ['gum','snack','beverage','gum']
}

# 딕셔너리를 사용하여 DataFrame을 생성합니다.
df2 = pd.DataFrame(table2)
df2

Unnamed: 0,일자,가격,구매여부,제품
0,2021-12-06,1000,False,gum
1,2021-12-07,3000,True,snack
2,2021-12-08,2000,True,beverage
3,2021-12-09,1000,True,gum


In [15]:
# DataFrame의 컬럼들을 확인합니다.
df2.columns

Index(['일자', '가격', '구매여부', '제품'], dtype='object')

In [16]:
# DataFrame의 인덱스를 확인합니다.
df2.index

RangeIndex(start=0, stop=4, step=1)

In [17]:
# DataFrame의 값들을 NumPy 배열 형태로 확인합니다.
df2.values #pandas의 value는 넘파이 배열형태로 담겨있다.

array([['2021-12-06', 1000, 'False', 'gum'],
       ['2021-12-07', 3000, 'True', 'snack'],
       ['2021-12-08', 2000, 'True', 'beverage'],
       ['2021-12-09', 1000, 'True', 'gum']], dtype=object)

Quiz. 아래 출력된 것과 같은 형태의 데이터 프레임을 만들어보세요.

In [18]:
import pandas as pd
#@title
#    name  age
# 1 A  20
# 2 B 20
# 3 C 23
# 4 D 24

# 데이터프레임을 생성할 데이터를 정의합니다.
data = [['A', 20], ['B', 20], ['C', 23], ['D', 24]]
# 컬럼 이름을 정의합니다.
col = ['name', 'age']
# 인덱스를 정의합니다.
index = [1, 2, 3, 4]

# DataFrame을 생성합니다.
df_info = pd.DataFrame(data, columns=col, index=index)
df_info

Unnamed: 0,name,age
1,A,20
2,B,20
3,C,23
4,D,24


In [19]:
# 이 셀은 현재 비어 있습니다. 필요한 코드를 추가해주세요.

#### 데이터 요약 정보 확인하기
* 데이터프레임의 크기 확인: DataFrame 객체.shape
* 데이터프레임의 기본 정보 출력: DataFrame 객체.info()
* 열 데이터 개수 확인: DataFrame.count()
* 열 데이터의 고유값 개수: DataFrame 객체["열 이름"].value_counts()

In [20]:
# df의 모양과 크기 확인: (행의 개수, 열의 개수) 튜플로 반환합니다.
df.shape

(4, 4)

In [21]:
# 데이터프레임의 기본 정보 출력합니다. (컬럼, Non-Null 개수, Dtype 등)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   일자      4 non-null      object
 1   가격      4 non-null      int64 
 2   구매여부    4 non-null      object
 3   제품      4 non-null      object
dtypes: int64(1), object(3)
memory usage: 260.0+ bytes


In [22]:
# 각 열의 데이터 개수를 확인합니다. (Non-Null 값의 개수)
df.count()

일자      4
가격      4
구매여부    4
제품      4
dtype: int64

In [23]:
# '일자' 컬럼에서 연도를 추출하여 새로운 '연도' 컬럼을 생성합니다.
df['연도'] = pd.to_datetime(df['일자']).dt.year
# 각 열의 고유값 개수를 확인합니다. '연도' 컬럼의 고유값 개수를 출력합니다.
df['연도'].value_counts()

연도
2021    4
Name: count, dtype: int64

In [24]:
# 이 셀은 현재 비어 있습니다. 필요한 코드를 추가해주세요.

### 2.2 데이터 연산

In [25]:
# pandas의 Series()와 DataFrame()으로 생성한 데이터끼리는 사칙 연산이 가능합니다.
# 두 개의 Series를 생성합니다.
s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([10, 20, 30, 40, 50])

In [26]:
# 두 Series의 요소를 더합니다.
s1 + s2

0    11
1    22
2    33
3    44
4    55
dtype: int64

In [27]:
# 두 Series의 요소를 뺍니다.
s2 - s1

0     9
1    18
2    27
3    36
4    45
dtype: int64

In [28]:
# 두 Series의 요소를 곱합니다.
s1 * s2

0     10
1     40
2     90
3    160
4    250
dtype: int64

In [29]:
# 두 Series의 요소를 나눕니다.
s2 / s1

0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
dtype: float64

In [30]:
# pandas 라이브러리를 pd라는 별칭으로 불러옵니다.
import pandas as pd

In [31]:
# 파이썬의 리스트와 NumPy 배열과는 달리 Pandas의 데이터끼리는 서로 크기가 달라도 연산 가능, 다만 이 경우 연산을 할 수 있는 항목만 연산을 수행합니다.
# 크기가 다른 두 Series를 생성합니다.
s3 = pd.Series([1, 2, 3, 4])
s4 = pd.Series([10, 20, 30, 40, 50])
# 크기가 다른 Series를 더하면, 겹치지 않는 인덱스에는 NaN이 표시됩니다.
s3 + s4

0    11.0
1    22.0
2    33.0
3    44.0
4     NaN
dtype: float64

In [32]:
# 크기가 다른 Series를 뺍니다. 겹치지 않는 인덱스에는 NaN이 표시됩니다.
s4 - s3

0     9.0
1    18.0
2    27.0
3    36.0
4     NaN
dtype: float64

In [33]:
# 크기가 다른 Series를 곱합니다. 겹치지 않는 인덱스에는 NaN이 표시됩니다.
s3 * s4

0     10.0
1     40.0
2     90.0
3    160.0
4      NaN
dtype: float64

In [34]:
# 크기가 다른 Series를 나눕니다. 겹치지 않는 인덱스에는 NaN이 표시됩니다.
s4/s3

0    10.0
1    10.0
2    10.0
3    10.0
4     NaN
dtype: float64

In [35]:
# 데이터프레임 데이터끼리 연산하기
# 첫 번째 DataFrame을 위한 데이터를 정의합니다.
table_data1 = {'A': [1, 2, 3, 4, 5],
              'B': [10, 20, 30, 40, 50],
              'C': [100, 200, 300, 400, 500]}
# DataFrame을 생성합니다.
df1 = pd.DataFrame(table_data1)
df1

Unnamed: 0,A,B,C
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400
4,5,50,500


In [36]:
# 두 번째 DataFrame을 위한 데이터를 정의합니다.
table_data2 = {'A': [6, 7, 8],
              'B': [60, 70, 80],
              'C': [600, 700, 800]}
# DataFrame을 생성합니다.
df2 = pd.DataFrame(table_data2)
df2

Unnamed: 0,A,B,C
0,6,60,600
1,7,70,700
2,8,80,800


In [37]:
# 이 셀은 현재 비어 있습니다. 필요한 코드를 추가해주세요.

In [38]:
# Q. 결과가 어떻게 나올지 먼저 예상해보기
# 두 DataFrame을 더하면, 겹치지 않는 인덱스에는 NaN이 표시됩니다.
df1 + df2

Unnamed: 0,A,B,C
0,7.0,70.0,700.0
1,9.0,90.0,900.0
2,11.0,110.0,1100.0
3,,,
4,,,


In [39]:
# pandas에서 지원하는 통계 분석을 위한 메서드
# DataFrame을 위한 데이터를 정의합니다.
table_data3 = {'봄':  [256.5, 264.3, 215.9, 223.2, 312.8],
              '여름': [770.6, 567.5, 599.8, 387.1, 446.2],
              '가을': [363.5, 231.2, 293.1, 247.7, 381.6],
              '겨울': [139.3, 59.9, 76.9, 109.1, 108.1]}
# 컬럼 이름과 인덱스 이름을 정의합니다.
columns_list = ['봄', '여름', '가을', '겨울']
index_list = ['2012', '2013', '2014', '2015', '2016']

# DataFrame을 생성합니다.
df3 = pd.DataFrame(table_data3, columns = columns_list, index = index_list)
df3

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


In [40]:
# 계절별 평균과 표준편차를 구합니다. (각 컬럼의 평균)
df3.mean()

봄     254.54
여름    554.24
가을    303.42
겨울     98.66
dtype: float64

In [41]:
# 각 컬럼의 표준편차를 구합니다.
df3.std()

봄      38.628267
여름    148.888895
가을     67.358496
겨울     30.925523
dtype: float64

In [42]:
# 그렇다면 연도별 평균 강수량과 표준 편차를 구하려면 어떻게 해야할까?
# 연산의 방향을 설정하기 위해 axis 인자를 추가 <axis=1: 행별로 연산 수행, axis=0(default): 열별로 연산 수행>
# 각 행(연도)별 평균을 구합니다.
df3.mean(axis=1)

2012    382.475
2013    280.725
2014    296.425
2015    241.775
2016    312.175
dtype: float64

In [43]:
# 각 행(연도)별 표준편차를 구합니다.
df3.std(axis=1)

2012    274.472128
2013    211.128782
2014    221.150739
2015    114.166760
2016    146.548658
dtype: float64

In [44]:
# describe()를 이용하여 평균, 표준 편차, 최솟값과 최댓값을 한 번에 구할 수 있다.
# DataFrame의 기술 통계 정보를 요약하여 출력합니다.
df3.describe()

Unnamed: 0,봄,여름,가을,겨울
count,5.0,5.0,5.0,5.0
mean,254.54,554.24,303.42,98.66
std,38.628267,148.888895,67.358496,30.925523
min,215.9,387.1,231.2,59.9
25%,223.2,446.2,247.7,76.9
50%,256.5,567.5,293.1,108.1
75%,264.3,599.8,363.5,109.1
max,312.8,770.6,381.6,139.3


### 2.3 행 인덱스 변경, 열 이름 변경
* 행 인덱스 변경: DataFrame 객체.rename(index={기존 인덱스:새 인덱스, ...})
* 열 이름 변경: DataFrame 객체.rename(columns={기존 이름:새 이름, ...})

In [45]:
# DataFrame을 생성합니다.
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
                 index = ['준서', '예은'],
                 columns = ['나이', '성별', '학교'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [46]:
# 열 이름 중, '나이'를 '연령'으로, '성별'을 '남녀'로, '학교'를 '소속'으로 바꿉니다.
# inplace=True를 사용하여 원본 DataFrame을 직접 수정합니다.
df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace=True)
df

Unnamed: 0,연령,남녀,소속
준서,15,남,덕영중
예은,17,여,수리중


In [47]:
# df의 행 인덱스 중에서, '준서'를 '학생1'로, '예은'을 '학생2'로 바꿉니다.
# inplace=True를 사용하여 원본 DataFrame을 직접 수정합니다.
df.rename(index={'준서':'학생1', '예은':'학생2'}, inplace=True)
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


### 2.4 데이터프레임 행/열 삭제
* 행 삭제: DataFrame 객체.drop(행 인덱스 또는 배열, axis=0)
* 열 삭제: DataFrame 객체.drop(열 이름 또는 배열, axis=1)

In [48]:
# DataFrame()함수로 데이터프레임 변환, 변수 df에 저장합니다.
# DataFrame을 위한 데이터를 정의합니다.
exam_data = {'수학' : [90, 80, 70], '영어' : [98, 89, 95],
             '음악' : [85, 95, 100], '체육' : [100, 90, 90]}
# 인덱스를 지정하여 DataFrame을 생성합니다.
df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [49]:
# 데이터프레임 df를 복제하여 변수 df2에 저장합니다.
df2 = df.copy()
# df2의 '우현' 행(row)을 삭제하고 df3에 저장합니다. inplace=False이므로 원본 df2는 변경되지 않습니다.
df3 = df2.drop('우현', axis=0, inplace=False)
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [50]:
# df2의 현재 상태를 확인합니다. (이전 셀에서 inplace=False로 삭제했으므로 '우현' 행이 남아있습니다.)
df2

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [51]:
# 데이터프레임 df를 복제하여 변수 df3에 저장합니다.
df3 = df.copy()
# df3의 '인아' 행(row)을 삭제합니다. inplace=True이므로 원본 df3가 변경됩니다.
df3.drop(['인아'], axis=0, inplace=True)
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


In [52]:
# Q. 데이터프레임 df를 복제하여 변수 df4에 저장. df4의 '수학' 1개 열(column)을 삭제해보세요.

# 데이터프레임 df를 복제하여 변수 df4에 저장합니다.
df4 = df.copy()
# df4의 '수학' 열(column)을 삭제하고 결과를 df4에 다시 할당합니다.
df4 = df4.drop('수학', axis=1)
df4

Unnamed: 0,영어,음악,체육
서준,98,85,100
우현,89,95,90
인아,95,100,90


In [53]:
# Q. 데이터프레임 df를 복제하여 변수 df5에 저장. df5의 '영어', '음악' 2개 열(column)을 삭제해보세요.

# 데이터프레임 df를 복제하여 변수 df5에 저장합니다.
df5 = df.copy()
# df5의 '영어'와 '음악' 열(column)을 삭제하고 결과를 df5에 다시 할당합니다.
df5 = df5.drop(['영어', '음악'], axis=1)
df5

Unnamed: 0,수학,체육
서준,90,100
우현,80,90
인아,70,90


### 2.5 데이터를 원하는 대로 선택하기

df_california.index

In [54]:
# CSV 파일을 읽어 DataFrame으로 로드합니다.
df_california = pd.read_csv('./content/california_housing_test.csv')
df_california

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.30,34.26,43.0,1510.0,310.0,809.0,277.0,3.5990,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0
...,...,...,...,...,...,...,...,...,...
2995,-119.86,34.42,23.0,1450.0,642.0,1258.0,607.0,1.1790,225000.0
2996,-118.14,34.06,27.0,5257.0,1082.0,3496.0,1036.0,3.3906,237200.0
2997,-119.70,36.30,10.0,956.0,201.0,693.0,220.0,2.2895,62000.0
2998,-117.12,34.10,40.0,96.0,14.0,46.0,14.0,3.2708,162500.0


In [55]:
# DataFrame의 컬럼 목록을 확인합니다.
df_california.columns

Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
       'total_bedrooms', 'population', 'households', 'median_income',
       'median_house_value'],
      dtype='object')

In [56]:
# DataFrame의 값들을 NumPy 배열 형태로 확인합니다.
df_california.values

array([[-1.22050e+02,  3.73700e+01,  2.70000e+01, ...,  6.06000e+02,
         6.60850e+00,  3.44700e+05],
       [-1.18300e+02,  3.42600e+01,  4.30000e+01, ...,  2.77000e+02,
         3.59900e+00,  1.76500e+05],
       [-1.17810e+02,  3.37800e+01,  2.70000e+01, ...,  4.95000e+02,
         5.79340e+00,  2.70500e+05],
       ...,
       [-1.19700e+02,  3.63000e+01,  1.00000e+01, ...,  2.20000e+02,
         2.28950e+00,  6.20000e+04],
       [-1.17120e+02,  3.41000e+01,  4.00000e+01, ...,  1.40000e+01,
         3.27080e+00,  1.62500e+05],
       [-1.19630e+02,  3.44200e+01,  4.20000e+01, ...,  2.60000e+02,
         8.56080e+00,  5.00001e+05]], shape=(3000, 9))

In [57]:
df_california.index = df_california.index.astype(str)
print(df_california.index)

Index(['0', '1', '2', '3', '4', '5', '6', '7', '8', '9',
       ...
       '2990', '2991', '2992', '2993', '2994', '2995', '2996', '2997', '2998',
       '2999'],
      dtype='object', length=3000)


In [58]:
# DataFrame의 전체 데이터 중 처음 일부분(기본 5개 행)을 반환합니다.
# 인자 n을 지정하지 않으면 기본값으로 5가 지정됨
df_california.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.3,34.26,43.0,1510.0,310.0,809.0,277.0,3.599,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0


In [59]:
# 10번째 행부터 19번째 행까지의 'longitude'와 'latitude' 컬럼을 선택하여 출력합니다.
df_california[['longitude', 'latitude']].iloc[10:20]

Unnamed: 0,longitude,latitude
10,-118.24,33.98
11,-119.12,35.85
12,-121.93,37.25
13,-117.03,32.97
14,-117.97,33.73
15,-117.99,33.81
16,-120.81,37.53
17,-121.2,38.69
18,-118.88,34.21
19,-122.59,38.01


In [60]:
df_california.iloc[10:20][['longitude', 'latitude']]

Unnamed: 0,longitude,latitude
10,-118.24,33.98
11,-119.12,35.85
12,-121.93,37.25
13,-117.03,32.97
14,-117.97,33.73
15,-117.99,33.81
16,-120.81,37.53
17,-121.2,38.69
18,-118.88,34.21
19,-122.59,38.01


In [61]:
# DataFrame의 전체 데이터 중 끝 일부분(기본 5개 행)을 반환합니다.
df_california.tail()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
2995,-119.86,34.42,23.0,1450.0,642.0,1258.0,607.0,1.179,225000.0
2996,-118.14,34.06,27.0,5257.0,1082.0,3496.0,1036.0,3.3906,237200.0
2997,-119.7,36.3,10.0,956.0,201.0,693.0,220.0,2.2895,62000.0
2998,-117.12,34.1,40.0,96.0,14.0,46.0,14.0,3.2708,162500.0
2999,-119.63,34.42,42.0,1765.0,263.0,753.0,260.0,8.5608,500001.0


In [62]:
# DataFrame의 처음 3개 행을 반환합니다.
df_california.head(3)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.3,34.26,43.0,1510.0,310.0,809.0,277.0,3.599,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0


In [63]:
# DataFrame의 마지막 2개 행을 반환합니다.
df_california.tail(2)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
2998,-117.12,34.1,40.0,96.0,14.0,46.0,14.0,3.2708,162500.0
2999,-119.63,34.42,42.0,1765.0,263.0,753.0,260.0,8.5608,500001.0


In [64]:
# DataFrame 데이터에서 연속된 구간의 행 데이터를 선택하려면 '행 시작 위치'와 '끝 위치'를 지정합니다.
# <DataFrame_data[행_시작_위치:행_끝_위치]>
# 행 위치 1의 데이터 하나를 선택합니다.
df_california[1:2]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
1,-118.3,34.26,43.0,1510.0,310.0,809.0,277.0,3.599,176500.0


In [65]:
# iloc을 사용하여 인덱스 위치로 행을 선택합니다. df_california[1:2]와 동일합니다.
df_california.iloc[1:2]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
1,-118.3,34.26,43.0,1510.0,310.0,809.0,277.0,3.599,176500.0


In [66]:
# df에서 2013~2015 행 전체 데이터를 선택하기
# 실제 데이터에 'object'형의 인덱스가 있는 경우 해당 방법으로 선택 가능
df_california[df_california.index.isin(['2013', '2014', '2015'])]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
2013,-122.79,38.54,5.0,3986.0,737.0,1887.0,687.0,3.7768,213800.0
2014,-117.22,32.86,4.0,16289.0,4585.0,7604.0,4176.0,3.6287,280800.0
2015,-120.08,39.61,32.0,1404.0,247.0,544.0,201.0,2.7778,72900.0


In [67]:
df_california.loc[['2013','2014','2015']]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
2013,-122.79,38.54,5.0,3986.0,737.0,1887.0,687.0,3.7768,213800.0
2014,-117.22,32.86,4.0,16289.0,4585.0,7604.0,4176.0,3.6287,280800.0
2015,-120.08,39.61,32.0,1404.0,247.0,544.0,201.0,2.7778,72900.0


In [68]:
# 특정 조건에 맞는 행을 선택할 수 있습니다.
df_california.loc[df_california['housing_median_age'] > 50]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
26,-122.42,37.76,52.0,3587.0,1030.0,2259.0,979.0,2.5403,250000.0
36,-122.53,37.97,52.0,1560.0,451.0,700.0,419.0,2.5125,270800.0
70,-121.92,37.33,52.0,2125.0,382.0,930.0,387.0,5.2831,299500.0
99,-118.20,33.77,52.0,1375.0,457.0,1089.0,317.0,2.2344,200000.0
109,-122.43,37.74,52.0,1514.0,314.0,724.0,301.0,5.3292,300900.0
...,...,...,...,...,...,...,...,...,...
2950,-122.42,37.79,52.0,3364.0,1100.0,2112.0,1045.0,2.1343,400000.0
2965,-122.44,37.71,52.0,2711.0,591.0,1848.0,524.0,3.9567,251500.0
2970,-122.47,37.77,52.0,2241.0,443.0,1042.0,377.0,4.1635,398400.0
2972,-118.14,34.17,52.0,2667.0,486.0,1681.0,504.0,4.0524,173100.0


In [69]:
# 데이터에서 하나의 열만 선택하려면 하나의 columns 항목 이름을 지정합니다.
df_california['total_rooms']

0       3885.0
1       1510.0
2       3589.0
3         67.0
4       1241.0
         ...  
2995    1450.0
2996    5257.0
2997     956.0
2998      96.0
2999    1765.0
Name: total_rooms, Length: 3000, dtype: float64

In [70]:
# 하나의 열을 선택한 후 index의 범위를 지정해 원하는 데이터만 선택합니다.
df_california['total_rooms']['0':'5']# index의 이름을 지정해 index의 범위 선택

0    3885.0
1    1510.0
2    3589.0
3      67.0
4    1241.0
5    1018.0
Name: total_rooms, dtype: float64

In [71]:
# DataFrame의 전체를 출력합니다.
df_california

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.30,34.26,43.0,1510.0,310.0,809.0,277.0,3.5990,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0
...,...,...,...,...,...,...,...,...,...
2995,-119.86,34.42,23.0,1450.0,642.0,1258.0,607.0,1.1790,225000.0
2996,-118.14,34.06,27.0,5257.0,1082.0,3496.0,1036.0,3.3906,237200.0
2997,-119.70,36.30,10.0,956.0,201.0,693.0,220.0,2.2895,62000.0
2998,-117.12,34.10,40.0,96.0,14.0,46.0,14.0,3.2708,162500.0


In [72]:
# 인덱스 '2012'의 'total_rooms' 값을 가져오려면 다음과 같이 할 수 있습니다.
df_california.loc['2012', 'total_rooms']

np.float64(1032.0)

In [73]:
# 'total_rooms' 컬럼에서 인덱스 '2012'의 값을 가져오려면 다음과 같이 할 수 있습니다.
df_california['total_rooms']['2012']

np.float64(1032.0)

In [74]:
# 'total_rooms' 컬럼에서 인덱스 '2012'의 값을 loc을 사용하여 가져오려면 다음과 같이 할 수 있습니다.
df_california['total_rooms'].loc['2012']

np.float64(1032.0)

In [75]:
# 'total_rooms' 컬럼에서 인덱스 2012의 값을 iloc을 사용하여 가져오려면 다음과 같이 할 수 있습니다.
df_california['total_rooms'].iloc[2012]

np.float64(1032.0)

In [76]:
df_california.loc['2015']['total_bedrooms']

np.float64(247.0)

In [77]:
df_california.loc['2015','total_bedrooms']

np.float64(247.0)

In [78]:
df_california['total_bedrooms']['2015']

np.float64(247.0)

In [79]:
df_california['total_bedrooms'].loc['2015']

np.float64(247.0)

In [80]:
# 모든 행에서 2칸 간격으로 'total_rooms'와 'total_bedrooms' 컬럼을 선택합니다.
df_california.iloc[::2][['total_rooms', 'total_bedrooms']]

Unnamed: 0,total_rooms,total_bedrooms
0,3885.0,661.0
2,3589.0,507.0
4,1241.0,244.0
6,1009.0,225.0
8,3080.0,617.0
...,...,...
2990,1638.0,456.0
2992,573.0,102.0
2994,931.0,181.0
2996,5257.0,1082.0


In [81]:
# df 전치(행과 열을 바꿈)를 구합니다.
df_california.transpose()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,2990,2991,2992,2993,2994,2995,2996,2997,2998,2999
longitude,-122.05,-118.3,-117.81,-118.36,-119.67,-119.56,-121.43,-120.65,-122.84,-118.02,...,-118.23,-117.17,-122.33,-117.91,-117.93,-119.86,-118.14,-119.7,-117.12,-119.63
latitude,37.37,34.26,33.78,33.82,36.33,36.51,38.63,35.48,38.4,34.08,...,34.09,34.28,37.39,33.6,33.86,34.42,34.06,36.3,34.1,34.42
housing_median_age,27.0,43.0,27.0,28.0,19.0,37.0,43.0,19.0,15.0,31.0,...,49.0,13.0,52.0,37.0,35.0,23.0,27.0,10.0,40.0,42.0
total_rooms,3885.0,1510.0,3589.0,67.0,1241.0,1018.0,1009.0,2310.0,3080.0,2402.0,...,1638.0,4867.0,573.0,2088.0,931.0,1450.0,5257.0,956.0,96.0,1765.0
total_bedrooms,661.0,310.0,507.0,15.0,244.0,213.0,225.0,471.0,617.0,632.0,...,456.0,718.0,102.0,510.0,181.0,642.0,1082.0,201.0,14.0,263.0
population,1537.0,809.0,1484.0,49.0,850.0,663.0,604.0,1341.0,1446.0,2830.0,...,1500.0,780.0,232.0,673.0,516.0,1258.0,3496.0,693.0,46.0,753.0
households,606.0,277.0,495.0,11.0,237.0,204.0,218.0,441.0,599.0,603.0,...,430.0,250.0,92.0,390.0,174.0,607.0,1036.0,220.0,14.0,260.0
median_income,6.6085,3.599,5.7934,6.1359,2.9375,1.6635,1.6641,3.225,3.6696,2.3333,...,2.6923,7.1997,6.2263,5.1048,5.5867,1.179,3.3906,2.2895,3.2708,8.5608
median_house_value,344700.0,176500.0,270500.0,330000.0,81700.0,67000.0,67000.0,166900.0,194400.0,164200.0,...,150000.0,253800.0,500001.0,500001.0,182500.0,225000.0,237200.0,62000.0,162500.0,500001.0


In [82]:
df_california.columns

Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
       'total_bedrooms', 'population', 'households', 'median_income',
       'median_house_value'],
      dtype='object')

In [83]:
# 열의 항목 이름을 지정해 열의 순서를 지정할 수 있습니다. - 중요!
# 'latitude', 'longitude', 'population' 컬럼의 순서를 변경하여 출력합니다.
df_california[['latitude', 'longitude', 'population']]

Unnamed: 0,latitude,longitude,population
0,37.37,-122.05,1537.0
1,34.26,-118.30,809.0
2,33.78,-117.81,1484.0
3,33.82,-118.36,49.0
4,36.33,-119.67,850.0
...,...,...,...
2995,34.42,-119.86,1258.0
2996,34.06,-118.14,3496.0
2997,36.30,-119.70,693.0
2998,34.10,-117.12,46.0


##### dataframe 데이터 추가 및 수정

In [84]:
# dictionary 와 비교합니다.
dic = {'a': 1, 'b': 2}
dic

# 데이터 수정 : 'a' 키의 값을 3으로 변경합니다.
dic['a'] = 3
# 데이터 추가 : 'c' 키에 5 값을 추가합니다.
dic['c'] = 5

dic

{'a': 3, 'b': 2, 'c': 5}

- dataframe도 이와 같다.

In [85]:
# DataFrame을 생성합니다.
df_1 = pd.DataFrame([[1, 2, 3], [4, 5, 6]],
                    columns=['a', 'b', 'c'])
df_1

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6


In [86]:
# 새로운 컬럼 'd'를 추가하고 Series의 값으로 채웁니다.
df_1['d'] = pd.Series([7, 8])
df_1

Unnamed: 0,a,b,c,d
0,1,2,3,7
1,4,5,6,8


In [87]:
# 데이터 수정 : 'a' 컬럼의 값을 'b' 컬럼의 값으로 변경합니다.
df_1['a'] = df_1['b']
# 'd' 컬럼의 값을 'c' 컬럼의 값으로 변경합니다.
df_1['d'] = df_1['c']
df_1

Unnamed: 0,a,b,c,d
0,2,2,3,3
1,5,5,6,6


In [88]:
# 'a' 컬럼의 각 값에 3을 더하여 업데이트합니다.
# df_1['a'] = df_1['a'] + 3
df_1['a'] += 3
df_1

Unnamed: 0,a,b,c,d
0,5,2,3,3
1,8,5,6,6


In [89]:
# 'a' 컬럼의 값을 'b' 컬럼과 'c' 컬럼의 값을 곱한 결과로 변경합니다.
df_1['a'] = df_1['b']*df_1['c']
df_1

Unnamed: 0,a,b,c,d
0,6,2,3,3
1,30,5,6,6


In [90]:
# 'a' 컬럼을 속성으로 접근하여 출력합니다. (Series 반환)
df_1.a

0     6
1    30
Name: a, dtype: int64

In [91]:
# columns 지정하는 또다른 방법
# 'a' 컬럼의 값을 'b' 컬럼과 'c' 컬럼의 값을 곱한 결과로 변경합니다.
df_1.a = df_1.b * df_1.c
df_1

Unnamed: 0,a,b,c,d
0,6,2,3,3
1,30,5,6,6


In [92]:
# 'c'와 'd' 컬럼을 삭제합니다. axis=1은 컬럼 방향 삭제를 의미합니다.
df_1.drop(['c','d'], axis=1)

Unnamed: 0,a,b
0,6,2
1,30,5


In [93]:
# 인덱스 0에 해당하는 행을 삭제합니다.
df_1.drop(index=0)

Unnamed: 0,a,b,c,d
1,30,5,6,6


### 2.6 데이터 통합하기

- pd.concat [a, b] : a 아래에 b를 붙이다.
- a append b : a 아래에 b를 붙이다.
- join
- merge

#### 세로 방향(index 증가 방향)으로 통합하기
<DataFrame_data1.append(DataFrame_data2, ignore_index=True)>

In [94]:
# 첫 번째 DataFrame을 생성합니다.
ArbNight = [['알라딘', 26],
            ['자스민', 25]]

cols = ['name', 'age']

df_1 = pd.DataFrame(ArbNight, columns=cols)
df_1

Unnamed: 0,name,age
0,알라딘,26
1,자스민,25


In [95]:
# 두 번째 DataFrame을 생성합니다.
df_2 = pd.DataFrame([['지니', 3000], ['자파', 50]],
                   columns=['name', 'age'])
df_2

Unnamed: 0,name,age
0,지니,3000
1,자파,50


In [96]:
# concat 함수를 사용하여 두 DataFrame을 세로 방향으로 통합합니다. ignore_index=True로 인덱스를 재설정합니다.
df = pd.concat([df_1, df_2], ignore_index=True)
df

Unnamed: 0,name,age
0,알라딘,26
1,자스민,25
2,지니,3000
3,자파,50


In [97]:
# append 함수를 사용하여 두 DataFrame을 세로 방향으로 통합합니다. (concat과 유사)
# append는 pandas 2.0부터는 더 이상 권장되지 않으므로, 대신 concat을 사용하는 것이 좋습니다.
df = df_1._append(df_2, ignore_index=True)
df

Unnamed: 0,name,age
0,알라딘,26
1,자스민,25
2,지니,3000
3,자파,50


In [98]:
# 세 번째 DataFrame을 생성합니다.
df_3 = pd.DataFrame([['왕', 80], ['장군', 50]],
                   columns=['name', 'age'])
df_3

# 세 개의 DataFrame을 concat 함수를 사용하여 세로 방향으로 통합합니다.
df = pd.concat([df_1, df_2, df_3], ignore_index=True)
df

Unnamed: 0,name,age
0,알라딘,26
1,자스민,25
2,지니,3000
3,자파,50
4,왕,80
5,장군,50


In [99]:
# append 함수를 사용하여 여러 DataFrame을 세로 방향으로 통합합니다.
# append는 pandas 2.0부터는 더 이상 권장되지 않으므로, 대신 concat을 사용하는 것이 좋습니다.
df = df_1._append([df_2,df_3], ignore_index=True)
df

Unnamed: 0,name,age
0,알라딘,26
1,자스민,25
2,지니,3000
3,자파,50
4,왕,80
5,장군,50


In [100]:
# 이 셀은 현재 비어 있습니다. 필요한 코드를 추가해주세요.

#### 가로 방향으로 통합하기

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html

In [101]:
# 두 개의 DataFrame 데이터를 가로 방향으로 합치기 위해 join()함수 사용합니다.
# 마찬가지로 df1 원본 데이터프레임은 변하지 않습니다.

# 첫 번째 DataFrame을 생성합니다.
index_label = ['a','b','c','d']
df1a = pd.DataFrame({'Class1': [95, 92, 98, 100],
                    'Class2': [91, 93, 97, 99]}, index=index_label)
# 두 번째 DataFrame을 생성합니다.
df4a = pd.DataFrame({'Class3': [93, 91, 95, 98]}, index=index_label)

# df1a에 df4a를 인덱스를 기준으로 가로 방향으로 조인합니다.
df1a.join(df4a)

Unnamed: 0,Class1,Class2,Class3
a,95,91,93
b,92,93,91
c,98,97,95
d,100,99,98


In [102]:
# 인덱스가 없는 DataFrame을 생성합니다.
df5 = pd.DataFrame({'Class4': [82, 92]})
df5

Unnamed: 0,Class4
0,82
1,92


In [103]:
# df1a에 df5를 조인합니다. df5에는 df1a와 겹치는 인덱스가 없으므로 NaN이 발생합니다.
df1a.join(df5)

Unnamed: 0,Class1,Class2,Class4
a,95,91,
b,92,93,
c,98,97,
d,100,99,


In [104]:
# 특정 인덱스를 가진 DataFrame df5를 생성합니다.
df5 = pd.DataFrame({'Class4': [82, 92]}, index= ['c','d'])
# df1a에 df5를 조인합니다. 'c'와 'd' 인덱스가 겹치므로 해당 값들이 조인됩니다.
df1a.join(df5)

Unnamed: 0,Class1,Class2,Class4
a,95,91,
b,92,93,
c,98,97,82.0
d,100,99,92.0


#### 특정 열을 기준으로 통합하기

In [105]:
# 첫 번째 DataFrame을 생성합니다.
ArbNight = [['알라딘', 26],
            ['자스민', 25]]

cols = ['name', 'age']

df_1 = pd.DataFrame(ArbNight, columns=cols)
df_1

Unnamed: 0,name,age
0,알라딘,26
1,자스민,25


In [106]:
# 세 번째 DataFrame을 생성합니다. (성별 정보 포함)
df_3 = pd.DataFrame([['알라딘', '남자'],['자스민', '여자']],
                   columns=['name', 'sex'])
df_3

Unnamed: 0,name,sex
0,알라딘,남자
1,자스민,여자


In [107]:
# 'name' 컬럼을 기준으로 df_1과 df_3를 merge하여 통합합니다. (inner join이 기본값)
df = df_1.merge(df_3)
df

Unnamed: 0,name,age,sex
0,알라딘,26,남자
1,자스민,25,여자


Quiz) df에 직업 정보를 추가해보세요.

In [108]:
# 직업 정보가 담긴 DataFrame df_4를 생성합니다.
df_4 = pd.DataFrame([['알라딘', '무직'],['자스민', '공주']],
                   columns=['name', 'job'])
df_4

Unnamed: 0,name,job
0,알라딘,무직
1,자스민,공주


In [109]:
# 기존 df에 df_4를 'name' 컬럼을 기준으로 merge하여 직업 정보를 추가합니다.
df = df.merge(df_4)
df

Unnamed: 0,name,age,sex,job
0,알라딘,26,남자,무직
1,자스민,25,여자,공주


In [110]:
# 데이터 프레임에 '지니' 행을 추가합니다.
df_genie = pd.DataFrame({'name':['지니'], 'age':[3000],
                         'sex':['남자'], 'job':['요정']})
# df에 df_genie를 세로 방향으로 통합합니다. (append는 pandas 2.0부터는 더 이상 권장되지 않으므로, concat 사용이 좋습니다.)
df = pd.concat([df, df_genie], ignore_index=True)
df

Unnamed: 0,name,age,sex,job
0,알라딘,26,남자,무직
1,자스민,25,여자,공주
2,지니,3000,남자,요정


In [111]:
# 새로운 데이터프레임 df_country를 생성합니다. (국적 정보 포함)
df_country = pd.DataFrame({'name':['알라딘', '자스민', '자카'], '국적':['아라비아', '아라비아', '아라비아']})
df_country

Unnamed: 0,name,국적
0,알라딘,아라비아
1,자스민,아라비아
2,자카,아라비아


- merge ( how )

|how 선택| 설명 |
|:-------------------|:---------------------------------------------|
|left|왼쪽 데이터는 모두 선택하고 지정된 열(key)에 값이 있는 오른쪽 데이터를 선택|
|right|오른쪽 데이터는 모두 선택하고 지정된 열(key)에 값이 있는 왼쪽 데이터를 선택|
|outer|지정된 열(key)을 기준으로 왼쪽과 오른쪽 데이터를 모두 선택|
|inner|지정된 열(key)을 기준으로 왼쪽과 오른쪽 데이터 중 공통 항목만 선택(기본값)|

In [112]:
# merge how='left'를 사용하여 df와 df_country를 'name' 컬럼을 기준으로 통합합니다.
# 왼쪽 데이터(df)는 모두 포함하고, 오른쪽 데이터(df_country)는 겹치는 부분만 가져옵니다.
data = df.merge(df_country, how='left') #how = left, right, inner(교집합), outer(합집합)
data

Unnamed: 0,name,age,sex,job,국적
0,알라딘,26,남자,무직,아라비아
1,자스민,25,여자,공주,아라비아
2,지니,3000,남자,요정,


In [113]:
# merge how='right'를 사용하여 df와 df_country를 'name' 컬럼을 기준으로 통합합니다.
# 오른쪽 데이터(df_country)는 모두 포함하고, 왼쪽 데이터(df)는 겹치는 부분만 가져옵니다.
data = df.merge(df_country, how='right') #how = left, right, inner(교집합), outer(합집합)
data

Unnamed: 0,name,age,sex,job,국적
0,알라딘,26.0,남자,무직,아라비아
1,자스민,25.0,여자,공주,아라비아
2,자카,,,,아라비아


In [114]:
# merge how='inner'를 사용하여 df와 df_country를 'name' 컬럼을 기준으로 통합합니다.
# 양쪽 DataFrame에 모두 존재하는 'name'만 통합합니다. (기본값)
data = df.merge(df_country, how='inner') #how의 기본값은 inner이다
data

Unnamed: 0,name,age,sex,job,국적
0,알라딘,26,남자,무직,아라비아
1,자스민,25,여자,공주,아라비아


In [115]:
# merge how='outer'를 사용하여 df와 df_country를 'name' 컬럼을 기준으로 통합합니다.
# 양쪽 DataFrame의 모든 'name'을 포함하여 통합합니다. 겹치지 않는 부분은 NaN이 됩니다.
data = df.merge(df_country, how='outer') #how = left, right, inner(교집합), outer(합집합)
data

Unnamed: 0,name,age,sex,job,국적
0,알라딘,26.0,남자,무직,아라비아
1,자스민,25.0,여자,공주,아라비아
2,자카,,,,아라비아
3,지니,3000.0,남자,요정,


- merge ( on ) # 기준열 설정

In [116]:
# 첫 번째 DataFrame df_left를 생성합니다.
df_left = pd.DataFrame({'key': ['A', 'B', 'C'], 'left':[1, 2, 3]})
df_left

Unnamed: 0,key,left
0,A,1
1,B,2
2,C,3


In [117]:
# 두 번째 DataFrame df_right를 생성합니다.
df_right = pd.DataFrame({'key': ['A', 'B', 'D'], 'right':[4, 5, 6]})
df_right

Unnamed: 0,key,right
0,A,4
1,B,5
2,D,6


In [118]:
# df_left와 df_right를 'key' 컬럼을 기준으로 'right' 방식으로 merge합니다.
# 'on' 인자를 사용하여 기준이 되는 열을 명시합니다.
df = df_left.merge(df_right, how='right', on='key') # on -> 기준이 되는 열

df

Unnamed: 0,key,left,right
0,A,1.0,4
1,B,2.0,5
2,D,,6


- left, right 모두에게 'data'라는 이름의 columns을 추가하되, left와 right에 다른 값을 넣어보세요.

In [119]:
# df_left에 'data'라는 이름의 새로운 컬럼을 추가하고 값을 할당합니다.
df_left['data'] = ['1000', '2000', '3000']
df_left

Unnamed: 0,key,left,data
0,A,1,1000
1,B,2,2000
2,C,3,3000


In [120]:
# df_right에 'data'라는 이름의 새로운 컬럼을 추가하고 값을 할당합니다.
df_right['data'] = ['a', 'b', 'c']
df_right

Unnamed: 0,key,right,data
0,A,4,a
1,B,5,b
2,D,6,c


In [121]:
# df_left와 df_right를 'key' 컬럼을 기준으로 merge합니다. (how='inner'가 기본값)
# 같은 이름의 'data' 컬럼이 두 DataFrame에 모두 있으므로, merge 결과에는 _x와 _y 접미사가 붙습니다.
df = df_left.merge(df_right, how="outer", on='key')
df

Unnamed: 0,key,left,data_x,right,data_y
0,A,1.0,1000.0,4.0,a
1,B,2.0,2000.0,5.0,b
2,C,3.0,3000.0,,
3,D,,,6.0,c


- 반대로, 기준열로 삼아야하는 컬럼이 서로 이름이 다른경우

In [122]:
# 첫 번째 DataFrame df_left를 생성합니다.
df_left = pd.DataFrame({'key': ['A', 'B', 'C'], 'left':[1, 2, 3]})
# 두 번째 DataFrame df_right를 생성합니다. 'key' 대신 'name' 컬럼을 가집니다.
df_right = pd.DataFrame({'name': ['A', 'B', 'D'], 'right':[4, 5, 6]})

In [123]:
# df_left DataFrame을 출력합니다.
df_left

Unnamed: 0,key,left
0,A,1
1,B,2
2,C,3


In [124]:
# df_right DataFrame을 출력합니다.
df_right

Unnamed: 0,name,right
0,A,4
1,B,5
2,D,6


In [125]:
# df_left와 df_right를 각각 'key'와 'name' 컬럼을 기준으로 'outer' 방식으로 merge합니다.
# left_on과 right_on 인자를 사용하여 기준 컬럼을 명시합니다.
df = df_left.merge(df_right, how='outer', left_on='key', right_on='name')
df

Unnamed: 0,key,left,name,right
0,A,1.0,A,4.0
1,B,2.0,B,5.0
2,C,3.0,,
3,,,D,6.0


In [126]:
# df_left와 df_right를 세로 방향(기본값)으로 연결합니다. 컬럼 이름이 다르므로 NaN이 발생합니다.
df = pd.concat([df_left, df_right]) #아래로 쌓인다.
df

Unnamed: 0,key,left,name,right
0,A,1.0,,
1,B,2.0,,
2,C,3.0,,
0,,,A,4.0
1,,,B,5.0
2,,,D,6.0


In [127]:
# df_left와 df_right를 가로 방향(axis=1)으로 연결합니다. 인덱스가 다르므로 NaN이 발생합니다.
df = pd.concat([df_left, df_right], axis=1) #옆으로 쌓인다.
df

Unnamed: 0,key,left,name,right
0,A,1,A,4
1,B,2,B,5
2,C,3,D,6


### 2.7 Pandas 연산과 함수

##### 누락된 데이터 체크(결측치 처리)
- 현실의 데이터들은 일부가 누락된 경우가 굉장히 많아서, 반드시 미리 확인해야함

In [128]:
# 리스트로 데이터프레임 만들기
# DataFrame을 위한 데이터를 정의합니다.
table1 = [
    ['2021-12-06', 1000, 'False', 'gum'],
    ['2021-12-07', 3000, 'True', 'snack'],
    ['2021-12-08', 2000, 'True', 'beverage'],
    ['2021-12-09', 1000, 'True', 'gum']
]
# 컬럼 이름을 지정하여 DataFrame을 생성합니다.
df = pd.DataFrame(table1, columns = ['일자','가격','구매여부','제품'])
df

Unnamed: 0,일자,가격,구매여부,제품
0,2021-12-06,1000,False,gum
1,2021-12-07,3000,True,snack
2,2021-12-08,2000,True,beverage
3,2021-12-09,1000,True,gum


In [129]:
# '신제품여부'라는 새로운 컬럼을 추가하고 값을 할당합니다. 마지막 값은 None(결측치)입니다.
df['신제품여부'] = [True, True, False, None]
df

Unnamed: 0,일자,가격,구매여부,제품,신제품여부
0,2021-12-06,1000,False,gum,True
1,2021-12-07,3000,True,snack,True
2,2021-12-08,2000,True,beverage,False
3,2021-12-09,1000,True,gum,


In [130]:
# DataFrame의 각 요소가 결측치(NaN, None 등)인지 여부를 불리언 형태로 반환합니다.
df.isnull()

Unnamed: 0,일자,가격,구매여부,제품,신제품여부
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,True


In [131]:
# DataFrame의 각 요소가 결측치가 아닌지 여부를 불리언 형태로 반환합니다.
df.notnull()

Unnamed: 0,일자,가격,구매여부,제품,신제품여부
0,True,True,True,True,True
1,True,True,True,True,True
2,True,True,True,True,True
3,True,True,True,True,False


In [132]:
# 결측치가 있는 모든 행을 삭제한 새로운 DataFrame을 반환합니다. (원본 df는 변경되지 않습니다.)
df.dropna()

Unnamed: 0,일자,가격,구매여부,제품,신제품여부
0,2021-12-06,1000,False,gum,True
1,2021-12-07,3000,True,snack,True
2,2021-12-08,2000,True,beverage,False


In [133]:
# '신제품여부' 컬럼을 다시 정의하고 마지막 값에 None을 할당합니다.
df['신제품여부'] = [True, True, False, None]
# '신제품여부' 컬럼의 결측치(None)를 '모름'이라는 문자열로 채웁니다. (특정값으로 대체)
df['신제품여부'] = df['신제품여부'].fillna("모름")
df

Unnamed: 0,일자,가격,구매여부,제품,신제품여부
0,2021-12-06,1000,False,gum,True
1,2021-12-07,3000,True,snack,True
2,2021-12-08,2000,True,beverage,False
3,2021-12-09,1000,True,gum,모름


https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html

In [134]:
# '신제품여부' 컬럼을 다시 정의하고 중간에 None을 할당합니다.
df['신제품여부'] = [True, True, None, False]
# '신제품여부' 컬럼의 결측치를 'ffill' (forward fill) 방식으로 채웁니다.
# 이전 유효한 값으로 결측치를 채웁니다.
df['신제품여부'] = df['신제품여부'].fillna(method = 'ffill') # fillna methods :
df

  df['신제품여부'] = df['신제품여부'].fillna(method = 'ffill') # fillna methods :
  df['신제품여부'] = df['신제품여부'].fillna(method = 'ffill') # fillna methods :


Unnamed: 0,일자,가격,구매여부,제품,신제품여부
0,2021-12-06,1000,False,gum,True
1,2021-12-07,3000,True,snack,True
2,2021-12-08,2000,True,beverage,True
3,2021-12-09,1000,True,gum,False


In [135]:
# '신제품여부' 컬럼을 다시 정의하고 중간에 None을 할당합니다.
df['신제품여부'] = [True, True, None, False]
# '신제품여부' 컬럼의 결측치를 'bfill' (backward fill) 방식으로 채웁니다.
# 다음 유효한 값으로 결측치를 채웁니다.
df['신제품여부'] = df['신제품여부'].fillna(method = 'bfill') # fillna methods :
df

  df['신제품여부'] = df['신제품여부'].fillna(method = 'bfill') # fillna methods :
  df['신제품여부'] = df['신제품여부'].fillna(method = 'bfill') # fillna methods :


Unnamed: 0,일자,가격,구매여부,제품,신제품여부
0,2021-12-06,1000,False,gum,True
1,2021-12-07,3000,True,snack,True
2,2021-12-08,2000,True,beverage,False
3,2021-12-09,1000,True,gum,False


##### 정렬

In [136]:
# df.sort_values 함수의 도움말을 출력합니다.
df.sort_values?

[31mSignature:[39m
df.sort_values(
    by: [33m'IndexLabel'[39m,
    *,
    axis: [33m'Axis'[39m = [32m0[39m,
    ascending: [33m'bool | list[bool] | tuple[bool, ...]'[39m = [38;5;28;01mTrue[39;00m,
    inplace: [33m'bool'[39m = [38;5;28;01mFalse[39;00m,
    kind: [33m'SortKind'[39m = [33m'quicksort'[39m,
    na_position: [33m'str'[39m = [33m'last'[39m,
    ignore_index: [33m'bool'[39m = [38;5;28;01mFalse[39;00m,
    key: [33m'ValueKeyFunc | None'[39m = [38;5;28;01mNone[39;00m,
) -> [33m'DataFrame | None'[39m
[31mDocstring:[39m
Sort by the values along either axis.

Parameters
----------
by : str or list of str
    Name or list of names to sort by.

    - if `axis` is 0 or `'index'` then `by` may contain index
      levels and/or column labels.
    - if `axis` is 1 or `'columns'` then `by` may contain column
      levels and/or index labels.
axis : "{0 or 'index', 1 or 'columns'}", default 0
     Axis to be sorted.
ascending : bool or list of bool, d

In [137]:
# '가격' 컬럼을 기준으로 DataFrame을 오름차순으로 정렬합니다. (원본 df는 변경되지 않습니다.)
df.sort_values("가격")

Unnamed: 0,일자,가격,구매여부,제품,신제품여부
0,2021-12-06,1000,False,gum,True
3,2021-12-09,1000,True,gum,False
2,2021-12-08,2000,True,beverage,False
1,2021-12-07,3000,True,snack,True


In [138]:
# df의 현재 상태를 확인합니다. (이전 sort_values는 원본을 변경하지 않았습니다.)
df

Unnamed: 0,일자,가격,구매여부,제품,신제품여부
0,2021-12-06,1000,False,gum,True
1,2021-12-07,3000,True,snack,True
2,2021-12-08,2000,True,beverage,False
3,2021-12-09,1000,True,gum,False


In [139]:
# '제품' 컬럼을 기준으로 DataFrame을 오름차순으로 정렬합니다.
df.sort_values("제품")

Unnamed: 0,일자,가격,구매여부,제품,신제품여부
2,2021-12-08,2000,True,beverage,False
0,2021-12-06,1000,False,gum,True
3,2021-12-09,1000,True,gum,False
1,2021-12-07,3000,True,snack,True


In [140]:
# '제품' 컬럼을 기준으로 DataFrame을 내림차순으로 정렬합니다. (ascending=False)
df.sort_values("제품", ascending = False)

Unnamed: 0,일자,가격,구매여부,제품,신제품여부
1,2021-12-07,3000,True,snack,True
0,2021-12-06,1000,False,gum,True
3,2021-12-09,1000,True,gum,False
2,2021-12-08,2000,True,beverage,False


In [141]:
# '가격'과 '제품' 두 컬럼을 기준으로 내림차순으로 정렬합니다.
df.sort_values(["가격","제품"], ascending = False)

Unnamed: 0,일자,가격,구매여부,제품,신제품여부
1,2021-12-07,3000,True,snack,True
2,2021-12-08,2000,True,beverage,False
0,2021-12-06,1000,False,gum,True
3,2021-12-09,1000,True,gum,False


##### 그 외 함수

In [142]:
# '제품' 컬럼의 고유한 값들을 배열 형태로 반환합니다.
df['제품'].unique()

array(['gum', 'snack', 'beverage'], dtype=object)

In [143]:
# '제품' 컬럼의 각 고유값들의 출현 빈도(개수)를 계산하여 Series로 반환합니다.
df['제품'].value_counts()

제품
gum         2
snack       1
beverage    1
Name: count, dtype: int64

### 2.8 데이터 파일을 읽고 쓰기

#### 표 형식의 데이터 파일을 읽기

In [144]:
%%writefile ./content/sea_rain1.csv
연도,동해,남해,서해,전체
1996,17.4629,17.2288,14.436,15.9067
1997,17.4116,17.4092,14.8248,16.1526
1998,17.5944,18.011,15.2512,16.6044
1999,18.1495,18.3175,14.8979,16.6284
2000,17.9288,18.1766,15.0504,16.6178

Overwriting ./content/sea_rain1.csv


In [145]:
import pandas as pd

# CSV 파일 'sea_rain1.csv'를 읽어 DataFrame으로 로드합니다.
pd.read_csv('./content/sea_rain1.csv')

Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


In [146]:
%%writefile ./content/sea_rain1_space.txt
# 텍스트 파일 'sea_rain1_space.txt'를 생성하고 공백으로 구분된 데이터를 작성합니다.
연도 동해 남해 서해 전체
1996 17.4629 17.2288 14.436 15.9067
1997 17.4116 17.4092 14.8248 16.1526
1998 17.5944 18.011 15.2512 16.6044
1999 18.1495 18.3175 14.8979 16.6284
2000 17.9288 18.1766 15.0504 16.6178

Writing ./content/sea_rain1_space.txt


In [147]:
# 텍스트 파일에서 데이터 필드가 콤마가 아니라 공백으로 구분되어 있을 때 'sep=구분자' 옵션을 사용합니다.
pd.read_csv('./content/sea_rain1_space.txt', sep=" ", skiprows=1)

Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


In [148]:
# 자동 생성된 index말고 특정 열을 index로 선택하려면 'index_col=열 이름'을 사용합니다.
# '연도' 컬럼을 인덱스로 사용하여 CSV 파일을 읽어 DataFrame으로 로드합니다.
pd.read_csv('./content/sea_rain1.csv', index_col="연도")

Unnamed: 0_level_0,동해,남해,서해,전체
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1996,17.4629,17.2288,14.436,15.9067
1997,17.4116,17.4092,14.8248,16.1526
1998,17.5944,18.011,15.2512,16.6044
1999,18.1495,18.3175,14.8979,16.6284
2000,17.9288,18.1766,15.0504,16.6178


#### 표 형식의 데이터를 파일로 쓰기

In [149]:
# 체중(Weight)과 키(Height) 데이터를 포함하는 DataFrame을 생성합니다.
df_WH = pd.DataFrame({'Weight':[62, 67, 55, 74],
                      'Height':[165, 177, 160, 180]},
                       index=['ID_1', 'ID_2', 'ID_3', 'ID_4'])
# 인덱스의 이름을 'User'로 설정합니다.
df_WH.index.name = 'User'
df_WH

Unnamed: 0_level_0,Weight,Height
User,Unnamed: 1_level_1,Unnamed: 2_level_1
ID_1,62,165
ID_2,67,177
ID_3,55,160
ID_4,74,180


In [150]:
# BMI(체질량지수)를 계산합니다. (체중 / (키(m))^2)
bmi = df_WH['Weight']/(df_WH['Height']/100)**2
bmi

User
ID_1    22.773186
ID_2    21.385936
ID_3    21.484375
ID_4    22.839506
dtype: float64

In [151]:
# 계산된 BMI 값을 DataFrame에 'BMI'라는 새로운 컬럼으로 추가합니다.
df_WH['BMI'] = bmi
df_WH

Unnamed: 0_level_0,Weight,Height,BMI
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ID_1,62,165,22.773186
ID_2,67,177,21.385936
ID_3,55,160,21.484375
ID_4,74,180,22.839506


In [152]:
# DataFrame을 'save_DataFrame.csv' 파일로 저장합니다. (기본적으로 콤마로 구분됩니다.)
df_WH.to_csv('./content/save_DataFrame.csv')

In [153]:
# 판매 가격과 판매량 데이터를 포함하는 DataFrame을 생성합니다.
df_pr = pd.DataFrame({'판매가격':[2000, 3000, 5000, 10000],
                       '판매량':[32, 53, 40, 25]},
                       index=['P1001', 'P1002', 'P1003', 'P1004'])
# 인덱스의 이름을 '제품번호'로 설정합니다.
df_pr.index.name = '제품번호'
df_pr

Unnamed: 0_level_0,판매가격,판매량
제품번호,Unnamed: 1_level_1,Unnamed: 2_level_1
P1001,2000,32
P1002,3000,53
P1003,5000,40
P1004,10000,25


In [154]:
# 저장할 파일 이름을 정의합니다.
file_name = './content/save_DataFrame.txt'
# DataFrame을 공백으로 구분된 텍스트 파일로 저장합니다. (sep=" ")
df_pr.to_csv(file_name, sep=" ")