# Pandas 기초

- R을 모티브로 만든 파이썬 라이브러리
- 데이터 수집, 전처리 과정에 사용
- Series: 1개의 열 형태
- Dataframe: 행과 열의 형태인 표

- pandas(판다스)는 파이썬의 데이터 처리와 분석을 위한 라이브러리입니다. pandas는 데이터를 간편하게 처리할 수 있도록 도와줍니다. 엑셀에서 데이터를 행과 열로 다루는 것과 같은 방식으로 말입니다. 

- pandas는 빅데이터(big data)처럼 처리할 데이터의 양이 많을 때 사용하기 좋습니다. 엑셀에서는 대용량의 데이터를 처리하면 프로그램의 속도가 느려집니다. 데이터를 감당하지 못하고 과부하가 생기는 것입니다. 반면, pandas는 많은 양의 데이터를 처리하더라도 영향을 받지 않습니다. 오히려 대용량의 데이터를 처리하기에 적합합니다. pandas와 엑셀을 사용 목적에 맞게 적절히 활용한다면 데이터 분석을 더 효율적으로 할 수 있을 것입니다.

- pandas에는 세 가지 자료구조(data structure)가 있습니다. Series(시리즈), DataFrame(데이터 프레임), 그리고 Panel(패널)입니다. Series는 1차원 데이터 자료구조이고, DataFrame은 2차원, Panel은 3차원 데이터 자료구조입니다. 

## 1. Series

- Series 생성하기

    - pd.Series(자료구조)
    - 딕셔너리
    - 1차원 리스트 (list)
    - 튜플 (tuple)
    - 1차원 배열 (array)

### 1-1. 딕셔너리로 Series 데이터 만들기

In [2]:
import pandas as pd

dict_data = {'a':1, 'b':2, 'c':3}
series_data = pd.Series(dict_data)

print(type(dict_data))
print(dict_data)
print('\n')

print(type(series_data))
print(series_data)

<class 'dict'>
{'a': 1, 'b': 2, 'c': 3}


<class 'pandas.core.series.Series'>
a    1
b    2
c    3
dtype: int64


In [3]:
# index와 값의 확인

print(series_data.index)
print(series_data.values)

# series data의 index로 접근
for i in series_data.index:    
    print(series_data[i])

Index(['a', 'b', 'c'], dtype='object')
[1 2 3]
1
2
3


In [4]:
# 인덱스와 값 확인

idx = series_data.index
val = series_data.values

print(idx)
print(val)

# 인덱스로 인덱스 위치의 값 출력
for i in range(0, len(idx)):
    print(idx[i])
print('\n')

for i in range(0, len(idx)):    
    print(val[i])
print('\n')

for i in idx:    
    print(series_data[i])

Index(['a', 'b', 'c'], dtype='object')
[1 2 3]
a
b
c


1
2
3


1
2
3


### 1-2. 리스트로 Series 데이터 만들기

In [5]:
list_data = ['2024-01-02', 4.45, 'ABC', 1000, True]
series_data = pd.Series(list_data)

print(type(list_data))
print(list_data)
print('\n')

print(type(series_data))
print(series_data)

<class 'list'>
['2024-01-02', 4.45, 'ABC', 1000, True]


<class 'pandas.core.series.Series'>
0    2024-01-02
1          4.45
2           ABC
3          1000
4          True
dtype: object


In [8]:
# 인덱스와 값 확인

idx = series_data.index
val = series_data.values

print(idx)
print(val)
print('\n')

for i in idx:
    print(val[i])
print('\n')

for i in idx:    
    print(series_data[i])

RangeIndex(start=0, stop=5, step=1)
['2024-01-02' 4.45 'ABC' 1000 True]


2024-01-02
4.45
ABC
1000
True


2024-01-02
4.45
ABC
1000
True


In [10]:
# 인덱스와 값 확인

idx = series_data.index
val = series_data.values

print(idx)
print(val)
print('\n')

for i in range(0, len(idx)):
    print(idx[i])
print('\n')

for i in range(0, len(idx)):    
    print(val[i])
print('\n')

for i in range(0, len(idx)):    
    print(series_data[idx[i]])

RangeIndex(start=0, stop=5, step=1)
['2024-01-02' 4.45 'ABC' 1000 True]


0
1
2
3
4


2024-01-02
4.45
ABC
1000
True


2024-01-02
4.45
ABC
1000
True


### 1-3. 튜플로 Series 데이터 만들기

In [11]:
tup_data = ('용근','1995-02-08','남',True)
series_data = pd.Series(tup_data)
# series_data = pd.Series(tup_data, index = ['이름','생년월일','성별','학생여부'])
print(series_data)

0            용근
1    1995-02-08
2             남
3          True
dtype: object


In [12]:
# 인덱스와 값 확인

idx = series_data.index
val = series_data.values

print(idx)
print(val)

for i in idx:
    print(val[i])
print('\n')

for i in idx:    
    print(series_data[i])

RangeIndex(start=0, stop=4, step=1)
['용근' '1995-02-08' '남' True]
용근
1995-02-08
남
True


용근
1995-02-08
남
True


In [15]:
tup_data = ('용근','1995-02-08','남',True)
# series_data = pd.Series(tup_data)
series_data = pd.Series(tup_data, index = ['이름','생년월일','성별','학생여부'])
print(series_data)
print(type(series_data))


이름              용근
생년월일    1995-02-08
성별               남
학생여부          True
dtype: object
<class 'pandas.core.series.Series'>


In [16]:
# 인덱스와 값 확인

idx = series_data.index
val = series_data.values

print(idx)
print(val)

for i in range(0, len(idx)):
    print(idx[i])
print('\n')

for i in range(0, len(idx)):    
    print(val[i])
print('\n')


for i in range(0, len(idx)):    # 리스트 인덱싱
    print(series_data[i])
print('\n')

for i in idx:                   # 딕셔너리 인덱싱
    print(series_data[i])

Index(['이름', '생년월일', '성별', '학생여부'], dtype='object')
['용근' '1995-02-08' '남' True]
이름
생년월일
성별
학생여부


용근
1995-02-08
남
True


용근
1995-02-08
남
True


용근
1995-02-08
남
True


  print(series_data[i])


### 1-4. 1차원 배열로 Series 만들기

In [17]:
import numpy as np

data_arr = np.arange(5, 11) # 5부터 10까지의 정수를 원소로 갖는 1차원 배열 생성

series_data = pd.Series(data_arr)
series_data

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

### 1-5. 원소선택, 인덱싱

In [20]:
# 리스트 형식의 인뎅싱, 딕셔너리 형식의 인덱싱
tup_data = ('용근','1995-02-08','남',True)
series_data = pd.Series(tup_data, index = ['이름','생년월일','성별','학생여부'])
print(series_data[0])       # 리스트 인덱싱
print(series_data['이름'])  # 딕셔너리 인덱싱
print(series_data)

용근
용근
이름              용근
생년월일    1995-02-08
성별               남
학생여부          True
dtype: object


  print(series_data[0])       # 리스트 인덱싱


In [21]:
# 각각의 위치 or 이름으로 인덱싱할 경우, [[]] 사용 주의
print(series_data[[1,2]])
print('\n')
print(series_data[['생년월일','성별']])
print('\n')

print(series_data[[0]])       # 리스트 인덱싱
print('\n')
print(series_data[['이름']])  # 딕셔너리 인덱싱

생년월일    1995-02-08
성별               남
dtype: object


생년월일    1995-02-08
성별               남
dtype: object


이름    용근
dtype: object


이름    용근
dtype: object


  print(series_data[[1,2]])
  print(series_data[[0]])       # 리스트 인덱싱


In [14]:
# : 인덱싱 할 경우, [] 하나만 사용
print(series_data[1:2])
print('\n')
# 인덱스 위치를 사용하면 끝의 범위 앞까지만 포함됨

print(series_data['생년월일':'성별'])
# 인덱스의 이름을 사용하면 끝의 범위까지 포함됨

생년월일    1995-02-08
dtype: object


생년월일    1995-02-08
성별               남
dtype: object


### 1-6. 조건으로 선택하기

In [22]:
data = {'국어': 100, '수학': 50, '영어': 70, '과학': 90}
new_index = ['국어', '수학', '영어', '사회']

series_data = pd.Series(data, index=new_index)
series_data

국어    100.0
수학     50.0
영어     70.0
사회      NaN
dtype: float64

In [23]:
series_data[series_data > 75]

국어    100.0
dtype: float64

In [17]:
series_data[(series_data > 65) & (series_data < 90)]

영어    70.0
dtype: float64

### 1-7. 연산하기

In [18]:
data = {'국어': 100, '수학': 50, '영어': 70, '과학': 90}

series_data = pd.Series(data)
series_data

국어    100
수학     50
영어     70
과학     90
dtype: int64

In [19]:
data_ls = pd.Series([100, 50, 70, 90], index=['국어', '수학', '독어', '과학'])
# data_ls = pd.Series([100., 50., 70., 90.])
# data_ls = [100, 50, 70, 90]
print(data_ls)
series_data1 = pd.Series(data_ls, index=['국어', '수학', '영어', '과학'])
# series_data1 = pd.Series(series_data, index=['국어', '수학', '영어', '과학'])
series_data1

국어    100
수학     50
독어     70
과학     90
dtype: int64


국어    100.0
수학     50.0
영어      NaN
과학     90.0
dtype: float64

In [20]:
new_index = ['국어', '수학', '영어', '사회']
series_data2 = pd.Series(series_data, index=new_index)
series_data2

국어    100.0
수학     50.0
영어     70.0
사회      NaN
dtype: float64

In [21]:
series_data / 2

국어    50.0
수학    25.0
영어    35.0
과학    45.0
dtype: float64

In [22]:
series_data3 = series_data1 + series_data2
series_data3

과학      NaN
국어    200.0
사회      NaN
수학    100.0
영어      NaN
dtype: float64

## 2. 데이터프레임(dataframe)

- Series 데이터가 여러 개 합쳐진 형태

- pd.DataFrame(data, index, columns)

### 2-1. 딕셔너리로 dataframe 만들기

In [24]:
import pandas as pd

dict_data = {'c0':[1,2,3],'c1':[4,5,6],'c2':[7,8,9],'c3':[10,11,12],'c4':[13,14,15]} # 리스트를 값으로 갖는 사전
df = pd.DataFrame(dict_data)

print(type(df))
print('\n')
print(df)

<class 'pandas.core.frame.DataFrame'>


   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


### 2-2. 리스트로 dataframe 만들기

In [25]:
df = pd.DataFrame([[14,'남','염경중'],[17,'여','양동중']],
                  index = ['준서','예은'],
                  columns = ['나이','성별','학교'])
print(df)
print('\n')
print(df.index)
print('\n')
print(df.columns)

    나이 성별   학교
준서  14  남  염경중
예은  17  여  양동중


Index(['준서', '예은'], dtype='object')


Index(['나이', '성별', '학교'], dtype='object')


#### 딕셔너리로 만들기와 리스트로 만들기 차이점

- 딕셔너리로 만들기 : column을 이어 붙이는 형식
- 리스트로 만들기 : row를 쌓아 붙이는 형식

### 2-3. 행, 열 이름 변경: basic

In [25]:
print(df.index)
print(df.columns)

Index(['준서', '예은'], dtype='object')
Index(['나이', '성별', '학교'], dtype='object')


In [26]:
df.index = ['학생1','학생2']
df.columns = ['연령','남녀','소속']
df

Unnamed: 0,연령,남녀,소속
학생1,14,남,염경중
학생2,17,여,양동중


### 2-4. 행, 열 이름 변경: rename()

In [27]:
df = pd.DataFrame([[14,'남','염경중'],[17,'여','양동중']],
                  index = ['준서','예은'],
                  columns = ['나이','성별','학교'])

df

Unnamed: 0,나이,성별,학교
준서,14,남,염경중
예은,17,여,양동중


#### 열이름 변경
- column 내용을 변경

In [28]:
# rename(columns={변경 전 열이름:변경 후 열이름}, inplace=True)
df.rename(columns={'나이':'연령','성별':'남녀', '학교':'소속'}, inplace=True)
df

Unnamed: 0,연령,남녀,소속
준서,14,남,염경중
예은,17,여,양동중


#### 행이름 변경
- index 내용을 변경

In [29]:
df.rename(index={'준서':'학생1', '예은':'학생2'}, inplace=True)
df

Unnamed: 0,연령,남녀,소속
학생1,14,남,염경중
학생2,17,여,양동중


### 2-5. 행 또는 열 삭제: drop()

In [30]:
exam_data = {'수학':[90,80,70], '영어':[98,89,95],
            '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data, index = ['학생1','학생2','학생3'])
df

Unnamed: 0,수학,영어,음악,체육
학생1,90,98,85,100
학생2,80,89,95,90
학생3,70,95,100,90


#### 행 또는 열 삭제
- drop('행 또는 열이름', axis = 0 or 1, inplace =True)와 같이 사용한다.
- 행을 삭제하려면 axis=0(디폴트값), 열을 삭제하려면 axis=1을 꼭 지정해 주어야한다.

In [31]:
df2 = df.copy()  
df2.drop('학생2',inplace=True)  #행삭제는 axis옵션 생략가능
df2

Unnamed: 0,수학,영어,음악,체육
학생1,90,98,85,100
학생3,70,95,100,90


#### 다수 행 또는 열삭제
- 두 개 이상의 열을 drop하고 싶으면 대괄호[]로 표시해주어야 한다.

In [32]:
df3 = df.copy()
df3.drop(['수학','음악'],axis=1,inplace=True)
df3

Unnamed: 0,영어,체육
학생1,98,100
학생2,89,90
학생3,95,90


### 2-6. 데이터프레임 인덱싱: loc(), iloc()
- loc(): 이름으로 인덱싱
- iloc(): 숫자로 인덱싱

In [33]:
exam_data = {'수학':[90,80,70], '영어':[98,89,95],
            '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data, index = ['서준','우현','인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [34]:
label1 = df.loc['서준']
position1 = df.iloc[0]

print(label1)
print('\n')
print(position1)

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


In [35]:
# 선택한 행 -> series 자료형 -> tuple, dict, list 형태로 변형 가능
print(list(label1))
print(tuple(label1))
print(dict(label1))

[90, 98, 85, 100]
(90, 98, 85, 100)
{'수학': 90, '영어': 98, '음악': 85, '체육': 100}


#### 두 개 이상의 행 선택시 대괄호 [[]], [:]

In [36]:
label2 = df.loc[['서준','우현']]
position2 = df.iloc[[0,1]]

print(label2)
print('\n')
print(position2)

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


In [37]:
label3 = df.loc['서준':'우현'] # 이름으로 : 인덱싱시 끝 위치 포함
position3 = df.iloc[0:1]      # 숫자로 : 인덱싱시 끝 위치 미포함

print(label3)
print('\n')
print(position3)

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


    수학  영어  음악   체육
서준  90  98  85  100


### 2-7. 열 선택
- df.열이름 
- df['열이름']

In [38]:
exam_data = {'이름':['서준','우현','인아']
             ,'수학':[90,80,70], '영어':[98,89,95],
            '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [39]:
# 수학 열만 선택
math1 = df['수학']
print(math1)
print(type(math1))

0    90
1    80
2    70
Name: 수학, dtype: int64
<class 'pandas.core.series.Series'>


In [40]:
# 영어 열만 선택
english = df.영어
print(english)
print(type(english))

0    98
1    89
2    95
Name: 영어, dtype: int64
<class 'pandas.core.series.Series'>


In [41]:
# 두 개 이상의 열 선택하기
music_gym = df[['음악','체육']]
print(music_gym)
print(type(music_gym))
print('\n')

math2 = df[['수학']]
print(math2)
print(type(math2))

    음악   체육
0   85  100
1   95   90
2  100   90
<class 'pandas.core.frame.DataFrame'>


   수학
0  90
1  80
2  70
<class 'pandas.core.frame.DataFrame'>


### 2-8. 범위 슬라이싱

In [42]:
exam_data = {'이름':['서준','우현','인아']
             ,'수학':[90,80,70], '영어':[98,89,95],
            '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [43]:
# 모든 행을 2행 간격으로 선택
df.iloc[: : 2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,95,100,90


In [44]:
# 0행 부터 2행까지 2행간격으로 선택
df.iloc[0:3:2]  

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,95,100,90


In [45]:
# 모든 행을 -1행 간격으로 (역순으로)
df.iloc[: : -1]

Unnamed: 0,이름,수학,영어,음악,체육
2,인아,70,95,100,90
1,우현,80,89,95,90
0,서준,90,98,85,100


### 2-9. 원소선택

- set_index(): 특정 열을 인덱스로 부여해주는 함수
- 날짜 열 혹은 key값을 가진 열을 인덱스로 부여하고 싶을 때 사용

In [46]:
exam_data = {'이름':['서준','우현','인아']
             ,'수학':[90,80,70], '영어':[98,89,95],
            '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data)

# 이름을 인덱스로 지정
df.set_index('이름', inplace=True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [47]:
df.loc['서준','음악']

85

In [48]:
df.iloc[0,2]

85

#### - 서준의 음악, 체육 점수 찾는 방법

In [49]:
# 1
df.loc['서준', ['음악','체육']]

음악     85
체육    100
Name: 서준, dtype: int64

In [50]:
# 2
df.loc['서준', '음악':'체육']

음악     85
체육    100
Name: 서준, dtype: int64

In [51]:
# 3
df.iloc[0,[2,3]]

음악     85
체육    100
Name: 서준, dtype: int64

In [52]:
# 4
df.iloc[0,2:4]

음악     85
체육    100
Name: 서준, dtype: int64

#### - 두 개의 행과 열 선택

In [53]:
print(df.loc[['서준','우현'],['음악','체육']])
print(df.loc['서준':'우현','음악':'체육'])
print(df.iloc[[0,1],[2,3]])
print(df.iloc[0:2,2:4])

    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90


### 2-10. 행, 열 추가
- df['새 열 이름'] = 값

In [54]:
exam_data = {'이름':['서준','우현','인아']
             ,'수학':[90,80,70], '영어':[98,89,95],
            '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
df['국어'] = 80
df

Unnamed: 0,이름,수학,영어,음악,체육,국어
0,서준,90,98,85,100,80
1,우현,80,89,95,90,80
2,인아,70,95,100,90,80


In [55]:
exam_data = {'이름':['서준','우현','인아']
             ,'수학':[90,80,70], '영어':[98,89,95],
            '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
df.loc[3] = 10
df.loc[4] = ['용근',100,100,100,100]
# df.iloc[5]= 1000 # iloc cannot enlarge its target object
df.loc[5]= 1000    # loc can enlarge its target object
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90
3,10,10,10,10,10
4,용근,100,100,100,100
5,1000,1000,1000,1000,1000


### 2-11. 원소 값 변경하기

In [56]:
exam_data = {'이름':['서준','우현','인아']
             ,'수학':[90,80,70], '영어':[98,89,95],
            '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
# 이름을 인덱스로 지정
df.set_index('이름', inplace=True)

print(df)

    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


#### - 서준의 체육 값을 변경시키는 방법

In [57]:
df.iloc[0][3] = 80
print(df)
print('\n')

df.iloc[0,3] = 88
print(df)
print('\n')

df.loc['서준']['체육'] = 90
print(df)
print('\n')

df.loc['서준','체육'] = 100
print(df)

    수학  영어   음악  체육
이름                 
서준  90  98   85  80
우현  80  89   95  90
인아  70  95  100  90


    수학  영어   음악  체육
이름                 
서준  90  98   85  88
우현  80  89   95  90
인아  70  95  100  90


    수학  영어   음악  체육
이름                 
서준  90  98   85  90
우현  80  89   95  90
인아  70  95  100  90


    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df.iloc[0][3] = 80
  df.iloc[0][3] = 80
You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or

- replace() 이용한 특정 값 변경하기

In [58]:
a = {'sex' : ['Male', 'Female', 'Male', 'Male','Male', 'Female','Male', 'Female'], 'age' : [10, 52, 34, 35, 40, 20, 81, 12], 'height': [180, 156, 190, 170, 175, 165, 178, 164]}
df = pd.DataFrame(a)
df

Unnamed: 0,sex,age,height
0,Male,10,180
1,Female,52,156
2,Male,34,190
3,Male,35,170
4,Male,40,175
5,Female,20,165
6,Male,81,178
7,Female,12,164


In [59]:
df = df.replace('Male', 0)
df = df.replace('Female', 1)
df

  df = df.replace('Female', 1)


Unnamed: 0,sex,age,height
0,0,10,180
1,1,52,156
2,0,34,190
3,0,35,170
4,0,40,175
5,1,20,165
6,0,81,178
7,1,12,164


### 2-12 특정 조건에 맞는 데이터 추출

In [60]:
import pandas as pd

df = pd.DataFrame([{"country":"한국","population":500},{"country":"미국","population":450},{"country":"싱가폴","population":705},
                   {"country":"호주","population":878},{"country":"베트남","population":660},{"country":"대만","population":808}])

In [61]:
df

Unnamed: 0,country,population
0,한국,500
1,미국,450
2,싱가폴,705
3,호주,878
4,베트남,660
5,대만,808


- country가 한국인 경우, 값 출력

In [62]:
df[df['country'] == '한국']

Unnamed: 0,country,population
0,한국,500


- 조건의 조합

In [63]:
df[(df['country'] == '한국') | (df['population'] > 800)]

Unnamed: 0,country,population
0,한국,500
3,호주,878
5,대만,808


In [64]:
df[(df['country'] != '한국') & (df['population'] < 800)]

Unnamed: 0,country,population
1,미국,450
2,싱가폴,705
4,베트남,660


- 리스트에 속하는 조건

In [65]:
country_list = ['한국', '중국', '일본', '영국', '미국']

df[df['country'].isin(country_list)]

Unnamed: 0,country,population
0,한국,500
1,미국,450


In [66]:
df[~df['country'].isin(country_list)]  # 리스트에 속하지 않는

Unnamed: 0,country,population
2,싱가폴,705
3,호주,878
4,베트남,660
5,대만,808


### 2-13. 행과 열 바꾸기: 전치행렬 transpose(), .T

In [67]:
exam_data = {'이름':['서준','우현','인아']
             ,'수학':[90,80,70], '영어':[98,89,95],
            '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
print(df)
print('\n')

df = df.transpose()
print(df)
print('\n')

df = df.T
print(df)
print('\n')

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90


      0   1    2
이름   서준  우현   인아
수학   90  80   70
영어   98  89   95
음악   85  95  100
체육  100  90   90


   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90




### 2-14. 파일읽기

![파일읽기 함수](../resource/W1/readdata.png)

In [69]:
df = pd.read_csv("../resource/W1/hollys.csv", encoding='utf-8', index_col=0, engine='python')

df.head()

Unnamed: 0,store,sido-gu,address,phone
0,부산사상광장점,부산 사상구,부산광역시 사상구 광장로 22 (괘법동) 2층 사상구 괘법동 565-2,051-322-4117
1,하남덕풍점,경기 하남시,경기도 하남시 덕풍북로 2 (덕풍동) .,070-4791-4731
2,대전오류점,대전 중구,"대전광역시 중구 계룡로 876 메종드메디컬빌딩 104호, 202호 .",042-522-3141
3,계룡대점,충남 계룡시,충청남도 계룡시 신도안면 신도안1길 43 (계룡스포츠센터) 계룡스포츠센터 1층,042-551-5508
4,화정DI점,경기 고양시 덕양구,경기도 고양시 덕양구 화신로 254 (화정동),031-971-4097


### 2-15. 파일쓰기

-  df.to_csv('foo.csv')
-  df.to_hdf('foo.h5')
-  df.to_excel('foo.xlsx', sheet_name='Sheet1')

In [70]:
df.to_csv('../resource/W1/output/foo.csv', header=False, encoding='cp949')

In [71]:
df.to_excel('../resource/W1/output/foo.xlsx', sheet_name='Sheet1')

### 2-16 데이터 프래임 합치기

(1) concat()

- key column 사용하지 않고 단순히 데이터를 위/아래 또는 좌/우로 연결

    - concat([df1, df2], axis = 0): 위/아래 연결
    - concat([df1, df2], axis = 1): 좌/우 연결

In [72]:
import pandas as pd

# 데이터 준비
df1 = pd.read_csv("../resource/W1/heart1.csv")
df2 = pd.read_csv("../resource/W1/heart2.csv")

In [73]:
df1

Unnamed: 0,HeartDisease,BMI,Smoking,AlcoholDrinking,Stroke,PhysicalHealth,MentalHealth,DiffWalking,Sex,AgeCategory,Race,Diabetic,PhysicalActivity,GenHealth,SleepTime,Asthma,KidneyDisease,SkinCancer
0,Yes,53.23,No,No,Yes,0,0,No,Female,65-69,Black,Yes,No,Fair,6,Yes,No,No
1,No,37.30,No,No,No,0,3,No,Male,25-29,Black,No,Yes,Very good,6,No,No,No
2,No,25.80,Yes,No,No,0,5,No,Male,18-24,Black,No,Yes,Good,12,No,No,No
3,No,30.34,Yes,No,No,3,7,Yes,Male,40-44,Black,Yes,No,Good,9,No,No,No
4,No,23.49,No,No,No,0,0,No,Male,65-69,White,No,Yes,Very good,7,No,No,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
168791,Yes,27.41,Yes,No,No,7,0,Yes,Male,60-64,Hispanic,Yes,No,Fair,6,Yes,No,No
168792,No,29.84,Yes,No,No,0,0,No,Male,35-39,Hispanic,No,Yes,Very good,5,Yes,No,No
168793,No,24.24,No,No,No,0,0,No,Female,45-49,Hispanic,No,Yes,Good,6,No,No,No
168794,No,32.81,No,No,No,0,0,No,Female,25-29,Hispanic,No,No,Good,12,No,No,No


In [74]:
df2

Unnamed: 0,HeartDisease,BMI,Smoking,AlcoholDrinking,Stroke,PhysicalHealth,MentalHealth,DiffWalking,Sex,AgeCategory,Race,Diabetic,PhysicalActivity,GenHealth,SleepTime,Asthma,KidneyDisease,SkinCancer
0,No,16.60,Yes,No,No,3,30,No,Female,55-59,White,Yes,Yes,Very good,5,Yes,No,Yes
1,No,20.34,No,No,Yes,0,0,No,Female,80 or older,White,No,Yes,Very good,7,No,No,No
2,No,26.58,Yes,No,No,20,30,No,Male,65-69,White,Yes,Yes,Fair,8,Yes,No,No
3,No,24.21,No,No,No,0,0,No,Female,75-79,White,No,No,Good,6,No,No,Yes
4,No,23.71,No,No,No,28,0,Yes,Female,40-44,White,No,Yes,Very good,8,No,No,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
150994,Yes,44.63,No,No,No,0,7,Yes,Female,65-69,Black,Yes,No,Good,8,No,No,No
150995,No,29.18,No,No,No,7,5,No,Female,30-34,Black,No,Yes,Very good,7,Yes,No,No
150996,No,41.48,No,No,No,14,30,Yes,Female,30-34,Black,No,Yes,Poor,7,No,No,No
150997,No,26.07,Yes,No,No,0,0,No,Female,35-39,White,No,Yes,Very good,8,No,No,No


- 위/아래 합치기

![위/아래 합치기](../resource/W1/concat_v.png)

In [75]:
total = pd.concat([df1, df2])
total

Unnamed: 0,HeartDisease,BMI,Smoking,AlcoholDrinking,Stroke,PhysicalHealth,MentalHealth,DiffWalking,Sex,AgeCategory,Race,Diabetic,PhysicalActivity,GenHealth,SleepTime,Asthma,KidneyDisease,SkinCancer
0,Yes,53.23,No,No,Yes,0,0,No,Female,65-69,Black,Yes,No,Fair,6,Yes,No,No
1,No,37.30,No,No,No,0,3,No,Male,25-29,Black,No,Yes,Very good,6,No,No,No
2,No,25.80,Yes,No,No,0,5,No,Male,18-24,Black,No,Yes,Good,12,No,No,No
3,No,30.34,Yes,No,No,3,7,Yes,Male,40-44,Black,Yes,No,Good,9,No,No,No
4,No,23.49,No,No,No,0,0,No,Male,65-69,White,No,Yes,Very good,7,No,No,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
150994,Yes,44.63,No,No,No,0,7,Yes,Female,65-69,Black,Yes,No,Good,8,No,No,No
150995,No,29.18,No,No,No,7,5,No,Female,30-34,Black,No,Yes,Very good,7,Yes,No,No
150996,No,41.48,No,No,No,14,30,Yes,Female,30-34,Black,No,Yes,Poor,7,No,No,No
150997,No,26.07,Yes,No,No,0,0,No,Female,35-39,White,No,Yes,Very good,8,No,No,No


- 좌/우 합치기

![좌/우 합치기](../resource/W1/concat_h.png)

In [76]:
total = pd.concat([df1, df2], axis=1)
total

Unnamed: 0,HeartDisease,BMI,Smoking,AlcoholDrinking,Stroke,PhysicalHealth,MentalHealth,DiffWalking,Sex,AgeCategory,...,Sex.1,AgeCategory.1,Race,Diabetic,PhysicalActivity,GenHealth,SleepTime,Asthma,KidneyDisease,SkinCancer
0,Yes,53.23,No,No,Yes,0,0,No,Female,65-69,...,Female,55-59,White,Yes,Yes,Very good,5.0,Yes,No,Yes
1,No,37.30,No,No,No,0,3,No,Male,25-29,...,Female,80 or older,White,No,Yes,Very good,7.0,No,No,No
2,No,25.80,Yes,No,No,0,5,No,Male,18-24,...,Male,65-69,White,Yes,Yes,Fair,8.0,Yes,No,No
3,No,30.34,Yes,No,No,3,7,Yes,Male,40-44,...,Female,75-79,White,No,No,Good,6.0,No,No,Yes
4,No,23.49,No,No,No,0,0,No,Male,65-69,...,Female,40-44,White,No,Yes,Very good,8.0,No,No,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
168791,Yes,27.41,Yes,No,No,7,0,Yes,Male,60-64,...,,,,,,,,,,
168792,No,29.84,Yes,No,No,0,0,No,Male,35-39,...,,,,,,,,,,
168793,No,24.24,No,No,No,0,0,No,Female,45-49,...,,,,,,,,,,
168794,No,32.81,No,No,No,0,0,No,Female,25-29,...,,,,,,,,,,


(2) merge()

- 두 데이터 프래임에 존재하는 고유값(key)를 기준으로 병합
    
    - 기준열 이름이 같을 때

        - pd.merge(left, right, on = '기준열', how = '조인방식')

    - 기준열 이름이 다를 때
        - pd.merge(left, right, left_on = '왼쪽 열', right_on = '오른쪽 열', how = '조인방식')

    - 조인방식
        - left, right, inner, outer

In [77]:
fruit = pd.DataFrame({'Num':[123, 456, 789, 1011, 1112], 'Fruit':['Apple', 'Banana', 'Cherry', 'Lemon', 'Peach']})
grade = pd.DataFrame({'Num':[123, 789, 1314], 'Grade':['A', 'B', 'C']})

In [78]:
fruit

Unnamed: 0,Num,Fruit
0,123,Apple
1,456,Banana
2,789,Cherry
3,1011,Lemon
4,1112,Peach


In [79]:
grade

Unnamed: 0,Num,Grade
0,123,A
1,789,B
2,1314,C


- 조인방식

![조인방식](../resource/W1/join_method.png)

In [80]:
# Left join
df_left = pd.merge(fruit, grade, on = 'Num', how = 'left')
df_left

Unnamed: 0,Num,Fruit,Grade
0,123,Apple,A
1,456,Banana,
2,789,Cherry,B
3,1011,Lemon,
4,1112,Peach,


In [81]:
# Right join
df_right = pd.merge(fruit, grade, on = 'Num', how = 'right')
df_right

Unnamed: 0,Num,Fruit,Grade
0,123,Apple,A
1,789,Cherry,B
2,1314,,C


In [82]:
# Inner join
df_inner = pd.merge(fruit, grade, on = 'Num', how = 'inner')
df_inner

Unnamed: 0,Num,Fruit,Grade
0,123,Apple,A
1,789,Cherry,B


In [83]:
# Outer join
df_outer = pd.merge(fruit, grade, on = 'Num', how = 'outer')
df_outer

Unnamed: 0,Num,Fruit,Grade
0,123,Apple,A
1,456,Banana,
2,789,Cherry,B
3,1011,Lemon,
4,1112,Peach,
5,1314,,C
