# pandas
- "액셀"과 유사한 데이터프레임(DataFrame)을 사용하기 위해 필요
- 데이터프레임은 데이터 처리에 가장 많이 사용되는 2차원, 테이블형 데이터 구조

## 데이터 프레임 만들기
- 딕셔너리를 만든 후 이를 데이터프레임으로 바꾸는 방법
- 배열, 리스트, 튜플로부터 만드는 방법
- csv 파일을 읽어 만드는 방법
- 액셀 파일을 읽어 만드는 방법

## 딕셔너리에서 만드는 방법

## import

In [220]:
import pandas as pd
%config InlineBackend.figure_format = 'retina'

In [221]:
x = {'city': ['서울', '부산', '대구', '대전', '광주'],
        'population': [990, 350, 250, 154, 150],
        'temp': [13, 16, 14, 13, 15]}

data = pd.DataFrame(x)
data

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


- 딕셔너리의 키를 컬럼명으로, 값을 데이터로 사용한다
- 인덱스(행 번호)가 자동으로 만들어진다

In [222]:
# 데이터프레임의 구조 보기(shape)
data.shape

(5, 3)

In [223]:
# 샘플(행) 수  - 튜플의 첫번째 값을 본다
data.shape[0]

5

In [224]:
# 컬럼(열) 수 - 튜플의 두번째 값을 본다
data.shape[1]

3

In [225]:
# 컬럼명 모두 보기 (컬럼명은 특수 변수 Index로 표현된다)
data.columns

Index(['city', 'population', 'temp'], dtype='object')

# 데이터프레임 다루기

In [226]:
# 일부 컬럼만 보기
data[['city', 'temp']]

Unnamed: 0,city,temp
0,서울,13
1,부산,16
2,대구,14
3,대전,13
4,광주,15


- 원본 데이터는 바뀌지 않는다

In [227]:
data

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


In [228]:
# 별도 저장이 필요하면 새로운 변수에 저장한다
data_part = data[['city', 'temp']]
data_part

Unnamed: 0,city,temp
0,서울,13
1,부산,16
2,대구,14
3,대전,13
4,광주,15


- 한 컬럼만 얻기
- 컬럼이 하나인 데이터프레임은 시리즈(Series)라고 한다
 - 시리즈에도 인덱스가 붙어있다

In [229]:
data["temp"]

0    13
1    16
2    14
3    13
4    15
Name: temp, dtype: int64

In [230]:
# 사본 만들기
df = data.copy()

## 컬럼 이름 바꾸기
- columns 사용

In [231]:
df.columns = ['도시','인구','날씨'] # 즉시 반영된다
df

Unnamed: 0,도시,인구,날씨
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


## 인덱스
- 인덱스는 행에 대한 접근을 쉽게 하기 위해 사용한다

In [232]:
df

Unnamed: 0,도시,인구,날씨
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


In [233]:
df.index

RangeIndex(start=0, stop=5, step=1)

## 인덱스 바꾸기

In [234]:
# 인덱스를 컬럼에서 선택하기
df.set_index('도시')

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,13
부산,350,16
대구,250,14
대전,154,13
광주,150,15


- 원본 데이터는 바뀌지 않는다 (파이썬의 데이터 복사 최소화 원칙)

In [235]:
df

Unnamed: 0,도시,인구,날씨
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


- 수행 결과를 원본 데이터에 반영하려면 inplace=True 사용

In [236]:
df.set_index('도시', inplace=True)
df

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,13
부산,350,16
대구,250,14
대전,154,13
광주,150,15


## 인데스 원상복귀
- reset_index 사용
- 정수형 인덱스가 자동으로 생성된다
- 기존의 인덱스는 컬럼으로 편입된다

In [237]:
df.reset_index(inplace=True)
df

Unnamed: 0,도시,인구,날씨
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


## 샘플 추가
- 데이터프레임 합치기 (보통 행 방향으로 합친다-샘플 추가)
- 판다스의  concat() 사용

In [238]:
x2 = {'city': ['인천', '울산'],
        'population': [290, 120],
        'temp': [12.7, 15.5]}
df2 = pd.DataFrame(x2)
df2

Unnamed: 0,city,population,temp
0,인천,290,12.7
1,울산,120,15.5


In [239]:
df2.columns = ['도시','인구','날씨'] 
df2

Unnamed: 0,도시,인구,날씨
0,인천,290,12.7
1,울산,120,15.5


In [240]:
pd.concat([df, df2])

Unnamed: 0,도시,인구,날씨
0,서울,990,13.0
1,부산,350,16.0
2,대구,250,14.0
3,대전,154,13.0
4,광주,150,15.0
0,인천,290,12.7
1,울산,120,15.5


In [241]:
# 디폴트로 기존의 인덱스를 유지한다
# 기존의 인덱스 번호는 무시하고 새로 인덱스 만들기
df = pd.concat([df, df2], ignore_index=True)
df

Unnamed: 0,도시,인구,날씨
0,서울,990,13.0
1,부산,350,16.0
2,대구,250,14.0
3,대전,154,13.0
4,광주,150,15.0
5,인천,290,12.7
6,울산,120,15.5


In [242]:
# 인덱스를 '도시'로 설정
df.set_index('도시', inplace=True)
df

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,13.0
부산,350,16.0
대구,250,14.0
대전,154,13.0
광주,150,15.0
인천,290,12.7
울산,120,15.5


## 샘플 얻기
- 원하는 샘플(행)을 얻는 방법
- loc, iloc 등을 사용한다

In [243]:
# 인덱스 사용 (loc)
df.loc[['부산','울산']]

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,350,16.0
울산,120,15.5


In [244]:
# 행의 위치인 정수형 순서 번호 사용하는 방법
df.iloc[1:4]

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,350,16.0
대구,250,14.0
대전,154,13.0


## 샘플 삭제

In [245]:
# 인덱스를 사용하여 삭제하기
df.drop(["서울", "부산"])

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
대구,250,14.0
대전,154,13.0
광주,150,15.0
인천,290,12.7
울산,120,15.5


## 컬럼 추가
- 기존에 없던 컬럼(열) 이름을 지정하면 새로운 열이 만들어진다

In [246]:
# 컬럼에 추가할 내용 (리스트로 제공하는 경우)
cars = [300, 140, 120, 70, 50, 170, 60]
df['자동차'] = cars
df

Unnamed: 0_level_0,인구,날씨,자동차
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,990,13.0,300
부산,350,16.0,140
대구,250,14.0,120
대전,154,13.0,70
광주,150,15.0,50
인천,290,12.7,170
울산,120,15.5,60


In [247]:
# 동일한 값을 컬럼에 추가하는 방법 (값이 복사된다)
df["대도시"] = 1
df

Unnamed: 0_level_0,인구,날씨,자동차,대도시
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,990,13.0,300,1
부산,350,16.0,140,1
대구,250,14.0,120,1
대전,154,13.0,70,1
광주,150,15.0,50,1
인천,290,12.7,170,1
울산,120,15.5,60,1


In [248]:
# 특정 조건 만족 여부를 추가하는 방법
# 아래 조건문의 결과는 불리언으로 구성된 시리즈이다
df['big'] = df["자동차"] >= 100
df

Unnamed: 0_level_0,인구,날씨,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,300,1,True
부산,350,16.0,140,1,True
대구,250,14.0,120,1,True
대전,154,13.0,70,1,False
광주,150,15.0,50,1,False
인천,290,12.7,170,1,True
울산,120,15.5,60,1,False


## 컬럼 삭제

In [249]:
# 컬럼 삭제시에는 axis=1 지정
df.drop(["대도시"], axis=1)

Unnamed: 0_level_0,인구,날씨,자동차,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,990,13.0,300,True
부산,350,16.0,140,True
대구,250,14.0,120,True
대전,154,13.0,70,False
광주,150,15.0,50,False
인천,290,12.7,170,True
울산,120,15.5,60,False


## 딕셔너리를 사용한 컬럼 이름 바꾸기
- 딕셔너리의 키:값 조합으로 컬럼명을 바꿀 수 있다
- rename() 사용

In [250]:
new_names = {'big': '100만대이상', '날씨':'기온'}
df.rename(columns = new_names, inplace=True)
df

Unnamed: 0_level_0,인구,기온,자동차,대도시,100만대이상
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,300,1,True
부산,350,16.0,140,1,True
대구,250,14.0,120,1,True
대전,154,13.0,70,1,False
광주,150,15.0,50,1,False
인천,290,12.7,170,1,True
울산,120,15.5,60,1,False


## 조건 필터링
- 특정 조건에 맞는 샘플을 추출하는 방법

In [251]:
# 값이 True인 항목만 얻는다
df[df['100만대이상']]

Unnamed: 0_level_0,인구,기온,자동차,대도시,100만대이상
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,300,1,True
부산,350,16.0,140,1,True
대구,250,14.0,120,1,True
인천,290,12.7,170,1,True


In [252]:
# 자동차 200만대 이상 도시
df[df["자동차"] >= 200]

Unnamed: 0_level_0,인구,기온,자동차,대도시,100만대이상
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,300,1,True


In [253]:
# 해당 샘플의 인덱스 얻기
df[df["자동차"] >= 200].index

Index(['서울'], dtype='object', name='도시')

## (연습) 기온이 14도 이하인 도시

In [254]:
df[df['기온'] <= 14]

Unnamed: 0_level_0,인구,기온,자동차,대도시,100만대이상
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,300,1,True
대구,250,14.0,120,1,True
대전,154,13.0,70,1,False
인천,290,12.7,170,1,True


## 정렬

In [255]:
# 인구를 기준으로 정렬하기
df.sort_values(['인구'])

Unnamed: 0_level_0,인구,기온,자동차,대도시,100만대이상
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
울산,120,15.5,60,1,False
광주,150,15.0,50,1,False
대전,154,13.0,70,1,False
대구,250,14.0,120,1,True
인천,290,12.7,170,1,True
부산,350,16.0,140,1,True
서울,990,13.0,300,1,True


In [256]:
# 내림차순으로 정렬하기
df.sort_values(['인구'], ascending=False)

Unnamed: 0_level_0,인구,기온,자동차,대도시,100만대이상
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,300,1,True
부산,350,16.0,140,1,True
인천,290,12.7,170,1,True
대구,250,14.0,120,1,True
대전,154,13.0,70,1,False
광주,150,15.0,50,1,False
울산,120,15.5,60,1,False


# Series

In [257]:
s = df['기온']
type(s)
s

도시
서울    13.0
부산    16.0
대구    14.0
대전    13.0
광주    15.0
인천    12.7
울산    15.5
Name: 기온, dtype: float64

- 데이터프레임에서 한 컬럼을 취하면 시리즈가 된다
- 시리즈에도 인덱스가 붙어있다는 것을 주의

## 시리즈 항목의 빈도수 세기

In [258]:
s.value_counts()

13.0    2
14.0    1
15.5    1
15.0    1
16.0    1
12.7    1
Name: 기온, dtype: int64

## 시리즈의 유니크한 값들 추출

In [259]:
s.unique()

array([13. , 16. , 14. , 15. , 12.7, 15.5])

In [261]:
# 시리즈의 유니크한 갯수 얻기
s.nunique()

6

## (연습) 기온과 자동차의 평균, 최대값 얻기
- 기온과 자동차 컬럼별로 각각 평균치와 최대값을 얻는다

In [291]:
# (풀이)



## (연습) 기온과 자동차 최대 및 최소인 도시명 얻기
- (힌트) 시리즈의 최대/최소값을 갖는 인덱스를 얻는 함수는 idxmax()/idxmin()이다

In [292]:
# (풀이)



# 데이터프레임 저장
- to_csv(): csv 파일로 저장
- to_excel(): 액셀 파일로 저장

In [195]:
# 데이터프레임을 임의의 파일명을 지정하여 csv 형식으로 저장
# 인덱스 번호는 삭제하고 저장하기
df.to_csv('cities.csv')

In [196]:
!cat cities.csv # 리눅스 명령으로 파일 내용보기 cat을 실행
# 윈도우에서는 아래 실행
# !type cities.csv

도시,인구,기온,자동차,대도시,100만대이상
서울,990,13.0,300,1,True
부산,350,16.0,140,1,True
대구,250,14.0,120,1,True
대전,154,13.0,70,1,False
광주,150,15.0,50,1,False
인천,290,12.7,170,1,True
울산,120,15.5,60,1,False


In [199]:
# 액셀 파일로 저장하기 (인덱스는 저정하지 않는다)
df.to_excel('cities.xlsx')

## 파일을 읽어 데이터프레임 만들기
- read_csv(): csv 파일을 데이터프레임으로 읽기
- read_excel(): 액셀, xlsx 파일을 데이터프레임으로 읽기
- 액셀에서 한글이 깨지는 경우 encoding='utf-8', 'cp494','euc-kr' 등의 옵션 사용
- 참고: https://teddylee777.github.io/pandas/%EA%B3%B5%EA%B3%B5%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%95%9C%EA%B8%80%EA%B9%A8%EC%A7%90%ED%98%84%EC%83%81-%ED%95%B4%EA%B2%B0%EB%B0%A9%EB%B2%95

In [210]:
# csv 파일 읽기
# 숫자형 인덱스가 자동으로 생성된다
df = pd.read_csv('cities.csv')  
df

Unnamed: 0,도시,인구,기온,자동차,대도시,100만대이상
0,서울,990,13.0,300,1,True
1,부산,350,16.0,140,1,True
2,대구,250,14.0,120,1,True
3,대전,154,13.0,70,1,False
4,광주,150,15.0,50,1,False
5,인천,290,12.7,170,1,True
6,울산,120,15.5,60,1,False


In [206]:
# csv 파일 읽기
# 인덱스를 특정 컬럼으로 설정하는 방법
df = pd.read_csv('cities.csv', index_col='도시')  
df

Unnamed: 0_level_0,인구,기온,자동차,대도시,100만대이상
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,300,1,True
부산,350,16.0,140,1,True
대구,250,14.0,120,1,True
대전,154,13.0,70,1,False
광주,150,15.0,50,1,False
인천,290,12.7,170,1,True
울산,120,15.5,60,1,False


In [212]:
# 액셀 읽기
# 인덱스가 자동으로 생성된다
df = pd.read_excel('cities.xlsx')  
df

Unnamed: 0,도시,인구,기온,자동차,대도시,100만대이상
0,서울,990,13.0,300,1,True
1,부산,350,16.0,140,1,True
2,대구,250,14.0,120,1,True
3,대전,154,13.0,70,1,False
4,광주,150,15.0,50,1,False
5,인천,290,12.7,170,1,True
6,울산,120,15.5,60,1,False


## (연습) csv 또는 엑셀 파일 읽기

- (힌트)
- PC의 경우 파일을 현재 작업 폴더에 옮긴 후에 읽는다
- 코랩을 사용하는 경우, 코랩에 업로드해야 한다
- 코랩에서 구글 드라이브를 사용하는 경우 mount를 한 후 읽는다
- 한글이 깨지는 경우 encoding 옵션을 다르게 선택해 본다

# (참고) 데이터프레임 팁
- 행을 얻을때는 loc, iloc을 사용하고, 컬럼을 얻을 때는 컬럼명을 사용한다
- 없는 열을 새로 추가할 때에도 loc을 사용한다 (행이름 또는 행번호 방식 모두 가능)
- df.iloc[: : 2] 2개의 행을 건너뛰면서 얻는다
- df.iloc[: : -1] 역순으로 얻는다
- 인덱스 순으로 정렬해서 볼 때 sort_index() 사용

# 정답

## (연습) 기온과 자동차의 평균, 최대값 얻기
- 기온과 자동차 컬럼별로 각각 평균치와 최대값을 얻는다

In [289]:
print(df['기온'].mean(), df['자동차'].max())

14.171428571428573 300


## (연습) 기온과 자동차 최대 및 최소인 도시명 얻기
- (힌트) 시리즈의 최대/최소값을 갖는 인덱스를 얻는 함수는 idxmax()/idxmin()이다

In [290]:
# 자동차 수가 최대인 샘플 얻기
print(df[df['자동차'] == df['자동차'].max()].index)
# idxmax()를 사용하는 방법
print(df['자동차'].idxmax())
# (정답)
print('자동차 최대/최소 도시:', df['자동차'].idxmax(), df['자동차'].idxmin())
print('기온 최대/최소 도시:', df['기온'].idxmax(), df['기온'].idxmin())

Index(['서울'], dtype='object', name='도시')
서울
자동차 최대/최소 도시: 서울 광주
기온 최대/최소 도시: 부산 인천


## (연습) 기온이 14도 이하인 도시

In [None]:
df[df['기온'] <= 14]