# pandas
- 마이크로소프트 액셀과 유사한 데이터프레임(DataFrame)을 사용하기 위해 필요
- 데이터프레임은 데이터 처리와 분석에 가장 많이 사용되는 2차원 데이터 구조체
- 1차원 데이터 구조체로는 리스트가 널리 사용된다

## 데이터 프레임 만들기
- 딕셔너리를 만든 후 이를 데이터프레임으로 바꾸는 방법
- csv 파일을 읽어 만드는 방법
- 액셀 파일을 읽어 만드는 방법
- 배열, 리스트, 튜플로부터 만드는 방법

In [None]:
# 딕셔너리에서 만드는 방법
import pandas as pd

x = {'city': ['서울', '부산', '대구', '대전', '광주'],
        'population': [990, 350, 250, 154, 150],
        'temp': [13, 16, 14, 13, 15]}

data = pd.DataFrame(x)
data

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


- 딕셔너리의 키를 컬럼명으로, 값을 데이터로 사용한다
- 인덱스(행 번호)가 자동으로 만들어진다

In [1]:
# 데이터프레임의 구조 보기(shape)
data.shape

NameError: ignored

In [None]:
# 샘플(행) 수  - 튜플의 첫번째 값을 본다
data.shape[0]

In [None]:
# 컬럼(열) 수 - 튜플의 두번째 값을 본다
data.shape[1]

In [None]:
# 컬럼명 모두 보기 (컬럼명은 특수 변수 Index로 표현된다)
data.columns

In [None]:
# 일부 컬럼만 보기
data[['city', 'temp']]

- 원본 데이터는 바뀌지 않는다

In [None]:
data

In [None]:
# 별도 저장이 필요하면 새로운 변수에 저장한다
data_part = data[['city', 'temp']]
data_part

- 한 컬럼만 얻기
- 컬럼이 하나인 데이터프레임은 시리즈(Series)라고 한다
 - 시리즈에도 인덱스가 붙어있다

In [None]:
data["temp"]

In [None]:
y = data.temp
type(y)
y

In [None]:
# 컬럼(열) 순서 바꾸어 보기 (view)
data[['city', 'temp', 'population']]

In [None]:
data

### 객체 사본 만들기
- 복사본을 만들려면 copy()를 사용해야 한다
- 복사본으로 이후 작업을 수행하고 원본은 보호하기 위해서

In [None]:
# 사본 만들기
df = data.copy()

In [None]:
# copy()를 사용하면 별도의 데이터셋이 만들어진다
x = [1,2,3,4]
y = x
y

In [None]:
x.append(5)
x

In [None]:
y

## 인덱스
- 인덱스는 행에 대한 접근을 쉽게 하기 위해 사용한다

In [None]:
df

In [None]:
df.index

In [None]:
# 인덱스를 컬럼에서 선택하기
df.set_index('city')

- 원본 데이터는 바뀌지 않는다
- 파이썬의 데이터 복사 최소화 원칙

In [None]:
df

- 수행 결과를 원본 데이터에 반영하려면 inplace=True 사용

In [None]:
df.set_index('city', inplace=True)
df

### 인데스 원상복귀
- reset_index 사용

In [None]:
df.reset_index(inplace=True)
df

## 컬럼 이름 바꾸기
- columns 사용

In [None]:
df

In [None]:
df.columns = ['도시','인구','날씨'] # 즉시 반영된다
df

## 샘플 추가
- 데이터프레임 합치기 (보통 행 방향으로 합친다-샘플 추가)
- 판다스의  concat() 사용

In [None]:
x2 = {'city': ['인천', '울산'],
        'population': [290, 120],
        'temp': [12.7, 15.5]}
df2 = pd.DataFrame(x2)
df2

In [None]:
df2.columns = ['도시','인구','날씨'] 
df2

In [None]:
pd.concat([df, df2])

In [None]:
# 데이터프레임을 합친다
# 기존의 인덱스 번호는 무시하고 새로 인덱스 만들기
df3 = pd.concat([df, df2], ignore_index=True)
df3

In [None]:
# 데이터 백업
df = df3.copy()

In [None]:
# 인덱스를 컬럼에서 새로 선택한다
df.set_index('도시', inplace=True)
df

In [None]:
# 인덱스 보기 (인덱스는 특수 변수 Index로 표현된다)
df.index

In [None]:
# 세번째 인덱스 보기
df.index[3]

## 샘플 추출
- 원하는 샘플(행)을 얻는 방법
- loc, iloc 등을 사용한다

In [None]:
# 인덱스 사용 (loc)
df.loc[['부산','울산']]

In [None]:
# 행의 위치 순서 번호 사용
df.iloc[1:4]

## 샘플 삭제

In [None]:
# 인덱스를 사용하여 삭제하기
df.drop(["서울", "부산"])

## 컬럼 추가
- 기존에 없던 컬럼(열) 이름을 지정하면 새로운 열이 만들어진다

In [None]:
# 컬럼에 추가할 내용 (리스트로 제공하는 경우)
cars = [300, 140, 120, 70, 50, 170, 60]
df['자동차'] = cars
df

In [None]:
# 동일한 값을 컬럼에 추가하는 방법 (값이 복사된다)
df["대도시"] = 1
df

In [None]:
# 특정 조건 만족 여부를 추가하는 방법
# 아래 조건문의 결과는 불리언으로 구성된 시리즈가 된다
b = (df["자동차"] >= 100)
b

In [None]:
type(b)

In [None]:
# 불리언 시리즈를 새로운 컬럼으로 추가
df['big'] = b
df

- 위의 코드는 아래와 같이 간단히 작성할 수 있다

In [None]:
df['big'] = df["자동차"] >= 100
df

In [None]:
# 데이터 사본을 백업한다
df_backup = df.copy()

## 컬럼 삭제

In [None]:
# 컬럼 삭제시에는 axis=1 지정
df.drop(["대도시"], axis=1)

### 딕셔너리를 사용한 (일부) 컬럼 이름 바꾸기
- 딕셔너리의 키:값 조합으로 컬럼명을 바꿀 수 있다
- rename() 사용

In [None]:
my_names = {'big': '100만대이상'}
df.rename(columns = my_names, inplace=True)
df

### 인덱스 리셋
- 인덱스를 0에서 시작하는 새로운 값으로 지정한다
- 기존의 인덱스는 컬럼으로 편입된다

In [None]:
df.reset_index(inplace=True)
df

## 조건 필터링
- 특정 조건에 맞는 샘플을 추출하는 방법

In [None]:
# 값이 True인 항목만 얻는다
df[df['100만대이상']]

- 위의 결과는 간단히 아래와 같이 얻을 수 있다

In [None]:
df[df["자동차"] >= 100]

In [None]:
# 다른 컬럼에 대한 예
df[df['날씨']>13]

### 조건에 맞는 샘플의 인덱스 얻기

In [None]:
index_temp = df[df['날씨'] > 13].index
index_temp

In [None]:
# 인덱스를 사용하여 원하는 샘플을 얻는 방법
df.loc[index_temp]

## 정렬

In [None]:
# 인구를 기준으로 정렬하기
df.sort_values(['인구'])

In [None]:
# 내림차순으로 정렬하기
df.sort_values(['인구'], ascending=False)

# Series

In [None]:
s = df['날씨']
type(s)
s

- 데이터프레임에서 한 컬럼을 취하면 시리즈가 된다
- 시리즈에도 인덱스가 붙어있다는 것을 주의

## 시리즈 항목의 빈도수 세기

In [None]:
s.value_counts()

## 시리즈의 유니크한 값들 추출

In [None]:
s.unique()

# 데이터프레임을 파일로 저장
- to_csv(): csv 파일로 저장
- to_excel(): 액셀 파일로 저장

In [None]:
# 데이터프레임을 임의의 파일명을 지정하여 csv 형식으로 저장
# 통상 인덱스 번호는 저장하지 않는다
df.to_csv('cities.csv', index=False)

In [None]:
!cat cities.csv # 리눅스 명령으로 파일 내용보기 cat을 실행
# 윈도우에서는 아래 실행
# !type cities.csv

In [None]:
# 액셀 파일로 저장하기 (인덱스는 저정하지 않는다)
df.to_excel('cities.xlsx', index=False)

In [None]:
!ls # 파일 목록보기
# 윈도우에서는 아래 실행
# !dir

## 파일을 읽어 데이터프레임 만들기
- read_csv(): csv 파일을 데이터프레임으로 읽기
- read_excel(): 액셀, xlsx 파일을 데이터프레임으로 읽기

In [None]:
# csv 파일 읽기
# 인덱스가 자동으로 생성된다
df = pd.read_csv('cities.csv')  
df

In [None]:
# 액셀 읽기
# 인덱스가 자동으로 생성된다
df = pd.read_excel('cities.xlsx')  
df