# pandas
- 액셀과 유사한 2차원 테이블 구조인 데이터프레임(DataFrame)을 사용하기 위해 필요
- 데이터 처리와 분석에 가장 많이 사용되는 2차원 데이터 구조체
- 1차원 데이터 구조체로는 리스트가 널리 사용된다

## 데이터 프레임 만들기
- 딕셔너리를 만든 후 이를 데이터프레임으로 바꾸는 방법
- csv 파일로부터 만드는 방법
- 액셀 파일로부터 만드는 방법
- 리스트 튜플들을 조합하여 만드는 방법

In [2]:
import pandas as pd

x = {'city': ['서울', '부산', '대구', '대전', '광주'],
        'population': [990, 350, 250, 154, 150],
        'temp': [13, 16, 14, 13, 15]}

data = pd.DataFrame(x)
data

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


- 사전의 키를 컬럼명으로, 값을 데이터로 사용한다
- 인덱스(행 번호)가 자동으로 만들어진다
- 데이터프레임 구조(shape)

In [3]:
data.shape

(5, 3)

In [4]:
# 샘플 수 (행)
data.shape[0]

5

In [5]:
# 컬럼 수 (열)
data.shape[1]

3

In [6]:
# 컬럼명 보기
data.columns

Index(['city', 'population', 'temp'], dtype='object')

In [7]:
# 일부 컬럼만 얻기
data[['city', 'temp']]

Unnamed: 0,city,temp
0,서울,13
1,부산,16
2,대구,14
3,대전,13
4,광주,15


- 원본 데이터는 바뀌지 않는다

In [8]:
data

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


In [9]:
data_part = data[['city', 'temp']]
data_part

Unnamed: 0,city,temp
0,서울,13
1,부산,16
2,대구,14
3,대전,13
4,광주,15


- 한 컬럼만 얻기

In [10]:
data["temp"]

0    13
1    16
2    14
3    13
4    15
Name: temp, dtype: int64

In [11]:
data.temp

0    13
1    16
2    14
3    13
4    15
Name: temp, dtype: int64

In [12]:
# 컬럼(열) 순서 변경
data[['city', 'temp', 'population']]

Unnamed: 0,city,temp,population
0,서울,13,990
1,부산,16,350
2,대구,14,250
3,대전,13,154
4,광주,15,150


In [13]:
data

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


In [14]:
df = data.copy()

In [15]:
data

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


In [16]:
df

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


## 인덱스

In [17]:
df.set_index('city')

Unnamed: 0_level_0,population,temp
city,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,13
부산,350,16
대구,250,14
대전,154,13
광주,150,15


In [18]:
df

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


- 수행 결과를 원본 데이터에 반영

In [19]:
df.set_index('city', inplace=True)
df

Unnamed: 0_level_0,population,temp
city,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,13
부산,350,16
대구,250,14
대전,154,13
광주,150,15


### 파이썬의 데이터 복사 최소화
- inplace=True 를 지정하지 않으면 원본 데이터를 바꾸지 않는다
- 또는 아래와 같이 변수를 엎어서 쓰면 갱신된다
- data = data.set_index(['도시'], inplace=True)

- 인데스 원상복귀

In [20]:
df.reset_index()

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


In [21]:
df

Unnamed: 0_level_0,population,temp
city,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,13
부산,350,16
대구,250,14
대전,154,13
광주,150,15


In [22]:
df.reset_index(inplace=True) ; df

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


## 컬럼 이름 바꾸기
- columns 사용

In [23]:
df.columns = ['도시','인구','날씨'] # 즉시 반영된다
df

Unnamed: 0,도시,인구,날씨
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


## 새로운 데이터 추가

In [24]:
x2 = {'city': ['인천', '울산'],
        'population': [290, 120],
        'temp': [12.7, 15.5]}
df2 = pd.DataFrame(x2)
df2

Unnamed: 0,city,population,temp
0,인천,290,12.7
1,울산,120,15.5


In [25]:
df2.columns = ['도시','인구','날씨'] # 즉시 반영된다
df2

Unnamed: 0,도시,인구,날씨
0,인천,290,12.7
1,울산,120,15.5


- 데이터프레임 합치기

In [26]:
pd.concat([df, df2])

Unnamed: 0,도시,인구,날씨
0,서울,990,13.0
1,부산,350,16.0
2,대구,250,14.0
3,대전,154,13.0
4,광주,150,15.0
0,인천,290,12.7
1,울산,120,15.5


In [27]:
df3 = pd.concat([df, df2], ignore_index=True)
df3

Unnamed: 0,도시,인구,날씨
0,서울,990,13.0
1,부산,350,16.0
2,대구,250,14.0
3,대전,154,13.0
4,광주,150,15.0
5,인천,290,12.7
6,울산,120,15.5


In [28]:
df = df3

In [29]:
df.set_index('도시', inplace=True)
df

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,13.0
부산,350,16.0
대구,250,14.0
대전,154,13.0
광주,150,15.0
인천,290,12.7
울산,120,15.5


In [30]:
df.index

Index(['서울', '부산', '대구', '대전', '광주', '인천', '울산'], dtype='object', name='도시')

## 샘플 추출

In [31]:
# 인덱스 사용
df.loc[['부산','울산']]

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,350,16.0
울산,120,15.5


In [32]:
# 위치 사용
df.iloc[2:5]

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
대구,250,14.0
대전,154,13.0
광주,150,15.0


## 샘플 삭제

In [33]:
df.drop(["서울"])

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,350,16.0
대구,250,14.0
대전,154,13.0
광주,150,15.0
인천,290,12.7
울산,120,15.5


In [34]:
df.drop(["날씨"], axis=1)

Unnamed: 0_level_0,인구
도시,Unnamed: 1_level_1
서울,990
부산,350
대구,250
대전,154
광주,150
인천,290
울산,120


## 컬럼 추가
- 기존에 없던 컬럼(열) 이름을 지정하면 새로운 열이 만들어진다

In [35]:
cars = [300, 140, 120, 70, 50, 170, 60]
df['자동차'] = cars
df

Unnamed: 0_level_0,인구,날씨,자동차
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,990,13.0,300
부산,350,16.0,140
대구,250,14.0,120
대전,154,13.0,70
광주,150,15.0,50
인천,290,12.7,170
울산,120,15.5,60


In [36]:
df["대도시"] = 1
df

Unnamed: 0_level_0,인구,날씨,자동차,대도시
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,990,13.0,300,1
부산,350,16.0,140,1
대구,250,14.0,120,1
대전,154,13.0,70,1
광주,150,15.0,50,1
인천,290,12.7,170,1
울산,120,15.5,60,1


## 조건 필터링

In [37]:
df["자동차"] >= 100

도시
서울     True
부산     True
대구     True
대전    False
광주    False
인천     True
울산    False
Name: 자동차, dtype: bool

In [38]:
# high라는 컬럼 추가
df['big'] = df["자동차"] >= 100
df

Unnamed: 0_level_0,인구,날씨,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,300,1,True
부산,350,16.0,140,1,True
대구,250,14.0,120,1,True
대전,154,13.0,70,1,False
광주,150,15.0,50,1,False
인천,290,12.7,170,1,True
울산,120,15.5,60,1,False


- 컬럼 삭제

In [39]:
df.drop('대도시', axis=1, inplace=True)

In [40]:
my_names = {'big': '100만대이상'}
df.rename(columns = my_names, inplace=True)
df

Unnamed: 0_level_0,인구,날씨,자동차,100만대이상
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,990,13.0,300,True
부산,350,16.0,140,True
대구,250,14.0,120,True
대전,154,13.0,70,False
광주,150,15.0,50,False
인천,290,12.7,170,True
울산,120,15.5,60,False


- 인덱스 리셋

In [41]:
df.reset_index(inplace=True)
df

Unnamed: 0,도시,인구,날씨,자동차,100만대이상
0,서울,990,13.0,300,True
1,부산,350,16.0,140,True
2,대구,250,14.0,120,True
3,대전,154,13.0,70,False
4,광주,150,15.0,50,False
5,인천,290,12.7,170,True
6,울산,120,15.5,60,False


In [42]:
df[df['100만대이상']]

Unnamed: 0,도시,인구,날씨,자동차,100만대이상
0,서울,990,13.0,300,True
1,부산,350,16.0,140,True
2,대구,250,14.0,120,True
5,인천,290,12.7,170,True


In [43]:
df['날씨'] > 13

0    False
1     True
2     True
3    False
4     True
5    False
6     True
Name: 날씨, dtype: bool

In [44]:
df[df['날씨']>13]

Unnamed: 0,도시,인구,날씨,자동차,100만대이상
1,부산,350,16.0,140,True
2,대구,250,14.0,120,True
4,광주,150,15.0,50,False
6,울산,120,15.5,60,False


In [45]:
index_temp = df[df['날씨']>13].index
index_temp

Int64Index([1, 2, 4, 6], dtype='int64')

In [46]:
df.loc[index_temp]

Unnamed: 0,도시,인구,날씨,자동차,100만대이상
1,부산,350,16.0,140,True
2,대구,250,14.0,120,True
4,광주,150,15.0,50,False
6,울산,120,15.5,60,False


## 정렬

In [47]:
df

Unnamed: 0,도시,인구,날씨,자동차,100만대이상
0,서울,990,13.0,300,True
1,부산,350,16.0,140,True
2,대구,250,14.0,120,True
3,대전,154,13.0,70,False
4,광주,150,15.0,50,False
5,인천,290,12.7,170,True
6,울산,120,15.5,60,False


In [48]:
df.sort_values(['인구'])

Unnamed: 0,도시,인구,날씨,자동차,100만대이상
6,울산,120,15.5,60,False
4,광주,150,15.0,50,False
3,대전,154,13.0,70,False
2,대구,250,14.0,120,True
5,인천,290,12.7,170,True
1,부산,350,16.0,140,True
0,서울,990,13.0,300,True


In [49]:
df.sort_values(['인구'], ascending=False)

Unnamed: 0,도시,인구,날씨,자동차,100만대이상
0,서울,990,13.0,300,True
1,부산,350,16.0,140,True
5,인천,290,12.7,170,True
2,대구,250,14.0,120,True
3,대전,154,13.0,70,False
4,광주,150,15.0,50,False
6,울산,120,15.5,60,False


In [50]:
df

Unnamed: 0,도시,인구,날씨,자동차,100만대이상
0,서울,990,13.0,300,True
1,부산,350,16.0,140,True
2,대구,250,14.0,120,True
3,대전,154,13.0,70,False
4,광주,150,15.0,50,False
5,인천,290,12.7,170,True
6,울산,120,15.5,60,False


# Series

In [59]:
s = df['날씨']
type(s)

pandas.core.series.Series

- 데이터프레임에서 한 컬럼을 취하면 시리즈가 된다
- 시리즈에도 인덱스가 붙어있다는 것을 주의

In [60]:
s

0    13.0
1    16.0
2    14.0
3    13.0
4    15.0
5    12.7
6    15.5
Name: 날씨, dtype: float64

### 항목의 빈도수 세기

In [70]:
s.value_counts()

13.0    2
12.7    1
15.5    1
15.0    1
14.0    1
16.0    1
Name: 날씨, dtype: int64

### 유니크한 값들 추출

In [69]:
s.unique()

array([13. , 16. , 14. , 15. , 12.7, 15.5])

# 데이터프레임을 파일로 저장

In [53]:
df.to_csv('cities.csv')

In [54]:
!cat cities.csv
# 윈도우에서는 아래 실행
# !type cities.csv

,도시,인구,날씨,자동차,100만대이상
0,서울,990,13.0,300,True
1,부산,350,16.0,140,True
2,대구,250,14.0,120,True
3,대전,154,13.0,70,False
4,광주,150,15.0,50,False
5,인천,290,12.7,170,True
6,울산,120,15.5,60,False


In [55]:
df.to_excel('cities.xlsx')

In [56]:
!ls
# 윈도우에서는 아래 실행
# !dir

cities.csv
cities.xlsx
[34mdata1[m[m
[34mdata2[m[m
h_00_강의소개.ipynb
h_01_파이썬기초.ipynb
h_02_pandas.ipynb
h_03_numpy.ipynb
h_04_파일입출력.ipynb
h_05_기초통계.ipynb
h_06_함수사용.ipynb
h_07_데이터처리.ipynb
h_99_groupby.ipynb
h_99_날짜데이터.ipynb
h_etc.ipynb
python_ds.zip
test.csv
