# CHAPTER8 Pandas 기초

## 8.1 Pandas 개요

- 일반적인 데이터베이스에서 이뤄지는 작업을 수행하며, 수치뿐 아니라 이름,주소 등 문자열 데이터도 쉽게 처리 가능하다
- pandas에는 Series와 DataFrame 두가지 데이터 구조가 있다
- 주로 사용되는 데이터 구조는 2차원 테이블 형태의 DataFrame이다
- 가로 방향의 데이터는 행, 세로 방향의 데이터는 열
- 각 행과 열에는 라벨이 부여되며 행의 라벨은 인덱스, 열의 라벨은 컬럼이라 한다

## 8.1.1 Series와 DataFrame의 데이터 확인

- Series에 딕셔너리형을 전달하면 키에 의해 오름차운으로 정렬된다
- Series는 라벨이 붙은 1차원 데이터, DataFrame은 여러 Series를 묶은 것과 같은 2차원 데이터 구조

In [1]:
import pandas as pd

fruits = {'orange' : 2, 'banana' : 3}
pd.Series(fruits)

orange    2
banana    3
dtype: int64

In [2]:
data = {'fruits':['apple', 'orange', 'banana', 'strawberry', 'kiwifruit'],
        'year':[2001,2002,2001,2008,2006],
        'time':[1,4,5,6,3]}

df = pd.DataFrame(data)
df # 키값이 컬럼명으로, 리스트들이 내용으로 들어감

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifruit,2006,3


In [3]:
index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data = [10,5,8,12,3]
series = pd.Series(data, index=index)

data = {'fruits':['apple', 'orange', 'banana', 'strawberry', 'kiwifruit'],
        'year':[2001,2002,2001,2008,2006],
        'time':[1,4,5,6,3]}
df = pd.DataFrame(data)

print(series), print(df)

apple         10
orange         5
banana         8
strawberry    12
kiwifruit      3
dtype: int64
       fruits  year  time
0       apple  2001     1
1      orange  2002     4
2      banana  2001     5
3  strawberry  2008     6
4   kiwifruit  2006     3


(None, None)

## 8.2 Series

### 8.2.1 Series 생성

- Series는 1차원 배열처럼 다룰 수 있다
- 'pd.Series(딕셔너리형의 리스트)'로 딕셔너리형의 리스트를 전달해서 Series를 생성
- pd.series(데이터 배열, index=인덱스 배열)

In [4]:
fruits = {'orange' : 2, 'banana' : 3}
pd.Series(fruits)

orange    2
banana    3
dtype: int64

In [5]:
index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data = [10,5,8,12,3]
series = pd.Series(data, index=index)

### 8.2.2 참조

- 인덱싱, 슬라이싱 가능

In [6]:
fruits = {'banana':3, 'orange':4, 'grape':1, 'peach':5}
series = pd.Series(fruits)
series[:3]

banana    3
orange    4
grape     1
dtype: int64

In [8]:
series[['orange', 'peach']]

orange    4
peach     5
dtype: int64

### 8.2.3 데이터와 인덱스 추출

- series.values : 데이터값 참조
- series.index : 인덱스 참조

In [9]:
index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data = [10,5,8,12,3]
series = pd.Series(data, index=index)

series_values = series.values
series_index = series.index

series_values, series_index

(array([10,  5,  8, 12,  3]),
 Index(['apple', 'orange', 'banana', 'strawberry', 'kiwifruit'], dtype='object'))

### 8.2.4 요소 추가

- Series에 요소를 추가하려면 해당 요소도 Series형이어야 한다
- 추가할 요소를 Series형으로 변환한 뒤 Series형의 append로 전달해 추가한다

In [10]:
fruits = {'orange' : 2, 'banana' : 3}
series = pd.Series(fruits)
series = series.append(pd.Series([3], index=['grape']))
series

orange    2
banana    3
grape     3
dtype: int64

In [11]:
index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data = [10,5,8,12,3]
series = pd.Series(data, index=index)

series = series.append(pd.Series([12], index=['pineapple']))
series

apple         10
orange         5
banana         8
strawberry    12
kiwifruit      3
pineapple     12
dtype: int64

### 8.2.5 요소 삭제

- 인덱싱으로 요소 삭제 가능하다
- series.drop('인덱스')

In [12]:
index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data = [10,5,8,12,3]
series = pd.Series(data, index=index)

series = series.drop('strawberry')
series

apple        10
orange        5
banana        8
kiwifruit     3
dtype: int64

### 8.2.6 필터링

- 원하는 조건의 요소를 꺼내고 싶을때 bool형의 시퀀스를 지정해서 True인 것을 추출할 수 있다
- 넘파이에서도 비슷한게 있다 - 7.2.7 불 인덱스 참조
- series[][] 이렇게 []를 여러개 덧붙여서 복수의 조건을 추가할 수 있다

In [17]:
index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data = [10,5,8,12,3]
series = pd.Series(data, index=index)

conditions = [True, True, False, False, False]
series[conditions]

apple     10
orange     5
dtype: int64

In [21]:
series[5 < series][series<10] 

banana    8
dtype: int64

In [22]:
series[(5<series) & (series<10)]

banana    8
dtype: int64

### 8.2.7 정렬

- 인덱스 정렬 : series.sort_index()
- 데이터 정렬 : series.sort_values()
- 인수 지정없으면 오름차순. 인수에 ascending=False넣으면 내림차순

In [24]:
index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data = [10,5,8,12,3]
series = pd.Series(data, index=index)

items1 = series.sort_index() # series의 인덱스를 알파벳 순으로 정렬해서 items1에 대입하시오
items2 = series.sort_values() # series의 데이터값을 오름차순으로 정렬해서 items2에 대입하시오
items1, items2

(apple         10
 banana         8
 kiwifruit      3
 orange         5
 strawberry    12
 dtype: int64, kiwifruit      3
 orange         5
 banana         8
 apple         10
 strawberry    12
 dtype: int64)

## 8.3 DataFrame

### 8.3.1 DataFrame 생성



In [25]:
data = {'fruits':['apple', 'orange', 'banana', 'strawberry', 'kiwifruit'],
        'year':[2001,2002,2001,2008,2006],
        'time':[1,4,5,6,3]}
df = pd.DataFrame(data)
df

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifruit,2006,3


In [26]:
index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data1 = [10,5,8,12,3]
data2 = [30,25,12,10,8]

series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)

df = pd.DataFrame([series1, series2])
df

Unnamed: 0,apple,orange,banana,strawberry,kiwifruit
0,10,5,8,12,3
1,30,25,12,10,8


### 8.3.2 인덱스와 컬럼 설정

- 행의 이름 : 인덱스
- 열의 이름 : 컬럼
- 인수 지정하지 않으면 0부터 오름차순으로 인덱스가 할당된다
- 컬럼은 Series의 인덱스 및 딕셔너리 키가 된다
- df의 인덱스는 df.index, 행 수와 같은 길이의 리스트 대입 가능
- df의 컬럼은 df.columns에 열수와 같은 길이의 리스트 대입 가능

In [3]:
import pandas as pd

index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data1 = [10,5,8,12,3]
data2 = [30,25,12,10,8]

series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)

df = pd.DataFrame([series1, series2])
df

Unnamed: 0,apple,orange,banana,strawberry,kiwifruit
0,10,5,8,12,3
1,30,25,12,10,8


In [5]:
df.index = [1,2]
df

Unnamed: 0,apple,orange,banana,strawberry,kiwifruit
1,10,5,8,12,3
2,30,25,12,10,8


### 8.3.3 행 추가

- 기존의 데이터프레임에 새로운 데이터 추가 가능하다
- df.append('series데이터', ignore_index=True)

In [6]:
data = {'fruits' : ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit'],
        'time' : [1,4,5,6,3]}
df = pd.DataFrame(data)

series = pd.Series(['mango', 2008, 7], index=['fruits', 'year', 'time'])

df = df.append(series, ignore_index=True)
df

Unnamed: 0,fruits,time,year
0,apple,1,
1,orange,4,
2,banana,5,
3,strawberry,6,
4,kiwifruit,3,
5,mango,7,2008.0


In [7]:
index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data1 = [10,5,8,12,3]
data2 = [30,25,12,10,8]
data3 = [30,12,10,8,25,3]
series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)

index.append('pineapple')
series3 = pd.Series(data3, index=index)

df = pd.DataFrame([series1, series2])
df

Unnamed: 0,apple,orange,banana,strawberry,kiwifruit
0,10,5,8,12,3
1,30,25,12,10,8


In [8]:
df = df.append(series3, ignore_index=True)
df

Unnamed: 0,apple,orange,banana,strawberry,kiwifruit,pineapple
0,10,5,8,12,3,
1,30,25,12,10,8,
2,30,12,10,8,25,3.0


### 8.3.4 열 추가

- df['새로운 컬럼'] = 데이터
- 리스트를 대입하면 첫 행부터 순서대로 요소가 할당된다
- Series를 대입하면 Series의 인덱스가 df의 인덱스에 대응한다

In [9]:
data = {'fruits':['apple', 'orange', 'banana', 'strawberry', 'kiwifruit'],
        'year':[2001,2002,2001,2008,2006],
        'time':[1,4,5,6,3]}
df = pd.DataFrame(data)

df['price'] = [150,120,100,300,150]
df

Unnamed: 0,fruits,year,time,price
0,apple,2001,1,150
1,orange,2002,4,120
2,banana,2001,5,100
3,strawberry,2008,6,300
4,kiwifruit,2006,3,150


In [10]:
index = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']
data1 = [10,5,8,12,3]
data2 = [30,25,12,10,8]
data3 = [30,12,10,8,25,3]
series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)

new_col = pd.Series([15,7], index=[0,1])
df = pd.DataFrame([series1, series2])
df

Unnamed: 0,apple,orange,banana,strawberry,kiwifruit
0,10,5,8,12,3
1,30,25,12,10,8


In [11]:
df['mango'] = new_col
df

Unnamed: 0,apple,orange,banana,strawberry,kiwifruit,mango
0,10,5,8,12,3,15
1,30,25,12,10,8,7


### 8.3.5 데이터 참조
- loc : 이름으로 참조
- iloc : 번호로 참조(iloc에서 i는 index라고 외우면 덜 헷갈림)

> 이름으로 참조

- 인덱스와 컬럼명으로 참조시 loc를 사용
- df.loc['인덱스 리스트', 컬럼 리스트']로 지정해 해당 범위 데이터프레임을 얻을 수 있다

In [20]:
data = {'fruits':['apple', 'orange', 'banana', 'strawberry', 'kiwifruit'],
        'year':[2001,2002,2001,2008,2006],
        'time':[1,4,5,6,3]}
df = pd.DataFrame(data)

df

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifruit,2006,3


In [23]:
df = df.loc[[1,2], ['time', 'year']]
df

Unnamed: 0,time,year
1,4,2002
2,5,2001


In [30]:
import numpy as np
np.random.seed(0)

cols = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']

df = pd.DataFrame()

for c in cols:
    df[c] = np.random.choice(range(1,11),10)

df.index = range(1,11)
df

Unnamed: 0,apple,orange,banana,strawberry,kiwifruit
1,6,8,6,3,10
2,1,7,10,4,10
3,4,9,9,9,1
4,4,9,10,2,5
5,8,2,5,4,8
6,10,7,4,4,4
7,4,8,1,4,3
8,6,8,4,8,8
9,3,9,6,1,3
10,5,2,1,2,1


In [36]:
df = df.loc[range(2,6), ['banana', 'kiwifruit']]
df

Unnamed: 0,banana,kiwifruit
2,10,10
3,9,1
4,10,5
5,5,8


> 번호로 참조

- df.iloc[행번호 리스트, 열 번호 리스트]

In [37]:
data = {'fruits':['apple', 'orange', 'banana', 'strawberry', 'kiwifruit'],
        'year':[2001,2002,2001,2008,2006],
        'time':[1,4,5,6,3]}
df = pd.DataFrame(data)

df

Unnamed: 0,fruits,year,time
0,apple,2001,1
1,orange,2002,4
2,banana,2001,5
3,strawberry,2008,6
4,kiwifruit,2006,3


In [38]:
df.iloc[[1,3], [0,2]]

Unnamed: 0,fruits,time
1,orange,4
3,strawberry,6


In [42]:
np.random.seed(0)

cols = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']

df = pd.DataFrame()

for c in cols:
    df[c] = np.random.choice(range(1,11),10)

df.index = range(1,11)

df.iloc[range(1,5), [2,-1]]

Unnamed: 0,banana,kiwifruit
2,10,10
3,9,1
4,10,5
5,5,8


### 행, 열 삭제

- df.drop()으로 인덱스, 컬럼을 지정하여 행이나 열을 제거한 데이터 프레임을 생성한다
- 인덱스,컬름을 리스트로 전달해서 여러개를 한번에 삭제도 가능하다

In [44]:
data = {'fruits':['apple', 'orange', 'banana', 'strawberry', 'kiwifruit'],
        'year':[2001,2002,2001,2008,2006],
        'time':[1,4,5,6,3]}
df = pd.DataFrame(data)

df_1 = df.drop(range(0,2))

df_2 = df.drop('year', axis=1)

print(df_1)
print()
print(df_2)

       fruits  year  time
2      banana  2001     5
3  strawberry  2008     6
4   kiwifruit  2006     3

       fruits  time
0       apple     1
1      orange     4
2      banana     5
3  strawberry     6
4   kiwifruit     3


In [51]:
np.random.seed(0)

cols = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']

df = pd.DataFrame()
for c in cols:
    df[c] = np.random.choice(range(1,11),10)
df.index = range(1,11)

drop_index = [x for x in range(1,11) if x%2 == 0]
df = df.drop(drop_index)
# df = df.drop(np.arange(2,11,2)) # 2에서 10까지 2간격으로 추출
df = df.drop('strawberry', axis=1)
df

Unnamed: 0,apple,orange,banana,kiwifruit
1,6,8,6,10
3,4,9,9,1
5,8,2,5,8
7,4,8,1,3
9,3,9,6,3


### 8.3.7 정렬

- df.sort_values(by='컬럼, 컬럼 리스트', ascending=True)
- 열의 값을 오름차순으로 정렬한 데이터프레임 생성
- ascending=False는 내림차순. True가 디폴트

In [52]:
data = {'fruits':['apple', 'orange', 'banana', 'strawberry', 'kiwifruit'],
        'year':[2001,2002,2001,2008,2006],
        'time':[1,4,5,6,3]}
df = pd.DataFrame(data)
print(df)

df = df.sort_values(by='year')
print(df)

df = df.sort_values(by=['time', 'year'])
print(df)

       fruits  year  time
0       apple  2001     1
1      orange  2002     4
2      banana  2001     5
3  strawberry  2008     6
4   kiwifruit  2006     3
       fruits  year  time
0       apple  2001     1
2      banana  2001     5
1      orange  2002     4
4   kiwifruit  2006     3
3  strawberry  2008     6
       fruits  year  time
0       apple  2001     1
4   kiwifruit  2006     3
1      orange  2002     4
2      banana  2001     5
3  strawberry  2008     6


### 8.3.8 필터링

- 불 형의 시퀀스를 지정해서 True인것만 추출 가능하다


In [53]:
data = {'fruits':['apple', 'orange', 'banana', 'strawberry', 'kiwifruit'],
        'year':[2001,2002,2001,2008,2006],
        'time':[1,4,5,6,3]}
df = pd.DataFrame(data)

print(df.index % 2 == 0) 
print(df[df.index % 2 == 0])

[ True False  True False  True]
      fruits  year  time
0      apple  2001     1
2     banana  2001     5
4  kiwifruit  2006     3


In [57]:
np.random.seed(0)

cols = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']

df = pd.DataFrame()
for c in cols:
    df[c] = np.random.choice(range(1,11),10)
df.index = range(1,11)

df[df['apple']>=5][df['kiwifruit']>=5]
df[(df['apple']>=5) & (df['kiwifruit']>=5)]

  # Remove the CWD from sys.path while we load stuff.


Unnamed: 0,apple,orange,banana,strawberry,kiwifruit
1,6,8,6,3,10
5,8,2,5,4,8
8,6,8,4,8,8


In [63]:
index = ['growth', 'mission', 'ishikaw', 'pro']
data = [50,7,26,1]

series = pd.Series(data, index=index)
print(series)

aidemy = series.sort_index()
print(aidemy)

aidemy1 = pd.Series(30, index=['tutor'])
aidemy2 = series.append(aidemy1)
print(aidemy2)


df = pd.DataFrame()
for index in index:
    df[index] = np.random.choice(range(1,11),10)
df.index = range(1,11)

aidemy3 = df.loc[range(2,6), ['ishikaw']]



growth     50
mission     7
ishikaw    26
pro         1
dtype: int64
growth     50
ishikaw    26
mission     7
pro         1
dtype: int64
growth     50
mission     7
ishikaw    26
pro         1
tutor      30
dtype: int64
