# 판다스 패키지의 소개
대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있다.

판다스(Pandas) 패키지는 이러한 데이터를 다루기 위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공한다.

## 판다스 패키지 임포트
판다스 패키지를 사용하기 위해 우선 임포트를 해야 한다.

판다스 패키지는 pd라는 별칭으로 임포트하는 것이 관례이므로 여기에서도 해당 관례를 따르도록 한다.

In [1]:
import pandas as pd

In [3]:
s = pd.Series([9904312, 3448737, 2890451, 2466052], index = ['서울', '부산', '인천', '대구'])

s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [4]:
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [5]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [6]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [7]:
s.name = '인구'
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [8]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [9]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [10]:
s[1]

3448737

In [11]:
s['부산']

3448737

In [12]:
s['대구']

2466052

In [13]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [14]:
s[[0, 3, 2]]

도시
서울    9904312
대구    2466052
인천    2890451
Name: 인구, dtype: int64

In [15]:
s[['서울', '대구', '부산']]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [16]:
s[(250e4 < s) & (s < 500e4)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

슬라이싱을 해도 부분적인 시리즈를 반환한다.
이 때 문자열 라벨을 이용한 슬라이싱을 하는 경우에는 숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함되므로 주의해야 한다.

In [17]:
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [18]:
s['부산':'대구']

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [20]:
s0 = pd.Series(range(3), index = ['a', 'b', 'c'])
s0

a    0
b    1
c    2
dtype: int64

In [21]:
s0.a

0

In [22]:
s.부산

3448737

# 시리즈와 딕셔너리 자료형
시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다.

따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있다.

In [23]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [24]:
'서울' in s

True

In [25]:
'대전' in s

False

In [26]:
for k, v in s.items() :
    print('%s = %d' % (k, v))

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


In [27]:
s2 = pd.Series({'서울' : 9631482, '부산' : 3393191, '인천' : 2632035, '대전' : 1490158}, index = ['부산', '서울', '인천', '대전'])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

In [28]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [29]:
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

In [30]:
ds = s - s2

In [31]:
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [33]:
s.values - s2.values

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

In [34]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [35]:
rs = ((s - s2) / s2) * 100
rs

대구         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [37]:
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [39]:
rs['부산'] = 1.63

rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [40]:
rs['대구'] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [43]:
del rs['서울']
rs

KeyError: '서울'

In [44]:
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

# 데이터프레임 클래스
{margin}
`DataFrame`
{margin}
행 인덱스(row index, index)
{margin}
열 인덱스(cplumn index, columns)

시리즈가 1차원 벡터 데이터에 행방향 인덱스(row index)를 붙인 것이라
데이터프레임 DataFrame 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다.

2차원이므로 각각의 행 데이터의 이름이 되는 행 인덱스(row index) 뿐 아니라
각각의 열 데이터의 이름이 되는 열 인덱스(column index)도 붙일 수 있다.

## 데이터프레임 생성

데이터프레임을 만드는 방법은 다양하다. 가장 간단한 방법은 다음과 같다.

우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.

이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 만든다.

이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정한다.

In [45]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"] # 순서 지정
index = ["서울", "부산", "인천", "대구"] # 순서 지정
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [46]:
print(df)

     지역     2015     2010     2005     2000  2010-2015 증가율
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141


In [47]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [48]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [49]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [50]:
df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [51]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [52]:
df['2010-2015 증가율'] * 100

도시
서울    2.83
부산    1.63
인천    9.82
대구    1.41
Name: 2010-2015 증가율, dtype: float64

In [53]:
df['2010-2015 증가율'] = df['2010-2015 증가율'] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [56]:
df['2005-2010 증가율'] = ((df['2010'] - df['2005']) / df['2005'] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,205-2010 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99,-0.99


In [55]:
del df['2010-2015 증가율']
df

특성,지역,2015,2010,2005,2000,205-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [58]:
del df['205-2010 증가율']
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [59]:
df['지역']

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [60]:
df['2010', '2015']

KeyError: ('2010', '2015')

In [61]:
df[['2010', '2015']]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [64]:
df['2010'], type(df['2010'])

(도시
 서울    9631482
 부산    3393191
 인천    2632035
 대구    2431774
 Name: 2010, dtype: int64,
 pandas.core.series.Series)

In [65]:
df[['2010']], type(df[['2010']])

(특성     2010
 도시         
 서울  9631482
 부산  3393191
 인천  2632035
 대구  2431774,
 pandas.core.frame.DataFrame)

In [66]:
import numpy as np

df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [67]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [68]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


In [69]:
df2[[2]]

Unnamed: 0,2
0,2
1,6
2,10


In [72]:
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [70]:
df[:1]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [71]:
df[1:2]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [73]:
df[1:3]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54


In [74]:
df['서울':'부산']

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [75]:
df['2015']['서울']

9904312

In [76]:
df['서울']['2015']

KeyError: '서울'

다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.

data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
(1) 모든 학생의 수학 점수를 시리즈로 나타낸다.

(2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.

(3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.

(4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.

(5) 춘향의 점수를 데이터프레임으로 나타낸다.

(6) 향단의 점수를 시리즈로 나타낸다.

In [77]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [78]:
df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [79]:
df[['국어', '영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [82]:
df['평균'] = round(( df['국어'] + df['영어'] + df['수학'] ) / 3, 2)
df

# df['평균 점수'] = round(df.mean(axis = 1), 2)

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [83]:
df['영어']['방자'] = 80
df['평균'] = round(( df['국어'] + df['영어'] + df['수학'] ) / 3, 2)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['영어']['방자'] = 80


Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [93]:
df[:1]

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67


In [94]:
df.T['향단']

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

In [98]:
a = np.arange(1, 10).reshape(3, 3)
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [101]:
b = np.arange(1, 7).reshape(2, 3)
b

array([[1, 2, 3],
       [4, 5, 6]])

In [103]:
c = np.vstack((a, b))
c

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9],
       [1, 2, 3],
       [4, 5, 6]])

In [104]:
d = np.hstack((a, b))
d

ValueError: all the input array dimensions except for the concatenation axis must match exactly, but along dimension 0, the array at index 0 has size 3 and the array at index 1 has size 2

# 데이터 입출력


In [1]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample1.csv


In [2]:
import pandas as pd
pd.read_csv('sample1.csv')


Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [3]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample2.csv


In [4]:
pd.read_csv('sample2.csv', names=['c1', 'c2', 'c3'])


Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [5]:
pd.read_csv('sample2.csv')


Unnamed: 0,1,1.11,one
0,2,2.22,two
1,3,3.33,three


In [6]:
pd.read_csv('sample1.csv', index_col='c1')


Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [8]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing sample3.txt


In [9]:
pd.read_table('sample3.txt', sep='\s+')


Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [10]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [11]:
pd.read_csv('sample4.txt', skiprows=[0, 1])


Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [12]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing sample5.csv


In [13]:
df = pd.read_csv('sample5.csv', na_values=['누락'])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


## CSV 파일 출력

지금까지와 반대로 파이썬의 데이터프레임 값을 CSV 파일로 출력하고 싶으면 to_csv 메서드를 사용한다.

In [14]:
df.to_csv('sample6.csv')


In [15]:
!type sample6.csv


,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,, 3.33, three


In [16]:
df.to_csv('sample7.txt', sep='|')


In [17]:
!type sample7.txt


|c1| c2| c3
0|1.0| 1.11| one
1|2.0| | two
2|| 3.33| three


In [18]:
df


Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [19]:
df.to_csv('sample8.csv', na_rep='누락') # unicode encoding 처리 필요


In [20]:
!type sample8.csv


,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,�늻�씫, 3.33, three


In [21]:
df.index = ["a", "b", "c"]
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [22]:
df.to_csv('sample9.csv', index=False, header=False)


In [23]:
!type sample9.csv


1.0, 1.11, one
2.0, , two
, 3.33, three


## 인터넷 상의 CSV 파일 입력
웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공된다.

read_csv 명령 사용시 파일 path 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어들인다.

다음은 저자의 github 웹사이트에 저장되어 있는 데이터 파일을 원격으로 읽는 명령이다.

In [24]:
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [25]:
df.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [26]:
df.tail(10)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


## 인터넷 상의 데이터 베이스 자료 입력
pandas_datareader 패키지의 DataReader 을 사용하면 일부 인터넷 사이트의 자료를 바로 pandas로 읽어들일 수 있다.
pandas_datareader 패키지는 판다스와 별도로 설치해야 한다.
다음은 pandas_datareader 패키지가 제공하는 인터넷 사이트의 예이다. 일부 인터넷 사이트는 유료이므로 별도의 가입절차를 거쳐야 한다.

FRED
Fama/French
World Bank
OECD
Eurostat
EDGAR Index
TSP Fund Data
Oanda currency historical rate
Nasdaq Trader Symbol Definitions
자세한 내용은 다음 웹사이트를 참조한다.

https://pandas-datareader.readthedocs.io/en/latest/index.html
날짜는 datetime 패키지를 사용하여 지정해도 되고 문자열을 바로 사용해도 된다. (이때는 내부적으로 dateutil 패키지를 사용한다.

In [27]:
import datetime
dt_start = datetime.datetime(2015, 1, 1)
dt_end = "2016, 6, 30"

In [28]:
pip install pandas_datareader

Collecting pandas_datareader
  Downloading pandas_datareader-0.10.0-py3-none-any.whl (109 kB)
     ---------------------------------------- 0.0/109.5 kB ? eta -:--:--
     --- ------------------------------------ 10.2/109.5 kB ? eta -:--:--
     ---------- -------------------------- 30.7/109.5 kB 262.6 kB/s eta 0:00:01
     -------------------- ---------------- 61.4/109.5 kB 465.5 kB/s eta 0:00:01
     ------------------------------------ 109.5/109.5 kB 703.7 kB/s eta 0:00:00
Installing collected packages: pandas_datareader
Successfully installed pandas_datareader-0.10.0
Note: you may need to restart the kernel to use updated packages.




In [29]:
import pandas_datareader as pdr


In [30]:
gdp = pdr.get_data_fred('GDP', dt_start, dt_end)
gdp.tail()

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2015-04-01,18279.784
2015-07-01,18401.626
2015-10-01,18435.137
2016-01-01,18525.933
2016-04-01,18711.702


In [31]:
inflation = pdr.get_data_fred(["CPIAUCSL", "CPILFESL"], dt_start, dt_end)
inflation.tail()

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2016-02-01,237.336,245.51
2016-03-01,238.08,245.913
2016-04-01,238.992,246.551
2016-05-01,239.557,247.137
2016-06-01,240.222,247.54


# 4.3 데이터프레임 고급 인덱싱
데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다.
앞 절에서는 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱을 하는 방법을 공부하였다.
그런데 Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성도 제공한다.

loc : 라벨값 기반의 2차원 인덱싱 # 사람관점의 라벨인덱스 기준
iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱 # 컴퓨터관점의 인덱스 기준
loc 인덱서
loc 인덱서는 다음처럼 사용한다.

df.loc[행 인덱싱값]
또는

df.loc[행 인덱싱값, 열 인덱싱값]
이 때 인덱싱 값은 다음 중 하나이다. 행 인덱싱값은 정수 또는 행 인덱스데이터이고 열 인덱싱값은 라벨 문자열이다.

인덱스데이터
인덱스데이터 슬라이스
인덱스데이터 리스트
같은 행 인덱스를 가지는 불리언 시리즈 (행 인덱싱의 경우)
또는 위의 값들을 반환하는 함수
다음과 같은 데이터프레임을 예로 들자.

In [33]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [34]:
df['A']


a    10
b    14
c    18
Name: A, dtype: int32

In [35]:
df.loc["a"]


A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [36]:
df.loc["b":"c"]


Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [37]:
df["b":"c"]


Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [38]:
df[["b", "c"]] # KeyError


KeyError: "None of [Index(['b', 'c'], dtype='object')] are in the [columns]"

In [39]:
df.A > 15


a    False
b    False
c     True
Name: A, dtype: bool

In [40]:
df.loc[df.A > 15]


Unnamed: 0,A,B,C,D
c,18,19,20,21


In [41]:
def select_rows(df):
    return df.A > 15

In [42]:
select_rows(df)


a    False
b    False
c     True
Name: A, dtype: bool

In [43]:
df.loc[select_rows(df)]


Unnamed: 0,A,B,C,D
c,18,19,20,21


In [44]:
df['A']


a    10
b    14
c    18
Name: A, dtype: int32

In [45]:
df.loc["A"]  # KeyError


KeyError: 'A'

In [46]:
df[["A", "B"]] 


Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


In [47]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [48]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [51]:
df2[1:3]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


# 인덱싱값을 행과 열 모두 받는 경우
인덱싱값을 행과 열 모두 받으려면 df.loc[행 인덱스, 열 인덱스]와 같은 형태로 사용한다.

행 인덱스 라벨값이 a, 열 인덱스 라벨값이 A인 위치의 값을 구하는 것은 다음과 같다.

In [52]:
df


Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [53]:
df.loc["a", "A"]


10

In [54]:
df.loc["b": , "A"]


b    14
c    18
Name: A, dtype: int32

In [55]:
df.loc["a", :]


A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [56]:
df.loc[["a", "b"], ["B", "D"]]


Unnamed: 0,B,D
a,11,13
b,15,17


In [57]:
df.loc[df.A > 10, ["C", "D"]]


Unnamed: 0,C,D
b,16,17
c,20,21


## iloc 인덱서
iloc 인덱서는 loc 인덱서와 반대로 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받는다. 다른 사항은 loc 인덱서와 같다.

In [58]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [59]:
df.iloc[0, 1]


11

In [60]:
df.iloc[:2, 2]


a    12
b    16
Name: C, dtype: int32

In [61]:
df.iloc[0, -2:]


C    12
D    13
Name: a, dtype: int32

In [62]:
df.iloc[2:3, 1:3]


Unnamed: 0,B,C
c,19,20


In [63]:
df


Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [64]:
df.iloc[-1]


A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [65]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


In [66]:
import pandas as pd
import numpy as np

In [67]:
s = pd.Series(range(10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [68]:
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [69]:
s.count()


9

In [70]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [71]:
df.count()


0    4
1    4
2    4
3    3
dtype: int64

In [72]:
import seaborn as sns


In [73]:
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [74]:
titanic.count()


survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [75]:
len(titanic)

891

## 카테고리 값 세기
{margin}
`value_counts`
시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있다.

In [76]:
import pandas as pd
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [77]:
s2.value_counts()


1    22
0    18
4    17
5    16
3    14
2    13
Name: count, dtype: int64

In [78]:
df[0].value_counts()


0
3.0    2
0.0    1
4.0    1
Name: count, dtype: int64

## 정렬
{margin}
`sort_index`
{margin}
`sort_values`
데이터를 정렬하려면 sort_index 메서드 sort_values 메서드를 사용한다.
sort_index 메서드는 인덱스 값을 기준으로, sort_values 메서드는 데이터 값을 기준으로 정렬한다.

앞에서 s2 시리즈의 각 데이터 값에 따른 데이터 갯수를 인덱스에 따라 정렬하려면 다음처럼 sort_index를 적용한다.

In [79]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
Name: count, dtype: int64

In [80]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
Name: count, dtype: int64

In [81]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [82]:
s.sort_values(ascending = False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

In [83]:
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [84]:
df.sort_values(by = 1)

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [87]:
df.sort_values(by = [1, 2])

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [88]:
titanic[['sex', 'age', 'class', 'alive']]


Unnamed: 0,sex,age,class,alive
0,male,22.0,Third,no
1,female,38.0,First,yes
2,female,26.0,Third,yes
3,female,35.0,First,yes
4,male,35.0,Third,no
...,...,...,...,...
886,male,27.0,Second,no
887,female,19.0,First,yes
888,female,,Third,no
889,male,26.0,First,yes


In [89]:
titanic['sex'].sort_values()


383    female
218    female
609    female
216    female
215    female
        ...  
371      male
372      male
373      male
360      male
890      male
Name: sex, Length: 891, dtype: object

In [90]:
titanic['sex'].sort_values().value_counts()


sex
male      577
female    314
Name: count, dtype: int64

In [91]:
titanic['sex'].value_counts()

sex
male      577
female    314
Name: count, dtype: int64

In [93]:
list1 = ['sex', 'age', 'class', 'alive']
for l in list1:
    print(titanic[l].value_counts())
    print('='*10)

sex
male      577
female    314
Name: count, dtype: int64
age
24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
36.50     1
55.50     1
0.92      1
23.50     1
74.00     1
Name: count, Length: 88, dtype: int64
class
Third     491
First     216
Second    184
Name: count, dtype: int64
alive
no     549
yes    342
Name: count, dtype: int64


## 행/열 합계
{margin}
`sum`
행과 열의 합계를 구할 때는 sum(axis) 메서드를 사용한다. axis 인수에는 합계로 인해 없어지는 방향축(0=행, 1=열)을 지정한다.

In [99]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [100]:
df2.sum(axis=1)


0    35
1    34
2    41
3    42
dtype: int64

In [101]:
df2["RowValSum"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowValSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [102]:
df2.sum()


0             24
1             33
2             25
3             24
4             15
5             10
6              5
7             16
RowValSum    152
dtype: int64

In [103]:
df2.loc["ColValTotal"] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowValSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
ColValTotal,24,33,25,24,15,10,5,16,152


In [104]:
df2.loc["ColTotal", :] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowValSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColValTotal,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0
ColTotal,48.0,66.0,50.0,48.0,30.0,20.0,10.0,32.0,304.0


In [105]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [110]:
titanic['age mean'] = round(titanic['age'].mean(), 2)
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age mean
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,29.7
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,29.7
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,29.7
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,29.7
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,29.7


In [113]:
titanic['sex'] == 'female'

0      False
1       True
2       True
3       True
4      False
       ...  
886    False
887     True
888     True
889    False
890    False
Name: sex, Length: 891, dtype: bool

In [115]:
titanic[titanic['sex']=='female']['age'].mean()

27.915708812260537

In [116]:
titanic[titanic['sex']=='female']

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age mean
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,29.7
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,29.7
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,29.7
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False,29.7
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False,29.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
880,1,2,female,25.0,0,1,26.0000,S,Second,woman,False,,Southampton,yes,False,29.7
882,0,3,female,22.0,0,0,10.5167,S,Third,woman,False,,Southampton,no,True,29.7
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False,29.7
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,29.7


In [121]:
titanic[(titanic['sex']=='female') & (titanic['pclass'] == 1)]['age'].mean()

34.61176470588235

## apply 변환
행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다.
인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킨다.

In [122]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [124]:
df3.apply(lambda x: x.max() - x.min(), axis = 0)

A    3
B    2
C    4
dtype: int64

In [125]:
df3.apply(lambda x: x.max() - x.min(), axis = 1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [126]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [127]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [128]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age mean
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,29.7
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,29.7
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,29.7
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,29.7
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,29.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,29.7
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,29.7
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,29.7
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,29.7


In [132]:
titanic['adult/child'] = titanic['age'].apply(lambda x: 'adult' if x > 20 else 'child')
titanic.tail(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age mean,adult/child
881,0,3,male,33.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True,29.7,adult
882,0,3,female,22.0,0,0,10.5167,S,Third,woman,False,,Southampton,no,True,29.7,adult
883,0,2,male,28.0,0,0,10.5,S,Second,man,True,,Southampton,no,True,29.7,adult
884,0,3,male,25.0,0,0,7.05,S,Third,man,True,,Southampton,no,True,29.7,adult
885,0,3,female,39.0,0,5,29.125,Q,Third,woman,False,,Queenstown,no,False,29.7,adult
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,29.7,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,29.7,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,29.7,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,29.7,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,29.7,adult


In [140]:
titanic['category1'] = titanic.apply(lambda x : x.sex if x.age >= 20 else 'child', axis = 1)

In [141]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age mean,adult/child,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,29.7,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,29.7,adult,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,29.7,adult,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,29.7,adult,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,29.7,adult,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,29.7,adult,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,29.7,child,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,29.7,child,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,29.7,adult,male


In [4]:
import random
import numpy as np
import pandas as pd

np.random.seed(2)
s2 = pd.Series(np.random.randint(9, size=100))
s2.head(20)

0     8
1     8
2     6
3     2
4     8
5     7
6     2
7     1
8     5
9     4
10    4
11    5
12    7
13    3
14    6
15    4
16    3
17    7
18    6
19    1
dtype: int32