<a href="https://colab.research.google.com/github/tommyheo/python/blob/main/pandas/231227.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np

pd.__version__, np.__version__

('1.5.3', '1.23.5')

# Series Class
- 시리즈 클래스는 넘파이에서 제공하는 1차원 배열 => R에서 Vector과 비슷
> 1차원 배열일 때는 보통 기준이 행 <br>
> 시리즈 = 값(value) + 인덱스(index)

In [4]:
s = pd.Series(range(1,4))
s
# 왼쪽이 index 오른쪽이 value

0    1
1    2
2    3
dtype: int64

In [6]:
s = pd.Series(range(1,4), index=['one', 'two', 'three'])
s
# index 이름을 지정해줄 수 있고 index과 value의 개수는 동일해야 한다

one      1
two      2
three    3
dtype: int64

In [9]:
# index 속성으로 index를 가져올 수 있음, index는 String이지만 object 타입이라고 함
s.index

Index(['one', 'two', 'three'], dtype='object')

In [11]:
# numpy로 만드는 자료 타입 => ndarray
# 배열을 만드는 메소드 => array[]
s.values, type(s.values)

(array([1, 2, 3]), numpy.ndarray)

In [13]:
# Series에 name 부여 가능
s.name = "number"
s

one      1
two      2
three    3
Name: number, dtype: int64

In [14]:
# Index에도 name 부여 가능
s.index.name = "english"
s

english
one      1
two      2
three    3
Name: number, dtype: int64

In [17]:
# 넘파이 배열처럼 시리즈도 벡터화 연산 가능
s2 = s / 3
s2

english
one      0.333333
two      0.666667
three    1.000000
Name: number, dtype: float64

In [22]:
# 인덱스가 숫자로 변경을 하면 덥여쓰이기 떄문에
# 인덱스가 0부터 시작하지 않고 지정한 첫번째 숫자로 변경된다
s = pd.Series(range(11,14), index=[1,2,3])
# s[0] Error!!!!!!!!
s[1]


11

In [27]:
s = pd.Series(range(11,14), index=['a','b','c'])
s['a':'c']

a    11
b    12
c    13
dtype: int64

In [29]:
# 인덱스 번호로 불러올때는 슬라이싱 마지막 숫자 주의!(~까지하고 생각하면 편함)
s[0:2]

a    11
b    12
dtype: int64

In [33]:
# 인덱스 순서를 지정해서 결과값을 가져올 수 있음
# 결과의 자료타입은 Series
s3 = s[[0,2,1]]
s2, type(s2)

(english
 one      0.333333
 two      0.666667
 three    1.000000
 Name: number, dtype: float64,
 pandas.core.series.Series)

In [43]:
# boolean indexing => 조건이 맞는 데이터만 가져오는 방법
s[(s > 1) & (s % 2 == 0)]

b    12
dtype: int64

In [40]:
s > 1, s % 2 == 0

(a    True
 b    True
 c    True
 dtype: bool,
 a    False
 b     True
 c    False
 dtype: bool)

In [42]:
# []나 ()에 넣어줘야 불린 연산이 가능
(s > 1) & (s % 2 == 0)

a    False
b     True
c    False
dtype: bool

In [45]:
# 조건 변수를 만들어서 사용하는 빈도가 많음
cond = (s > 1) & (s % 2 == 0)
s[cond]

b    12
dtype: int64

In [46]:
s[1:3]

b    12
c    13
dtype: int64

In [48]:
s['b':'c']

b    12
c    13
dtype: int64

In [49]:
s.a, s.b

(11, 12)

In [51]:
# 시리즈와 딕셔너리 자료형
'b' in s # 인덱스 라벨 중에 'b'가 있는가?

True

In [63]:
# 알아서 인덱스가 앞에 옴
for k , v in s.items():
    print(f"{k} = {v}")

one = 1
two = 2
three = 3


In [68]:
# 딕셔너리 타입에서 -> 시리즈 타입으로 변환하는 과정
d = {'one': 1, 'two': 2, 'three':3, 'four':4}
s2 = pd.Series(d)
s2

one      1
two      2
three    3
four     4
dtype: int64

In [69]:
# index 연산
s + s

one      2
two      4
three    6
dtype: int64

In [70]:
d = {'one': 1, 'two': 2, 'three':3}
s = pd.Series(d, index = ['one', 'two', 'three'])
s

one      1
two      2
three    3
dtype: int64

In [73]:
# index가 맞지 않으면 NaN 반환
# index를 맞춰서 알아서 연산해준다
diff = s - s2
diff
add = s + s2
add

four     NaN
one      2.0
three    6.0
two      4.0
dtype: float64

In [76]:
# Series.notnull
# NaN이 아닌 값 확인
# NaN값 확인은 float 자료형일 때만 가능
diff.notnull()


four     False
one       True
three     True
two       True
dtype: bool

In [78]:
# True인 것만 가져오기
add[add.notnull()]

one      2.0
three    6.0
two      4.0
dtype: float64

In [81]:
# 데이터 변경
s["one"] = 11
s

one      11
two       2
three     3
dtype: int64

In [83]:
s.two = 22
s

one      11
two      22
three     3
dtype: int64

In [87]:
# 데이터 삭제
del s2['four'] # key값
s2

one      1
two      2
three    3
dtype: int64

In [88]:
s2['four'] = 4
s2

one      1
two      2
three    3
four     4
dtype: int64

In [90]:
# 인덱스 순서 바꾸기
s2 = pd.Series(s2, index=['four', 'three', 'two', 'one'])
s2

four     4
three    3
two      2
one      1
dtype: int64

# Dataframe
> 행 인덱스(row index, index)<br>

> 열 인덱스(cplumn index, columns)


In [92]:
import random
random.seed(42)

In [93]:
data = {
    "2015": [random.randint(9000000,10000000), random.randint(3000000,4000000), random.randint(2000000,3000000), random.randint(900000,1000000)],
    "2010": [random.randint(9000000,10000000), random.randint(3000000,4000000), random.randint(2000000,3000000), random.randint(900000,1000000)],
    "2005": [random.randint(9000000,10000000), random.randint(3000000,4000000), random.randint(2000000,3000000), random.randint(900000,1000000)],
    "2000": [random.randint(9000000,10000000), random.randint(3000000,4000000), random.randint(2000000,3000000), random.randint(900000,1000000)],
    "지역": ["수도권", "경상권", "수도권", "경상권"]
}
columns = ["지역", "2015", "2010", "2005", "2000"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000
서울,수도권,9670487,9288389,9772246,9935518
부산,경상권,3116739,3256787,3107473,3571858
인천,수도권,2026225,2234053,2709570,2091161
대구,경상권,997196,918289,997080,977397


In [95]:
df.values

array([['수도권', 9670487, 9288389, 9772246, 9935518],
       ['경상권', 3116739, 3256787, 3107473, 3571858],
       ['수도권', 2026225, 2234053, 2709570, 2091161],
       ['경상권', 997196, 918289, 997080, 977397]], dtype=object)

In [96]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000'], dtype='object')

In [98]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [104]:
df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9670487,9288389,9772246,9935518
부산,경상권,3116739,3256787,3107473,3571858
인천,수도권,2026225,2234053,2709570,2091161
대구,경상권,997196,918289,997080,977397


**연습**

다음 조건을 만족하는 임의의 데이터프레임을 하나 만드시오

(1) 열의 갯수와 행의 갯수가 각각 5개 이상이어야 한다.

(2) 열에는 정수, 문자열, 실수 자료형 데이터가 각각 1개 이상씩 포함되어 있어야 한다.


In [106]:
import numpy as np
col1 = list(range(1,6))
col2 = ['a','b','c','d','e']
col3 = list(np.linspace(0,1,5))
data = {
    'int': col1,
    'str': col2,
    'float': col3
}

index = ['I', 'II', 'III', 'IV', 'V']
columns = ['int', 'str', 'float']
ex_df = pd.DataFrame(data, index=index, columns=columns)
ex_df

Unnamed: 0,int,str,float
I,1,a,0.0
II,2,b,0.25
III,3,c,0.5
IV,4,d,0.75
V,5,e,1.0


In [107]:
df

특성,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9670487,9288389,9772246,9935518
부산,경상권,3116739,3256787,3107473,3571858
인천,수도권,2026225,2234053,2709570,2091161
대구,경상권,997196,918289,997080,977397


In [109]:
# 열과 행 위치 변경
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9670487,3116739,2026225,997196
2010,9288389,3256787,2234053,918289
2005,9772246,3107473,2709570,997080
2000,9935518,3571858,2091161,977397


In [113]:
# total 열 추가하여 행의 합계를 추가하기
total = df['2015'] + df['2010'] + df['2005'] + df['2000']
# 데이터프레임의 키값은 열
df['total'] = total
df

특성,지역,2015,2010,2005,2000,total
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9670487,9288389,9772246,9935518,38666640
부산,경상권,3116739,3256787,3107473,3571858,13052857
인천,수도권,2026225,2234053,2709570,2091161,9061009
대구,경상권,997196,918289,997080,977397,3889962


In [116]:
t = df['total']
type(t)

pandas.core.series.Series

In [117]:
t = df[["2005", "2010"]]
t

특성,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9772246,9288389
부산,3107473,3256787
인천,2709570,2234053
대구,997080,918289


In [123]:
df['2005-2010 증감율'] = ((df['2010'] - df['2005']) / df['2005'] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,total,2005-2010 증감율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9670487,9288389,9772246,9935518,38666640,-4.95
부산,경상권,3116739,3256787,3107473,3571858,13052857,4.8
인천,수도권,2026225,2234053,2709570,2091161,9061009,-17.55
대구,경상권,997196,918289,997080,977397,3889962,-7.9


In [124]:
t = ((df['2010'] - df['2005']) / df['2005'] * 100).round(2)
t, type(t)

(도시
 서울    -4.95
 부산     4.80
 인천   -17.55
 대구    -7.90
 dtype: float64,
 pandas.core.series.Series)

In [125]:
del df["2005-2010 증감율"]
df

특성,지역,2015,2010,2005,2000,total
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9670487,9288389,9772246,9935518,38666640
부산,경상권,3116739,3256787,3107473,3571858,13052857
인천,수도권,2026225,2234053,2709570,2091161,9061009
대구,경상권,997196,918289,997080,977397,3889962


In [127]:
# 열 인덱싱
# 하나의 열만 인덱싱하면 시리즈 반환
# 이차원에서는 default가 열이다
df['지역']

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [129]:
# 여러개의 열을 인덱싱하면 부분적인 데이터 프레임
df[['2010', '2015']]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9288389,9670487
부산,3256787,3116739
인천,2234053,2026225
대구,918289,997196


In [137]:
# 2010이라는 열을 반환하면서 데이터프레임 자료형을 유지
# 아래와 데이터 타입이 다름
# 데이터프레임
df[['2010']], type(df[['2010']])

(특성     2010
 도시         
 서울  9288389
 부산  3256787
 인천  2234053
 대구   918289,
 pandas.core.frame.DataFrame)

In [138]:
# 시리즈
df['2010'], type(df['2010'])

(도시
 서울    9288389
 부산    3256787
 인천    2234053
 대구     918289
 Name: 2010, dtype: int64,
 pandas.core.series.Series)

In [150]:
# 0~11까지의 숫자로 3X4의 행렬을 만들어주는 소스
# reshape => 차원을 변경할 때 많이 쓰이는 함수
df2 = pd.DataFrame(np.arange(12).reshape(3,4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [151]:
list(range(12))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]

In [152]:
np.arange(12)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [157]:
# 행 인덱싱 => 항상 슬라이싱을 해야 한다
# 슬라이싱은 항상 행
df[:1]

특성,지역,2015,2010,2005,2000,total
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9670487,9288389,9772246,9935518,38666640


In [158]:
df[1:2]

특성,지역,2015,2010,2005,2000,total
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3116739,3256787,3107473,3571858,13052857


In [159]:
# 개별 데이터 인덱싱
# 2015년도 서울 데이터만 가져오는 소스
df['2015']['서울']

9670487

In [246]:
# 사람이름을 행으로 만들고 과목을 열로 만드는 예제
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [247]:
sol1 = df['수학']
sol1, type(sol1)

(춘향    90
 몽룡    60
 향단    80
 방자    70
 Name: 수학, dtype: int64,
 pandas.core.series.Series)

In [248]:
sol2 = df[['국어','영어']]
sol2

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [249]:
avg = (df['국어'] + df['영어'] + df['수학']) / 3
df['avg'] = avg

df

Unnamed: 0,국어,영어,수학,avg
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,40,70,46.666667


In [252]:
df['영어']['방자'] = 80
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['영어']['방자'] = 80


Unnamed: 0,국어,영어,수학,avg
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,80,70,46.666667


In [253]:
chun = df[0:1]
chun, type(chun)

(    국어  영어  수학        avg
 춘향  80  90  90  86.666667,
 pandas.core.frame.DataFrame)

In [254]:
t = df.T
dan = t['향단']
dan, type(dan)

(국어     70.0
 영어     60.0
 수학     80.0
 avg    70.0
 Name: 향단, dtype: float64,
 pandas.core.series.Series)

In [258]:
# iloc ==> 숫자, loc ==> 문자열
df.loc['향단',], type(df.loc['향단',])

(국어     70.0
 영어     60.0
 수학     80.0
 avg    70.0
 Name: 향단, dtype: float64,
 pandas.core.series.Series)

# 데이터 입출력

In [259]:
!rm -rf sample?.*

In [260]:
# %%writerfile

%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample1.csv


In [261]:
!ls

sample1.csv  sample_data


In [262]:
# csv 파일 입력
# header 속성 안주면 첫줄은 header가 된다
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [263]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample2.csv


In [264]:
# header가 없으면 names로 header지정 가능
pd.read_csv('sample2.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [265]:
# 특정한 열을 행 인덱스로 지정 => index_col 사용
pd.read_csv('sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [266]:
# tab으로 띄어진 건 sep = '정규표현식' 사용
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing sample3.txt


In [267]:
pd.read_table('sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [268]:
# 건너뛰어야 할 행이 있는 경우
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [269]:
pd.read_csv('sample4.txt', skiprows=[0, 1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [270]:
# 누락 => NaN변경
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing sample5.csv


In [271]:
df = pd.read_csv('sample5.csv', na_values=['누락'])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [272]:
# CSV 파일 출력
# df를 sample6.csv로
df.to_csv('sample6.csv')

In [273]:
# !cat ==> ls와 같은 개념 (파일을 읽기만 할때)
!cat sample6.csv

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,, 3.33, three


In [275]:
df.to_csv('sample7.txt', sep="|")
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [276]:
df.index = ['a','b','c']
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [277]:
df.to_csv('sample9.csv', index="False", header='False')

In [278]:
!cat sample9.csv

,c1, c2, c3
a,1.0, 1.11, one
b,2.0, , two
c,, 3.33, three


In [285]:
# 웹 csv파일 가져오기
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [290]:
# 해당 데이터의 정보 ==> info()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [292]:
# 앞뒤로 모두 설정한 행까지만 보여준다
# 10 => 앞 5, 뒤 5
pd.set_option('display.max_rows', 10)
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [294]:
# 앞에 있는 5개 호출
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [296]:
# 뒤에 있는 2개 호출
df.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


# 인터넷 상의 데이터 베이스 자료 입력
>cf) 주식은 보통 야후 파이넨셜에서

In [None]:
# 날짜는  datatime 패키지 사용해도 되고 문자열로 바로 사용해도 된다

In [297]:
!rm -rf sample?.*

# 데이터프레임 고급 인덱싱
- loc: 라벨값 기반의 2차원 인덱싱
- iloc: 순서를 나타내는 정수 기반의 2차원 인덱싱



In [300]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [306]:
# 하나만 넣을 때는 "열"을 선택해야 한다
a = df.loc['a']
type(a)

pandas.core.series.Series

In [307]:
df.loc['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [313]:
# 슬라이싱은 [] 사용이 안된다
df.loc[['b', 'c'],'A':'C']

Unnamed: 0,A,B,C
b,14,15,16
c,18,19,20


In [314]:
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [317]:
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [318]:
def select_rows(df):
    return df.A>15

In [319]:
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [320]:
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [326]:
# 모든 A열의 데이터를 가져오라는 소스
# 인덱스 2개일 땐 행을 비워두면 안된다
df.loc[:,'A']

a    10
b    14
c    18
Name: A, dtype: int64

In [327]:
df.loc[:,["A","B"]]

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


In [328]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [334]:
# 라벨기반
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


| 인덱싱 값 | 가능 | 결과 | 자료형 | 추가사항 |
|-|-|-|-|-|
| 행 인덱스값(정수) | O | 행 | 시리즈 | |
| 행 인덱스값(정수) 슬라이스 | O | 행 | 데이터프레임 | `loc`가 없는 경우와 같음 |
| 행 인덱스값(정수) 리스트 | O | 행 | 데이터프레임 | |
| 불리언 시리즈 | O | 행 | 데이터프레임 | 시리즈의 인덱스가 데이터프레임의 행 인덱스와 같아야 한다. |
| 불리언 시리즈를 반환하는 함수 | O | 행 | 데이터프레임 |  |
| 열 라벨 | X | |  | `loc`가 없는 경우에만 쓸 수 있다. |
| 열 라벨 리스트 | X | |  | `loc`가 없는 경우에만 쓸 수 있다. |

In [335]:
# 인덱스 기반
df2.iloc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17


In [336]:
df.loc["a","A"]

10

In [337]:
df.loc['b':, 'A']

b    14
c    18
Name: A, dtype: int64

In [339]:
df.loc['a':'b', "B":"D"]

Unnamed: 0,B,C,D
a,11,12,13
b,15,16,17


In [340]:
df.iloc[0,1]

11

In [341]:
df.iloc[:2,2]

a    12
b    16
Name: C, dtype: int64

In [342]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int64

In [343]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [344]:
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int64

In [345]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


# 데이터프레임의 데이터 조작

### 데이터 갯수 세기

In [347]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [353]:
# 파이썬은 NaN을 알아서 버리고 처리
s.count()

9

In [354]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [356]:
# default 방향은 행이다
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [357]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [359]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
              ... 
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
Length: 15, dtype: int64

In [364]:
# pclass열의 count
titanic.loc[:,'pclass'].count()

891

### 카테고리 값 세기
- R에서 factor형과 비슷

In [366]:
sex = titanic.loc[:,'sex']
sex.count(), sex.value_counts()

(891,
 male      577
 female    314
 Name: sex, dtype: int64)

In [367]:
titanic.value_counts()

survived  pclass  sex     age   sibsp  parch  fare      embarked  class  who    adult_male  deck  embark_town  alive  alone
1         1       female  24.0  0      0      69.3000   C         First  woman  False       B     Cherbourg    yes    True     2
                          58.0  0      0      26.5500   S         First  woman  False       C     Southampton  yes    True     1
                          49.0  0      0      25.9292   S         First  woman  False       D     Southampton  yes    True     1
                                1      0      76.7292   C         First  woman  False       D     Cherbourg    yes    False    1
                          50.0  0      1      247.5208  C         First  woman  False       B     Cherbourg    yes    False    1
                                                                                                                              ..
                          16.0  0      0      86.5000   S         First  woman  False       B     Sout

In [373]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=1000))
s2.head()

0    5
1    3
2    4
3    0
4    1
dtype: int64

In [374]:
s2.value_counts()

0    171
5    170
2    169
1    166
4    164
3    160
dtype: int64

In [375]:
# 데이터프레임에는 value_counts 메서드가 없으므로 각 열마다 별도로 적용해야 한다
df[0].value_counts()

3.0    2
0.0    1
4.0    1
Name: 0, dtype: int64