In [1]:
import pandas as pd

##### 1. Series

In [8]:
# 1. Series(클래스) - 1차원
s1 = pd.Series() # 생성자, 빈객체(1차원, 시리즈)를 생성
s2 = pd.Series([1,2,3,4,5]) # 인덱스설정하지 않은 시리즈
s3 = pd.Series([1,2,3,4,5], index=['서울','부산','대구','대전','광주',])
print(s2)
print(s3)
# print(dir(s))

0    1
1    2
2    3
3    4
4    5
dtype: int64
서울    1
부산    2
대구    3
대전    4
광주    5
dtype: int64


In [14]:
# 시리즈요소에 접근하기 - 인덱싱
print(s2[1])
print(s3['부산'], '또는', s3.부산, '또는', s3[1])

2
2 또는 2 또는 2


In [20]:
# 시리즈에 대한 정보
print(s2.index)
print(s3.index)
print(s2.values)
print(s3.values)

RangeIndex(start=0, stop=5, step=1)
Index(['서울', '부산', '대구', '대전', '광주'], dtype='object')
[1 2 3 4 5]
[1 2 3 4 5]


In [30]:
# 인덱스에 이름 부여하기
s3.name = '인구수'
s3.index.name = '도시'
# print(dir(s2))

In [None]:
서울    1
부산    2
대구    3
대전    4
광주    5
dtype: int64
    
서울    1
부산    2
대구    3
대전    4
광주    5
Name: 인구수, dtype: int64    

In [35]:
# 배열인덱싱을 사용
s3[['서울', '부산', '대전']]

도시
서울    1
부산    2
대전    4
Name: 인구수, dtype: int64

In [37]:
# 배열인덱싱 - 조건
s3[(s3>2) & (s3<5)]

도시
대구    3
대전    4
Name: 인구수, dtype: int64

In [42]:
# 슬라이싱
print(s3[1:])
print(s3[1:3])
print(s3["부산":"광주"]) # 인덱스(명)이 있는 경우


도시
부산    2
대구    3
대전    4
광주    5
Name: 인구수, dtype: int64
도시
부산    2
대구    3
Name: 인구수, dtype: int64
도시
부산    2
대구    3
대전    4
광주    5
Name: 인구수, dtype: int64


In [51]:
# 시리즈객체는 라벨값에 의해 인덱싱이 가능하기 때문에 실질적으로는 dict형태로
# 접근하는 것 처럼 key(index)로 접근할 수가 있다.
# 즉 dict자료형과 유사하다고 볼 수 있다. 따라서 dict에서 제공하는 in/not in, items, 
# for 등의 작업을 할 수가 있다.

print("서울" in s3)
print("시카고" in s3)
print(s3.items)
print()

for k, v in s3.items():
    print(f'{k} = {v}')

True
False
<bound method Series.items of 도시
서울    1
부산    2
대구    3
대전    4
광주    5
Name: 인구수, dtype: int64>

서울 = 1
부산 = 2
대구 = 3
대전 = 4
광주 = 5


In [56]:
# dict와 유사하기 때문에 dict로 Series를 생성하기
s4 = pd.Series({'서울':1,'부산':2,'대구':3,'인천':3,})

for k, v in s4.items():
    print(f'{k} = {v}')

서울 = 1
부산 = 2
대구 = 3
인천 = 3


In [64]:
# 시리즈객체의 연산
print(s4 - s3)
ds = s4 - s3

광주    NaN
대구    0.0
대전    NaN
부산    0.0
서울    0.0
인천    NaN
dtype: float64


In [66]:
print(ds.notnull())
print(ds[ds.notnull()])

광주    False
대구     True
대전    False
부산     True
서울     True
인천    False
dtype: bool
대구    0.0
부산    0.0
서울    0.0
dtype: float64


In [69]:
# 시리즈객체의 수정
s4.서울 = 2500
s4['부산'] = 1200
s4[2] = 800
s4

서울    2500
부산    1200
대구     800
인천       3
dtype: int64

In [71]:
# 시리즈객체의 삭제 del
del s4['인천']
s4

서울    2500
부산    1200
대구     800
dtype: int64

##### 2. DataFrame

* 2차원데이터
* 2차원이기 때문에 `행인덱스, row index`와 `열인덱스 column index`를 정의할 수 있다.

In [75]:
data = {
    "2015":[1,2,3],
    "2016":[4,5,6],
    "2017":[7,8,9],
    "2018":[1,2,3],
}
print(type(data))

# df을 생성할 때는 열의 갯수가 동일해야 한다.
df = pd.DataFrame(data)
df

<class 'dict'>


Unnamed: 0,2015,2016,2017,2018
0,1,4,7,1
1,2,5,8,2
2,3,6,9,3


In [76]:
df.columns = ['2015년','2016년','2017년', '2018년']
df

Unnamed: 0,2015년,2016년,2017년,2018년
0,1,4,7,1
1,2,5,8,2
2,3,6,9,3


In [79]:
# 행의 인덱스를 설정하려면 행과 인덱스갯수가 동일해야 한다.
df.index = ['서울','부산','대구']
df

Unnamed: 0,2015년,2016년,2017년,2018년
서울,1,4,7,1
부산,2,5,8,2
대구,3,6,9,3


In [87]:
# df의 정보조회
df.info()
print(df.index)
print(df.columns)
print(df.values)
print(type(df.index), type(df.columns))

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, 서울 to 대구
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   2015년   3 non-null      int64
 1   2016년   3 non-null      int64
 2   2017년   3 non-null      int64
 3   2018년   3 non-null      int64
dtypes: int64(4)
memory usage: 120.0+ bytes
Index(['서울', '부산', '대구'], dtype='object')
Index(['2015년', '2016년', '2017년', '2018년'], dtype='object')
[[1 4 7 1]
 [2 5 8 2]
 [3 6 9 3]]
<class 'pandas.core.indexes.base.Index'> <class 'pandas.core.indexes.base.Index'>


In [92]:
# 인덱스 및 컬럼명 설정하기
df.index.name = '도시'
df.columns.name = '인구수'
df

인구수,2015년,2016년,2017년,2018년
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,1,4,7,1
부산,2,5,8,2
대구,3,6,9,3


In [95]:
# 피봇 T 즉, 전치(transpose)
df.T

도시,서울,부산,대구
인구수,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2015년,1,2,3
2016년,4,5,6
2017년,7,8,9
2018년,1,2,3


##### df의 수정, 추가, 삭제

In [100]:
# 열추가
df['2019년'] = 10
df

인구수,2015년,2016년,2017년,2018년,2019년
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,1,4,7,1,10
부산,2,5,8,2,10
대구,3,6,9,3,10


In [104]:
# 수정하기
df['2019년'] = 20
df

인구수,2015년,2016년,2017년,2018년,2019년
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,1,4,7,1,20
부산,2,5,8,2,20
대구,3,6,9,3,20


In [105]:
# 삭제하기
del df['2017년']
df

인구수,2015년,2016년,2018년,2019년
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,1,4,1,20
부산,2,5,2,20
대구,3,6,3,20


In [114]:
# 열의 인덱싱 - dict와 유사
display(type(df['2019년']), df['2019년']) # 한개의 열
display(df[['2016년', '2019년']])# 여러개 열
display(type(df[['2019년']]), df[['2019년']]) 

pandas.core.series.Series

도시
서울    20
부산    20
대구    20
Name: 2019년, dtype: int64

인구수,2016년,2019년
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,4,20
부산,5,20
대구,6,20


pandas.core.frame.DataFrame

인구수,2019년
도시,Unnamed: 1_level_1
서울,20
부산,20
대구,20


In [115]:
# 정수형인덱스 df 접근
import numpy as np
df2 = pd.DataFrame(np.arange(12).reshape(3,4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [117]:
df2[2]
df2[[1,3]]

Unnamed: 0,1,3
0,1,3
1,5,7
2,9,11


##### 행인덱싱

* df을 행단위 인덱싱을 하려면 `항상 슬라이싱`으로 해야 한다.
* 인덱스가 문자라면 라벨슬라이싱, 인덱스가 정수라면 정수인덱싱

In [118]:
df[:]

인구수,2015년,2016년,2018년,2019년
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,1,4,1,20
부산,2,5,2,20
대구,3,6,3,20


In [119]:
df[::]

인구수,2015년,2016년,2018년,2019년
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,1,4,1,20
부산,2,5,2,20
대구,3,6,3,20


In [120]:
df[::2]

인구수,2015년,2016년,2018년,2019년
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,1,4,1,20
대구,3,6,3,20


In [124]:
df[1:3]
df['부산':'대구']

인구수,2015년,2016년,2018년,2019년
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,2,5,2,20
대구,3,6,3,20


In [128]:
# 개별인덱싱 df[열][행]
df['2016년']
df['2016년']['부산']

5

##### df 입출력 하기

* csv, excel, html, json, hdf5, sql, sas, stata

In [132]:
%%writefile sample.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample.csv


In [133]:
df = pd.read_csv('sample.csv')
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [134]:
%%writefile sample1.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample1.csv


In [136]:
# names속성이 없다면 1행이 열의 제목이 된다.
df = pd.read_csv('sample1.csv', names=['c1', 'c2', 'c3'])
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [139]:
# 인덱스 지정하기
df = pd.read_csv('sample1.csv', names=['c1', 'c2', 'c3'])
df.index = ['A', 'B', 'C']
df

Unnamed: 0,c1,c2,c3
A,1,1.11,one
B,2,2.22,two
C,3,3.33,three


In [141]:
# 특정의 열을 index로 지정할 경우
df = pd.read_csv('sample.csv', index_col='c1')
df

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [142]:
%%writefile sample3.csv
c1 c2 c3
1 1.11 one
2 2.22 two
3 3.33 three

Writing sample3.csv


In [144]:
# sep가 콤마가 아닌 경우
df = pd.read_csv('sample3.csv', sep="\s+")
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [145]:
%%writefile sample4.csv
1번째라인 설명
2번쨰라인 설명
c1 c2 c3
1 1.11 one
2 2.22 two
3 3.33 three

Writing sample4.csv


In [148]:
df = pd.read_csv('sample4.csv', sep="\s+", skiprows=2)
df

df = pd.read_csv('sample4.csv', sep="\s+", skiprows=[0,1])
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [154]:
# csv파일출력 : to_csv
df.to_csv('./sample5.csv')
df.to_csv('./sample6.csv', sep='|')

In [159]:
# 인터넷상의 csv파일 입력
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C
