- numpy : 수치 배열을 다루는 라이브러리
- pandas : 여러 데이터 형태가 섞인 행과 열로 된 복합적 데이터를 다루는 라이브러리

- Series Class : 1차원 -> 인덱스(index) + 값(value)
- DataFrame Class : 2차원 -> 표와 값은 형태
    - 값을 표현하는 방법 : 1. 숫자 인덱스 2. *컬럼명(속성명) 인덱스(딕셔너리의 키 인덱싱과 유사)

판다스 로딩

In [1]:
import pandas as pd

Series

In [2]:
# Series 생성
ser1 = pd.Series([4, 56, -20, 2])

ser1

0     4
1    56
2   -20
3     2
dtype: int64

In [4]:
# 인덱스명 변경
ser2 = pd.Series([4, 56, -20, 2], index=["1행", "2행", "3행", "4행"])
ser2

1행     4
2행    56
3행   -20
4행     2
dtype: int64

In [5]:
ser2["1행"]

4

In [6]:
# 시리즈의 값을 확인
ser2.values

array([  4,  56, -20,   2], dtype=int64)

In [7]:
# 시리즈의 인덱스를 확인
ser2.index

Index(['1행', '2행', '3행', '4행'], dtype='object')

In [8]:
# 시리즈의 데이터 타입 확인
ser2.dtype

dtype('int64')

다음 데이터를 시리즈로 생성

서울 9904312 <br>
부산 3448738 <br>
인천 2890451 <br>
대구 2465052

In [10]:
ser3 = pd.Series([9904312, 3448738, 2890451, 2465052], index = ["서울", "부산", "인천", "대구"])
ser3

서울    9904312
부산    3448738
인천    2890451
대구    2465052
dtype: int64

In [11]:
# 인덱스의 컬럼명을 설정
ser3.index.name = "도시명"
ser3

도시명
서울    9904312
부산    3448738
인천    2890451
대구    2465052
dtype: int64

In [12]:
# 데이터의 이름 설정
ser3.name = "인구수"
ser3

도시명
서울    9904312
부산    3448738
인천    2890451
대구    2465052
Name: 인구수, dtype: int64

In [13]:
ser3 /= 1000000
ser3

도시명
서울    9.904312
부산    3.448738
인천    2.890451
대구    2.465052
Name: 인구수, dtype: float64

In [16]:
# 시리즈의 인덱싱 : 숫자 인덱싱, 인덱스 이름으로 인덱싱
print(ser3[0])
print(ser3["서울"])

9.904312
9.904312


In [17]:
print(ser3[3])
print(ser3["대구"])

2.465052
2.465052


In [19]:
# 인덱스를 나열해서 인덱싱
print(ser3[[1, 0, 3]])
print(ser3[["부산", "서울"]])

도시명
부산    3.448738
서울    9.904312
대구    2.465052
Name: 인구수, dtype: float64
도시명
부산    3.448738
서울    9.904312
Name: 인구수, dtype: float64


In [21]:
# boolean 인덱싱
# 인구수 값이 9보다 큰 데이터만 가져옴
print(ser3[ser3 > 9])

도시명
서울    9.904312
Name: 인구수, dtype: float64


In [24]:
# 인구수 값이 3보다 크고 10보다 작은 데이터를 가져옴
print(ser3[(ser3 > 3) & (ser3 < 10)])

도시명
서울    9.904312
부산    3.448738
Name: 인구수, dtype: float64


In [30]:
# 슬라이싱
print(ser3[1:3])
print(ser3[-3:-1])
print(ser3["부산":"인천"])

도시명
부산    3.448738
인천    2.890451
Name: 인구수, dtype: float64
도시명
부산    3.448738
인천    2.890451
Name: 인구수, dtype: float64
도시명
부산    3.448738
인천    2.890451
Name: 인구수, dtype: float64


In [31]:
# 부산, 인천, 대구
print(ser3["부산":"대구"])

도시명
부산    3.448738
인천    2.890451
대구    2.465052
Name: 인구수, dtype: float64


In [43]:
# 딕셔너리로 선언된 데이터를 시리즈로 변환
ser3 = pd.Series([9904312, 3448738, 2890451, 2465052], index = ["서울", "부산", "인천", "대구"])
dic1 = {"서울" : 9631482, "부산" : 3393191, "인천" : 2632035, "대전" : 1490158}
ser4 = pd.Series(dic1)
ser4

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [44]:
d = ser3 - ser4
d

대구         NaN
대전         NaN
부산     55547.0
서울    272830.0
인천    258416.0
dtype: float64

결측치 : 데이터가 없는 상태

- 결측치 확인 : notnull() => 결측치가 아닌 경우에 True를 반환

In [45]:
d.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [46]:
# 결측치 아닌 데이터만 출력
print(d[d.notnull()])

부산     55547.0
서울    272830.0
인천    258416.0
dtype: float64


결측치 확인 : isnull() => 결측치 이면 True를 반환

In [47]:
d.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [49]:
# 결측치인 데이터만 출력
print(d[d.isnull()])

대구   NaN
대전   NaN
dtype: float64


시리즈 데이터 수정, 추가, 삭제

In [52]:
# 추가 (딕셔너리와 유사)
# 광주 1344545 데이터 추가
ser3["광주"] = 1344545
ser3

서울    9904312
부산    3448738
인천    2890451
대구    2465052
광주    1344545
dtype: int64

In [53]:
# 수정 (딕셔너리와 유사)
# 광주 1300000로 수정
ser3["광주"] = 1300000
ser3

서울    9904312
부산    3448738
인천    2890451
대구    2465052
광주    1300000
dtype: int64

In [54]:
# 삭제 (딕셔너리와 유사)
# 광주 데이터 삭제
del ser3["광주"]
ser3

서울    9904312
부산    3448738
인천    2890451
대구    2465052
dtype: int64

DataFrame : 2차원 (행, 열) 형태로 구성된 데이터

In [56]:
data = {
            "2015" : [9904312, 3448738, 2890451, 2465052],
            "2010" : [9631482, 3393191, 2632035, 1490158]
        }
df1 = pd.DataFrame(data)
df1

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448738,3393191
2,2890451,2632035
3,2465052,1490158


In [60]:
# 인덱스 이름을 설정
df1.index = ["서울", "부산", "인천", "대구"]
df1

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448738,3393191
인천,2890451,2632035
대구,2465052,1490158


In [63]:
# 리스트 형태로 데이터 프레임을 생성
list1 = [
            [9904312, 9631482],
            [3448738, 3393191],
            [2890451, 2632035],
            [2465052, 1490158]
        ]
col = ["2015", "2010"]
index1 = ["서울", "부산", "인천", "대구"]

df2 = pd.DataFrame(list1, index = index1, columns = col)
df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448738,3393191
인천,2890451,2632035
대구,2465052,1490158


In [68]:
list2 = [
            [9904312, 3448738, 2890451, 2465052],
            [9631482, 3393191, 2632035, 1490158]
        ]
col = ["서울", "부산", "인천", "대구"]
index1 = ["2015", "2010"]

df2 = pd.DataFrame(list2, index = index1, columns = col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448738,2890451,2465052
2010,9631482,3393191,2632035,1490158


In [70]:
df3 = df2.T # 전치행렬

df3

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448738,3393191
인천,2890451,2632035
대구,2465052,1490158


In [99]:
list1 = [
            [175.3, 180.2, 178.6],
            [66.2, 78.9, 55.1],
            [27.0, 49.0, 35.0]
        ]
col = [ "홍길동", "김사또", "임꺽정" ]
index1 = [ "키", "몸무게", "나이" ]

df3 = pd.DataFrame(list1, index = index1, columns = col)
df3

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [100]:
# 열 데이터 추가
df3["이순신"] = [160, 50, 40]
df3

Unnamed: 0,홍길동,김사또,임꺽정,이순신
키,175.3,180.2,178.6,160
몸무게,66.2,78.9,55.1,50
나이,27.0,49.0,35.0,40


loc[], iloc[] : 인덱싱 및 슬라이싱을 지원하는 함수

- loc[] : 컬럼 이름으로 인덱싱과 슬라이싱을 지원
- iloc[] : 인덱스로 인덱싱과 슬라이싱을 지원

loc(행, 열)

In [101]:
# 행 인덱싱
df3.loc["키"]

홍길동    175.3
김사또    180.2
임꺽정    178.6
이순신    160.0
Name: 키, dtype: float64

In [102]:
# 행과 열 인덱싱
df3.loc["키", "홍길동"]

175.3

In [107]:
# 몸무게
print(df3.loc["몸무게"])

홍길동    66.2
김사또    78.9
임꺽정    55.1
이순신    50.0
Name: 몸무게, dtype: float64


In [108]:
# 김사또의 몸무게
print(df3.loc["몸무게", "김사또"])

78.9


In [113]:
df3.loc[["몸무게", "나이"], ["김사또", "임꺽정"]]

Unnamed: 0,김사또,임꺽정
몸무게,78.9,55.1
나이,49.0,35.0


In [114]:
df3.loc["몸무게" : "나이", "김사또" : "임꺽정"]

Unnamed: 0,김사또,임꺽정
몸무게,78.9,55.1
나이,49.0,35.0


iloc[] : 인덱스 값으로 접근

In [116]:
df3.iloc[0] # 출력값은 시리즈 형태

홍길동    175.3
김사또    180.2
임꺽정    178.6
이순신    160.0
Name: 키, dtype: float64

In [121]:
# 김사또 나이
df3.iloc[2, 1]

49.0

In [123]:
df3.iloc[1:, 0:2]

Unnamed: 0,홍길동,김사또
몸무게,66.2,78.9
나이,27.0,49.0


In [137]:
# boolean 인덱싱
# 나이가 40세 이상 데이터만 출력
df4 = df3.T
df4

Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0
이순신,160.0,50.0,40.0


In [139]:
df4[df4["나이"] > 30]

Unnamed: 0,키,몸무게,나이
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0
이순신,160.0,50.0,40.0


CSV 파일 : 컴마로 구분된 데이터 셋

In [163]:
# 한글 포함 에러 해결을 위함 : encoding="euc-kr"
data = pd.read_csv("population_number.csv", encoding="euc-kr")
data

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,,,3655437
2,인천,수도권,2890451,2632035.0,,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [143]:
# 데이터들 중에서 앞 n개의 데이터만 출력
data.head(2)

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,,,3655437


In [144]:
# 데이터들 중에서 뒤 n개의 데이터만 출력
data.tail(2)

Unnamed: 0,도시,지역,2015,2010,2005,2000
2,인천,수도권,2890451,2632035.0,,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [145]:
# 각 컬럼의 데이터 수를 출력(결측치 제외)
data.count()

도시      4
지역      4
2015    4
2010    3
2005    2
2000    4
dtype: int64

In [146]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   도시      4 non-null      object 
 1   지역      4 non-null      object 
 2   2015    4 non-null      int64  
 3   2010    3 non-null      float64
 4   2005    2 non-null      float64
 5   2000    4 non-null      int64  
dtypes: float64(2), int64(2), object(2)
memory usage: 320.0+ bytes


In [147]:
# 각 칼럼의 데이터 종류마다의 갯수를 계수
data["지역"].value_counts()

수도권    2
경상권    2
Name: 지역, dtype: int64

In [149]:
# 각 칼럼의 데이터 종류 출력
data["지역"].unique()

array(['수도권', '경상권'], dtype=object)

In [150]:
data["도시"].value_counts()

서울    1
인천    1
부산    1
대구    1
Name: 도시, dtype: int64

In [151]:
data["도시"].unique()

array(['서울', '부산', '인천', '대구'], dtype=object)

In [152]:
data

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,,,3655437
2,인천,수도권,2890451,2632035.0,,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


fillna(값) : 결측치를 해당 값으로 채운다

In [161]:
data = data.fillna(0)

data

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,0.0,0.0,3655437
2,인천,수도권,2890451,2632035.0,0.0,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [164]:
# 평균값으로 채우기
avg = (data.iloc[2, 3] + data.iloc[2, 5]) / 2
data.iloc[2, :] = data.iloc[2, :].fillna(avg)
data

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,,,3655437
2,인천,수도권,2890451,2632035.0,2549186.5,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


- concat() : 2개의 데이터 프레임을 합하는 함수
- cut() : 해당 컬럼의 데이터를 그룹핑하는 함수
- apply() : 행이나 열 단위로 복잡한 반복적 처리를 하는 함수

In [165]:
list1 = [ [9904312, 3448737, 2890451, 2465052] ]
list2 = [ [9631482, 3393191, 2632035, 2431774] ]

index1 = ["2015" ]
index2 = ["2010" ]
col = ["서울", "부산", "인천", "대구"]

df3 = pd.DataFrame(list1, 
                  index = index1,
                  columns = col)

df4 = pd.DataFrame(list2, 
                  index = index2,
                  columns = col)

In [166]:
df3

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2465052


In [167]:
df4

Unnamed: 0,서울,부산,인천,대구
2010,9631482,3393191,2632035,2431774


In [168]:
# [df3, df4] : 합하고자 하는 데이터프레임 리스트
# axis = 0 : 행 방향으로 합함
df5 = pd.concat([df3, df4], axis = 0)
df5

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2465052
2010,9631482,3393191,2632035,2431774


In [170]:
# 컬럼을 추가
df5["광주"] = [ 120000, 123000 ]
df5

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2465052,120000
2010,9631482,3393191,2632035,2431774,123000


In [178]:
df6 = pd.DataFrame([[20000, 30000], [44444, 65566]],
                      columns = ["제주", "순천"],
                      index = ["2010", "2015"])
df6

Unnamed: 0,제주,순천
2010,20000,30000
2015,44444,65566


In [179]:
# 데이터 프레임을 열 방향으로 합함
df7 = pd.concat([df5, df6], axis = 1)
df7

Unnamed: 0,서울,부산,인천,대구,광주,제주,순천
2015,9904312,3448737,2890451,2465052,120000,44444,65566
2010,9631482,3393191,2632035,2431774,123000,20000,30000


아래 데이터를 행 방향으로 합해보세요

In [184]:
list3 = [ [9901232, 3124737, 1230451, 5132152, 0, 0, 0] ]

index1 = ["2000" ]
col = ["서울", "부산", "인천", "대구", "광주", "제주", "순천"]

df5 = pd.DataFrame(list3, 
                  index = index1,
                  columns = col)

df5

Unnamed: 0,서울,부산,인천,대구,광주,제주,순천
2000,9901232,3124737,1230451,5132152,0,0,0


아래 데이터를 열 방향으로 합해보세요

In [189]:
df11 = pd.DataFrame([[20000, 30000], [44444, 65566], [55555, 85836]],
                   columns = ["나주", "광주"],
                   index=["2015", "2010", "2000"])
df11  

Unnamed: 0,나주,광주
2015,20000,30000
2010,44444,65566
2000,55555,85836


In [190]:
df8 = pd.concat([df7, df5], axis = 0)
df8

Unnamed: 0,서울,부산,인천,대구,광주,제주,순천
2015,9904312,3448737,2890451,2465052,120000,44444,65566
2010,9631482,3393191,2632035,2431774,123000,20000,30000
2000,9901232,3124737,1230451,5132152,0,0,0


In [192]:
df9 = pd.concat([df8, df11], axis = 1)
df9

Unnamed: 0,서울,부산,인천,대구,광주,제주,순천,나주,광주.1,나주.1,광주.2
2015,9904312.0,3448737.0,2890451.0,2465052.0,120000.0,44444.0,65566.0,20000,30000,20000,30000
2010,9631482.0,3393191.0,2632035.0,2431774.0,123000.0,20000.0,30000.0,44444,65566,44444,65566
2000,,,,,,,,55555,85836,55555,85836


### apply 함수 : 행이나 열 단위로 한번에 더 복잡한 처리를 하고 싶을 때 사용

In [2]:
import numpy as np
import pandas as pd

In [4]:
df_titanic = pd.read_csv("data/titanic.csv", index_col = 'PassengerId')
df_titanic

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [5]:
# 타이타닉 데이터에서 Name 컬럼만 출력
df_titanic["Name"]

PassengerId
1                                Braund, Mr. Owen Harris
2      Cumings, Mrs. John Bradley (Florence Briggs Th...
3                                 Heikkinen, Miss. Laina
4           Futrelle, Mrs. Jacques Heath (Lily May Peel)
5                               Allen, Mr. William Henry
                             ...                        
887                                Montvila, Rev. Juozas
888                         Graham, Miss. Margaret Edith
889             Johnston, Miss. Catherine Helen "Carrie"
890                                Behr, Mr. Karl Howell
891                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

In [6]:
df_titanic["Name"][1]

'Braund, Mr. Owen Harris'

In [15]:
# 첫번째 문장 ,로 분리
print(df_titanic["Name"][1].split(","))
# 분리한 분장 리스트 중 첫번째 단어
print(df_titanic["Name"][1].split(",")[1])
# 첫번째 단어를 다시 분리
print(df_titanic["Name"][1].split(",")[1].split("."))
print(df_titanic["Name"][1].split(",")[1].split(".")[0])
# 공백 제거
print(df_titanic["Name"][1].split(",")[1].split(".")[0].strip())

['Braund', ' Mr. Owen Harris']
 Mr. Owen Harris
[' Mr', ' Owen Harris']
 Mr
Mr


In [16]:
# apply 함수 적용을 위해 Name 컬럼에서 호칭만 뽑아서 보는 함수(def)를 선언
def name_split(x): # 매개변수 x는 임의로 설정
    return x.split(",")[1].split(".")[0].strip()

In [17]:
# 매개변수.apply(함수명)
df_titanic["Name"].apply(name_split)

PassengerId
1        Mr
2       Mrs
3      Miss
4       Mrs
5        Mr
       ... 
887     Rev
888    Miss
889    Miss
890      Mr
891      Mr
Name: Name, Length: 891, dtype: object

In [18]:
# 생성된 시리즈를 변수에 저장
name_title = df_titanic["Name"].apply(name_split)

In [19]:
name_title.name = "name_title"

In [20]:
pd.concat([df_titanic, name_title], axis = 1)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,name_title
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,Mr
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,Miss
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,Mrs
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,Mr
...,...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,Rev
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,Miss
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,Miss
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,Mr
