In [1]:
#판다스 로딩
import pandas as pd

In [2]:
# Series 생성 (1차원)

ser1 = pd.Series([4, 56, -20, 2])

ser1

0     4
1    56
2   -20
3     2
dtype: int64

In [3]:
# 인덱스 변경
ser2 = pd.Series([4, 56, -20, 2],
                index=["1행","2행","3행","4행"])

ser2

1행     4
2행    56
3행   -20
4행     2
dtype: int64

In [4]:
ser2.values

array([  4,  56, -20,   2], dtype=int64)

In [5]:
ser2.index

Index(['1행', '2행', '3행', '4행'], dtype='object')

In [6]:
ser2.dtype

dtype('int64')

In [10]:
ser3 = pd.Series([9904312, 3448737, 2890451, 2465052],
                index=["서울","부산","인천","대구"])

ser3

서울    9904312
부산    3448737
인천    2890451
대구    2465052
dtype: int64

In [11]:
# 인덱스 컬럼명
ser3.index.name = "도시명"

ser3

도시명
서울    9904312
부산    3448737
인천    2890451
대구    2465052
dtype: int64

In [12]:
ser3.name = "인구수"

ser3

도시명
서울    9904312
부산    3448737
인천    2890451
대구    2465052
Name: 인구수, dtype: int64

In [18]:
# 시리즈 연산

ser3 /= 1000000

ser3

도시명
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.465052
Name: 인구수, dtype: float64

In [21]:
# 시리즈의 인덱싱
print(ser3[0])
print(ser3["서울"])

9.904312
9.904312


In [22]:
print(ser3[3])
print(ser3["대구"])

2.465052
2.465052


In [24]:
print(ser3[[1,0,3]])
print(ser3[["부산","서울"]])

도시명
부산    3.448737
서울    9.904312
대구    2.465052
Name: 인구수, dtype: float64
도시명
부산    3.448737
서울    9.904312
Name: 인구수, dtype: float64


In [25]:
# boolean 인덱싱
#인구수 값이 9보다 큰 데이터만 가져온다

print(ser3[ser3 > 9])

도시명
서울    9.904312
Name: 인구수, dtype: float64


In [28]:
print(ser3[(ser3 > 3) & (ser3 < 10)])

도시명
서울    9.904312
부산    3.448737
Name: 인구수, dtype: float64


In [31]:
# 슬라이싱
print(ser3[1:3])
print(ser3["부산":"인천"])

도시명
부산    3.448737
인천    2.890451
Name: 인구수, dtype: float64
도시명
부산    3.448737
인천    2.890451
Name: 인구수, dtype: float64


In [32]:
print(ser3[1:])
print(ser3["부산":"대구"])

도시명
부산    3.448737
인천    2.890451
대구    2.465052
Name: 인구수, dtype: float64
도시명
부산    3.448737
인천    2.890451
대구    2.465052
Name: 인구수, dtype: float64


In [34]:
#딕셔너리 -> 데이터 시리즈
data = {"서울":9631482,
"부산":3393191,
"인천":2632035,
"대전":1490158}

ser4 = pd.Series(data)

ser4

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [35]:
ser3 = pd.Series([9904312, 3448737, 2890451, 2465052],
                index=["서울", "부산", "인천", "대구"])

In [36]:
# 데이터 못빼면 NaN -> 결측치
d = ser3 - ser4
d

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [37]:
# 결측치 확인
d.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [38]:
print(d[d.notnull()])

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64


In [39]:
d.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [40]:
print(d[d.isnull()])

대구   NaN
대전   NaN
dtype: float64


데이터 추가 삭제

In [45]:
ser3 = pd.Series([9904312, 3448737, 2890451, 2465052],
                index=["서울", "부산", "인천", "대구"])

In [47]:
ser3["광주"] = 1344545

ser3

서울    9904312
부산    3448737
인천    2890451
대구    2465052
광주    1344545
dtype: int64

In [48]:
ser3["광주"] = 1300000

ser3

서울    9904312
부산    3448737
인천    2890451
대구    2465052
광주    1300000
dtype: int64

In [49]:
del ser3["광주"]

ser3

서울    9904312
부산    3448737
인천    2890451
대구    2465052
dtype: int64

Dataframe : 2차원 (행,열) 형태로 구성된 데이터

In [51]:
data = {
    "2015": [9904312, 3448737, 2890451, 2465052],
    "2010": [9631482, 3393191, 2632035, 2431774]
}

df1 = pd.DataFrame(data)

df1

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2465052,2431774


In [52]:
# 인덱스 이름을 설정
df1.index=["서울","부산","인천","대구"]

df1

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2465052,2431774


In [55]:
# 리스트 형태로 데이터 프레임을 생성
list1 = [ [9904312, 3448737, 2890451, 2465052],
          [9631482, 3393191, 2632035, 2431774]
        ]
col = ["서울","부산","인천","대구"]
index1 = ["2015", "2010"]

df2 = pd.DataFrame(list1,
                  index = index1,
                  columns = col)

df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2465052
2010,9631482,3393191,2632035,2431774


In [56]:
df3 = df2.T # 전치행렬

df3

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2465052,2431774


In [57]:
list2 = [ [175.3, 180.2, 178.6],
          [66.2, 78.9, 55.1],
          [27.0, 49.0, 35.0]
        ]
col = ["홍길동","김사또","임꺽정"]
index2 = ["키", "몸무게","나이"]

df3 = pd.DataFrame(list2,
                  index = index2,
                  columns = col)

df3

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [62]:
df3["홍길동"]

키      175.3
몸무게     66.2
나이      27.0
Name: 홍길동, dtype: float64

In [88]:
# 열 데이터 추가
df3["성별"] = [160,50,40]

df3

Unnamed: 0,홍길동,김사또,임꺽정,이순신,성별
키,175.3,180.2,178.6,160,160
몸무게,66.2,78.9,55.1,50,50
나이,27.0,49.0,35.0,40,40


In [89]:
del df3["성별"]

In [90]:
df3

Unnamed: 0,홍길동,김사또,임꺽정,이순신
키,175.3,180.2,178.6,160
몸무게,66.2,78.9,55.1,50
나이,27.0,49.0,35.0,40


loc[], iloc[] : 인덱스 및 슬라이싱을 지원하는 함수  

- loc[] : 컬럼 이름으로 인덱싱과 슬라이싱을 지원
- iloc[] : 인덱스로 인덱싱과 슬라이싱을 지원

loc[행, 열]

In [91]:
# 행 indexing
df3.loc["키"]

홍길동    175.3
김사또    180.2
임꺽정    178.6
이순신    160.0
Name: 키, dtype: float64

In [92]:
df3.loc["키","홍길동"]

175.3

In [93]:
df3.loc["몸무게"]

홍길동    66.2
김사또    78.9
임꺽정    55.1
이순신    50.0
Name: 몸무게, dtype: float64

In [94]:
df3.loc["몸무게","김사또"]

78.9

In [95]:
df3

Unnamed: 0,홍길동,김사또,임꺽정,이순신
키,175.3,180.2,178.6,160
몸무게,66.2,78.9,55.1,50
나이,27.0,49.0,35.0,40


In [97]:
df3.loc["몸무게":"나이","김사또":"임꺽정"]

Unnamed: 0,김사또,임꺽정
몸무게,78.9,55.1
나이,49.0,35.0


iloc[]:인덱스 값으로 접근

In [98]:
df3.iloc[0]

홍길동    175.3
김사또    180.2
임꺽정    178.6
이순신    160.0
Name: 키, dtype: float64

In [99]:
df3.iloc[2][1]

49.0

In [102]:
df3.iloc[1: ,:2]

Unnamed: 0,홍길동,김사또
몸무게,66.2,78.9
나이,27.0,49.0


In [118]:
df3

Unnamed: 0,홍길동,김사또,임꺽정,이순신
키,175.3,180.2,178.6,160
몸무게,66.2,78.9,55.1,50
나이,27.0,49.0,35.0,40


In [113]:
# boolean indexing
# 나이 40 이상만

df4 = df3.T

df4

Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0
이순신,160.0,50.0,40.0


In [117]:
df4[df4["나이"] >= 40]

Unnamed: 0,키,몸무게,나이
김사또,180.2,78.9,49.0
이순신,160.0,50.0,40.0


csv 파일 열어보기

In [120]:
data = pd.read_csv("population_number.csv",
                 encoding="euc-kr")

data

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,,,3655437
2,인천,수도권,2890451,2632035.0,,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [121]:
# 앞 두개만 출력
data.head(2)

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,,,3655437


In [122]:
# 뒤 두개만 출력
data.tail(2)

Unnamed: 0,도시,지역,2015,2010,2005,2000
2,인천,수도권,2890451,2632035.0,,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [123]:
# 각 컬럼의 데이터 수를 출력 => 결측치도 보기 가능
data.count()

도시      4
지역      4
2015    4
2010    3
2005    2
2000    4
dtype: int64

In [124]:
# 결측치
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   도시      4 non-null      object 
 1   지역      4 non-null      object 
 2   2015    4 non-null      int64  
 3   2010    3 non-null      float64
 4   2005    2 non-null      float64
 5   2000    4 non-null      int64  
dtypes: float64(2), int64(2), object(2)
memory usage: 320.0+ bytes


In [125]:
# 각 칼럼의 데이터 종류마다 갯수 count
data["지역"].value_counts()

경상권    2
수도권    2
Name: 지역, dtype: int64

In [126]:
# 각 컬럼의 데이터 종류 출력
data["지역"].unique()

array(['수도권', '경상권'], dtype=object)

In [127]:
data["도시"].unique()

array(['서울', '부산', '인천', '대구'], dtype=object)

In [128]:
data["도시"].value_counts()

인천    1
부산    1
서울    1
대구    1
Name: 도시, dtype: int64

fillna(값): 결측치를 해당 값으로 채운다

In [129]:
data

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,,,3655437
2,인천,수도권,2890451,2632035.0,,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [132]:
data = data.fillna(0)

In [133]:
data

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,0.0,0.0,3655437
2,인천,수도권,2890451,2632035.0,0.0,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [142]:
data.iloc[2, 4] = (data.iloc[2,2] + data.iloc[2,3] + data.iloc[2,5]) / 3

data

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,0.0,0.0,3655437
2,인천,수도권,2890451,2632035.0,2662941.0,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [144]:
data = pd.read_csv("population_number.csv",
                 encoding="euc-kr")
avg = (data.iloc[2,2] + data.iloc[2,3] + data.iloc[2,5]) / 3
data.iloc[2,:] =  data.iloc[2, :].fillna(avg)

data

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,,,3655437
2,인천,수도권,2890451,2632035.0,2662941.0,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


- concat() : 2개의 데이터프레임을 합하는 함수
- cut(): 해당 컬럼의 데이터를 그룹핑하는 함수
- apply(): 행이나 열단위로 복잡한 반복적 처리를 하는 함수

In [145]:
list1 = [ [9904312, 3448737, 2890451, 2465052] ]
list2 = [ [9631482, 3393191, 2632035, 2431774] ]

index1 = ["2015" ]
index2 = ["2010" ]
col = ["서울", "부산", "인천", "대구"]

df3 = pd.DataFrame(list1, 
                  index = index1,
                  columns = col)

df4 = pd.DataFrame(list2, 
                  index = index2,
                  columns = col)

In [146]:
df3

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2465052


In [147]:
df4

Unnamed: 0,서울,부산,인천,대구
2010,9631482,3393191,2632035,2431774


In [148]:
# [df3, df4] : 합하고자 하는 데이터 프레임
# axis = 0 : 행 방향 합한다
df5 = pd.concat([df3, df4], axis=0)
df5

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2465052
2010,9631482,3393191,2632035,2431774


In [149]:
# 컬럼 추가
df5["광주"] = [1200000, 1230000]

df5

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2465052,1200000
2010,9631482,3393191,2632035,2431774,1230000


In [155]:
df6 = pd.DataFrame([[20000, 30000], [44444, 65566]],
                   columns = ["제주", "순천"],
                   index = ["2015", "2010"])

df6

Unnamed: 0,제주,순천
2015,20000,30000
2010,44444,65566


In [156]:
# 데이터 프레임 열방향으로 합침
df7 = pd.concat([df5,df6],axis = 1)

df7

Unnamed: 0,서울,부산,인천,대구,광주,제주,순천
2015,9904312,3448737,2890451,2465052,1200000,20000,30000
2010,9631482,3393191,2632035,2431774,1230000,44444,65566


In [160]:
list3 = [ [9631482, 3393191, 2632035, 2431774, 0, 0, 0] ]

index3 = ["2000" ]
col = ["서울", "부산", "인천", "대구","광주","제주","순천"]

df20 = pd.DataFrame(list3, 
                  index = index3,
                  columns = col)

df20

Unnamed: 0,서울,부산,인천,대구,광주,제주,순천
2000,9631482,3393191,2632035,2431774,0,0,0


In [161]:
df21 = pd.concat([df7,df20],axis = 0)

In [162]:
df21

Unnamed: 0,서울,부산,인천,대구,광주,제주,순천
2015,9904312,3448737,2890451,2465052,1200000,20000,30000
2010,9631482,3393191,2632035,2431774,1230000,44444,65566
2000,9631482,3393191,2632035,2431774,0,0,0


In [165]:
df11 = pd.DataFrame([[20000, 30000], [44444, 65566]],
                   columns = ["나부", "광주"],
                   index=["2015", "2010"])
df11 

Unnamed: 0,나부,광주
2015,20000,30000
2010,44444,65566


In [166]:
df22 = pd.concat([df7,df11],axis = 1)

df22

Unnamed: 0,서울,부산,인천,대구,광주,제주,순천,나부,광주.1
2015,9904312,3448737,2890451,2465052,1200000,20000,30000,20000,30000
2010,9631482,3393191,2632035,2431774,1230000,44444,65566,44444,65566
