판다스(Pandas)

데이터 분석을 위한 파이썬 기반의 라이브러리 중에서는 가장 핵심적인 라이브러리 중 하나

• 파이썬에서 데이터를 다루기 위한 라이브러리로, 행과 열로 이루어진 데이터 객체인 DataFrame을 제공

• 판다스는 다양한 데이터 포맷을 지원하며, 누락된 데이터의 처리, 데이터의 변환, 결합, 그룹화, 피벗 등 다양한 기능을 제공

판다스의 주요 특징

• 데이터 조작이 용이 다양한 함수와 메서드를 제공하여 데이터를 쉽게 처리
(데이터의 정렬, 필터링, 그룹화, 피벗, 변환, 결합 등 다양한 조작이 가능)

• 높은 성능: C로 구현된 넘파이(numpy)를 기반으로 하여 고성능을 보장하며 빠른 처리 가능

• 다양한 데이터 형식 지원: CSV, ExCel, SQL, JSON, HTML, HDFS 등 다양한 데이터 형식을 지원

• 결측값 처리: 결측값(NaN)을 처리하는 기능 제공. 결측값을 삭제하거나 대체하는 등의 처리
• 데이터 시각화: matolotib 라이브러리와 연계하여 데이터 시각화를 제공

시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스

대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있음. 판다스(Pandas) 패키지는 이러한 데이터를 다루
기 위한 시리즈( Series ) 클래스와 데이터프레임( Dataframe ) 클래스를 제공


• 판다스(Pandas)는 행과 열로 이루어진 2차원 표 형태의 데이터를 다루기 위한 라이브러리

• 주요한 두 가지 데이터 구조인 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공


시리즈(Series) 클래스: 1차원 데이터를 다루기 위한 클래스

인덱스(index)와 값(value)으로 이루어진 데이터 구조 시리즈 클래스는 파이썬의 리스트나 넘파이(NumPy)의 어레이와 유사

각 값은 동일한 데이터 타입으로 구성되어야 함

시리즈는 딕셔너리와 같이 인덱스를 기준으로 값을 참조

• 데이터프레임(DataFrame) 클래스 2차원 데이터를 다루기 위한 클래스 여러 개의 시리즈를 모아서 표 형태의 데이터를
구성

열(column)과 행(rOW)으로 이루어진 데이터 구조 각 열은 시리즈로 구성
열(column)은 각각의 시리즈의 이름으로 구분되며, 각 값은 동일한 데이터 타입으로 구성되어야 할
데이터프레임은 열(column)을 기준으로 각 열의 값을 참조할 수 있으며, 행(row)을 기준으로 각 행의 값을 참조할 수도
 있음

In [1]:
import pandas as pd

In [None]:
#화장실 갔다옴. 시리즈 중간 합류

In [3]:
myPDS = pd.Series(range(10, 14))
myPDS

0    10
1    11
2    12
3    13
dtype: int64

In [10]:
#이렇게 직접 인덱스 값들 생성
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [11]:
s. index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [12]:
s.values

array([9904312, 3448737, 2890451, 2466052])

In [14]:
print(type(s.index)) #pandas 객체가 들어감
print(type(s.values))

<class 'pandas.core.indexes.base.Index'>
<class 'numpy.ndarray'>


In [16]:
s.name = "인구 분석" #표 자체의 이름이다!!
s.index.name = "도시" #인덱스 열 자체의 이름 만들어줌.
print(s)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구 분석, dtype: int64


In [18]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구 분석, dtype: float64

시리즈 인덱싱!!

In [23]:
print(s[1:]) 

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구 분석, dtype: int64


In [26]:
print(s[0], s["대구"]) #한꺼번에 2개 출력

9904312 2466052


  print(s[0], s["대구"]) #한꺼번에 2개 출력


In [21]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구 분석, dtype: int64

In [27]:
s[["서울", "부산"]]

도시
서울    9904312
부산    3448737
Name: 인구 분석, dtype: int64

*자연상수 e 활용

In [30]:
s[(250e4 < s) & (s < 500e4)]
#인구가 250만 초과, 500만 미만.

도시
부산    3448737
인천    2890451
Name: 인구 분석, dtype: int64

*슬라이싱도

In [29]:
s["부산":"대구"]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구 분석, dtype: int64

In [31]:
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구 분석, dtype: int64

*시리즈로 인덱싱

In [32]:
s0 = pd.Series(range(3), index=['a', 'b', 'c'])
s0

a    0
b    1
c    2
dtype: int64

In [33]:
s0["a"], s0[0]

  s0["a"], s0[0]


(0, 0)

In [34]:
s0.a

0

In [35]:
s0.b

1

시리즈와 딕셔너리 자료형

시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다.
따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있다.

In [36]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구 분석, dtype: int64

In [38]:
"서울" in s, "대전" in s
#인덱스 라벨 중 서울과 대전이 있는가

(True, False)

In [39]:
for data in s.items(): #data.items()로 value 값 활용하기.
    print(data)

('서울', 9904312)
('부산', 3448737)
('인천', 2890451)
('대구', 2466052)


In [40]:
for k, v in s.items():
    print(f"{k} = {v}")

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


*판다스에서 딕셔너리
또 딕셔너리 객체에서 시리즈를 만들 수도 있다. 이번에는 2010년의 인구 자료를 52 라는 이름의 시리즈로 만들어 보자. 이
데이터에는 대구의 인구 자료는 없지만 대신 대전의 인구 자료가 포함되어 있다.

In [None]:
import pandas as pd
s2 = pd.Series({"서울":9904312,  }) #작성하다 말음
s2

딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다. 만약 순서를 정하고 싶다면 인덱스
를 리스트로 지정해야 한다.

In [56]:
s2 = pd.Series( {"서울": 3393191, "부산": 9631482, "인천":2632035 , "대구": 1490158, "대전": 11111}, index = ["서울", "부산", "인천","대구", "대전"])
s2#2015년 인구

서울    3393191
부산    9631482
인천    2632035
대구    1490158
대전      11111
dtype: int64

In [45]:
s #2010년 인구

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구 분석, dtype: int64

In [57]:
ds = s - s2
ds

대구     975894.0
대전          NaN
부산   -6182745.0
서울    6511121.0
인천     258416.0
dtype: float64

In [58]:
type(s.values)

numpy.ndarray

In [59]:
s.values

array([9904312, 3448737, 2890451, 2466052])

In [60]:
type(s2.values)

numpy.ndarray

In [61]:
s.values - s2.values

ValueError: operands could not be broadcast together with shapes (4,) (5,) 

대구와 대전의 경우에는 2010년 자료와 2015년 자료가 모두 존재하지 않기 때문에 계산이 불가능하므로 NaN (Not a
Number)이라는 값을 가지게 된다. 또한 NaN 값이 float 자료형에서만 가능하므로 다른 계산 결과도 모두 float 자료형
이 되었다는 점에 주의한다. NaN 이 아닌 값을 구하려면 not null 메서드를 사용한다.

In [62]:
ds.notnull()

대구     True
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [63]:
ds[ds.notnull()]

대구     975894.0
부산   -6182745.0
서울    6511121.0
인천     258416.0
dtype: float64

In [69]:
rs = (s-s2) / s2* 100
rs = rs[rs.notnull()] #null 값 제외한 것임
rs

대구     65.489297
부산    -64.193081
서울    191.887842
인천      9.818107
dtype: float64

인덱싱을 이용하면 딕셔너리처럼 데이터를 갱신(update)하거나 추가(add)할 수 있다.

In [67]:
rs["부산"] = 1.63
rs

대구     65.489297
부산      1.630000
서울    191.887842
인천      9.818107
dtype: float64

In [68]:
rs["대구"] = 1.41
rs

대구      1.410000
부산      1.630000
서울    191.887842
인천      9.818107
dtype: float64

데이터를 삭제할 때도 딕셔너리처럼 del 명령을 사용한다.

In [73]:
del rs["서울"] #이미 실행해서 삭제된 상태임. 여기서 더 돌리면 에러남
rs

대구    65.489297
부산   -64.193081
인천     9.818107
dtype: float64

예제
(1) 임의로두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함
 되지 않는 라벨이 있어야 한다.
(2) 뒤에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.

In [76]:
nSamsung = pd.Series({"국내영업팀": 150, "인사팀": 50, "자원팀": 100}, index = {'국내영업팀', '인사팀', '자원팀'})
nLg = pd.Series({"해외영업팀": 150, "인사팀": 70, "자원팀": 200}, index = {'해외영업팀', '인사팀', '자원팀'})

nSamsung, nLg

(국내영업팀    150
 자원팀      100
 인사팀       50
 dtype: int64,
 자원팀      100
 해외영업팀    150
 인사팀       50
 dtype: int64)

In [77]:
add_res = nSamsung + nLg
min_res = nSamsung - nLg
mul_res = nSamsung * nLg
div_res = nSamsung / nLg

print(add_res)
print(min_res)
print(mul_res)
print(div_res)

국내영업팀      NaN
인사팀      100.0
자원팀      200.0
해외영업팀      NaN
dtype: float64
국내영업팀    NaN
인사팀      0.0
자원팀      0.0
해외영업팀    NaN
dtype: float64
국내영업팀        NaN
인사팀       2500.0
자원팀      10000.0
해외영업팀        NaN
dtype: float64
국내영업팀    NaN
인사팀      1.0
자원팀      1.0
해외영업팀    NaN
dtype: float64


*데이터프레임 클래스

In [78]:
data = [['John', 28, 'Male'],
        ['Kate', 23, 'Female'],
        ['David', 31, 'Male'],
        ['Emily', 27, 'Gender'],
        ]
columns = ['Name', 'Age', 'Gender']
df = pd.DataFrame(data, columns=columns)

print(df)

    Name  Age  Gender
0   John   28    Male
1   Kate   23  Female
2  David   31    Male
3  Emily   27  Gender


In [81]:
print(df["Name"])


0     John
1     Kate
2    David
3    Emily
Name: Name, dtype: object
John


In [82]:
print(df["Name"][0])

John


In [83]:
data1 = [['John', 28, 'Male'],
        ['Kate', 23, 'Female'],
        ['David', 31, 'Male'],
        ['Emily', 27, 'Gender'],
        ]
df1 = pd.DataFrame(data1)#컬럼 지정 없이 만들기
df1

Unnamed: 0,0,1,2
0,John,28,Male
1,Kate,23,Female
2,David,31,Male
3,Emily,27,Gender


In [84]:
df1[2]

0      Male
1    Female
2      Male
3    Gender
Name: 2, dtype: object

In [87]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]

df = pd.DataFrame(data, index= index, columns= columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [88]:
print(df)

     지역     2015     2010     2005     2000  2010-2015 증가율
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141


In [91]:
print(df.values) #2차원 배열 형식으로 값들만 출력

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]


In [92]:
print(df.columns) # 1차원 배열 형식으로 열들만 출력

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')


In [93]:
df.index #인덱스값들, 즉 모든 행의 0열 값들 출력

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [95]:
data = {
    "이름": ["홍길동", "전우치", "심청이", "철수", "영희"],
    "국어": [95, 90, 85, 93, 87],
    "영어": [90, 87, 93, 94, 89],
    "수학": [73, 95, 87, 89, 93],
}
columns = ["이름", "국어", "영어", "수학"]
index = ["1번", "2번", "3번", "4번", "5번"]

df_ex = pd.DataFrame(data, index=index, columns= columns)
print(df_ex)


     이름  국어  영어  수학
1번  홍길동  95  90  73
2번  전우치  90  87  95
3번  심청이  85  93  87
4번   철수  93  94  89
5번   영희  87  89  93


In [101]:
# df_ex['평균'] = df_ex.mean(axis=1).round(2) #문자열이 끼어있어서 안된다. 고로
df_ex['평균'] = ((df_ex['국어'] + df_ex['영어'] + df_ex['수학'])/3).round(2)
print(df_ex)


     이름  국어  영어  수학     평균
1번  홍길동  95  90  73  86.00
2번  전우치  90  87  95  90.67
3번  심청이  85  93  87  88.33
4번   철수  93  94  89  92.00
5번   영희  87  89  93  89.67


열 데이터의 갱신, 추가, 삭제

In [104]:
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] *100).round(2)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4
인천,수도권,2890451,2632035,2517680,2466338,0.0982,4.54
대구,경상권,2466052,2431774,2456016,2473990,0.0141,-0.99
