# Pandas.Series Overview

In [137]:
import numpy as np
import pandas as pd

In [138]:
# dict 로 Series 만들기
pd.Series({"a": 1, "b": 2, "c": 3})

a    1
b    2
c    3
dtype: int64

In [139]:
# list 로 Series 만들기
pd.Series([1, 2, 3])

0    1
1    2
2    3
dtype: int64

In [140]:
# 주요 속성들
se = pd.Series(np.arange(10) ** 2, name="Number")

print("index:", se.index)
print("shape:", se.shape)
print("name:", se.name)
print("dtypes:", se.dtypes)
print("values:", se.values)

index: RangeIndex(start=0, stop=10, step=1)
shape: (10,)
name: Number
dtypes: int64
values: [ 0  1  4  9 16 25 36 49 64 81]


# Pandas.DataFrame Overview

In [141]:
import pandas as pd

In [142]:
# dict 로 DataFrame 만들기
pd.DataFrame(
    {
        "이름": ["홍길동", "김철수", "이영희"],
        "나이": [20, 25, 30],
        "성별": ["남", "남", "여"],
    }
)

Unnamed: 0,이름,나이,성별
0,홍길동,20,남
1,김철수,25,남
2,이영희,30,여


In [143]:
# list 로 DataFrame 만들기
pd.DataFrame(
    [
        ["홍길동", "김철수", "이영희"],
        [20, 25, 30],
        ["남", "남", "여"],
    ],
    columns=["이름", "나이", "성별"],
)  # columns 의 개수가 열인 리스트의 개수와 같아야함!

Unnamed: 0,이름,나이,성별
0,홍길동,김철수,이영희
1,20,25,30
2,남,남,여


In [144]:
# Series 로 만들기
names = pd.Series(["홍길동", "김철수", "이영희"])
ages = pd.Series([20, 25, 30])
gender = pd.Series(["남", "남", "여"])
pd.DataFrame({"이름": names, "나이": ages, "성별": gender})

Unnamed: 0,이름,나이,성별
0,홍길동,20,남
1,김철수,25,남
2,이영희,30,여


In [145]:
# 자주 사용하는 속성 값
df = pd.DataFrame(
    {
        "이름": ["홍길동", "김철수", "이영희"],
        "나이": [20, 25, 30],
        "성별": ["남", "남", "여"],
    }
)

print("shape:", df.shape)
print("index:", df.index)
print("columns:", df.columns)
print("dtypes:")
print(df.dtypes)
print("values:")
print(df.values)

shape: (3, 3)
index: RangeIndex(start=0, stop=3, step=1)
columns: Index(['이름', '나이', '성별'], dtype='object')
dtypes:
이름    object
나이     int64
성별    object
dtype: object
values:
[['홍길동' 20 '남']
 ['김철수' 25 '남']
 ['이영희' 30 '여']]


# 다양한 방법으로 DataFrame 만들기

In [146]:
import pandas as pd


# csv 파일 불러오기
#     sep 의 default 값이 "," 이므로 생략 가능(tsv 인경우 sep 에 "\t"를 넣어주면 됨)
#     header 의 default 값이 0 이므로 생략 가능
#     encoding 의 default 값이 "utf-8" 0 이므로 생략 가능
df_csv = pd.read_csv("../data/서울시 나눔카 거점리스트 정보.csv", sep=",", header=0, encoding="utf-8")
df_csv

Unnamed: 0,위도,경도,거점ID,전기차 여부,주소,거점명
0,37.60972,127.0306,493,GA,서울 강북구 미아동 42-56,하이마트 미아사거리점
1,37.53168,126.9697,2409,GA,서울 용산구 한강로2가 424,아모레퍼시픽 본사
2,37.57964,127.0155,2270,GA,서울 종로구 숭인동 7-12,창신역
3,37.55092,126.9440,629,GA,서울 마포구 대흥동 산 1-30,서강대학교
4,37.56968,126.9796,166,GA,서울 종로구 서린동 132,광화문역 5번출구
...,...,...,...,...,...,...
1865,37.49413,126.9237,535,GA,서울 동작구 신대방동 425,보라매병원
1866,37.49118,126.8831,124,GA,서울 구로구 구로동 704-12,고대구로병원 앞
1867,37.49327,126.9336,2017,EV,서울 동작구 상도동 301-115,당곡중학교 뒤
1868,37.55980,127.0337,993,GA,서울 성동구 행당동 293-11,왕십리역 10번출구


In [147]:
new_df_csv = df_csv[["거점ID", "전기차 여부", "주소", "거점명"]]
new_df_csv

Unnamed: 0,거점ID,전기차 여부,주소,거점명
0,493,GA,서울 강북구 미아동 42-56,하이마트 미아사거리점
1,2409,GA,서울 용산구 한강로2가 424,아모레퍼시픽 본사
2,2270,GA,서울 종로구 숭인동 7-12,창신역
3,629,GA,서울 마포구 대흥동 산 1-30,서강대학교
4,166,GA,서울 종로구 서린동 132,광화문역 5번출구
...,...,...,...,...
1865,535,GA,서울 동작구 신대방동 425,보라매병원
1866,124,GA,서울 구로구 구로동 704-12,고대구로병원 앞
1867,2017,EV,서울 동작구 상도동 301-115,당곡중학교 뒤
1868,993,GA,서울 성동구 행당동 293-11,왕십리역 10번출구


In [148]:
# csv 파일로 저장
#    index 의 default 값은 True 로, 파일로 저장시 index 를 포함할 것인지 여부
#    header 의 default 값은 True 이므로 생략 가능
#    encoding 의 default 값이 "utf-8" 0 이므로 생략 가능
new_df_csv.to_csv(
    "../data/updated_서울시_나눔카_거점리스트_정보.csv",
    index=False,
    header=True,
    encoding="utf-8",
)

In [149]:
# excel 파일 불러오기
df_xlsx = pd.read_excel(
    "../data/서울시 나눔카 거점리스트 정보.xlsx",
    sheet_name="전체",
    header=0,
    usecols="C:F",
    skiprows=1,
)
# sheet_name 에 None 을 넣으면 모든 sheet 를 concat 해서 DataFrame 으로 만듦
df_xlsx

Unnamed: 0,거점ID,전기차 여부,주소,거점명
0,493,GA,서울 강북구 미아동 42-56,하이마트 미아사거리점
1,2409,GA,서울 용산구 한강로2가 424,아모레퍼시픽 본사
2,2270,GA,서울 종로구 숭인동 7-12,창신역
3,629,GA,서울 마포구 대흥동 산 1-30,서강대학교
4,166,GA,서울 종로구 서린동 132,광화문역 5번출구
...,...,...,...,...
1865,535,GA,서울 동작구 신대방동 425,보라매병원
1866,124,GA,서울 구로구 구로동 704-12,고대구로병원 앞
1867,2017,EV,서울 동작구 상도동 301-115,당곡중학교 뒤
1868,993,GA,서울 성동구 행당동 293-11,왕십리역 10번출구


In [150]:
df_xlsx.to_excel(
    "../data/updated_서울시_나눔카_거점리스트_정보.xlsx",
    sheet_name="위경도 제거",
    index=False,
    startrow=0,
    startcol=0,
)

In [151]:
# JSON 파일 불러오기
import json


# "DATA" 키에 들어있는 json list 를 DataFrame 을 만들 생각
with open("../data/서울시 나눔카 거점리스트 정보.json") as json_f:
    data = json.load(json_f)

df_json = pd.read_json(json.dumps(data["DATA"]))
df_json

  df_json = pd.read_json(json.dumps(data["DATA"]))


Unnamed: 0,eltc_yn,str_pnt_id,lot,str_pnt_name,addr,lat
0,GA,493,127.0306,하이마트 미아사거리점,서울 강북구 미아동 42-56,37.60972
1,GA,2409,126.9697,아모레퍼시픽 본사,서울 용산구 한강로2가 424,37.53168
2,GA,2270,127.0155,창신역,서울 종로구 숭인동 7-12,37.57964
3,GA,629,126.9440,서강대학교,서울 마포구 대흥동 산 1-30,37.55092
4,GA,166,126.9796,광화문역 5번출구,서울 종로구 서린동 132,37.56968
...,...,...,...,...,...,...
1865,GA,535,126.9237,보라매병원,서울 동작구 신대방동 425,37.49413
1866,GA,124,126.8831,고대구로병원 앞,서울 구로구 구로동 704-12,37.49118
1867,EV,2017,126.9336,당곡중학교 뒤,서울 동작구 상도동 301-115,37.49327
1868,GA,993,127.0337,왕십리역 10번출구,서울 성동구 행당동 293-11,37.55980


In [152]:
new_df_json = df_json[["eltc_yn", "str_pnt_id", "str_pnt_name", "addr"]]
new_df_json

Unnamed: 0,eltc_yn,str_pnt_id,str_pnt_name,addr
0,GA,493,하이마트 미아사거리점,서울 강북구 미아동 42-56
1,GA,2409,아모레퍼시픽 본사,서울 용산구 한강로2가 424
2,GA,2270,창신역,서울 종로구 숭인동 7-12
3,GA,629,서강대학교,서울 마포구 대흥동 산 1-30
4,GA,166,광화문역 5번출구,서울 종로구 서린동 132
...,...,...,...,...
1865,GA,535,보라매병원,서울 동작구 신대방동 425
1866,GA,124,고대구로병원 앞,서울 구로구 구로동 704-12
1867,EV,2017,당곡중학교 뒤,서울 동작구 상도동 301-115
1868,GA,993,왕십리역 10번출구,서울 성동구 행당동 293-11


In [153]:
new_df_json.to_json("../data/updated_서울시_나눔카_거점리스트_정보.json")

In [154]:
# HTML 읽어오기
# table tag 에 있는 값들 모두를 DataFrame 으로 변환한다.
# 특정 table 만 변환하고 싶으면 match 를 이용해서 가져오면 된다.
df_html = pd.read_html("https://finance.naver.com/item/sise.naver?code=005930", encoding="cp949")
print(type(df_html), len(df_html))

<class 'list'> 13




In [155]:
df_html[1]

Unnamed: 0,0,1,2
0,"전일 53,200 53,200","고가 55,90055,900 (상한가 69,10069,100 )","거래량 5,295,909 5,295,909"
1,"시가 55,00055,000","저가 53,35053,350 (하한가 37,300 )","거래대금 287,797 287,797 백만"


# DataFrame 의 데이터 살펴보기

In [156]:
import pandas as pd

In [157]:
# 샘플 데이터 생성
raw_data = {
    "이름": ["김철수", "이영희", "박민수", "정지영", "최현우", "한미나", "강준호"],
    "나이": [25, 30, 28, 32, 45, 23, 37],
    "성별": ["남", "여", "남", "여", "남", "여", "남"],
    "급여": [3500000, 4200000, 3800000, 5100000, 6500000, 3200000, 4800000],
}

In [158]:
df = pd.DataFrame(raw_data)
df

Unnamed: 0,이름,나이,성별,급여
0,김철수,25,남,3500000
1,이영희,30,여,4200000
2,박민수,28,남,3800000
3,정지영,32,여,5100000
4,최현우,45,남,6500000
5,한미나,23,여,3200000
6,강준호,37,남,4800000


In [159]:
df.head(6)

Unnamed: 0,이름,나이,성별,급여
0,김철수,25,남,3500000
1,이영희,30,여,4200000
2,박민수,28,남,3800000
3,정지영,32,여,5100000
4,최현우,45,남,6500000
5,한미나,23,여,3200000


In [160]:
df.tail(6)

Unnamed: 0,이름,나이,성별,급여
1,이영희,30,여,4200000
2,박민수,28,남,3800000
3,정지영,32,여,5100000
4,최현우,45,남,6500000
5,한미나,23,여,3200000
6,강준호,37,남,4800000


In [161]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      7 non-null      object
 1   나이      7 non-null      int64 
 2   성별      7 non-null      object
 3   급여      7 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 356.0+ bytes


In [162]:
df.describe()

Unnamed: 0,나이,급여
count,7.0,7.0
mean,31.428571,4442857.0
std,7.54668,1132633.0
min,23.0,3200000.0
25%,26.5,3650000.0
50%,30.0,4200000.0
75%,34.5,4950000.0
max,45.0,6500000.0


# DataFrame 의 Indexing 과 Slicing

In [163]:
import pandas as pd

In [164]:
df = pd.DataFrame(
    {
        "이름": ["홍길동", "김철수", "이영희"],
        "나이": [20, 25, 30],
        "성별": ["남", "남", "여"],
    }
)
df

Unnamed: 0,이름,나이,성별
0,홍길동,20,남
1,김철수,25,남
2,이영희,30,여


In [165]:
# 방법 1: 대괄호 사용
print(type(df["나이"]))
df["나이"]

<class 'pandas.core.series.Series'>


0    20
1    25
2    30
Name: 나이, dtype: int64

In [166]:
# 방법 2: 도트 표기법 사용
print(type(df.나이))
df.나이

<class 'pandas.core.series.Series'>


0    20
1    25
2    30
Name: 나이, dtype: int64

In [167]:
# 여러 열을 선택함으로써, DataFrame 으로 받음
print(type(df[["이름", "성별"]]))
df[["이름", "성별"]]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,이름,성별
0,홍길동,남
1,김철수,남
2,이영희,여


In [168]:
# 열 1개를 DataFrame 으로 받기
print(type(df[["나이"]]))
df[["나이"]]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,나이
0,20
1,25
2,30


In [169]:
# 한 개 row 선택
df[0:1]

Unnamed: 0,이름,나이,성별
0,홍길동,20,남


In [170]:
# 여러 개 row 선택
df[1:3]

Unnamed: 0,이름,나이,성별
1,김철수,25,남
2,이영희,30,여


In [171]:
# loc
print(type(df.loc[:, "이름"]))
print(type(df.loc[:, ["이름"]]))
df.loc[:, ["이름"]]

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,이름
0,홍길동
1,김철수
2,이영희


In [172]:
# iloc
print(type(df.iloc[0, 0]))
df.iloc[0, 0]

<class 'str'>


'홍길동'

In [173]:
print(type(df.iloc[0, :3]))
df.iloc[0, :3]

<class 'pandas.core.series.Series'>


이름    홍길동
나이     20
성별      남
Name: 0, dtype: object

In [174]:
print(type(df.iloc[0:2, 0:3]))
df.iloc[0:2, 0:3]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,이름,나이,성별
0,홍길동,20,남
1,김철수,25,남


In [175]:
df.iloc[:, :3]

Unnamed: 0,이름,나이,성별
0,홍길동,20,남
1,김철수,25,남
2,이영희,30,여


# 조건에 맞는 데이터 추출

In [176]:
import numpy as np
import pandas as pd

In [177]:
df = pd.DataFrame(
    {
        "이름": np.random.choice(["홍길동", "김철수", "이영희"], 30),
        "나이": np.random.randint(20, 40, 30),
        "성별": np.random.choice(["남", "남", "여"], 30),
    }
)
df

Unnamed: 0,이름,나이,성별
0,김철수,37,남
1,홍길동,33,여
2,이영희,23,남
3,홍길동,36,남
4,김철수,27,여
5,김철수,20,여
6,김철수,22,여
7,김철수,21,남
8,이영희,29,여
9,홍길동,25,여


In [178]:
# 정렬
# pd.Series 는 sort_values 에 아무것도 안 넣어주어도 된다.
# 하지만 pd.DataFrame 은 sort_values 에 기준이 되는 column 명을 넣어주어야한다.(by)
df["나이"].sort_values()

22    20
5     20
18    20
7     21
12    22
27    22
6     22
2     23
9     25
20    26
14    27
4     27
28    28
16    28
17    28
19    28
11    29
8     29
13    31
25    32
26    33
1     33
24    34
21    35
10    35
29    36
3     36
23    36
0     37
15    39
Name: 나이, dtype: int64

In [179]:
df.sort_values("나이")

Unnamed: 0,이름,나이,성별
22,홍길동,20,남
5,김철수,20,여
18,홍길동,20,남
7,김철수,21,남
12,김철수,22,여
27,김철수,22,남
6,김철수,22,여
2,이영희,23,남
9,홍길동,25,여
20,이영희,26,여


In [180]:
df.sort_values(by="나이", ascending=False)

Unnamed: 0,이름,나이,성별
15,홍길동,39,남
0,김철수,37,남
29,김철수,36,여
23,김철수,36,여
3,홍길동,36,남
10,김철수,35,남
21,김철수,35,여
24,김철수,34,남
26,홍길동,33,남
1,홍길동,33,여


In [181]:
# Boolean Indexing
print(type(df["성별"] == "남"))
df["성별"] == "남"

<class 'pandas.core.series.Series'>


0      True
1     False
2      True
3      True
4     False
5     False
6     False
7      True
8     False
9     False
10     True
11    False
12    False
13    False
14    False
15     True
16     True
17    False
18     True
19     True
20    False
21    False
22     True
23    False
24     True
25    False
26     True
27     True
28     True
29    False
Name: 성별, dtype: bool

In [182]:
df[df["성별"] == "남"]

Unnamed: 0,이름,나이,성별
0,김철수,37,남
2,이영희,23,남
3,홍길동,36,남
7,김철수,21,남
10,김철수,35,남
15,홍길동,39,남
16,김철수,28,남
18,홍길동,20,남
19,이영희,28,남
22,홍길동,20,남


In [183]:
# isin()
df["나이"].isin(np.arange(25, 35))

0     False
1      True
2     False
3     False
4      True
5     False
6     False
7     False
8      True
9      True
10    False
11     True
12    False
13     True
14     True
15    False
16     True
17     True
18    False
19     True
20     True
21    False
22    False
23    False
24     True
25     True
26     True
27    False
28     True
29    False
Name: 나이, dtype: bool

In [184]:
df[df["나이"].isin(np.arange(25, 35))]

Unnamed: 0,이름,나이,성별
1,홍길동,33,여
4,김철수,27,여
8,이영희,29,여
9,홍길동,25,여
11,김철수,29,여
13,홍길동,31,여
14,김철수,27,여
16,김철수,28,남
17,이영희,28,여
19,이영희,28,남


# 결측값

In [185]:
import pandas as pd

In [186]:
data_with_na = {
    "이름": ["김철수", "이영희", "박민수", "정지영", None],
    "나이": [25, 30, None, 32, 45],
    "성별": ["남", "여", "남", None, "남"],
    "급여": [3500000, None, 3800000, 5100000, 6500000],
}
df = pd.DataFrame(data_with_na)
df

Unnamed: 0,이름,나이,성별,급여
0,김철수,25.0,남,3500000.0
1,이영희,30.0,여,
2,박민수,,남,3800000.0
3,정지영,32.0,,5100000.0
4,,45.0,남,6500000.0


In [187]:
df.isna()

Unnamed: 0,이름,나이,성별,급여
0,False,False,False,False
1,False,False,False,True
2,False,True,False,False
3,False,False,True,False
4,True,False,False,False


In [188]:
df.isna().sum()

이름    1
나이    1
성별    1
급여    1
dtype: int64

In [189]:
df.notna()

Unnamed: 0,이름,나이,성별,급여
0,True,True,True,True
1,True,True,True,False
2,True,False,True,True
3,True,True,False,True
4,False,True,True,True


In [190]:
df.notna().sum()

이름    4
나이    4
성별    4
급여    4
dtype: int64

In [191]:
# 결측값 제거
df.dropna(axis=0, how="all")  # 행의 모든 열이 NaN 이면 제거

Unnamed: 0,이름,나이,성별,급여
0,김철수,25.0,남,3500000.0
1,이영희,30.0,여,
2,박민수,,남,3800000.0
3,정지영,32.0,,5100000.0
4,,45.0,남,6500000.0


In [192]:
df.dropna(axis=0, how="any")  # 행에서 하나라도 존재하면 제거

Unnamed: 0,이름,나이,성별,급여
0,김철수,25.0,남,3500000.0


In [193]:
# 나이 열과 급여 열에 대해서만, 확인하고 결측치 있는 행 제거
df.dropna(how="any", subset=["나이", "급여"])

Unnamed: 0,이름,나이,성별,급여
0,김철수,25.0,남,3500000.0
3,정지영,32.0,,5100000.0
4,,45.0,남,6500000.0


In [194]:
# 결측값 대치하기
df.fillna(0)

Unnamed: 0,이름,나이,성별,급여
0,김철수,25.0,남,3500000.0
1,이영희,30.0,여,0.0
2,박민수,0.0,남,3800000.0
3,정지영,32.0,0,5100000.0
4,0,45.0,남,6500000.0


In [195]:
df["급여"].fillna(df["급여"].mean())  # 급여의 평균값으로 결측값을 대치

0    3500000.0
1    4725000.0
2    3800000.0
3    5100000.0
4    6500000.0
Name: 급여, dtype: float64

In [196]:
df.ffill()  # 앞 행의 데이터를 복사 (front)

Unnamed: 0,이름,나이,성별,급여
0,김철수,25.0,남,3500000.0
1,이영희,30.0,여,3500000.0
2,박민수,30.0,남,3800000.0
3,정지영,32.0,남,5100000.0
4,정지영,45.0,남,6500000.0


In [197]:
df.bfill()  # 뒤 행의 데이터를 복사 (back)

Unnamed: 0,이름,나이,성별,급여
0,김철수,25.0,남,3500000.0
1,이영희,30.0,여,3800000.0
2,박민수,32.0,남,3800000.0
3,정지영,32.0,남,5100000.0
4,,45.0,남,6500000.0


# 타입 변환

In [198]:
import pandas as pd

In [199]:
df = pd.DataFrame(
    {
        "이름": ["김철수", "이영희", "박민수", "정지영"],
        "나이": [25, 30, 32, 45],
        "성별": ["남", "여", "남", "남"],
        "급여": [3500000, 3800000, 5100000, 6500000],
    }
)
df

Unnamed: 0,이름,나이,성별,급여
0,김철수,25,남,3500000
1,이영희,30,여,3800000
2,박민수,32,남,5100000
3,정지영,45,남,6500000


In [200]:
# 전체 열의 타입 확인
df.dtypes

이름    object
나이     int64
성별    object
급여     int64
dtype: object

In [201]:
# 특정 타입을 가진 열만 뽑기
df.select_dtypes(include="int64")

Unnamed: 0,나이,급여
0,25,3500000
1,30,3800000
2,32,5100000
3,45,6500000


In [202]:
df["급여_실수형"] = df["급여"].astype("float64")
df

Unnamed: 0,이름,나이,성별,급여,급여_실수형
0,김철수,25,남,3500000,3500000.0
1,이영희,30,여,3800000,3800000.0
2,박민수,32,남,5100000,5100000.0
3,정지영,45,남,6500000,6500000.0


# 통계관련 함수

In [203]:
import pandas as pd

In [204]:
df = pd.DataFrame(
    {
        "부서": ["영업", "개발", "영업", "마케팅", "개발", "영업", "마케팅"],
        "성별": ["남", "여", "여", "남", "남", "남", "여"],
        "급여": [350, 480, 320, 400, 520, 380, 450],
        "보너스": [50, 70, 40, 60, 80, 60, 70],
    }
)
df

Unnamed: 0,부서,성별,급여,보너스
0,영업,남,350,50
1,개발,여,480,70
2,영업,여,320,40
3,마케팅,남,400,60
4,개발,남,520,80
5,영업,남,380,60
6,마케팅,여,450,70


In [205]:
# DataFrame 에서 숫자형 column 에 대해서만 통계함수를 사용하고 싶다면,
# numeric_only parameter 를 사용하면 된다.
df.mean(numeric_only=True)

급여     414.285714
보너스     61.428571
dtype: float64

In [206]:
df.median(numeric_only=True)

급여     400.0
보너스     60.0
dtype: float64

In [207]:
df.min(numeric_only=True)

급여     320
보너스     40
dtype: int64

In [208]:
df.max(numeric_only=True)

급여     520
보너스     80
dtype: int64

In [209]:
df.std(numeric_only=True)

급여     72.078000
보너스    13.451854
dtype: float64

In [210]:
df.var(numeric_only=True)

급여     5195.238095
보너스     180.952381
dtype: float64

In [211]:
df.quantile(numeric_only=True)

급여     400.0
보너스     60.0
Name: 0.5, dtype: float64

In [212]:
df.corr(numeric_only=True)

Unnamed: 0,급여,보너스
급여,1.0,0.972436
보너스,0.972436,1.0


## 그룹별 통계

In [213]:
df.groupby("부서")["급여"].mean()

부서
개발     500.0
마케팅    425.0
영업     350.0
Name: 급여, dtype: float64

In [214]:
df.groupby("부서")["급여"].median()

부서
개발     500.0
마케팅    425.0
영업     350.0
Name: 급여, dtype: float64

In [215]:
df.groupby("부서")["급여"].std()

부서
개발     28.284271
마케팅    35.355339
영업     30.000000
Name: 급여, dtype: float64

In [216]:
df.groupby("부서")["급여"].var()

부서
개발      800.0
마케팅    1250.0
영업      900.0
Name: 급여, dtype: float64

In [217]:
df.groupby(["부서", "성별"]).agg({"급여": ["mean", "min", "max"], "보너스": ["mean", "median"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,급여,급여,급여,보너스,보너스
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,min,max,mean,median
부서,성별,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
개발,남,520.0,520,520,80.0,80.0
개발,여,480.0,480,480,70.0,70.0
마케팅,남,400.0,400,400,60.0,60.0
마케팅,여,450.0,450,450,70.0,70.0
영업,남,365.0,350,380,55.0,55.0
영업,여,320.0,320,320,40.0,40.0


In [218]:
# 그룹화 후 필터링 (급여 평균이 400 이상인 부서만)
df.groupby("부서").filter(lambda x: x["급여"].mean() >= 400)

Unnamed: 0,부서,성별,급여,보너스
1,개발,여,480,70
3,마케팅,남,400,60
4,개발,남,520,80
6,마케팅,여,450,70


## 값 개수 집계

In [219]:
df.value_counts()

부서   성별  급여   보너스
개발   남   520  80     1
     여   480  70     1
마케팅  남   400  60     1
     여   450  70     1
영업   남   350  50     1
         380  60     1
     여   320  40     1
Name: count, dtype: int64

In [220]:
# 부서별 개수 즉, 부서별로 group_by 해서 count 한 것과 같음
df.value_counts("부서")

부서
영업     3
개발     2
마케팅    2
Name: count, dtype: int64

In [221]:
df.value_counts("부서", normalize=True)  # 0 ~ 1 사이의 비율로 정규화 할 지

부서
영업     0.428571
개발     0.285714
마케팅    0.285714
Name: proportion, dtype: float64

In [222]:
# Series 에도 value_counts() 를 할 수 있음
df["성별"].value_counts()

성별
남    4
여    3
Name: count, dtype: int64

# agg 함수 활용하기

In [223]:
import pandas as pd

In [224]:
df = pd.DataFrame(
    {
        "이름": ["김철수", "이영희", "박지훈", "정미나", "최재윤"],
        "나이": [25, 30, 28, 22, 35],
        "급여": [2800000, 3500000, 3200000, 2500000, 4000000],
        "근무일수": [22, 20, 21, 19, 23],
    }
)
df

Unnamed: 0,이름,나이,급여,근무일수
0,김철수,25,2800000,22
1,이영희,30,3500000,20
2,박지훈,28,3200000,21
3,정미나,22,2500000,19
4,최재윤,35,4000000,23


In [225]:
# 함수 이름 list 넘겨서 적용하기
df["급여"].agg(["mean", "median", "std", "var"])

mean      3.200000e+06
median    3.200000e+06
std       5.873670e+05
var       3.450000e+11
Name: 급여, dtype: float64

In [226]:
# column 별로 적용할 함수를 dict 로 넘기기
df.agg(
    {
        "나이": ["min", "max", "mean"],
        "급여": ["mean", "std"],
        "근무일수": ["sum", "mean"],
    }
)

Unnamed: 0,나이,급여,근무일수
min,22.0,,
max,35.0,,
mean,28.0,3200000.0,21.0
std,,587367.0,
sum,,,105.0


In [227]:
# 사용자 정의 함수 적용하기
def range_diff(x):
    return x.max() - x.min()


df.agg({"나이": ["mean", range_diff], "급여": ["mean", range_diff]})

Unnamed: 0,나이,급여
mean,28.0,3200000.0
range_diff,13.0,1500000.0


# Pandas 의 함수로 날짜 다루기

In [228]:
import pandas as pd

In [229]:
df = pd.DataFrame({"날짜": ["2025-01-15", "2025-02-20", "2025-03-25"]})
df

Unnamed: 0,날짜
0,2025-01-15
1,2025-02-20
2,2025-03-25


In [230]:
# pd.to_datetime 으로 str 로 된 날짜를 datetime.datetime 객체로 변환할 수 있다.
# format 을 설정하여 날짜 형태를 알려줄 수 있다.
df["날짜_datetime"] = pd.to_datetime(df["날짜"])
df

Unnamed: 0,날짜,날짜_datetime
0,2025-01-15,2025-01-15
1,2025-02-20,2025-02-20
2,2025-03-25,2025-03-25


In [231]:
pd.to_datetime(pd.DataFrame(["2025-01-15", "2025-02-20", "2025-03-25"])[0], format="%Y-%m-%d")

0   2025-01-15
1   2025-02-20
2   2025-03-25
Name: 0, dtype: datetime64[ns]

In [232]:
pd.to_datetime(pd.DataFrame(["2025.01.15.", "2025.02.20.", "2025.03.25."])[0], format="%Y.%m.%d.")

0   2025-01-15
1   2025-02-20
2   2025-03-25
Name: 0, dtype: datetime64[ns]

In [233]:
df["ym"] = df["날짜_datetime"].dt.strftime("%Y-%m")
df

Unnamed: 0,날짜,날짜_datetime,ym
0,2025-01-15,2025-01-15,2025-01
1,2025-02-20,2025-02-20,2025-02
2,2025-03-25,2025-03-25,2025-03


In [234]:
df["연"] = df["날짜_datetime"].dt.year
df["월"] = df["날짜_datetime"].dt.month
df["일"] = df["날짜_datetime"].dt.day
df["요일"] = df["날짜_datetime"].dt.day_name()
df

Unnamed: 0,날짜,날짜_datetime,ym,연,월,일,요일
0,2025-01-15,2025-01-15,2025-01,2025,1,15,Wednesday
1,2025-02-20,2025-02-20,2025-02,2025,2,20,Thursday
2,2025-03-25,2025-03-25,2025-03,2025,3,25,Tuesday


In [235]:
df["7일_후"] = df["날짜_datetime"] + pd.Timedelta(days=7)
df["1년_전"] = df["날짜_datetime"] - pd.DateOffset(years=1)
df[["날짜_datetime", "7일_후", "1년_전"]]

Unnamed: 0,날짜_datetime,7일_후,1년_전
0,2025-01-15,2025-01-22,2024-01-15
1,2025-02-20,2025-02-27,2024-02-20
2,2025-03-25,2025-04-01,2024-03-25


# 문자열 다루기

In [236]:
import pandas as pd

In [237]:
df = pd.DataFrame({"text": ["Python 3.9", "Data Analysis", "pandas library", "PYTHON EXAMPLE"]})
df

Unnamed: 0,text
0,Python 3.9
1,Data Analysis
2,pandas library
3,PYTHON EXAMPLE


In [238]:
df["text"].str.contains("Python")

0     True
1    False
2    False
3    False
Name: text, dtype: bool

In [239]:
df["text"].str.replace("Python", "Python 3.12")

0    Python 3.12 3.9
1      Data Analysis
2     pandas library
3     PYTHON EXAMPLE
Name: text, dtype: object

In [240]:
# str.split 의 parameter 종류
# - n: 최대 몇 번 분할할지
# - expand: 별도의 열로 확장할지 말지, default 는 False
# - regex: 첫 번째 str(pat) 이 정규식인지 아닌지, default 는 False
df["text"].str.split(" ", expand=True)

Unnamed: 0,0,1
0,Python,3.9
1,Data,Analysis
2,pandas,library
3,PYTHON,EXAMPLE


In [241]:
df["text"].str.lower()

0        python 3.9
1     data analysis
2    pandas library
3    python example
Name: text, dtype: object

In [242]:
df["text"].str.upper()

0        PYTHON 3.9
1     DATA ANALYSIS
2    PANDAS LIBRARY
3    PYTHON EXAMPLE
Name: text, dtype: object