# 문자열 치환 방법 ① : C 스타일 치환(%)

In [None]:
a = "안녕하세요? 제 이름은 %s입니다." % "신명진"
print(a)

# 문자열 치환 방법② : .format() 메서드 사용

In [122]:
b = "안녕하세요? 제 이름은 {}입니다. 제 나이는 {}입니다."

In [123]:
b

'안녕하세요? 제 이름은 {}입니다. 제 나이는 {}입니다.'

In [125]:
print(b.format("신명진", 40))

안녕하세요? 제 이름은 신명진입니다. 제 나이는 40입니다.


# 문자열 치환 방법②-1 : format() 메서드에 키워드인자 적용

In [126]:
c = "안녕하세요? 제 이름은 {name}이고, 저는 {age}세입니다."

In [128]:
c.format(age=40, name="신명진")  # 순서 무관

'안녕하세요? 제 이름은 신명진이고, 저는 40세입니다.'

# 문자열 치환 방법③ : f-string 기법(속도도 빠르고 많이 씀. 단, 파이썬 3.6 이상 버전에서 사용가능)

In [129]:
name = "신명진"
age = 40

d = f"안녕하세요? 제 이름은 {name}이고, 저는 {age}세입니다."

In [130]:
print(d)

안녕하세요? 제 이름은 신명진이고, 저는 40세입니다.


In [131]:
year = 2023
month = 6
day = 26

date = f"{year}. {month}. {day}."
print(date)

2023. 6. 26.


In [132]:
name_list = ["신명진", "신보석", "신현식"]
age_list = [40, 39, 50]

for info in zip(name_list, age_list):
    name = info[0]
    age = info[1]
    print(f"안녕하세요? 제 이름은 {name}이고, 제 나이는 {age}입니다.")

안녕하세요? 제 이름은 신명진이고, 제 나이는 40입니다.
안녕하세요? 제 이름은 신보석이고, 제 나이는 39입니다.
안녕하세요? 제 이름은 신현식이고, 제 나이는 50입니다.


# 판다스 맛보기 - 엑셀 문자열 가공

In [133]:
%pip install openpyxl
import pandas as pd

Note: you may need to restart the kernel to use updated packages.


In [134]:
df = pd.read_excel("./이름나이.xlsx")

In [136]:
df.head()

Unnamed: 0,이름,나이
0,신명진,40
1,신보석,39
2,신현식,50
3,신예별,8
4,신예라,6


In [137]:
# 이름이 "신보석"인 사람의 "나이"를 알려줘
df[df["이름"] == "신보석"]["나이"]

1    39
Name: 나이, dtype: int64

In [138]:
# 이름이 "신예"로 시작하는 사람을 전부 보여줘

df[df["이름"].str.startswith("신예")]

Unnamed: 0,이름,나이
3,신예별,8
4,신예라,6


# 엑셀파일의 워크시트를 클립보드로 복사한 후, 클립보드에서 데이터프레임을 만드는 방법

In [139]:
# 엑셀 워크시트 클립보드 복사 후
df = pd.read_clipboard()

In [140]:
df

Unnamed: 0,이름,나이
0,신명진,40
1,신보석,39
2,신현식,50
3,신예별,8
4,신예라,6


# (판다스를 사용하지 않고) 클립보드로 데이터를 가공하는 방법

In [145]:
# 엑셀데이터 복사 후
%pip install pyperclip
import pyperclip as cb

Note: you may need to restart the kernel to use updated packages.


In [146]:
data = cb.paste()

In [147]:
data

'이름\t나이\r\n신명진\t40\r\n신보석\t39\r\n신현식\t50\r\n신예별\t8\r\n신예라\t6'

# 데이터 구조 예시

## ① 리스트 안의 리스트
[["이름", "나이"],
 ["신명진", 40],
 ["신보석", 39],
 ...]]

## ② 리스트 안의 딕셔너리
[{"이름": "신명진",
 "나이": 40,},
 {"이름": "신보석",
 "나이": 39,},
 {"이름": "신현식",
 "나이": 50,},
 ...}]

## ③ 딕셔너리 안의 딕셔너리
{0: {"이름": "신명진", "나이": 40},
 1: {"이름": "신보석", "나이": 39},
 2: {"이름": "신현식", "나이": 50},
 ...}

In [148]:
data

'이름\t나이\r\n신명진\t40\r\n신보석\t39\r\n신현식\t50\r\n신예별\t8\r\n신예라\t6'

In [149]:
# 엑셀 칼럼 구분자 : "\t"
# 엑셀 행 구분자 : "\r\n"

new_data = []
for i in data.split("\r\n"):
    row = i.split("\t")
    new_data.append(row)
new_data

[['이름', '나이'],
 ['신명진', '40'],
 ['신보석', '39'],
 ['신현식', '50'],
 ['신예별', '8'],
 ['신예라', '6']]

In [151]:
# 위 코드는 아래처럼 한 줄로도 작성할 수 있음(리스트 컴프리헨션)

new_data = [i.split("\t") for i in data.split("\r\n")]
new_data

[['이름', '나이'],
 ['신명진', '40'],
 ['신보석', '39'],
 ['신현식', '50'],
 ['신예별', '8'],
 ['신예라', '6']]

# 가상데이터 생성기(faker)를 활용한 데이터 분석 연습

In [None]:
%pip install faker
!python.exe -m pip install --upgrade pip

In [153]:
from faker import Faker

In [154]:
faker = Faker("ko-kr")  # 한국어 데이터 취득

In [157]:
# 1,000명의 한국인 이름 추출

name_list = []
for i in range(1000):
    name_list.append(faker.name())

In [158]:
name_list[:10]  # 앞쪽 10명의 이름 확인

['이서윤', '김승현', '곽상철', '이예원', '김병철', '우명숙', '서현정', '박예진', '이동현', '김명숙']

In [159]:
faker.profile()  # 1인 프로필을 사전 데이터로 생성하는 메서드

{'job': '한의사',
 'company': '주식회사 최이최',
 'ssn': '260115-2145791',
 'residence': '세종특별자치시 관악구 논현거리 (경희박동)',
 'current_location': (Decimal('-49.517498'), Decimal('27.571595')),
 'blood_group': 'A+',
 'website': ['https://gimbag.com/',
  'https://www.yuhanhoesa.net/',
  'http://yuhanhoesa.com/',
  'https://yuhanhoesa.net/'],
 'username': 'zan',
 'name': '김성민',
 'sex': 'M',
 'address': '대전광역시 강남구 테헤란247로',
 'mail': 'gwangsusin@gmail.com',
 'birthdate': datetime.date(1977, 8, 3)}

# 실습 : 가상데이터 분석예제

## 1만명의 가상데이터 생성하기(name, ssn, mail, address 등 4개 칼럼 생성)

In [163]:
# data = {
#     "name": ["신명진", "신보석", "신현식", ...],
#     "ssn": ["830226-1234567", "840430-1345678", ...],
#     "mail": ["smj@abc.com", "def@asd.com", ...],
#     "address": ["서울특별시..", "광주광역시..", ...],
# }

In [165]:
# 각 칼럼에 해당하는 리스트 4개 생성
name_list = []
ssn_list = []
mail_list = []
address_list = []

# 10,000개의 데이터 입력하기
for _ in range(10000):
    name_list.append(faker.name())
    ssn_list.append(faker.ssn())
    mail_list.append(faker.email())
    address_list.append(faker.address())

# dict 생성하기
data = {"name": name_list,
        "ssn": ssn_list,
        "email": mail_list,
        "address_list": address_list}

In [166]:
# 위 셀의 코드는 아래처럼 단축입력 가능함.

data = {
    "name": [faker.name() for _ in range(10000)],
    "ssn": [faker.ssn() for _ in range(10000)],
    "mail": [faker.email() for _ in range(10000)],
    "address": [faker.address() for _ in range(10000)],
}

# 분석예제① : 사용자데이터에서 지역별로 가장 이용자가 많은 지역부터 순서대로 출력하시오.

In [168]:
# 우리가 사용할 데이터는 "address" 칼럼의 첫 번째 단어들임.
data["address"][:10]

['세종특별자치시 강동구 반포대21가 (혜진유마을)',
 '세종특별자치시 관악구 반포대길 (선영안최면)',
 '충청북도 수원시 테헤란길 (윤서윤이면)',
 '경상북도 안산시 상록구 오금13로',
 '충청남도 양평군 가락4길',
 '경상북도 아산시 언주4가 (지민권이리)',
 '대구광역시 남구 봉은사212거리 (성수엄읍)',
 '전라남도 파주시 서초대로',
 '부산광역시 종로구 선릉669거리',
 '강원도 제천시 양재천601로 (영진허마을)']

In [169]:
# 필요한 데이터만 추출(주소 문자열을 스페이스로 잘랐을 때 첫 번째 요소)

지역리스트 = [i.split(" ")[0] for i in data["address"]]
지역리스트[:10]

['세종특별자치시',
 '세종특별자치시',
 '충청북도',
 '경상북도',
 '충청남도',
 '경상북도',
 '대구광역시',
 '전라남도',
 '부산광역시',
 '강원도']

In [170]:
# 갯수를 입력할 dict 변수 생성

지역카운트 = {}

In [171]:
# 지역카운트 사전의 키는 지역명, 값은 카운트

for i in 지역리스트:
    if i in 지역카운트.keys():
        지역카운트[i] += 1  # 기존 지역명 키가 들어 있을 때에는 값 += 1
    else:
        지역카운트[i] = 1  # 기존 지역명 키가 없을 때에는 값 = 1

In [172]:
지역카운트

{'세종특별자치시': 590,
 '충청북도': 604,
 '경상북도': 538,
 '충청남도': 574,
 '대구광역시': 653,
 '전라남도': 538,
 '부산광역시': 606,
 '강원도': 538,
 '경기도': 529,
 '대전광역시': 593,
 '제주특별자치도': 521,
 '광주광역시': 692,
 '전라북도': 561,
 '서울특별시': 592,
 '경상남도': 570,
 '인천광역시': 651,
 '울산광역시': 650}

In [173]:
# 정렬을 해서 보고 싶은데 dict 자료형에는 sort가 없음.
# 그래서 dict 메서드 중 dict.items()를 이용해 변환하고 리스트로 변환함.
# 이 때 dict.items() 는 사전데이터를 [(키1, 값1), (키2, 값2), ...] 의 형태로 리턴해줌.

지역카운트 = 지역카운트.items()
지역카운트

dict_items([('세종특별자치시', 590), ('충청북도', 604), ('경상북도', 538), ('충청남도', 574), ('대구광역시', 653), ('전라남도', 538), ('부산광역시', 606), ('강원도', 538), ('경기도', 529), ('대전광역시', 593), ('제주특별자치도', 521), ('광주광역시', 692), ('전라북도', 561), ('서울특별시', 592), ('경상남도', 570), ('인천광역시', 651), ('울산광역시', 650)])

In [174]:
지역카운트 = list(지역카운트)
지역카운트

[('세종특별자치시', 590),
 ('충청북도', 604),
 ('경상북도', 538),
 ('충청남도', 574),
 ('대구광역시', 653),
 ('전라남도', 538),
 ('부산광역시', 606),
 ('강원도', 538),
 ('경기도', 529),
 ('대전광역시', 593),
 ('제주특별자치도', 521),
 ('광주광역시', 692),
 ('전라북도', 561),
 ('서울특별시', 592),
 ('경상남도', 570),
 ('인천광역시', 651),
 ('울산광역시', 650)]

In [177]:
# 정렬하기

지역카운트.sort()  # 오름차순 정렬(결과를 바로 적용해버림)
지역카운트  # 의도와 다르게 첫 번째 요소인 지역명을 ㄱㄴㄷ순으로 정렬해버렸음

[('강원도', 538),
 ('경기도', 529),
 ('경상남도', 570),
 ('경상북도', 538),
 ('광주광역시', 692),
 ('대구광역시', 653),
 ('대전광역시', 593),
 ('부산광역시', 606),
 ('서울특별시', 592),
 ('세종특별자치시', 590),
 ('울산광역시', 650),
 ('인천광역시', 651),
 ('전라남도', 538),
 ('전라북도', 561),
 ('제주특별자치도', 521),
 ('충청남도', 574),
 ('충청북도', 604)]

## 두 번째 요소(i[1])로 정렬하려면 어떻게 해야 할까요?

In [179]:
# 먼저 두 번째 요소를 리턴해주는 함수를 하나 정의해줍니다.

def get_2nd_elem(i):
    return i[1]

In [183]:
# sort 메서드의 key 파라미터에 get_2nd_elem을 넣어줍니다. 내림차순으로 정렬하려면 reverse=True 옵션을 추가해줍니다.
지역카운트.sort(key=get_2nd_elem, reverse=True)
지역카운트  # 의도대로 잘 출력되었습니다.

[('광주광역시', 692),
 ('대구광역시', 653),
 ('인천광역시', 651),
 ('울산광역시', 650),
 ('부산광역시', 606),
 ('충청북도', 604),
 ('대전광역시', 593),
 ('서울특별시', 592),
 ('세종특별자치시', 590),
 ('충청남도', 574),
 ('경상남도', 570),
 ('전라북도', 561),
 ('강원도', 538),
 ('경상북도', 538),
 ('전라남도', 538),
 ('경기도', 529),
 ('제주특별자치도', 521)]

In [184]:
# 위의 일련의 방식은 별도 함수정의 없이 아래처럼 한 줄로도 실행 가능합니다.

지역카운트.sort(key=lambda x: x[1], reverse=True)
지역카운트  # 위와 결과가 동일합니다.

[('광주광역시', 692),
 ('대구광역시', 653),
 ('인천광역시', 651),
 ('울산광역시', 650),
 ('부산광역시', 606),
 ('충청북도', 604),
 ('대전광역시', 593),
 ('서울특별시', 592),
 ('세종특별자치시', 590),
 ('충청남도', 574),
 ('경상남도', 570),
 ('전라북도', 561),
 ('강원도', 538),
 ('경상북도', 538),
 ('전라남도', 538),
 ('경기도', 529),
 ('제주특별자치도', 521)]

In [185]:
# 상위 3개의 결과만 확인하고 싶다면?
지역카운트[:3]

[('광주광역시', 692), ('대구광역시', 653), ('인천광역시', 651)]

# 분석예제② : 사용자의 연령대를 10년 기준 (20대, 30대, 40대, 50대...)으로 구분하여 가장 많은 사용자 연령대를 파악하시오.

In [186]:
# 우리가 사용할 칼럼은 data["ssn"]입니다.

data["ssn"][:10]

['150715-2034670',
 '410103-2111637',
 '460906-2733902',
 '610308-1594453',
 '640416-1333984',
 '650421-1413020',
 '690826-1990411',
 '170512-1481556',
 '100714-1505819',
 '390524-1777200']

In [187]:
# 나이를 파악하려면 주민등록번호 앞의 두 자리만 있으면 되기 때문에
# 아래처럼 슬라이싱을 해 줍니다.

birthday_list = [i[:2] for i in data["ssn"]]
birthday_list[:10]

['15', '41', '46', '61', '64', '65', '69', '17', '10', '39']

In [188]:
# 두 자리 문자열이 0으로 시작하면 앞에 "20"을 붙이고("01"~"09" -> "2001"~"2009")
# 그 이외의 경우에는 모두 "19"를 붙여보겠습니다. -> ("11"~"99" -> "1911" ~ "1999")

for i, v in enumerate(birthday_list):
    if v.startswith("0"):  # 0으로 시작하면?
        birthday_list[i] = "20" + v  # 앞에 "20"을 붙이고
    else:  # 0으로 시작하지 않는 모든 경우에는?
        birthday_list[i] = "19" + v  # 앞에 "19"를 붙인다.

In [189]:
birthday_list[:10]

['1915',
 '1941',
 '1946',
 '1961',
 '1964',
 '1965',
 '1969',
 '1917',
 '1910',
 '1939']

In [190]:
# 출생연도를 모두 추출하는 데 성공했습니다.
# 이제 출생연도를 나이로 바꾸고 싶은데요.
# (연도를 정수로 바꾼 후) 2023에서 출생연도를 빼주면
# 출생연도 리스트가 나이 리스트로 바뀔 것입니다.

나이리스트 = [2023-int(i) for i in birthday_list]
나이리스트[:10]

[108, 82, 77, 62, 59, 58, 54, 106, 113, 84]

In [191]:
# 위 요소의 1의자리를 지우면 (10대, 20대, 30대, 40대, ...) 식으로
# 일종의 세대구분이 가능해질 것 같습니다.
# 10, 11, 12, 13, 14, 15, 16, 17, 18, 19가 전부 1로 바뀌니까요.
#
# 그럼 나이리스트의 모든 요소들을 문자열로 변환한 후 제일 끝자리만 지우고
# 카운트를 해보겠습니다.

나이리스트 = [int(str(i)[:-1]) for i in 나이리스트]
나이리스트[:20]

[10, 8, 7, 6, 5, 5, 5, 10, 11, 8, 4, 1, 6, 6, 8, 10, 11, 8, 9, 10]

In [193]:
# 예제①과 동일하게 카운트를 해보겠습니다.

나이사전 = {}

for i in 나이리스트:
    if i in 나이사전.keys():
        나이사전[i] += 1
    else:
        나이사전[i] = 1

sorted(나이사전.items(), key=lambda x: x[1], reverse=True)  # 50대가 근소하게 1위를 차지하고 있네요.

[(5, 1041),
 (10, 1016),
 (6, 1009),
 (9, 1009),
 (7, 1008),
 (2, 988),
 (3, 975),
 (4, 971),
 (8, 945),
 (1, 614),
 (11, 424)]

# 카운트 프로세스는 collections.Counter로 간단히 해결할 수 있습니다.

In [194]:
from collections import Counter

In [195]:
Counter(나이리스트)

Counter({5: 1041,
         10: 1016,
         6: 1009,
         9: 1009,
         7: 1008,
         2: 988,
         3: 975,
         4: 971,
         8: 945,
         1: 614,
         11: 424})

In [196]:
# 상위 5개만 출력하고 싶다면?
Counter(나이리스트).most_common(5)

[(5, 1041), (10, 1016), (6, 1009), (9, 1009), (7, 1008)]

In [197]:
# 분석예제①의 지역리스트에도 Counter를 적용해볼까요?
Counter(지역리스트).most_common(3)

[('광주광역시', 692), ('대구광역시', 653), ('인천광역시', 651)]

# 끝.