# 텍스트의 다양한 변신(문자열, 파일 다루기)

텍스트 데이터는 어떻게 처리하는지, 텍스트 파일의 종류는 무엇이 있는 지 살펴보고 연습해 봄

## 목차

- 텍스트 데이터를 문자열로 저장한다는 것
  - incoding & decoding
  - string in python
  - regex
- file & directory
  - file
  - directory
  - module & package
- file format
  - csv
  - xml
  - json
- 회고
- Ref

## 텍스트 데이터를 문자열로 저장한다는 것

간단하게 python에서 다루는 문자열

In [1]:
my_str = 'Welcome!'
ur_str = "You're welcome."

print(my_str)
print(ur_str)

print(type(my_str))
print(type(ur_str))

Welcome!
You're welcome.
<class 'str'>
<class 'str'>


### encoding & decoding

[![00](img/00.png)](https://pertinency.blogspot.com/2020/03/blog-post.html?m=0)

기본 용어 정리
***
- 바이트(byte)란?
  - 컴퓨터 기본 저장 단위
- 인코딩(encoding)이란?
  - 문자열 -> 바이트
- 디코딩(decoding)이란?
  - 바이트 -> 문자열

왜 인코딩과 디코딩을 하는가?
***
컴퓨터 내부에서는 메모리(RAM)에 정보가 저장됨

즉, 0과 1로 저장되기 때문에! == 2진수

텍스트 데이터 처리 과정
***

문자와 숫자를 1대1 대응 한다면?

쉽게 문자를 숫자로 변경할 수 있음

국제표준기구(ISO)에서 유니코드(Unicode)를 설정하였음

[실제 유니코드 테이블](http://titus.uni-frankfurt.de/unicode/unitestx.htm)

위 링크를 들어가면 `UTF-8`이라고 말함

[`UTF-8`은 인코딩 방식](https://jeongdowon.medium.com/unicode%EC%99%80-utf-8-%EA%B0%84%EB%8B%A8%ED%9E%88-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-b6aa3f7edf96)

검색을 하다보면, `UTF-16`이 나옴

[`UTF-16`은 글자를 2 byte에 저장함](https://pickykang.tistory.com/13)

파이썬에서 어떻게 encoding, decoding 할까?
***

In [2]:
print(ord('a'))    
print(ord('A'))
print(chr(97))
print(ord('가'))
print(chr(0xAC00))   
#- 0xAC00은 44032의 16진수 표현입니다.

97
65
a
44032
가


### string in python

이스케이프 문자
***

In [3]:
s = 'I don't like Python!'

SyntaxError: invalid syntax (4145611764.py, line 1)

`'` 를 출력하고 싶다면, `\'`로 처리해 주어야 함

원시 문자열
***

In [4]:
#- 예제 코드2
print('Please don\'t touch it')
print(r'Please don\'t touch it')

Please don't touch it
Please don\'t touch it


이스케이프를 그대로 출력하고 싶다면?

문자열 맨 앞에 `r`를 추가함

startswith, endswith
***

In [5]:
EmployeeID = [
  'OB94382', 'OW34723', 'OB32308', 'OB83461', 
  'OB74830', 'OW37402', 'OW11235', 'OB82345'] 

Production_Employee = []
for P in EmployeeID:
  if P.startswith('OB'):
    Production_Employee.append(P)

Production_Employee

['OB94382', 'OB32308', 'OB83461', 'OB74830', 'OB82345']

OB로 시작되는 문자열 뽑기

In [6]:
import os
image_dir_path = "img"   

photo = os.listdir(image_dir_path )
png = [png for png in photo if png.endswith('.png')]
print(png)

['00.png', '01.png']


png로 끝나는 문자열 뽑기

공백 문자 처리 : trimming
***

In [7]:
print("사회적 거리두기")
print('--------------------------')
print("사회적\t거리두기")
print('--------------------------')
print("사회적\n거리두기")
print('--------------------------')
print("사회적\r거리두기")

사회적 거리두기
--------------------------
사회적	거리두기
--------------------------
사회적
거리두기
--------------------------
거리두기


공백 문자 종류

- 스페이스(space)
- 탭(tab) `\t`
- 줄 바꿈(new line)
- 개행(line feed) `\n`
- 복귀(carriage return) `\r`

In [8]:
txt = " Strip white spaces.\r   \t\n"
print(f'[{txt}]')
print('--------------------------')

#- 양쪽 공백 제거 : strip()
print(f'[{txt.strip()}]')
print('--------------------------')

#- 왼쪽 공백 제거 : lstrip()
print(f'[{txt.lstrip()}]')
print('--------------------------')

#- 오른쪽 공백 제거 : rstrip()
print(f'[{txt.rstrip()}]')

   	rip white spaces.
]
--------------------------
[Strip white spaces.]
--------------------------
   	ip white spaces.
]
--------------------------
[ Strip white spaces.]


대소문자 관련
***

In [9]:
txt = "I go to Home"
# 모든 문자 대문자
print(txt.upper())
# 모든 문자 소문자
print(txt.lower())
# 첫 글자만 대문자
print(txt.capitalize())

I GO TO HOME
i go to home
I go to home


isX
***

In [10]:
# 전체 대문자?
print("go".isupper())
# 전체 소문자?
print("go".islower())
# 첫 글자만 대문자?
print("I GO".istitle())
# 전체 알파벳?
print("i want 10 apples".isalpha())
# 전체 알파벳과 숫자?
print("i want 10 apples".isalnum())
# 전체 숫자?
print("10".isdecimal())

False
True
False
False
False
True


split()와 join()
***

In [11]:
txt = "I go to Home"

# 문자열 나누기
txts = txt.split()
print(txts)

# 문자열 붙이기
print(','.join(txts))

['I', 'go', 'to', 'Home']
I,go,to,Home


replace()
***

In [12]:
sent = 'I can do it!'

# 특정 요소 변경
sent.replace('I', 'You')

'You can do it!'

가변 객체와 불변 객체
***

string은 불변 객체

### regex

[![01](img/01.png)](https://regexr.com/#native_link#)

정규 표현식(regular expression)

문자열 vs 정규 표현식
***

In [13]:
sent = 'I can do it!'
rep = sent.replace("I", "You")
rep = sent.replace("can", "You")
rep = sent.replace("do", "You")
rep = sent.replace("it", "You")
print(rep)

import re
pattern = re.sub(r"\b\w+\b", "You", sent)
print(pattern)

I can do You!
You You You You!


정규 표현식 시작하기
***

In [14]:
#1단계 :  "the"라는 패턴을 컴파일한 후 패턴 객체를 리턴합니다. 
pattern = re.compile("the")    

# 2단계 : 컴파일된 패턴 객체를 활용하여 다른 텍스트에서 검색을 수행합니다.
print(pattern.findall('of the people, for the people, by the people'))

# 한번에 할 수 있음
print(re.findall('the', 'of the people, for the people, by the people'))

['the', 'the', 'the']
['the', 'the', 'the']


메서드
***

In [15]:
src = "My name is..."

In [16]:
# 검색 대상과 일치
regex = re.search("name", src)
print(regex)

if regex:
  # 실제 결과 반환
  print(regex.group())
else:
  print("No!")

<re.Match object; span=(3, 7), match='name'>
name


In [17]:
# 처음부터 검색 대상과 일치
regex = re.match("name", src)
print(regex)

if regex:
  # 실제 결과 반환
  print(regex.group())
else:
  print("No!")

None
No!


In [18]:
# 일치하는 모든 패턴 찾기
regex = re.findall("name", src)
print(regex)

['name']


In [19]:
# 패턴 나누기
regex = re.split("name", src)
print(regex)

['My ', ' is...']


In [20]:
# 패턴 대체하기
regex = re.sub("name", 'job', src)
print(regex)

My job is...


패턴 : 특수문자, 메타 문자
***

`[]-.?*+{}/`등을 이용해 툭수한 패턴을 만들 수 있음
- `[]` : 문자 == [0123456789]
- `-` : 범위 == 0-9
- `.` : 하나의 문자 == .
- `?` : 0 또는 1회 반복 == a?
- `*` : 0 이상 반복 == a*
- `+` : 1 이상 반복 == a+
- `{m,n}` : m ~ n == a{2,3}
- `^` : 아님 == [^0-9]
- `\d` : 숫자 == [0-9]
- `\D` : 숫자가 아님 == [^0-9]
- `\w` : 영어, 숫자, _ == [a-zA-Z0-9_]
- `\W` : 영어, 숫자, _ 아님 == [^a-zA-Z0-9_]
- `\s` : 공백 문자 == [ \t\n\r\f\v]
- `\S` : 공백 문자 아님 == [^ \t\n\r\f\v]
- `\b` : 단어 경계
- `\B` : 비 단어 경계
- `\t` : 탭
- `\v` : 세로 탭
- `\f` : 폼 피드
- `\n` : 라인 피드
- `\r` : 캐리지 리턴

자세한 내용은 regex의 사진을 클릭!

예제
***

In [21]:
#- 연도(숫자)
text = """
The first season of America Premiere League  was played in 1993. 
The second season was played in 1995 in South Africa. 
Last season was played in 2019 and won by Chennai Super Kings (CSK).
CSK won the title in 2000 and 2002 as well.
Mumbai Indians (MI) has also won the title 3 times in 2013, 2015 and 2017.
"""
pattern = re.compile("[1-2]\d{3}")
pattern.findall(text)

['1993', '1995', '2019', '2000', '2002', '2013', '2015', '2017']

In [22]:
#- 전화번호(숫자, 기호)
phonenumber = re.compile(r'(\d{3}-){2}\d{4}')
phone = phonenumber.search('This is my phone number 010-111-1111')
if phone:
  print(phone.group())

010-111-1111


In [23]:
#- 이메일(알파벳, 숫자, 기호)
text = "My e-mail adress is doingharu@aiffel.com, and tomorrow@aiffel.com"
pattern = re.compile("[0-9a-zA-Z]+@[0-9a-z]+\.[0-9a-z]+")
pattern.findall(text)

['doingharu@aiffel.com', 'tomorrow@aiffel.com']

## file & directory


영구적으로 저장하기 위해 파일을 사용함

파일을 계층적으로 정리하기 위해 디렉토리를 사용함

### file

메서드
***

In [24]:
with open("data/hello.txt", "w") as f:
  # 글쓰기
  f.write('안녕')

with open("data/hello.txt", "w") as f:
  # iter로 글쓰기
  f.writelines(['안녕\n', '안녕\n'])

In [25]:
with open("data/hello.txt", "r") as f:

  # 전체 읽기
  print(f.read())

with open("data/hello.txt", "r") as f:
  while True:

    # 한 줄 읽기
    text = f.readline()

    if text != '':
      print(text, end='')
    else:
      break

# 파일 열기
f = open("data/hello.txt", "r")

# 배열로 읽기
print(f.readlines())

# 현재 커서 위치
print(f.tell())

# 현재 커서 위치 변경
f.seek(0)
print(f.tell())

# 파일 닫기
f.close()

안녕
안녕

안녕
안녕
['안녕\n', '안녕\n']
14
0


### directory

최상이 폴더를 루트 디렉토리(root directory)라고 함

- window : C:\
- Linux : /

### module & package

파이썬 파일은 어디에 저장될까?
***

In [26]:
#- 현재 실행되고 있는 파이썬 실행 파일의 디렉터리를 반환합니다.
import sys
sys.executable

'/Library/Developer/CommandLineTools/usr/bin/python3'

In [27]:
#- 임포트할 때 불러 오는 모듈들이 위치한 경로입니다.
sys.path

['/Users/main/Desktop/temp/Lms/Fundamentals/12_text_data_handling',
 '/Library/Developer/CommandLineTools/Library/Frameworks/Python3.framework/Versions/3.8/lib/python38.zip',
 '/Library/Developer/CommandLineTools/Library/Frameworks/Python3.framework/Versions/3.8/lib/python3.8',
 '/Library/Developer/CommandLineTools/Library/Frameworks/Python3.framework/Versions/3.8/lib/python3.8/lib-dynload',
 '',
 '/Users/main/Library/Python/3.8/lib/python/site-packages',
 '/Library/Developer/CommandLineTools/Library/Frameworks/Python3.framework/Versions/3.8/lib/python3.8/site-packages']

In [28]:
# 위 코드를 통해 모듈을 추가할 수 있음
# sys.path.append()

# 디렉토리 위치 변경
os.chdir('.')

# 현위치 반환
os.getcwd()

# mkdir
os.mkdir('dir')

# rm
os.rmdir('dir')

import glob
# 해당 경로 dir, file 리스트로
print(glob.glob(r'img/*'))

# 결로를 만들어 줌
print(os.path.join('test', 'img'))

# 디렉토리 안의 dir, file 리스트로
print(os.listdir())

# 존재 여부 확인
print(os.path.exists('img'))

# 파일 존재 여부 확인
print(os.path.isfile('img'))

# 디렉토리 존재 여부 확인
print(os.path.isdir('img'))

# 용량 확인
print(os.path.getsize('img'))

['img/00.png', 'img/01.png', 'img/02.jpg']
test/img
['.DS_Store', 'README.ipynb', 'img', 'data']
True
False
True
192


## file format

### csv

쉽표로 구분한 값(Comma Seperated Value)

In [29]:
billboardchart = {
  1 : ["Tho Box","Roddy Ricch","2019-12-19"],
  2 : ["Don't Start Now", "Dua Lipa", "2019-11-01"],
  3 : ["Life Is Good", "Future Featuring Drake", "2020-02-10"],
  4 : ["Blinding", "The Weeknd", "2019-11-29"],
  5 : ["Circles", "Post Malone","2019-08-30"]}

# open으로 처리
with open("data/billboardchart.csv","w") as f:
  for i in billboardchart.values():
    data = ",".join(i)
    f.write(data+"\n")

In [30]:
import csv

header = ["title", "singer", "released date"]

with open("data/billboardchart.csv","r") as inputfile:
  with open("data/billboardchart_out.csv","w", newline='\n') as outputfile:

    # csv로 처리
    fi = csv.reader(inputfile, delimiter=',')
    fo = csv.writer(outputfile, delimiter=',')
    fo.writerow(header)
    for row in fi:
      fo.writerow(row)

In [31]:
#- 1. 데이터를 준비합니다.
fields = ["title", "singer", "released date"]
rows = [
  ["Tho Box","Roddy Ricch","2019-12-19"],
  ["Don't Start Now", "Dua Lipa", "2019-11-01"],
  ["Life Is Good", "Future Featuring Drake", "2020-02-10"],
  ["Blinding", "The Weeknd", "2019-11-29"],
  ["Circles", "Post Malone","2019-08-30"]
]

In [32]:
#- 2. 판다스를 이용해 데이터를 csv 파일로 저장합니다.
import pandas as pd

df=pd.DataFrame(rows, columns=fields)
df.to_csv('data/pandas.csv',index=False)

In [33]:
df = pd.read_csv('data/pandas.csv')
df.head()

Unnamed: 0,title,singer,released date
0,Tho Box,Roddy Ricch,2019-12-19
1,Don't Start Now,Dua Lipa,2019-11-01
2,Life Is Good,Future Featuring Drake,2020-02-10
3,Blinding,The Weeknd,2019-11-29
4,Circles,Post Malone,2019-08-30


### xml

다목적 마크업 언어(Extensible Markup Language)

In [34]:
<Person id="0x0001">
  <firstname>병률</firstname>
  <lastname date='2022-07-14'>이</lastname>
  <age>26</age>
  <place>대구</place>
</Person>

SyntaxError: invalid syntax (1903902067.py, line 1)

특징
***
`<tag attr='attr'>content</tag>`

- tag로 이루어져 있음
- 계층적 구조를 띔
- tag를 포함하여 감싸져 있는 것을 요소(Element)라고 부름
- 속성(attribute)을 가질 수 있음
- 내용(content)를 가질 수 있음(없을 수 도 있음)

실습
***

In [35]:
import xml.etree.ElementTree as ET

# 요소 만들기
person = ET.Element("Person")
name = ET.Element("name")
age = ET.Element("age")

# content 추가
name.text = "병률"
age.text = "26"

# 계층 만들기
person.append(name)
person.append(age)

# 계층 만들면서, 요소 만들면서 content 추가
ET.SubElement(person, 'place').text = '대구'

# 객체를 문자열로 변경
ET.dump(person)

# 속성 추가
person.attrib["id"] = "0x0001"

# tag 이름 변경
name.tag = "firstname"

ET.dump(person)

# 요소를 만들면서, 속성을 지정
lastname = ET.Element('lastname', date='2020-03-20')

# content 추가
lastname.text = '이'

# 원하는 위치에 계층 만들기
person.insert(1,lastname)
ET.dump(person)

# 요소 지우기
person.remove(age)

# 요소 저장
ET.ElementTree(person).write('data/person.xml')

<Person><name>병률</name><age>26</age><place>대구</place></Person>
<Person id="0x0001"><firstname>병률</firstname><age>26</age><place>대구</place></Person>
<Person id="0x0001"><firstname>병률</firstname><lastname date="2020-03-20">이</lastname><age>26</age><place>대구</place></Person>


XML 읽기
***

In [36]:
!pip3 list | grep beautifulsoup4
!pip3 list | grep lxml

beautifulsoup4               4.10.0
lxml                         4.9.1


In [37]:
from bs4 import BeautifulSoup
import os

path = 'data/person.xml'
with open(path, "r", encoding='utf8') as f:
    booksxml = f.read() 
    #- 파일을 문자열로 읽기

soup = BeautifulSoup(booksxml,'lxml') 
#- BeautifulSoup 객체 생성 : lxml parser를 이용해 데이터 분석

for title in soup.select('person'): 
#-  태그를 찾는 find_all 함수 이용
    print(title.get_text())

병률이대구


[![02](img/02.jpg)](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#parsing-xml)

뷰티플 수프 설명서

### json

javascript 데이터 객체 표현 방식(JavaScript Object Notation)

In [38]:
person = {
  "first name" : "ByeongRyul",
  "last name" : "Lee",
  "age" : 26,
  "nationality" : "Republic Of Korea",
  "education" : [
    {
      "degree":"B.S degree", 
      "university":"Daehan university", 
      "major": "computer engineering", 
      "graduated year":2022
    }
  ]
} 

파이썬의 dict와 유사함

JSON 파싱
***

In [39]:
import json

person = {
  "first name" : "Yuna",
  "last name" : "Jung",
  "age" : 33,
  "nationality" : "South Korea",
  "education" : [
    {
      "degree":"B.S degree",
      "university":"Daehan university",
      "major": "mechanical engineering",
      "graduated year":2010
    }
  ]
} 

with open("data/person.json", "w") as f:
    json.dump(person , f)

In [40]:
import json

with open("data/person.json", "r", encoding="utf-8") as f:
  contents = json.load(f)
  print(contents)

{'first name': 'Yuna', 'last name': 'Jung', 'age': 33, 'nationality': 'South Korea', 'education': [{'degree': 'B.S degree', 'university': 'Daehan university', 'major': 'mechanical engineering', 'graduated year': 2010}]}


## 회고

배우고 궁금한 것
***

어려웠는 것
***

시도한 것
***

실패한 것과 그 이유
***

## Ref


|날짜|제목(링크)|내용|
|:-:|:--------:|:--:|
|20.03.08|[파이썬 인코딩과 디코딩](https://pertinency.blogspot.com/2020/03/blog-post.html?m=0)|그림 참고|
|03.?.?|[Titus Is Testing Unicode Scriptmanagement](http://titus.uni-frankfurt.de/unicode/unitestx.htm)|유니코드 테이블|
|19.01.01|[Unicode와 UTF-8 이해하기](https://jeongdowon.medium.com/unicode%EC%99%80-utf-8-%EA%B0%84%EB%8B%A8%ED%9E%88-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-b6aa3f7edf96)|Unicode와 UTF-8의 차이|
|14.12.12|[UTF-8과 UTF-16 차이](https://jeongdowon.medium.com/unicode%EC%99%80-utf-8-%EA%B0%84%EB%8B%A8%ED%9E%88-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-b6aa3f7edf96)||
|22.02.15|[regexr.com](https://regexr.com/#native_link#)|Regex를 연습해볼 수 있는 사이트|
|?|[Beautiful Soup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#parsing-xml)|Beautiful Soup 사용 설명서|