csv 모듈을 사용한 tsv(tab-separated values) 파일 읽기/쓰기

In [None]:
texts = '''2021-01-28\tAPL\t1500
2021-01-28\tBBB\t2000
2021-01-28\tCCC\t1700
2021-01-29\tAPL\t2000
2021-01-29\tBBB\t1900
2021-01-29\tCCC\t1600
'''

with open(file='prices.tsv', mode='w') as f:
    f.write(texts)

* csv 모듈을 사용
* csv.reader()를 사용해서 prices.tsv 파일을 읽어서 2차원 리스트 생성
* csv.writer()를 사용해서 2차원 리스트를 csv 파일로 저장


In [None]:
import csv

In [2]:
with open('prices.tsv', mode='r') as f:
    reader = csv.reader(f, delimiter='\t')
    prices = [row for row in reader]

prices

FileNotFoundError: ignored

In [None]:
with open('prices.csv', mode='w') as f:
    writer = csv.writer(f)
    writer.writerows(prices)

In [1]:
with open('prices.txt', mode='w') as f:
    writer = csv.writer(f, delimiter = ':')
    writer.writerows(prices)

NameError: ignored

In [None]:
# try-except 활용
with open('prices.txt', mode='r') as f:
    reader = csv.reader(f)
    pop_seoul = [row for row in reader]

print(pop_seoul)

for i, row in enumerate(pop_seoul):
    for j, val in enumerate(row):
        try:
            # int 타입으로 변환을 시도하고, 에러가 없으면 해당 인덱스 위치에 저장.
            pop_seoul[i][j] = int(val.replace(',', ''))
        except:
            # int 타입으로 변환 도중에 에러가 발생하면, 아무 일도 하지 않음.
            pass

pop_seoul

[['2021-01-28:APL:1500'], ['2021-01-28:BBB:2000'], ['2021-01-28:CCC:1700'], ['2021-01-29:APL:2000'], ['2021-01-29:BBB:1900'], ['2021-01-29:CCC:1600']]


[['2021-01-28:APL:1500'],
 ['2021-01-28:BBB:2000'],
 ['2021-01-28:CCC:1700'],
 ['2021-01-29:APL:2000'],
 ['2021-01-29:BBB:1900'],
 ['2021-01-29:CCC:1600']]

# csv 모듈 연습

1. apt_201910.csv 파일을 구글 드라이브에 업로드 
2. Colab에서 구글 드라이브를 마운트 
3. CSV 파일을 읽어서 2차원 리스트를 생성
    * 한글 Windows OS의 인코딩 방식으로 저장된 파일
    * 파일을 open 할 때 인코딩 방식을 'cp949' 
4. 3번에서 생성된 2차원 리스트에서 숫자로 변환할 수 있는 값들은 모두 숫자로 변환

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
file_path = '/content/drive/MyDrive/lab_python/apt_201910.csv'

In [None]:
with open(file_path, mode='r', encoding='cp949') as f:
    reader = csv.reader(f)
    apt_data = [row for row in reader]

apt_data[:5]

[['시군구',
  '번지',
  '본번',
  '부번',
  '단지명',
  '면적',
  '계약년월',
  '계약일',
  '가격',
  '층',
  '건축년도',
  '도로명'],
 ['강원도 강릉시 견소동',
  '202',
  '202',
  '0',
  '송정한신',
  '59.8',
  '201910',
  '4',
  '10,900',
  '5',
  '1997',
  '경강로2539번길 8'],
 ['강원도 강릉시 견소동',
  '202',
  '202',
  '0',
  '송정한신',
  '116.175',
  '201910',
  '31',
  '18,500',
  '10',
  '1997',
  '경강로2539번길 8'],
 ['강원도 강릉시 견소동',
  '289',
  '289',
  '0',
  '송정해변신도브래뉴아파트',
  '84.99',
  '201910',
  '5',
  '25,000',
  '6',
  '2005',
  '경강로2539번길 22'],
 ['강원도 강릉시 견소동',
  '289',
  '289',
  '0',
  '송정해변신도브래뉴아파트',
  '84.99',
  '201910',
  '12',
  '20,600',
  '3',
  '2005',
  '경강로2539번길 22']]

In [None]:
apt_data[-5:]

[['충청북도 충주시 호암동',
  '547-6',
  '547',
  '6',
  '호반현대',
  '59.76',
  '201910',
  '29',
  '7,000',
  '3',
  '1994',
  '신촌2길 28'],
 ['충청북도 충주시 호암동',
  '221-23',
  '221',
  '23',
  '호암리버빌(1단지)',
  '84.68',
  '201910',
  '5',
  '12,000',
  '15',
  '2002',
  '원호암5길 32'],
 ['충청북도 충주시 호암동',
  '221-23',
  '221',
  '23',
  '호암리버빌(1단지)',
  '84.68',
  '201910',
  '15',
  '11,000',
  '7',
  '2002',
  '원호암5길 32'],
 ['충청북도 충주시 호암동',
  '221-23',
  '221',
  '23',
  '호암리버빌(1단지)',
  '84.68',
  '201910',
  '17',
  '12,000',
  '14',
  '2002',
  '원호암5길 32'],
 ['충청북도 충주시 호암동',
  '221-23',
  '221',
  '23',
  '호암리버빌(1단지)',
  '84.68',
  '201910',
  '26',
  '11,200',
  '11',
  '2002',
  '원호암5길 32']]

In [None]:
for i, row in enumerate(apt_data):
    for j, val in enumerate(row):
        try:
            # 값을 정수로 변환해 보고 에러가 없으면, 변환된 정수를 그 위치(인덱스)에 저장.
            apt_data[i][j] = int(val.replace(',', ''))
        except:
            # 정수로 변환 도중에 에러가 발생하면
            try:
                # 실수로 변환해 보고 에러가 없으면, 변환된 실수를 그 위치에 저장.
                apt_data[i][j] = float(val.replace(',', ''))
            except:
                # 실수로도 변환이 안 되면 아무 일도 하지 않음.
                pass

apt_data[:5]

[['시군구',
  '번지',
  '본번',
  '부번',
  '단지명',
  '면적',
  '계약년월',
  '계약일',
  '가격',
  '층',
  '건축년도',
  '도로명'],
 ['강원도 강릉시 견소동',
  202,
  202,
  0,
  '송정한신',
  59.8,
  201910,
  4,
  10900,
  5,
  1997,
  '경강로2539번길 8'],
 ['강원도 강릉시 견소동',
  202,
  202,
  0,
  '송정한신',
  116.175,
  201910,
  31,
  18500,
  10,
  1997,
  '경강로2539번길 8'],
 ['강원도 강릉시 견소동',
  289,
  289,
  0,
  '송정해변신도브래뉴아파트',
  84.99,
  201910,
  5,
  25000,
  6,
  2005,
  '경강로2539번길 22'],
 ['강원도 강릉시 견소동',
  289,
  289,
  0,
  '송정해변신도브래뉴아파트',
  84.99,
  201910,
  12,
  20600,
  3,
  2005,
  '경강로2539번길 22']]

5 . 가격이 최댓값인 레코드를 출력
    * 가격의 최댓값을 찾음
    * 전체 데이터에서 가격이 최댓값과 일치하는 레코드들을 찾아서 출력

In [None]:
prices = [row[8] for row in apt_data[1:]]
max_price = max(prices)
max_price

485000

In [None]:
apt_max_price =[apt_data[0]]
for row in apt_data[1:]:
    if row[8] == max_price:
        apt_max_price.append(row)

apt_max_price

[['시군구',
  '번지',
  '본번',
  '부번',
  '단지명',
  '면적',
  '계약년월',
  '계약일',
  '가격',
  '층',
  '건축년도',
  '도로명'],
 ['서울특별시 용산구 한남동',
  810,
  810,
  0,
  '한남더힐',
  233.062,
  201910,
  24,
  485000,
  4,
  2011,
  '독서당로 111']]

6. 가격이 최솟값인 레코드들을 찾아서 출력

In [None]:
min_price = min(prices)
min_price

600

In [None]:
apt_min_price = [apt_data[0]]
for row in apt_data[1:]:
    if row[apt_data[0].index('가격')] == min_price:
        apt_min_price.append(row)

apt_min_price

[['시군구',
  '번지',
  '본번',
  '부번',
  '단지명',
  '면적',
  '계약년월',
  '계약일',
  '가격',
  '층',
  '건축년도',
  '도로명'],
 ['경상북도 구미시 원평동',
  '937-68',
  937,
  68,
  '원평주공',
  40.32,
  201910,
  7,
  600,
  4,
  1984,
  '칠성로2길 16']]

In [None]:
# apt_min_price =[apt_data[0]]
# for row in apt_data[1:]:
#     if row[8] == min_price:
#         apt_min_price.append(row)

# apt_min_price

7. 2차원 리스트 apt_data에서 '시군구', '단지명', '면적', '가격', '층', '건축년도' 6개의 컬럼 선택한 2차원 리스트를 생성

In [None]:
header = apt_data[0]
print(header)
print(header.index('시군구'))
print(header.index('단지명'))

['시군구', '번지', '본번', '부번', '단지명', '면적', '계약년월', '계약일', '가격', '층', '건축년도', '도로명']
0
4


In [None]:
apt_data2 = []
for row in apt_data:
    #selected = [row[0], row[4], row[5], row[8], row[9], row[10]]
    selected = [row[header.index('시군구')],
                row[header.index('단지명')],
                row[header.index('면적')],
                row[header.index('가격')],
                row[header.index('층')],
                row[header.index('건축년도')]]
    apt_data2.append(selected)

apt_data2[:5]

[['시군구', '단지명', '면적', '가격', '층', '건축년도'],
 ['강원도 강릉시 견소동', '송정한신', 59.8, 10900, 5, 1997],
 ['강원도 강릉시 견소동', '송정한신', 116.175, 18500, 10, 1997],
 ['강원도 강릉시 견소동', '송정해변신도브래뉴아파트', 84.99, 25000, 6, 2005],
 ['강원도 강릉시 견소동', '송정해변신도브래뉴아파트', 84.99, 20600, 3, 2005]]

In [None]:
apt_data3 = []
j_list = [0, 4, 5, 8, 9, 10]
for i, row in enumerate(apt_data):
    for j, val in enumerate(row):
        if j in j_list:        
            data = []
            for j in j_list:
                data.append(row[j])
    apt_data3.append(data)

apt_data3[:5]

[['시군구', '단지명', '면적', '가격', '층', '건축년도'],
 ['강원도 강릉시 견소동', '송정한신', 59.8, 10900, 5, 1997],
 ['강원도 강릉시 견소동', '송정한신', 116.175, 18500, 10, 1997],
 ['강원도 강릉시 견소동', '송정해변신도브래뉴아파트', 84.99, 25000, 6, 2005],
 ['강원도 강릉시 견소동', '송정해변신도브래뉴아파트', 84.99, 20600, 3, 2005]]

7번에서 생성한 2차원 리스트를 사용

8. '시군구'가 '강원도'이고, '가격'이 30,000 이상인 레코드들을 찾으세요
    * 7번에서 생성한 2차원 리스트를 사용

In [None]:
result = [apt_data2[0]]
for row in apt_data2[1:]:
    if row[0].startswith('강원도') and row[3] >= 30_000:
        result.append(row)
        
result

[['시군구', '단지명', '면적', '가격', '층', '건축년도'],
 ['강원도 강릉시 교동', '강릉교동롯데캐슬1단지', 135.1727, 34300, 9, 2009],
 ['강원도 강릉시 교동', '강릉교동롯데캐슬2단지', 118.0686, 32500, 2, 2009],
 ['강원도 강릉시 교동', '교동이-편한세상', 123.7566, 32500, 3, 2006],
 ['강원도 강릉시 송정동', '강릉송정 한신더휴', 84.961, 30000, 20, 2019],
 ['강원도 강릉시 홍제동', '우미린아파트', 84.9843, 34200, 18, 2016],
 ['강원도 강릉시 홍제동', '우미린아파트', 84.9871, 34000, 20, 2016],
 ['강원도 강릉시 홍제동', '우미린아파트', 84.9871, 34900, 8, 2016],
 ['강원도 강릉시 홍제동', '우미린아파트', 84.9819, 35400, 12, 2016],
 ['강원도 강릉시 홍제동', '우미린아파트', 78.4089, 30000, 15, 2016],
 ['강원도 강릉시 홍제동', '우미린아파트', 84.9843, 33900, 19, 2016],
 ['강원도 강릉시 홍제동', '우미린아파트', 84.9871, 32800, 4, 2016],
 ['강원도 강릉시 홍제동', '우미린아파트', 78.4089, 31000, 10, 2016],
 ['강원도 강릉시 홍제동', '우미린아파트', 84.9819, 34500, 12, 2016],
 ['강원도 속초시 동명동', 'e편한세상 영랑호', 84.9439, 36800, 25, 2017],
 ['강원도 속초시 동명동', 'e편한세상 영랑호', 84.9147, 34500, 24, 2017],
 ['강원도 속초시 동명동', 'e편한세상 영랑호', 84.9439, 30000, 12, 2017],
 ['강원도 속초시 동명동', 'e편한세상 영랑호', 84.9147, 36500, 18, 2017],
 ['강원도 속초시 청호동', '속

In [None]:
gangwon = [apt_data3[0]]
price_30k = 30000
g = '강원도'
for row in apt_data3[1:]:
    if g in row[0]:
        if row[3] >= price_30k:
            gangwon.append(row)

gangwon[:5]

[['시군구', '단지명', '면적', '가격', '층', '건축년도'],
 ['강원도 강릉시 교동', '강릉교동롯데캐슬1단지', 135.1727, 34300, 9, 2009],
 ['강원도 강릉시 교동', '강릉교동롯데캐슬2단지', 118.0686, 32500, 2, 2009],
 ['강원도 강릉시 교동', '교동이-편한세상', 123.7566, 32500, 3, 2006],
 ['강원도 강릉시 송정동', '강릉송정 한신더휴', 84.961, 30000, 20, 2019]]

In [None]:
gangwon[-5:]

[['강원도 춘천시 퇴계동', '휴먼시아남춘천1단지', 121.95, 34000, 11, 2011],
 ['강원도 춘천시 퇴계동', '휴먼시아남춘천1단지', 101.87, 31500, 11, 2011],
 ['강원도 춘천시 후평동', '춘천더샵', 145.5773, 30900, 25, 2008],
 ['강원도 춘천시 후평동', '춘천일성트루엘더퍼스트', 84.995, 30400, 9, 2018],
 ['강원도 평창군 대관령면 수하리', '동계올림픽 선수촌 아파트', 84.923, 36000, 8, 2018]]

9. 시군구가 서울이고, 30,000 <= 가격 < 50,000인 레코드들을 찾으세요
    * 7번에서 생성한 2차원 리스트를 사용

In [None]:
result = [apt_data2[0]]
for row in apt_data2[1:]:
    if row[0].startswith('서울') and 30_000 <= row[3] < 50_000:
        result.append(row)

result[:5]

[['시군구', '단지명', '면적', '가격', '층', '건축년도'],
 ['서울특별시 강남구 대치동', '아름빌(889-74)', 30.46, 30000, 5, 2003],
 ['서울특별시 강남구 도곡동', '현대비젼21', 33.1, 31800, 14, 1999],
 ['서울특별시 강남구 역삼동', '한화진넥스빌', 43.58, 38000, 26, 2001],
 ['서울특별시 강동구 길동', 'SM해그린12차', 84.56, 47000, 2, 2006]]

In [None]:
seoul = [apt_data3[0]]
price_50k = 50000
s = '서울'
for row in apt_data3[1:]:
    if s in row[0]:
        if row[3] >= price_30k and row[3] < price_50k:
            seoul.append(row)

seoul[:5]

[['시군구', '단지명', '면적', '가격', '층', '건축년도'],
 ['서울특별시 강남구 대치동', '아름빌(889-74)', 30.46, 30000, 5, 2003],
 ['서울특별시 강남구 도곡동', '현대비젼21', 33.1, 31800, 14, 1999],
 ['서울특별시 강남구 역삼동', '한화진넥스빌', 43.58, 38000, 26, 2001],
 ['서울특별시 강동구 길동', 'SM해그린12차', 84.56, 47000, 2, 2006]]

In [None]:
seoul[-5:]

[['서울특별시 중랑구 중화동', '삼익', 80.58, 40000, 5, 1995],
 ['서울특별시 중랑구 중화동', '한솔e(A동)', 71.34, 34000, 3, 2004],
 ['서울특별시 중랑구 중화동', '한신1차', 59.76, 45500, 25, 1997],
 ['서울특별시 중랑구 중화동', '한신1차', 59.76, 45700, 24, 1997],
 ['서울특별시 중랑구 중화동', '한신2', 59.76, 44300, 12, 1998]]

In [None]:
# 서울 3억 이상 5억 미만 자료들을(result) 파일에 저장

with open('apt_seoul.csv', mode='w') as f:
    writer = csv.writer(f)
    writer.writerows(result)