# 데이터의 종류 및 수집

- 표형식의 데이터 (.csv, .xlsx)
    - Series, DataFrame
- 텍스트 파일 (.txt)
- json file (.json)
- pickle (.pkl, .pickle)

## 표형식의 데이터
- csv 파일 (.csv)  
⇒ *데이터의 크기가 작고 압축이 용이하기 때문에 가장 널리 사용되는 데이터 형식*
    - comma separated value : 필드를 쉼표로 구분한 파일 형식
    - 텍스트 형식이기 때문에 메모장으로 열 수 있으며, 엑셀로도 열 수 있음.
    - cf. tsv : tab separated value, tab으로 구분되어 있는 데이터


- excel 파일 (.xls, .xlsx) 
    - 여러개의 시트로 구성
    - 데이터를 불러올 때 불러올 시트를 설정할 수 있음 (ex. sheet_name='Sheet 2')
    - 여러 sheet를 불러올때는 list로 받으면 됨 (ex. sheet_name=['Sheet 1', 'Sheet 2'])
        - {'Sheet 1' : 데이터프레임1, 'Sheet 2' : 데이터프레임2}인 dictionary 타입으로 return 됨
    
    
- 두 형식 모두 pandas를 통해 DataFrame 형식으로 읽올 수 있음.
    - index_col : 불러온 데이터중 하나의 칼럼을 인덱스로서 설정함
    - usecols : 데이터중 원하는 칼럼만 선별하여 불러옴
        - 로드 후 칼럼을 추출해내는 것보다 메모리를 절약할 수 있다고 함

### csv 파일

#### csv 파일 로드

In [1]:
import os
os.getcwd()

'C:\\Users\\ppy04\\OneDrive\\바탕 화면\\workspace\\INSIGHT\\insight-10th\\code\\13155a1\\session2'

In [2]:
# 라이브러리 로드
import pandas as pd
# csv 파일 -> pd.read_csv
# 데이터 프레임으로 저장

seoulfloating = pd.read_csv('./data/SeoulFloating.csv')
print(type(seoulfloating))
seoulfloating.head() #상위 5개의 데이터 보여줌

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,date,hour,birth_year,sex,province,city,fp_num
0,2020-01-01,0,20,female,Seoul,Dobong-gu,19140
1,2020-01-01,0,20,male,Seoul,Dobong-gu,19950
2,2020-01-01,0,20,female,Seoul,Dongdaemun-gu,25450
3,2020-01-01,0,20,male,Seoul,Dongdaemun-gu,27050
4,2020-01-01,0,20,female,Seoul,Dongjag-gu,28880


In [3]:
# 데이터프레임에서 하나의 열을 가져옴
# 즉, 데이터프레임은 여러개의 Series를 합쳐놓음

print(type(seoulfloating['fp_num']))
seoulfloating['fp_num']

<class 'pandas.core.series.Series'>


0          19140
1          19950
2          25450
3          27050
4          28880
           ...  
1084795    27620
1084796    56560
1084797    38960
1084798    25420
1084799    38650
Name: fp_num, Length: 1084800, dtype: int64

#### index_col와 usecols 비교

In [4]:
# index_col :불러온 데이터의 컬럼 중 하나의 열을 인덱스로서 설정
# 칼럼 설정은 인덱스 번호로도, 칼럼 이름으로도 가능하다

pd.read_csv('./data/SeoulFloating.csv',index_col=0).head() 

#pd.read_csv('data/SeoulFloating.csv',index_col='date').head()

Unnamed: 0_level_0,hour,birth_year,sex,province,city,fp_num
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-01-01,0,20,female,Seoul,Dobong-gu,19140
2020-01-01,0,20,male,Seoul,Dobong-gu,19950
2020-01-01,0,20,female,Seoul,Dongdaemun-gu,25450
2020-01-01,0,20,male,Seoul,Dongdaemun-gu,27050
2020-01-01,0,20,female,Seoul,Dongjag-gu,28880


In [5]:
# usecols : 데이터에서 일부 열(칼럼)만 선택해서 로드
# 불러올 칼럼 설정은 인덱스 번호로도, 칼럼 이름으로도 가능함

pd.read_csv('./data/SeoulFloating.csv',usecols=[0,1]).head()

#pd.read_csv('data/SeoulFloating.csv',usecols=['date','hour']).head()

Unnamed: 0,date,hour
0,2020-01-01,0
1,2020-01-01,0
2,2020-01-01,0
3,2020-01-01,0
4,2020-01-01,0


### tsv 파일

In [6]:
# tsv 파일 - read_csv로 읽되, sep의 기본 설정이 ','이므로 '\t'으로 바꾸어줘서 \t 단위로 필드를 구분하여 읽어줌

pd.read_csv('./data/province data.tsv',sep='\t').head(10)

Unnamed: 0,id,year,gdp,unemployment,sexratio
0,11,2006,4.685579,8.8,102
1,11,2007,7.781644,7.475,102
2,11,2008,4.963881,7.675,102
3,11,2009,3.602599,8.225,102
4,11,2010,6.572404,8.45,101
5,11,2011,5.035345,8.325,101
6,11,2012,3.554023,8.3,101
7,11,2013,2.106611,8.65,101
8,11,2014,3.307936,10.325,101
9,11,2015,5.153575,9.275,100


### excel 파일

In [7]:
# excel 파일 - read_excel 함수로 읽음(read_csv 시 오류)
# sheet_name 설정으로 시트를 설정해줄 수 있음

pd.read_excel('./data/서울시 지하철 호선별 역별 시간대별 승하차 인원 정보.xlsx',sheet_name='20년 2월').head()

# 숫자로 가능 0은 첫번째 sheet, 1은 두번째 sheet
# pd.read_excel('data/서울시 지하철 호선별 역별 시간대별 승하차 인원 정보.xlsx',sheet_name=1)

Unnamed: 0,사용월,호선명,지하철역,04시-05시 승차인원,04시-05시 하차인원,05시-06시 승차인원,05시-06시 하차인원,06시-07시 승차인원,06시-07시 하차인원,07시-08시 승차인원,...,23시-24시 하차인원,00시-01시 승차인원,00시-01시 하차인원,01시-02시 승차인원,01시-02시 하차인원,02시-03시 승차인원,02시-03시 하차인원,03시-04시 승차인원,03시-04시 하차인원,작업일자
0,202002,1호선,동대문,798,8,13638,1759,8461,5858,12050,...,9774,781,3497,0,27,0,0,0,0,20200303
1,202002,1호선,종로3가,116,22,3846,2299,3476,11699,4511,...,3806,1658,1698,0,10,0,0,0,0,20200303
2,202002,1호선,종각,79,3,3146,4391,3467,24993,5274,...,3360,1828,943,3,5,0,1,0,0,20200303
3,202002,1호선,시청,42,0,1952,3560,3300,16533,6242,...,2749,371,692,1,11,0,0,0,0,20200303
4,202002,1호선,서울역,753,16,8656,5881,11027,38332,32573,...,12290,1797,3647,2,126,2,2,0,0,20200303


In [8]:
# default는 첫번째 sheet

pd.read_excel('./data/서울시 지하철 호선별 역별 시간대별 승하차 인원 정보.xlsx').head()

Unnamed: 0,사용월,호선명,지하철역,04시-05시 승차인원,04시-05시 하차인원,05시-06시 승차인원,05시-06시 하차인원,06시-07시 승차인원,06시-07시 하차인원,07시-08시 승차인원,...,23시-24시 하차인원,00시-01시 승차인원,00시-01시 하차인원,01시-02시 승차인원,01시-02시 하차인원,02시-03시 승차인원,02시-03시 하차인원,03시-04시 승차인원,03시-04시 하차인원,작업일자
0,202001,8호선,산성,22,0,4469,865,7308,5246,17343,...,5877,162,1885,1,8,0,0,0,0,20200203
1,202001,중앙선,지평,0,0,0,0,0,0,304,...,0,0,0,0,0,0,0,0,0,20200203
2,202001,중앙선,양평,33,5,1255,73,2190,1173,7599,...,4138,165,1410,0,6,0,0,0,0,20200203
3,202001,중앙선,용문,206,1,786,10,2083,347,3364,...,1818,1,948,0,6,0,0,0,0,20200203
4,202001,중앙선,원덕,28,0,301,3,448,55,992,...,355,3,205,0,0,0,0,0,0,20200203


## 텍스트 데이터 (.txt)
- 표형식의 자료를 txt 형태로 저장한 경우 → read_csv로 로드.
- 일반 텍스트 문자열을 열고자 하는 경우 → with 문을 이용하여 파일 읽기/쓰기 (File I/O)
- 인코딩 관련
    : 텍스트파일을 읽을 때 Unicode Error가 발생하는 경우
    - 기본 인코딩 형식은 'cp949'이며, 오류가 생길경우 'utf-8'시도
    - utf-8도 안될 경우 이모지 등으로 인한 오류 (https://stackoverflow.com/questions/33404752/removing-emojis-from-a-string-in-python)

### 표를 담은 텍스트 파일의 경우
- pandas의 read_csv로 로드
- txt파일의 필드 구분이 어떻게 되어있는지 확인하여 sep 설정

In [9]:
# string.txt를 열어봐 필드 구분이 무엇으로 이루어졌는지 확인 한 후, 구분자를 설정해 줌.

pd.read_csv('./data/PatientInfo.txt',sep=',').head()
#텍스트파일에서 쉼표로 구분 = sep-','

Unnamed: 0,patient_id,sex,age,country,province,city,infection_case,infected_by,contact_number,symptom_onset_date,confirmed_date,released_date,deceased_date,state
0,1000000001,male,50s,Korea,Seoul,Gangseo-gu,overseas inflow,,75,2020-01-22,2020-01-23,2020-02-05,,released
1,1000000002,male,30s,Korea,Seoul,Jungnang-gu,overseas inflow,,31,,2020-01-30,2020-03-02,,released
2,1000000003,male,50s,Korea,Seoul,Jongno-gu,contact with patient,2002000001.0,17,,2020-01-30,2020-02-19,,released
3,1000000004,male,20s,Korea,Seoul,Mapo-gu,overseas inflow,,9,2020-01-26,2020-01-30,2020-02-15,,released
4,1000000005,female,20s,Korea,Seoul,Seongbuk-gu,contact with patient,1000000002.0,2,,2020-01-31,2020-02-24,,released


In [10]:
# default값은 ,임

pd.read_csv('./data/PatientInfo.txt').head()

Unnamed: 0,patient_id,sex,age,country,province,city,infection_case,infected_by,contact_number,symptom_onset_date,confirmed_date,released_date,deceased_date,state
0,1000000001,male,50s,Korea,Seoul,Gangseo-gu,overseas inflow,,75,2020-01-22,2020-01-23,2020-02-05,,released
1,1000000002,male,30s,Korea,Seoul,Jungnang-gu,overseas inflow,,31,,2020-01-30,2020-03-02,,released
2,1000000003,male,50s,Korea,Seoul,Jongno-gu,contact with patient,2002000001.0,17,,2020-01-30,2020-02-19,,released
3,1000000004,male,20s,Korea,Seoul,Mapo-gu,overseas inflow,,9,2020-01-26,2020-01-30,2020-02-15,,released
4,1000000005,female,20s,Korea,Seoul,Seongbuk-gu,contact with patient,1000000002.0,2,,2020-01-31,2020-02-24,,released


#### 실습 1. patientInfo 데이터의 patient_id, city, age 열들만 이용하는 데이터프레임 읽어오기

In [15]:
data_patientInfo = pd.read_csv('./data/PatientInfo.txt', usecols=['patient_id', 'city', 'age'])
data_patientInfo.head()

Unnamed: 0,patient_id,age,city
0,1000000001,50s,Gangseo-gu
1,1000000002,30s,Jungnang-gu
2,1000000003,50s,Jongno-gu
3,1000000004,20s,Mapo-gu
4,1000000005,20s,Seongbuk-gu


In [12]:
# 서담프로젝트때 사용한 데이터
# |\으로하면 다른 모양이 나옴.
pd.read_csv('./data/서담.txt',sep='|', index_col = 0).tail()

Unnamed: 0,title,header,comment_num,writer,like,upload_date,view,link,borad,text,dislike,comment,date_time,hour,word_token
8214,새해맞이 연게 첫글,,5,익명,35,01/01,785,http://www.ssodam.com//content/813081?prev=245...,연애상담소,다들 올해는 인생의 단짝을 만나용,0,[['네에 ㅠㅠ 올해는 정말 행복하고 싶어요.. 님두 좋은 인연 만나서 행복하세요 ...,2020-01-01 00:24:00,0.0,"[('새해', 'Noun'), ('맞이', 'Noun'), ('연', 'Noun')..."
8215,올해는 행시합격한다,,5,익명,86,01/01,1180,http://www.ssodam.com//content/813062?prev=245...,익게2,토모관 여러분도\n\n\n \n\n \n ...,0,"[['나도 행시 올 해 붙는다!'], ['나도 올해 붙는다!'], ['민특상디 사례...",2020-01-01 00:08:00,0.0,"[('올해', 'Noun'), ('는', 'Josa'), ('행시', 'Noun')..."
8216,??? : 야 올해가 몇년이냐?,,9,익명,127,01/01,1982,http://www.ssodam.com//content/813058?prev=245...,익게2,다들 새해복!,0,"[['좌우로 정렬해주세여'], ['ㅁㅊ ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 적절한 짤 추'], ['...",2020-01-01 00:06:00,0.0,"[('???', 'Punctuation'), (':', 'Punctuation'),..."
8217,2020년 서강의 첫 모습,,5,익명,101,01/01,1931,http://www.ssodam.com//content/813047?prev=245...,익게2,방금 토모관에서 나와서 찍어봤어20대의 절반을 서강과 함께할수 있어서 진심으로 행복...,0,"[['나도 방금 나왔는데 ㅎㅎㅎ 다미 본듯'], ['내년에는 좋은 소식만 들리자!!...",2020-01-01 00:04:00,0.0,"[('2020년', 'Number'), ('서강', 'Noun'), ('의', 'J..."
8218,2020년 파이팅!!,,15,익명,168,01/01,1335,http://www.ssodam.com//content/813032?prev=245...,익게2,모두들 파이팅!!,0,"[['올 첫글 ㅋㅋ'], ['아 너 뭔데 나보다 일찍 썼냐ㅡㅡ추천이나 먹어라'], ...",2020-01-01 00:00:00,0.0,"[('2020년', 'Number'), ('파이팅', 'Noun'), ('!!', ..."


#### 실습2. 서담 데이터의 title, like, view 열들만 이용하는 데이터프레임 읽어오기

In [16]:
# 아래와 같은 결과가 나오면 됩니다!!
ssodam = pd.read_csv("./data/서담.txt",sep='|', usecols = ['title', 'like', 'view']).head()
ssodam

Unnamed: 0,title,like,view
0,도대체가 학교의 기준이 무엇인지 이해가 안됩니다,32,429
1,학교 시설물 관련 부서 전화번호 적을테니 내일부터 전화 한통씩하자,38,577
2,걍 서강사이버대학으로 하자,42,564
3,학교 너무 빡친다,106,1830
4,박미선 누님 결혼식날 비 오셨죠?,40,824


![download.png](attachment:download.png)

### 일반 텍스트 문자열인 경우


- Python을 활용하여 텍스트분석을 하고자 할 때
- with문을 사용하여 읽기/쓰기
- 파일 열기모드 
    1. w : 파일에 내용을 새로 쓸 때 
    2. r : 파일을 읽기만 할 때 
    3. a : 파일의 마지막에 새로운 내용을 추가할 때
- 읽기 함수
    1. read : 파일 내용 전체를 문자열로 돌려줌
    2. readline : 파일의 첫번째 줄부터 반복하여 한줄씩 읽음
    3. readlines : 파일의 모든 줄을 읽어서 각각의 줄을 원소로 갖는 리스트로 돌려줌
- 관련 링크 : https://wikidocs.net/26

#### read

In [None]:
# with문을 활용하여 txt파일 읽어오기
# open('파일 이름', '모드') 로 사용
# 이경우 r을 이용해 읽기모드로 파일을 불러옴

with open('./data/robinson_crusoe_chapter_1.txt','r') as f:
    rc = f.read()

#error가 뜰 경우에 긁어서 구글링하면 나옵니다(익숙해져야함)
print(rc)

#### write

In [None]:
# with 문을 활용하여 txt파일 써오기
# 인자에 w를 사용함

my_words = 'Insight 10기 화이팅 :)'
with open('my_word.txt','w') as f:
    f.write(my_words)

In [None]:
with open('my_word.txt','r') as f:
    sogang = f.read()
print(sogang)

#### add

In [None]:
# with 문에 'a'인자로 파일의 마지막에 새로운 내용 추가

with open('my_word.txt','a') as f:
    f.write('\n' + my_words)
#\n = 줄바꿈
with open('my_word.txt','r') as f:
    sogang = f.read()
print(sogang)

#### 실습3. txt 파일을 열어 하고싶은 말 쓰고 저장하기(open 이용)

In [18]:
mywords = '안녕하세요!'
with open('my_word.txt', 'w') as f:
    f.write(mywords)

with open('my_word.txt','r') as f:
    insight = f.read()
    
print(insight)

안녕하세요!


### 데이터 저장
- pandas의 데이터프레임을 저장
- 데이터프레임.to_csv 함수를 이용

In [21]:
# seoulfloating 데이터의 1,2번째 컬럼을 불러옴

seoulfloating = pd.read_csv('./data/SeoulFloating.csv',usecols=[0,1])
seoulfloating.head()

Unnamed: 0,date,hour
0,2020-01-01,0
1,2020-01-01,0
2,2020-01-01,0
3,2020-01-01,0
4,2020-01-01,0


In [None]:
# csv 파일로 저장
# index = False 지정하면 인덱스는 저장 안함, default는 True

seoulfloating.to_csv('seoulfl.csv', index = False)

In [None]:
# txt 파일로도 저장가능!
# 이경우 ,로 구분되어 있음

#seoulfloating.to_csv('seoulfl.txt', index = False)

In [None]:
# 서담데이터의 제목과 조회수 컬럼을 불러옴

ssodam = pd.read_csv('./data/서담.txt',sep='|', usecols=['title', 'view'])
ssodam.head()

In [None]:
# csv 파일로 저장

#ssodam.to_csv('ssodam.csv', sep='|', index = False)

## json 파일(.json)


- javascript기반 텍스트 데이터 포맷 중 하나
- 다른 언어 간의 교환이 용이함
- python에서는 json이라는 내장 모듈을 활용하여 읽고 불러들이며, 파이썬 내부에서는 dictionary의 자료형으로써 읽고 쓸 수 있음

In [None]:
data = {

    "First Name": "Insight",
    "Last Name": "Sogang",
    "Age": 25,
    "University": "Sogang University",
    "Courses": 
        {
            "Classes": [
                "Big Data Design",
                "Marketing Analytics",
                "Business Statistics"
            ],
            "Major": "Business"
        }
}

### json 파일 로드 및 저장

In [None]:
# 모듈 import
import json
# json파일로 데이터 저장하기
# json.dump(데이터 이름, 파일) 으로 파일을 데이터 이름으로 저장함

with open('student_data.json','w') as json_file:
    json.dump(data, json_file)

dump라는 함수 이용 < == 데이터를 저장해주는 역할 \
load ==> 데이터 읽어주는 거

In [None]:
# json.load(파일) 을 이용해 json 파일을 불러들임

with open('student_data.json','r') as json_file:
    json_data = json.load(json_file)

In [None]:
json_data

### json 형식의 데이터를 dataframe으로 변환

In [None]:
# json 파일 읽어오기
# 한글이 적혀있는 국내 데이터의 경우 encoding을 'utf-8'로 설정함 (csv, xls, txt 파일 모두!) 

with open('./data/서울시 월별 평균 대기오염도 정보.json','r',encoding='utf-8') as json_file:
    json_data = json.load(json_file)

In [None]:
json_data

In [None]:
json_data['DATA']

In [None]:
# dictionary 데이터를 dataframe으로

pd.DataFrame(json_data['DATA']).head(10)

## pickle파일 (.pickle, .pkl)


- 리스트나 클래스같은 텍스트가 아닌 자료형은 일반적인 파일 입출력 방법으로는 데이터를 저장하거나 불러올 수 없다.
- 파이썬에서는 이와 같은 텍스트 이외의 자료형을 파일로 저장하기 위하여 pickle이라는 모듈을 제공한다.
- 바이트 형식의 자료형이기 때문에 연산속도가 더 빠른 장점이 있다.
- 머신러닝에서 "모델" 자체를 저장하고 불러올 수 있다.

In [None]:
#모듈 import
import pickle

### list 데이터

In [None]:
# list 데이터
my_list = ['insight', 'sogang']

# 바이트 형식으로 작성하기 때문에 write의 w에 b(byte)를 붙여 'wb'로
# 방법은 json과 동일함

with open('my_list.pickle', 'wb') as p:
    pickle.dump(my_list, p)
# 바이트 형식으로 읽으려고 하기 때문에 read의 r에 b(byte)를 붙여 'rb'로

with open('my_list.pickle','rb') as p:
    my_list = pickle.load(p)

my_list    

### numpy 데이터

In [None]:
# numpy 데이터도 가능

import numpy as np

array = np.array([[3,6,3,1],[2,3,4,7]])

In [None]:
# 데이터 저장

with open('myarray.pickle', 'wb') as p:
    pickle.dump(array, p)
    
# 데이터 불러오기

with open('myarray.pickle','rb') as p:
    array = pickle.load(p)
    
array

* numpy 관련 추가 학습용 자료 https://www.youtube.com/watch?v=mirZPrWwvao

## OS 라이브러리를 활용한 데이터 로드

- os 모듈은 운영체제에서 제공하는 정보를 제공하거나 운영체제의 기능을 사용할 수 있는 방법을 제공한다.


In [None]:
import os 
# 현재 Jupyter가 실행중인 경로를 확인
os.getcwd()

In [None]:
#해당 디렉토리에 있는 모든 파일이름을 리스트로 반환
os.listdir()

In [None]:
# 반복문과 조건문을 활용해서 필요한 파일 명을 추출할 수 있습니다. 
txtList = []
for x in os.listdir('./data'):
    if x.endswith('txt'):
            txtList.append(x)
            
print(txtList)

In [None]:
#현재 위치한 디렉토리 위치 변화
os.chdir("./data")
os.getcwd()

In [None]:
sodam=pd.read_csv(txtList[-1],sep='|', usecols=['title','like','view'])
sodam

## Raw String 활용

파일 위치를 가져올시 파이썬에서 바로 활용할 수 없고 수정을 거쳐야 합니다. 위의 data 폴더의 위치를 가져오면 다음과 같습니다.<br>
__"C:\Users\js953\Desktop\INSIGHT\INSIGHT 8기\INSIGHT_Session2(Pandas, 수집방법)\data"__ <br><br>
이를 파이썬에서 활용하기 위해서는 <br>
__"C:/Users/js953/Desktop/INSIGHT/INSIGHT 8기/INSIGHT_Session2(Pandas, 수집방법)/data__" 혹은 <br>
탈출문자(escape)를 활용하여 __"C:\\Users\\js953\Desktop\\INSIGHT\INSIGHT 8기\\INSIGHT_Session2(Pandas, 수집방법)\\data__" 와 같이 기입해야 합니다. <br><br>

이러한 문제를 쉽게 활용하기 위해 __Raw String "r"__을 활용합니다.

위와 같이 파일 경로에 r을 붙으면 가져온 파일 경로를 파이썬 문법을 따르지 않고 활용할 수 있습니다!<br><br>

Raw String 참고 : https://seong6496.tistory.com/93