## Pandas_ Data file
- 데이터 읽기와 쓰기 함수
    - 판다스에서 제공하는 읽기 / 쓰기 함수
        - read_csv, to_csv
        - read_excel, to_excel
        - read_hdf, to_hdf
        - read_sql, to_sql
        - read_json, to_json
        - read_html, to_html
        - read_clipboard, to_clipboard
    - Pandas는 다양한 형식의 외부 데이터 파일을 읽어 데이터프레임으로 만듬
        - CSV, Excel, HDF5, SQL, JSON, HTML, Clipboard...
        - 데이터프레임은 따로 생성하지 않고  외부에 존재하는 데이터 파일을 읽어와서 사용함
    - `절대 경로명과 상대 경로 차이점`
        - 절대 경로 : 모든 경로명을 표기
        - 상대 경로 : 현재 작업하고 있는 소스 코드가 저장되어 있는 위치를 기준으로 파일 경로를 표기

In [1]:
import pandas as pd

### CSV 파일
- `CSV파일로 저장하는 이유 : Excel 파일은 용량이 크고, 데이터 처리 속도가 느린 점도 있고 라이센스 비용이 발생하기에 전세계 누구나 볼 수 있는 CSV파일로 저장한다.`
- 각 라인의 컬럼들이 콤마로 분리된 텍스트 파일 포맷
- 스프레드 시트와 데이터 베이스에 대한 가장 일반적인 가져오기 및 내보내기
- CSV 형식은 특별한 표준이 없어 각기 다른 어플리케이션에 의해 만들어지고 사용되는데 차이가 있다.
- 단순하며, 쉬운 간편성 때문에 많이 사용되고 있다.

    - CSV 파일 읽기 : `pandas.read_csv('파일경로/파일명')`
    - CSV 파일 저장 : 데이터프레임은 2차원 배열로 구조화된 데이터이기 떄문에 2차원 구조를 갖는 CSV파일로 변환 가능
        - `DataFrame.to_csv('파일경로/파일명')`

#### CSV 파일 한글 인코딩 방식
- 엑셀을 사용하여 데이터 시트에 입력하고 엑셀 파일을 CSV파일로 저장하는 형식 
    - CSV : 한글 인코딩 방식이 필요한 파일 형식
    - CSV UTF-8 : 한글 인코딩 방식이 불필요한 파일 형식

- 파일 생성 및 읽기 - 한글 인코딩 방식 지정
    - CSV 형식으로 저장 : `encoding='cp949'` 반드시 선언
    - CSV UTF-8 형식으로 저장 : 한글 인코딩 방식을 생략

In [2]:
# 샘플데이터로 사용할 CSV파일을 %%writefile 매직 명령으로 만들기
%%writefile sample.csv 
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

UsageError: Line magic function `%%writefile` not found.


In [3]:
df = pd.read_csv('sample.csv')
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [4]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample1.csv


In [5]:
df1 = pd.read_csv('sample1.csv', names=['c1', 'c2', 'c3'])
df1

Unnamed: 0,c1,c2,c3
0,c1,c2,c3
1,1,1.11,one
2,2,2.22,two
3,3,3.33,three


In [6]:
%%writefile sample2.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Overwriting sample2.csv


In [7]:
df = pd.read_csv('sample2.csv', na_values=['누락']) # 특정 값을 NaN값으로 저장
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [8]:
%%writefile sample3.txt
c1 c2 c3 c4
0.179181 -1.538472 1.347553 0.43381
1.024209 0.087307 -1.281997 0.49265
0.417899 -2.002308 0.255245 -1.10515

Overwriting sample3.txt


In [9]:
pd.read_table('sample3.txt', sep='\s+') # 구분자가 쉼표가 아니면 sep사용 (구분자의 길이가 정해지지 않은 공백인 경우 : \s+)

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


- 엑셀 데이터를 CSV (쉼표로 분리)(*csv)형식으로 저장

In [10]:
#df = pd.read_csv('test.csv', encoding='cp949')
#df

### Excel 파일
- Excel 파일 행과 열은 데이터프레임의 행, 열로 일대일 대응
- CSV와 마찬가지로 데이터 분석 라이브러리 판다스를 이용하여 Excel 파일의 데이터를 불러오기
    - `pandas.read_excel('파일경로/파일명')`

- Excel 파일 저장
    - `DataFrame.to_excel('파일경로/파일명')`

- **주의사항**
    - 엑셀 시트에 데이터를 입력할 때 정렬 옵션은 사용하지 않고 기본값 그대로 입력 (정렬 옵션 사용 시 데이터가 깨질 수 있음)

In [11]:
!pip install openpyxl



In [12]:
person_data = {'성명' : ['이순신', '김유진'],
               '나이' : [22, 19], '성별' : ['남', '여'],
               '키' : [175, 163], '체중' : [75, 53]}
df = pd.DataFrame(person_data)
df.set_index('성명', inplace=True) # 성명 열을 인덱스로 지정
print(df)
df.to_excel('person1.xlsx')

     나이 성별    키  체중
성명                 
이순신  22  남  175  75
김유진  19  여  163  53


In [13]:
# excel 파일명을 변수에 대입
data = 'person1.xlsx'
# 데이터 프레임
df1 = pd.read_excel(data)
df2 = pd.read_excel(data, header=None)

print(df1)
print(df2)

    성명  나이 성별    키  체중
0  이순신  22  남  175  75
1  김유진  19  여  163  53
     0   1   2    3   4
0   성명  나이  성별    키  체중
1  이순신  22   남  175  75
2  김유진  19   여  163  53


In [14]:
person1_data = {'성명' : ['이순신', '김유진'],
               '나이' : [22, 19], '성별' : ['남', '여'],
               '키' : [175, 163], '체중' : [75, 53]}
df = pd.DataFrame(person1_data)
df.set_index('성명', inplace=True) # 성명 열을 인덱스로 지정
print(df1)
df.to_excel('output.xlsx', sheet_name='검진 데이터')

    성명  나이 성별    키  체중
0  이순신  22  남  175  75
1  김유진  19  여  163  53


In [15]:
data = 'output.xlsx'
df1 = pd.read_excel(data)
print(df1)

    성명  나이 성별    키  체중
0  이순신  22  남  175  75
1  김유진  19  여  163  53


- `DataFrame.copy()` 
    - 데이터 및 인덱스의 복사본을 포함하여 전체 복사본을 만든다.
    - 기본값 (deep=True)으로 복사하면 원본 데이터프레임이 변경되어도 복사본 데이터프레임은 변경되지 않음

In [16]:
person1_data = {'성명' : ['이순신', '김유진'],
               '나이' : [22, 19], '성별' : ['남', '여'],
               '키' : [175, 163], '체중' : [75, 53]}
df1 = pd.DataFrame(person1_data)
df1.set_index('성명', inplace=True) # 성명 열을 인덱스로 지정
df2 = df1.copy()
print(df1, '\n')
print(df2)
with pd.ExcelWriter('output.xlsx') as writer:
    df1.to_excel(writer, sheet_name='검진 데이터')
    df2.to_excel(writer, sheet_name='나이 데이터')

     나이 성별    키  체중
성명                 
이순신  22  남  175  75
김유진  19  여  163  53 

     나이 성별    키  체중
성명                 
이순신  22  남  175  75
김유진  19  여  163  53


- excel 파일로 저장 시 여러 sheet_name으로 저장하기

In [17]:
person1_data = {'이름': ['이순신', '김유진'],
                '나이': [22, 19], '성별': ['남', '여'],
                '키': [175, 163], '체중': [75, 53]}

person2_data = {'이름': ['홍길동', '이순신', '김유진', '정이동', '이순신', '박유정'],
                '나이': [21, 22, 25, 23, 24, 20],
                '생년월일': ['2001년 1월 1일', '2000년 5월 3일', '1997년 7월 9일',
                            '1999년 6월 1일', '1998년 9월 12일', '2002년 12월 24일']}

# DataFrame() 함수를 사용하여 데이터 프레임을 변환하고 변수 df에 저장
df1 = pd.DataFrame(person1_data)
df1.set_index('이름', inplace=True)  # 이름 열을 인덱스로 지정
print(df1)

print('\n')

df2 = pd.DataFrame(person2_data)
df2.set_index('이름', inplace=True)  # 이름 열을 인덱스로 지정
print(df2)

# 데이터 프레임 2개를 Excel 파일로 저장하기
d_save = pd.ExcelWriter('person2.xlsx')
df1.to_excel(d_save, sheet_name='검진 데이터')  # 첫 번째 Excel 시트에 저장
df2.to_excel(d_save, sheet_name='나이 데이터')  # 두 번째 Excel 시트에 저장


     나이 성별    키  체중
이름                 
이순신  22  남  175  75
김유진  19  여  163  53


     나이           생년월일
이름                    
홍길동  21    2001년 1월 1일
이순신  22    2000년 5월 3일
김유진  25    1997년 7월 9일
정이동  23    1999년 6월 1일
이순신  24   1998년 9월 12일
박유정  20  2002년 12월 24일


### Json파일
- 데이터를 공유할 목적으로 개발된 특수한 형태의 파일 형식
- Json (확장자 .json) 은 JavaScript Object Notation의 약자로 JavaScript 문법에 영향을 받아 개발된 가벼운 데이터 표현 방식
- Json은 데이터를 교환하는 한 포맷으로서 그 단순함과 유연함 때문에 널리 사용되고 있다.
    - Json 파일 읽기 : `pandas.read_json('파일경로/파일명')`
        - encoding : 기본값 = 'utf-8'
    - Json 파일 저장 : `DataFrame.to_json('파일경로/파일명')`

In [18]:
# json 파일 저장
person_data = {'이름': ['이순신', '김유진'],
                '나이': [22, 19], '성별': ['남', '여'],
                '키': [175, 163], '체중': [75, 53]}

df = pd.DataFrame(person_data)
df.set_index('이름', inplace=True)
print(df)
df.to_json('person1.json')

     나이 성별    키  체중
이름                 
이순신  22  남  175  75
김유진  19  여  163  53


In [19]:
# Json 파일 읽기
data = 'person1.json'
df1 = pd.read_json(data)
print(df1)

     나이 성별    키  체중
이순신  22  남  175  75
김유진  19  여  163  53


### 파이썬 웹크롤링
- 웹 페이지를 원본 그대로 불러와 웹 페이지 내에 데이터를 추출하는 기술
- 웹 크롤러 : 크롤링 전용 소프트웨어
    - 파이썬 크롤링의 대표적인 라이브러리 : beautifulsoup
    - 데이터 웹 크롤링 하기
        - 웹소켓을 이용하여 원하는 웹사이트에 연결 요청을 진행
        - 연결 요청을 응답으로 웹서버는 응답을 보내면 보통 HTML이나 JSON형식으로 반환
        - 반환된 HTML, JSON데이터를 beautifulsoup 라이브러리를 이용하여 파싱