In [None]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

# 데이터 입출력

## 외부 파일 읽어오기

* 1) 파일의 경로를 찾기

* 2) read_확장자() 함수로 데이터 읽어오기

**[csv 파일 읽어오기]**

In [None]:
# 외부 데이터 파일의 경로(상대경로) 찾기
file_path = './read_csv_sample.csv'

In [None]:
# 확장자에 따른 데이터를 최종 읽어들이기
df1 = pd.read_csv(file_path)

df1

In [None]:
# 기본적으로 csv 파일의 가장 첫번째 행을 컬럼(헤더) 취급리
df2 = pd.read_csv(file_path, header=None)
df2

In [None]:
# 특정 컬럼을 행 인덱스로 지정 가능 : index_col
df3 = pd.read_csv(file_path, index_col=None)
df3

In [None]:
df4 = pd.read_csv(file_path, index_col='c2')
df4

**[excel 파일 읽어오기]**

In [None]:
# 파일경로 찾기
file_path = './남북한발전전력량.xlsx'

In [None]:
# read_확장자()
df1 = pd.read_excel(file_path)
df1

In [None]:
df2 = pd.read_excel(file_path, header=None)
df2

**[json 파일 읽어오기]**

In [None]:
df1 = pd.read_json('./read_json_sample.json')
df1

In [None]:
# json 파일 읽어들일 때는 header option 사용 불가
df2 = pd.read_json('./read_json_sample.json', header=None)
df2

**[웹(Web)에서 읽어오기]**

In [None]:
# HTML에서 읽어오기
url = './sample.html'

In [None]:
tables = pd.read_html(url)
tables

In [None]:
df1 = tables[0]
df1

In [None]:
df2 = tables[1]
df2

In [None]:
# set_index() : 특정 컬럼을 행 인덱스로 지정
df3 = df1.set_index(['Unnamed: 0'])

df3

## 데이터 파일 저장하기

* 1) 파일이 저장될 경로 지정 + 파일명도 지정

* 2) to_확장자() 함수로 파일 저장

**[csv 파일로 저장]**

In [None]:
data = {
    'name' : ['Jerry', 'Riah', 'Paul'],
    'algo' : ['A', 'A+', 'B'],
    'python' : ['C', 'B', 'B+'],
    'pandas' : ['B+', 'C', 'C+']
}

data

In [None]:
# 원본데이터(row data)를 데이터프레임으로 먼저 변환
df = pd.DataFrame(data)
df

In [None]:
# to_csv() : csv 파일로 내보내기
file_path = './df_sample.csv'

df.to_csv(file_path)

In [None]:
df2 = df.set_index('name')
df2

In [None]:
df2.to_csv('./df_sample.csv')

**[JSON 파일로 저장하기]**

In [None]:
data = {
    'name' : ['Jerry', 'Riah', 'Paul'],
    'algo' : ['A', 'A+', 'B'],
    'python' : ['C', 'B', 'B+'],
    'pandas' : ['B+', 'C', 'C+']
}

data

In [None]:
# [실습] df_sample.json 파일로 저장해보세요

**[excel 파일 저장하기]**

In [None]:
df2.to_excel('./df_sample.xlsx')

In [None]:
# 여러 데이터프레임을 하나의 excel 파일에 각각 sheet 별로 저장
data1 = data.copy()

data2 = {
    'c0' : [1, 2, 3],
    'c1' : [4, 5, 6],
    'c2' : [7, 8, 9],
    'c3' : [10, 11, 12],
    'c4' : [13, 14, 15]
}

In [None]:
data1

In [None]:
data2

In [None]:
df1 = pd.DataFrame(data1)
df1.set_index('name', inplace=True)
df1

In [None]:
df2 = pd.DataFrame(data2)
df2.set_index('c0', inplace=True)
df2

In [None]:
# df1을 excel 파일의 sheet1, df2를 excel 파일의 sheet2에 각각 저장
with pd.ExcelWriter('./df_excelwriter.xlsx', mode='w', engine='openpyxl') as writer :
  df1.to_excel(writer, sheet_name='Sheet1')
  df2.to_excel(writer, sheet_name='Sheet2')

## 데이터 살펴보기

In [None]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

In [None]:
'''
# UC Irvine(UCI) Machine Learning Repository에서 제공하는 자동차 연비(auto mpg) 데이터 셋
# 출처 : https://archive.ics.uci.edu/dataset/9/auto+mpg

      속성(특성-feature)                       데이터 타입 - 범위(상세)

    1. mpg:                  연비                 continuous                       연속값
    2. cylinders:            실린더수             multi-valued discrete            이산값
    3. displacement:         배기량               continuous
    4. horsepower:           마력(출력)           continuous
    5. weight:               차중(무게)           continuous
    6. acceleration:         가속능력             continuous
    7. model year:           출시년도             multi-valued discrete
    8. origin:               제조국               multi-valued discrete (USA : 1, JPN : 2, EU : 3)
    9. car name:             모델명               string (unique for each instance)


'''

**[데이터 로딩 후 일부 확인 및 처리]**

In [None]:
# 서버에 있는 데이터 파일 경로 확인 후 파일 읽어들이기
# csv to df

df = pd.read_csv('./auto-mpg.csv')

In [None]:
# 데이터파일을 읽어들인 후 전체데이터가 들어있는 변수를 호출해서 여는 것은 권장사항이 아니다
#  (데이터가 매우 클 경우)

# 일부만 확인하도록 하는 방법이 더 권장 - 관련 함수가 존재함
df.head()

In [None]:
# 처음 5개 행 확인
df = pd.read_csv('./auto-mpg.csv', header=None)

df.head()

In [None]:
# 컬럼 이름을 지정
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration',
              'model year', 'origin', 'car name']

df.head()

In [None]:
# 기본 데이터를 저장
df2 = df.set_index('mpg')
df2.to_csv('./auto-mpg-header.csv')

In [None]:
# 일부 데이터를 확인 : tail() - 아래서부터 일부 확인
df.tail()

In [None]:
# 일부 확인할 행수를 지정 가능
df.head(10)

In [None]:
df.tail(10)

In [None]:
df.head(3)

**[데이터 요약 정보 확인]**

In [None]:
# 모양과 크기 확인 : shape
df.shape

In [None]:
# 데이터의 기본 정보 확인 : info()
df.info()

In [None]:
# 데이터형(자료형) 확인
df.dtypes

In [None]:
# 개별 컬럼의 자료형 확인
print(df['mpg'].dtypes)
print('-'*40)
print(df.mpg.dtypes)

In [None]:
# 기술통계 정보 확인 : describe()
df.describe()

In [None]:
df.info()

In [None]:
# 기본적으로 기술통계는 산술데이터만 수행됨.
# describe() 는 산술데이터가 아닌 컬럼은 출력시 제외하도록 설계되어 있음

df.describe(include='all')

In [None]:
# 각 컬럼별 데이터(원소) 개수 확인
df.count()

In [None]:
# 대표하는 고유값 개수 확인
df.origin.value_counts()

**[통계함수 적용]**

* 평균 등 적용

In [None]:
print(df.mean(numeric_only=True))
print('-'*40)
print(df.mpg.mean())

* 상관계수

In [None]:
# 상관계수 : 두 변수가 얼마만큼의 상관이 있는지를 수치로 나타내주는 값
# -1 <= r <= 1

# corr()
df.corr(numeric_only=True)

In [None]:
# 확인하려는 컬럼끼리만 상관계수 구하기
df[['displacement', 'weight']].corr()

**[판다스 내장 그래프 도구]**

In [None]:
df2 = pd.read_excel('./남북한발전전력량.xlsx')

df2.head(6)

In [None]:
# 남한, 북한 발전전력량 중 합계 부분만 따로 추출
df_south_north = df2.iloc[[0, 5], 2:]

df_south_north

In [None]:
# 기본 정보 확인
df_south_north.info()

In [None]:
type(df_south_north.columns)

In [None]:
# 행 인덱스 객체 이름 변경
df_south_north.index = ['South', 'North']

df_south_north

* 선그래프

In [None]:
# 선 그래프 함수 : plot()
df_south_north.plot()

In [None]:
# 행, 열을 전치해서 다시 그리기
tdf_sn = df_south_north.T

tdf_sn.head()

In [None]:
tdf_sn.plot()

* 막대 그래프

In [None]:
tdf_sn.plot(kind='bar')

* 산점도

In [None]:
df = pd.read_csv('./auto-mpg-header.csv')
df.head()

In [None]:
df[['displacement', 'weight']].corr()

In [None]:
# 2개의 컬럼 선택해서 산점도 그리기
df.plot(x='weight', y='displacement', kind='scatter')

In [None]:
df.plot(x='origin', y='model year', kind='scatter')

* 박스플롯

In [None]:
# describe() 와 비슷한 결과
df[['mpg', 'cylinders']].plot(kind='box')