# 제2장 데이터 요약과 시각화 (2)
### __파이썬 데이터의 구조__


---

### __사전 작업__

* 실습을 위한 저장소 복사

In [None]:
!git clone https://github.com/BizStat/BizDataAnalysis.git

* 한글 폰트 설치와 matplotlib 환경 설정

In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -f -v
!rm ~/.cache/matplotlib -rf

* 한글 그래프 환경 적용을 위해 세션 다시 시작
  - 위의 메뉴에서 [런타임] -> [세션 다시 시작] 을 선택하거나 [Control] + M 을 누르면 됨

* 설치된 한글 폰트 목록 확인

In [None]:
!fc-list :lang=ko

* matplotlib에 사용할 한글 폰트 설정
  - 앞의 한글 폰트 목록으로부터 자신이 사용하고자 하는 폰트이름을 복사하여 지정

In [None]:
from matplotlib import rc
rc('font', family='NanumMyeongjo')

---
### __실습 내용__

* 날짜와 시간을 다루는 datetime 라이브러리

In [None]:
import datetime as dt
x = dt.datetime.now()
print(x.date())
print(x.time())
print(x.weekday())
print('오늘 날짜 :', x.strftime('%Y/%m/%d'))
print('오늘 요일 :', x.strftime('%a'))
print('지금 시각 :', x.strftime('%H:%M:%S'))
print(dt.datetime.strptime('2023.03.01','%Y.%m.%d'))
print((dt.datetime.strptime('2023.03.01','%Y.%m.%d')).date())

In [None]:
from pytz import timezone, utc
KST = timezone('Asia/Seoul')
now = dt.datetime.utcnow()
x = utc.localize(now).astimezone(KST)
print('지금 시각 :', x.strftime('%H:%M:%S'))

### pandas 라이브러리를 통해 제공하는 dataframe 클래스

* pandas 라이브러리 불러오기(load)

In [None]:
import pandas as pd

* 다양한 데이터형으로부터 데이터프레임 생성 사례

| 고객번호 | 고객이름 | 판매액(단위:원) |
|---|---|---|
|1 | 김영희 | 30000 |
|2 | 박철수 | 12000 |
|3 | 이수철 | 98000 |

In [None]:
x1 = [1, '김영희', 30000]
x2 = [2, '박철수', 12000]
x3 = [3, '이수철', 98000]
col_name = ['고객번호','고객이름','판매액(단위:원)']
df1 = pd.DataFrame(data=[x1,x2,x3], columns=col_name)

In [None]:
df1.head()

* 엑셀 파일을 읽어들여 데이터프레임 생성

In [None]:
df2 = pd.read_excel('/content/BizDataAnalysis/DATA/Advertiser.xlsx')
df2.head()

In [None]:
df2 = pd.read_csv('/content/BizDataAnalysis/DATA/Advertiser.csv')

* 콤마로 구분된 텍스트 파일을 읽어들여 데이터프레임 생성

In [None]:
df2 = pd.read_csv('/content/BizDataAnalysis/DATA/Advertiser.csv', encoding='euc-kr',header=None, nrows=1)
df2.head()

* 탭으로 구분된 텍스트 파일을 읽어들여 데이터프레임 생성

In [None]:
df2 = pd.read_table('/content/BizDataAnalysis/DATA/Advertiser.txt', sep='\t', encoding='CP949')
df2.head()

* read_table 메서드 이용사례

In [None]:
df2 = pd.read_table('/content/BizDataAnalysis/DATA/Advertiser.txt', sep='\t', encoding='CP949', header=None, skiprows=1)
df2.head()

* 데이터프레임 살펴보기

In [None]:
df2 = pd.read_table('/content/BizDataAnalysis/DATA/Advertiser.txt', sep='\t', encoding='CP949')

In [None]:
df2.dtypes
df2.info()
df2.columns
df2.values
df2.value_counts()
df2.describe()

* pandas 숫자 표현식 변환

In [None]:
pd.options.display.float_format = '{:.3f}'.format

In [None]:
pd.reset_option('display.float_format')

* 데이터프레임의 일부 데이터의 추출

In [None]:
df2.TV

In [None]:
df2['TV']

In [None]:
df2.iloc[1]

In [None]:
df2.index = df2.Advertiser

In [None]:
df2.loc['삼성전자']

* 새로운 컬럼의 추가와 연산

In [None]:
df2['Sum']=0

In [None]:
df2.Sum

In [None]:
df2.Sum = df2.TV + df2.Radio + df2.Newspaper + df2.Magazine

In [None]:
df2.head()

In [None]:
del df2['Sum']

* 데이터 필터링 : 조건에 따른 데이터 추출

In [None]:
df2.TV > 10000000

In [None]:
df2.TV>10000000

In [None]:
df2[df2.TV>10000000]

In [None]:
df2[df2.TV>df2.TV.mean()]

In [None]:
df2[ (df2.TV>df2.TV.mean()) | (df2.Radio == 0)]