### 다이아몬드 데이터셋

In [2]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/dataq/main/diamonds.csv',index_col=0)

In [3]:
corr_by_pandas = df[["carat","price"]].corr()

In [4]:
# 피어슨 상관계수 구하기
from scipy import stats

corr_by_scipy,pv = stats.pearsonr(df['carat'],df['price'])
corr_by_scipy

0.9215913011934767

In [5]:
# 단일표본 t-test 검정
from scipy import stats

H_prop = df[df['color'] == 'H']
ttest = stats.ttest_1samp(H_prop['price'], 3932)
ttest

Ttest_1sampResult(statistic=11.988997411117696, pvalue=7.569973305218302e-33)

In [6]:
# 집단간 등분산 검정을 위한 (levene,fligner,bartlett) 검정 실시
from scipy import stats

F = df[df['color'] == 'F']
G = df[df['color'] == 'G']

leve = stats.levene(F['price'],G['price'])
fli = stats.fligner(F['price'],G['price'])
bartlet = stats.bartlett(F['price'],G['price'])

print(leve)
print(fli)
print(bartlet)

LeveneResult(statistic=53.627886257416655, pvalue=2.511093007074788e-13)
FlignerResult(statistic=37.04347553879807, pvalue=1.155244880009172e-09)
BartlettResult(statistic=47.52732212008511, pvalue=5.424264079418252e-12)


In [7]:
# 이표본 독립 t-test 검정
t_test_FG = stats.ttest_ind(F['price'],G['price'],equal_var =False)
t_test_FG

Ttest_indResult(statistic=-5.045279980436125, pvalue=4.5670321227041464e-07)

In [8]:
# 세 집단간 평균 비교를 위한 anova검정
from scipy import stats

F = df[df['color'] == 'F']
G = df[df['color'] == 'G']
D = df[df['color'] == 'D']

leve = stats.levene(F['price'],G['price'],D['price'])
print(leve)

anova = stats.f_oneway(F['price'],G['price'],D['price'])
print(anova)

LeveneResult(statistic=118.97521469312785, pvalue=3.557425577381817e-52)
F_onewayResult(statistic=101.1811790316069, pvalue=1.6513790091285713e-44)


In [80]:
# 각 연속형 변수에 대한 iqr방식의 이상값 추출
lis = []
for col in ['carat','depth','table','price','x','y','z']:
    target = df[col]
    iqr = target.quantile(0.75) - target.quantile(0.25)
    outlier = target.loc[(target < target.quantile(0.25)-1.5*iqr) | (target > target.quantile(0.75) + 1.5*iqr)]
    lis.append([col,len(outlier)])

ratio_df = pd.DataFrame(lis).rename(columns={0:'column',1:'ratio'}).sort_values('ratio',ascending=False)
ratio_df

Unnamed: 0,column,ratio
3,price,3540
1,depth,2545
0,carat,1889
2,table,605
6,z,49
4,x,32
5,y,29


In [9]:
colorDF = df.groupby('color')['price'].agg(['max','min','mean'])
colorDF

Unnamed: 0_level_0,max,min,mean
color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,18693,357,3169.954096
E,18731,326,3076.752475
F,18791,342,3724.886397
G,18818,354,3999.135671
H,18803,337,4486.669196
I,18823,334,5091.874954
J,18710,335,5323.81802


In [88]:
(df.groupby('color').size().sort_values().index)

Index(['J', 'I', 'D', 'H', 'F', 'E', 'G'], dtype='object', name='color')

In [89]:
dic

{'J': 1, 'I': 2, 'D': 3, 'H': 4, 'F': 5, 'E': 6, 'G': 7}

In [95]:
dic = {x : i+1 for i, x in enumerate((df.groupby('color').size().sort_values().index))}

df['colorLabel'] = df['color'].map(lambda x : dic[x])

In [97]:
mean_cut = df.groupby('cut')[['colorLabel']].mean()
mean_cut

Unnamed: 0_level_0,colorLabel
cut,Unnamed: 1_level_1
Fair,4.51677
Good,4.56278
Ideal,4.769152
Premium,4.644913
Very Good,4.654362


In [105]:
df['priceLabel'] = df['price'].map(lambda x : x//1000)

In [136]:
lableCount = df.groupby('priceLabel')['price'].size().to_frame().reset_index()
lableCount.rename(columns={'price':'counts'})

Unnamed: 0,priceLabel,counts
0,0,14499
1,1,9704
2,2,6131
3,3,4226
4,4,4653
5,5,3174
6,6,2278
7,7,1669
8,8,1307
9,9,1076


### 크롤링

In [11]:
import requests
from bs4 import BeautifulSoup as bs

In [12]:
# url 불러오기
url = 'https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&date=20210503'

In [14]:
# url에 있는 데이터를 requests를 통하여 parsing하여 soup에 저장
data = requests.get(url)

soup = bs(data.text)
soup.head()[:5]

[<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>,
 <meta content="IE=edge" http-equiv="X-UA-Compatible"/>,
 <meta content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg" property="me2:image"/>,
 <meta content="네이버영화 " property="me2:post_tag"/>,
 <meta content="네이버영화" property="me2:category1"/>]

In [15]:
# 모든 meta 데이터를 meta에 저장
meta = soup.find_all('meta')
meta

[<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>,
 <meta content="IE=edge" http-equiv="X-UA-Compatible"/>,
 <meta content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg" property="me2:image"/>,
 <meta content="네이버영화 " property="me2:post_tag"/>,
 <meta content="네이버영화" property="me2:category1"/>,
 <meta content="" property="me2:category2"/>,
 <meta content="랭킹 : 네이버 영화" property="og:title"/>,
 <meta content="영화, 영화인, 예매, 박스오피스 랭킹 정보 제공" property="og:description"/>,
 <meta content="article" property="og:type"/>,
 <meta content="https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&amp;date=20210503" property="og:url"/>,
 <meta content="http://static.naver.net/m/movie/icons/OG_270_270.png" property="og:image"/>,
 <meta content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg" property="og:article:thumbnailUrl"/>,
 <meta content="네이버 영화" property="og:article:author"/>,
 <meta content="https://movie.naver.com/" property="og:article:author:ur

In [16]:
# list_ranking 테이블에 있는 데이터를 lstRanking에 저장
lstRanking = soup.find(class_='list_ranking')
lstRanking

<table cellspacing="0" class="list_ranking">
<caption class="blind">랭킹 테이블</caption>
<col width="6%"/><col width="*"/><col width="15%"/><col width="3%"/><col width="12%"/><col width="2%"/><col width="5%"/>
<thead>
<tr>
<th scope="col">순위</th>
<th scope="col">영화명</th>
<th colspan="3" scope="col">평점</th>
<th colspan="2" scope="col">변동폭</th>
</tr>
</thead>
<tbody>
<tr><td class="blank01" colspan="8"></td></tr>
<!-- 예제
				<tr>
					<td class="ac"><img src="https://ssl.pstatic.net/imgmovie/2007/img/common/bullet_r_g50.gif" alt="50" width="14" height="13"></td>
					<td class="title"><a href="#">트랜스포머</a></td>
					<td class="ac"><img src="https://ssl.pstatic.net/imgmovie/2007/img/common/icon_down_1.gif" alt="down" width="7" height="10"></td>
					<td class="range ac">7</td>
				</tr>
				-->
<tr>
<td class="ac"><img alt="01" height="13" src="https://ssl.pstatic.net/imgmovie/2007/img/common/bullet_r_r01.gif" width="14"/></td>
<td class="title">
<div class="tit5">
<a href="/movie/bi/mi/basic

In [17]:
# 파싱한 데이터 중 랭킹, 이름, 점수, 링크 를 데이터프레임으로 저장
import pandas as pd

title= [x.text.strip() for x in lstRanking.find_all('div',class_='tit5')]
point =[x.text for x in lstRanking.find_all('td',class_='point')]
rank = range(1,len(point)+1)
link = ['https://movie.naver.com' + x.a.get('href') for x in lstRanking.find_all('div',class_='tit5')]

movieTable = pd.DataFrame({'rank':rank,'title':title,'point':point,'link':link})

In [18]:
movieTable.head()

Unnamed: 0,rank,title,point,link
0,1,레옹,9.37,https://movie.naver.com/movie/bi/mi/basic.nhn?...
1,2,다시 태어나도 우리,9.35,https://movie.naver.com/movie/bi/mi/basic.nhn?...
2,3,피아니스트,9.33,https://movie.naver.com/movie/bi/mi/basic.nhn?...
3,4,"미안해요, 리키",9.32,https://movie.naver.com/movie/bi/mi/basic.nhn?...
4,5,부활: 그 증거,9.31,https://movie.naver.com/movie/bi/mi/basic.nhn?...


In [19]:
movieTable["date"] = pd.to_datetime("2021-05-03")
movieTable

Unnamed: 0,rank,title,point,link,date
0,1,레옹,9.37,https://movie.naver.com/movie/bi/mi/basic.nhn?...,2021-05-03
1,2,다시 태어나도 우리,9.35,https://movie.naver.com/movie/bi/mi/basic.nhn?...,2021-05-03
2,3,피아니스트,9.33,https://movie.naver.com/movie/bi/mi/basic.nhn?...,2021-05-03
3,4,"미안해요, 리키",9.32,https://movie.naver.com/movie/bi/mi/basic.nhn?...,2021-05-03
4,5,부활: 그 증거,9.31,https://movie.naver.com/movie/bi/mi/basic.nhn?...,2021-05-03
5,6,자산어보,9.31,https://movie.naver.com/movie/bi/mi/basic.nhn?...,2021-05-03
6,7,소울,9.3,https://movie.naver.com/movie/bi/mi/basic.nhn?...,2021-05-03
7,8,극장판 귀멸의 칼날: 무한열차편,9.3,https://movie.naver.com/movie/bi/mi/basic.nhn?...,2021-05-03
8,9,플립,9.27,https://movie.naver.com/movie/bi/mi/basic.nhn?...,2021-05-03
9,10,우리들,9.26,https://movie.naver.com/movie/bi/mi/basic.nhn?...,2021-05-03


### 게임 판매량

In [187]:
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/video/master/video_games_sale.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,Name,Platform,Year_of_Release,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,Critic_Score,Critic_Count,User_Score,User_Count,Developer,Rating,Year_of_ten
0,0,Wii Sports,Wii,2006.0,Sports,Nintendo,41.36,28.96,3.77,8.45,82.53,76.0,51.0,8.0,322.0,Nintendo,E,2000.0
1,1,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.68,12.76,3.79,3.29,35.52,82.0,73.0,8.3,709.0,Nintendo,E,2000.0
2,2,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.61,10.93,3.28,2.95,32.77,80.0,73.0,8.0,192.0,Nintendo,E,2000.0
3,3,New Super Mario Bros.,DS,2006.0,Platform,Nintendo,11.28,9.14,6.5,2.88,29.8,89.0,65.0,8.5,431.0,Nintendo,E,2000.0
4,4,Wii Play,Wii,2006.0,Misc,Nintendo,13.96,9.18,2.93,2.84,28.92,58.0,41.0,6.6,129.0,Nintendo,E,2000.0


In [204]:
df['year_of_ten'] = df['Year_of_ten'].map(lambda x : (x//10) * 10)
df['year_of_ten'].value_counts().index[0]

2000.0

In [227]:
df["Platform"].unique()

array(['Wii', 'DS', 'X360', 'PS3', 'PS2', '3DS', 'PS4', 'PS', 'XB', 'PC',
       'PSP', 'WiiU', 'GC', 'GBA', 'XOne', 'PSV', 'DC'], dtype=object)

In [228]:
a = df[df["Platform"].isin(['PS','PS2','PS3','PS4','PSV'])]['Genre']
len(a[a == 'Action'])

616

In [290]:
plt = df["Platform"].value_counts()
plt = plt[plt >= 400].index.values

new_df = df[df['Platform'].isin(plt)]
new_df.groupby('Platform')['User_Score'].mean().sort_values(ascending=False).to_frame()

Unnamed: 0_level_0,User_Score
Platform,Unnamed: 1_level_1
PS2,7.664386
XB,7.540708
PC,7.060369
DS,7.047198
Wii,6.903758
PS3,6.782705
X360,6.780769


In [294]:
df.head()

Unnamed: 0.1,Unnamed: 0,Name,Platform,Year_of_Release,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,Critic_Score,Critic_Count,User_Score,User_Count,Developer,Rating,Year_of_ten,year_of_ten
0,0,Wii Sports,Wii,2006.0,Sports,Nintendo,41.36,28.96,3.77,8.45,82.53,76.0,51.0,8.0,322.0,Nintendo,E,2000.0,2000.0
1,1,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.68,12.76,3.79,3.29,35.52,82.0,73.0,8.3,709.0,Nintendo,E,2000.0,2000.0
2,2,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.61,10.93,3.28,2.95,32.77,80.0,73.0,8.0,192.0,Nintendo,E,2000.0,2000.0
3,3,New Super Mario Bros.,DS,2006.0,Platform,Nintendo,11.28,9.14,6.5,2.88,29.8,89.0,65.0,8.5,431.0,Nintendo,E,2000.0,2000.0
4,4,Wii Play,Wii,2006.0,Misc,Nintendo,13.96,9.18,2.93,2.84,28.92,58.0,41.0,6.6,129.0,Nintendo,E,2000.0,2000.0


In [317]:
new_df = df[df['Name'].str.contains("Mario")]['Developer'].value_counts()
Ans = new_df[new_df == 3].index.values
Ans

array(['Nintendo, Nintendo Software Technology', 'Nintendo, Nd Cube'],
      dtype=object)

In [326]:
target = df[df['Platform'] == 'PS2']['User_Score'].kurtosis()
target

2.4920035946875965

In [342]:
target = df[["NA_Sales","EU_Sales","JP_Sales","Other_Sales"]].sum(axis=1)
sum(df['Global_Sales'] != target)

3636

In [348]:
sum(df[df["User_Count"] >= 120].User_Score >= 9.0)

86

In [366]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
rb = scaler.fit_transform(df['Global_Sales'].values.reshape(-1,1))
ans = len(rb[rb>=40])
ans

6

### urllib

In [1]:
# 웹페이지 읽기
from urllib.request import urlopen
f = urlopen('http://hanbit.co.kr')
type(f)

http.client.HTTPResponse

In [2]:
# 상태코드 추출
f.status

200

In [3]:
# HTTP 헤더 추출
f.getheader('Content-Type')

'text/html; charset=UTF-8'

### HTTP 헤더에서 인코딩 방식 추출

In [4]:
import sys
from urllib.request import urlopen
f = urlopen('http://www.hanbit.co.kr/store/books/full_book_list.html')

In [5]:
# HTTP 헤더를 기반으로 인코딩 방식을 추출
encoding = f.info().get_content_charset(failobj="utf-8")

In [6]:
# 인코딩 방식을 표준 오류에 출력
print('encoding:',encoding, file=sys.stderr)

encoding: utf-8


In [7]:
# 추출한 인코딩 방식으로 디코딩
text = f.read().decode(encoding)
print(text)

<!DOCTYPE html>
<html lang="ko">
<head>
<!--[if lte IE 8]>
<script>
  location.replace('/support/explorer_upgrade.html');
</script>
<![endif]-->
<meta charset="utf-8"/>
<title>한빛출판네트워크</title>
<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> 
<meta http-equiv="X-UA-Compatible" content="IE=Edge" />
<meta property="og:type" content="website"/>
<meta property="og:title" content="한빛출판네트워크"/>
<meta property="og:description" content="더 넓은 세상, 더 나은 미래를 위한 아시아 출판 네트워크 :: 한빛미디어, 한빛아카데미, 한빛비즈, 한빛라이프, 한빛에듀"/>
<meta property="og:image" content="https://www.hanbit.co.kr/images/hanbitpubnet_logo.jpg" />
<meta property="og:url" content="https://www.hanbit.co.kr/store/books/full_book_list.html"/>
<link rel="canonical" href="https://www.hanbit.co.kr/store/books/full_book_list.html" />
<meta name="keywords" content="한빛미디어,한빛아카데미,한빛비즈,한빛라이프,한빛에듀,리얼타임,대관서비스,책,출판사,IT전문서,IT활용서,대학교재,경제경영,어린이/유아,실용/여행,전자책,자격증,교육,세미나,강의,ebook,정보교과서" />
<meta name="descripti

### meta 태그에서 인코딩 방식 추출

In [8]:
import re
import sys
from urllib.request import urlopen

# url불러오기
f = urlopen('http://www.hanbit.co.kr/store/books/full_book_list.html')

# bytes 자료형의 응답 본문을 일단 변수에 저장
bytes_content = f.read()

# charest은 HTML의 앞부분에 적혀 있는 경우가 많으므로
# 응답 본문의 앞부분 1024바이트를 ASCII 문자로 디코딩
# ASCII 범위 이외의 문자는 U+FFFD(REPLACEMENT CHARACTER)로 변환되어 예외가 발생하지 않음
scanned_text = bytes_content[:1024].decode('ascii',errors='replace')

# 디코딩한 문자열에서 정규 표현식으로 charset 값을 추출합니다.
match = re.search(r'charset=["\']?([\w-]+)', scanned_text)
if match:
    encoding = match.group(1)
else:
    # charset에 명시돼 있지 않으면 UTF-8을 사용합니다
    encoding = 'utf-8'
    
# 추출한 인코딩을 표준 오류에 출력합니다
print('encoding:',encoding, file=sys.stderr)

# 추출한 인코딩으로 다시 디코딩합니다.
text = bytes_content.decode(encoding)

# 응답 본문을 표준 출력에 출력합니다.
print(text)

<!DOCTYPE html>
<html lang="ko">
<head>
<!--[if lte IE 8]>
<script>
  location.replace('/support/explorer_upgrade.html');
</script>
<![endif]-->
<meta charset="utf-8"/>
<title>한빛출판네트워크</title>
<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> 
<meta http-equiv="X-UA-Compatible" content="IE=Edge" />
<meta property="og:type" content="website"/>
<meta property="og:title" content="한빛출판네트워크"/>
<meta property="og:description" content="더 넓은 세상, 더 나은 미래를 위한 아시아 출판 네트워크 :: 한빛미디어, 한빛아카데미, 한빛비즈, 한빛라이프, 한빛에듀"/>
<meta property="og:image" content="https://www.hanbit.co.kr/images/hanbitpubnet_logo.jpg" />
<meta property="og:url" content="https://www.hanbit.co.kr/store/books/full_book_list.html"/>
<link rel="canonical" href="https://www.hanbit.co.kr/store/books/full_book_list.html" />
<meta name="keywords" content="한빛미디어,한빛아카데미,한빛비즈,한빛라이프,한빛에듀,리얼타임,대관서비스,책,출판사,IT전문서,IT활용서,대학교재,경제경영,어린이/유아,실용/여행,전자책,자격증,교육,세미나,강의,ebook,정보교과서" />
<meta name="descripti

encoding: utf-8


### 웹 페이지에서 데이터 추출하기

In [9]:
# re 모듈 읽어오기
import re

# re.search로 두 번쨰 매개변수의 문자열이 첫 번째 매개변수의 정규 표현식에 맞는지 확인
# 맞으면 Match, 아니면 None 반환
re.search(r'a.*c','abc123DEF')

<re.Match object; span=(0, 3), match='abc'>

In [10]:
# 정규 표현식에 맞지 않는 예
re.search(r'a.*d','abc123DEF')

In [11]:
# 세 번쨰 매개변수에는 옵션 지정
# re.IGNORECASE 또는 re.I를 지정하면 대소문자 무시
re.search(r'a.*d','abc123DEF,re.I')

In [12]:
# Match 객체의 group() 메서드로 일치한 값 추출
m = re.search(r'a(.*)c','abc123DEF')
m.group(0)

'abc'

In [13]:
# 매개변수에 1 이상의 숫자를 지정하면 정규 표현식에서 ()로 감싼 부분에 해당하는 값 추출
m.group(1)

'b'

In [14]:
# re.findall() 함수를 사용하면 정규 표현식에 맞는 모든부분을 추출할 수 있음
# 2글자 이상의 단어를 모두 추출

re.findall(r'\w{2,}','This is a pen')

['This', 'is', 'pen']

In [15]:
# re.sub()함수를 사용하면 정규 표현식에 맞는 부분을 수정할 수 있음
# 3번쨰 매개변수에 넣은 문자열에서 첫 번쨰 정규 표현식에 맞는 부분을 2번쨰 매개변수로 변경
re.sub(r'\w{2,}','That','This is a pen')

'That That a That'

### HTML에서 책의 URL과 제목 추출

In [16]:
import re
import sqlite3
from urllib.request import urlopen
from html import unescape

def main():
    """
    메인 처리입니다.
    fetch(), scrape(), save() 함수를 호출합니다.
    """
    html = fetch('http://www.hanbit.co.kr/store/books/full_book_list.html')
    books = scrape(html)
    save('books.db', books)

def fetch(url):
    """
    매개변수로 전달받을 url을 기반으로 웹 페이지를 추출합니다.
    웹 페이지의 인코딩 형식은 Content-Type 헤더를 기반으로 알아냅니다.
    반환값: str 자료형의 HTML
    """
    f = urlopen(url)
    # HTTP 헤더를 기반으로 인코딩 형식을 추출합니다.
    encoding = f.info().get_content_charset(failobj="utf-8")
    # 추출한 인코딩 형식을 기반으로 문자열을 디코딩합니다.
    html = f.read().decode(encoding)
    return html


In [17]:
def scrape(html):
    """
    매개변수 html로 받은 HTML을 기반으로 정규 표현식을 사용해 도서정보 추출
    반환값 : 도서(dict)리스트
    """
    books = []
    # re.findall()을 사용해 도서 하나에 해당하는 HTML추출


    for partial_html in re.findall(r'<td class ="left"><a.*?</td>', html, re.DOTALL):
        url = re.search(r'<a href="(.*?)">',partial_html).group(1)
        url = 'http://www.hanbit.co.kr' + url
        # 태그를 제거해서 도서의 제목을 추출
        title = re.sub(r'<.*?>','',partial_html)
        title = unescape(title)
        books.append({'url': url, 'title': title})
        print('url:',url)
        print('title:',title)
        print('---')
    
    return books


In [18]:
def save(db_path, books):
    """
    매개변수 books로 전달된 도서 목록을 SQLite 데이터베이스에 저장합니다.
    데이터베이스의 경로는 매개변수 dp_path로 지정합니다.
    반환값: None(없음)
    """
    # 데이터베이스를 열고 연결을 확립합니다.
    conn = sqlite3.connect(db_path)
    # 커서를 추출합니다.
    c = conn.cursor()
    # execute() 메서드로 SQL을 실행합니다.
    # 스크립트를 여러 번 실행할 수 있으므로 기존의 books 테이블을 제거합니다.
    c.execute('DROP TABLE IF EXISTS books')
    # books 테이블을 생성합니다.
    c.execute('''
        CREATE TABLE books (
            title text,
            url text
        )
    ''')
    # executemany() 메서드를 사용하면 매개변수로 리스트를 지정할 수 있습니다.
    c.executemany('INSERT INTO books VALUES (:title, :url)', books)
    # 변경사항을 커밋(저장)합니다.
    conn.commit()
    # 연결을 종료합니다.
    conn.close()