###### 판다스는 1차원 배열 형태의 시리즈 자료 구조와 2차원 배열 형태의 데이터 프레임 자료 구조를 지원한다. 데이터 프레임은 엑셀의 테이블과 비슷하게 행과 열로 만들어진다.

In [1]:
import pandas as pd
print(pd.__version__)

2.0.2


In [3]:
data1 = ['a','b','c','d','e']
print(data1)
print("자료형:", type(data1))

['a', 'b', 'c', 'd', 'e']
자료형: <class 'list'>


In [4]:
sr1 = pd.Series(data1)
print("자료형:", type(sr1))

자료형: <class 'pandas.core.series.Series'>


In [5]:
print(sr1)
# 문자열 데이터가 숫자형 인덱스와 짝을 이루는 형태
# dtype는 자료형을 나타내고, object는 문자열을 말한다.

0    a
1    b
2    c
3    d
4    e
dtype: object


In [6]:
# 시리즈의 객체 원소를 추출할 때는 loc인덱서를 사용한다.
sr1.loc[0]
# 첫번째 인덱스 0을 입력하면 'a' 값이 출력된다.

'a'

In [8]:
sr1.loc[1:3]
# 주의할점은 범위의 마지막 인덱스에 해당하는 원소도 포함되어 추출된다.

1    b
2    c
3    d
dtype: object

In [9]:
data2 = (1,2,3.14,100,-10)
sr2 = pd.Series(data2)
print(sr2)

0      1.00
1      2.00
2      3.14
3    100.00
4    -10.00
dtype: float64


In [10]:
# 1차원 구조의 시리즈를 여러 개 결합하면 데이터프레임을 만들 수 있다.
# 시리즈 2개를 원소로 갖는 딕셔너리를 정의하고,
# DataFrame 함수에 입력한다. 딕셔너리의 key에 해당하는 값이
# 각 열의 이름이 되고, 딕셔너리의 value에 해당하는 시리즈가 열의 데이터로 변환된다.
dict_data = {'c0':sr1, 'c1': sr2}
df1 = pd.DataFrame(dict_data)
df1

Unnamed: 0,c0,c1
0,a,1.0
1,b,2.0
2,c,3.14
3,d,100.0
4,e,-10.0


In [11]:
# 데이터 프레임의 2차원 구조(행,렬) 딕셔너리 key는 c0, c1이며
# 각각 sr1, sr2의 value를 갖는다.
type(df1)
# 데이터프레임의 열 이름은 columns 속성으로 추출한다.
# 딕셔너리 키인 c0과 c1이 데이터 프레임의
# 열 이름으로 변환됨을 알 수 있다. 

pandas.core.frame.DataFrame

In [12]:
df1.columns

Index(['c0', 'c1'], dtype='object')

In [14]:
df1.columns = ['string', 'number']
df1
# columns속성에 새로운 열의 이름의 배열을 지정하는 방식으로 열의 이름을 재구성할수 있다.

Unnamed: 0,string,number
0,a,1.0
1,b,2.0
2,c,3.14
3,d,100.0
4,e,-10.0


In [17]:
df1.index

RangeIndex(start=0, stop=5, step=1)

In [19]:
df1.index = ['r0','r1','r2','r3','r4']
df1
# 속성에 새로운 행 인덱스 배열을 지졍하여 다음과 같이 행 인덱스를 입력할 수 있다.

Unnamed: 0,string,number
r0,a,1.0
r1,b,2.0
r2,c,3.14
r3,d,100.0
r4,e,-10.0


In [21]:
df1.loc['r2','number']
# 데이터 프레임의 일부분을 추출할때 loc 인덱서를 사용한다.
# loc[행인덱스, 열이름] 형태로 입력하면 해당 위치의 원소를 추출한다.

3.14

In [23]:
df1.loc['r2':'r3','string':'number']
# loc 인덱서에 범위를 지정하는 방법
# 행 인덱스 옵션에 'r2':'r3' 범위를 지정하고
# 열 이름옵션에 'string':'number' 범위를 설정한다.

Unnamed: 0,string,number
r2,c,3.14
r3,d,100.0


In [24]:
df1.loc['r2':'r3','number']
# 위와 다르다는 것을 인지할 것
# loc 인덱서의 행 인덱스 옵션에 'r2':'r3' 범위를 지정하고
# 열 이름 옵션에 'number' 열을 추가하면
# r2부터 r3행이 선택되고 그중에 number열을 선택하여 출력한다.

r2      3.14
r3    100.00
Name: number, dtype: float64

In [25]:
df1.loc['r2','string':'number']
# loc인덱서의 행 인덱스 옵션에 'r2'를 지정하고
# 열 이름 옵션에 'string':'number'범위를 지정한다.
# 이 경우 string 열부터 number열까지 선택되고 r2행이 선택된다.
# **시리즈 객체가 추출된다.

string       c
number    3.14
Name: r2, dtype: object

In [26]:
df1.loc[:,'string']
# loc 인덱서의 행 인덱스 옵션에 모든(:) 행을 지정하고,
# 열 이름 옵션에 'string'열을 지정한다.
# 'string'열의 데이터가 모두 선택된다. 시리즈 객체가 추출된다.

r0    a
r1    b
r2    c
r3    d
r4    e
Name: string, dtype: object

In [28]:
df1.loc['r2':'r3', :]
# loc인덱서의 행 인덱스 옵션에 'r2':'r3' 범위를 지정하고
# 열 이름 옵션에 모든(:) 열을 지정한다.
# 행 2개, 열 2개인 데이터프레임이 추출된다.

Unnamed: 0,string,number
r2,c,3.14
r3,d,100.0


In [1]:
v = list(range(10))
print(v)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [3]:
[i for i in v]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [4]:
print("".join(str(i) for i in v))

0123456789


In [5]:
v = [list(range(10)), [10,11,12]]
print(v)

[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9], [10, 11, 12]]


In [6]:
[j for i in v for j in i]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

In [8]:
v = 3
if v< 5 : print(0)
print(0 if v < 5 else 1)

0
0


In [9]:
v = 6
if v > 5 : print(1)
print(1 if v > 5 else 0)

1
1


In [13]:
v = 11
print(0 if v < 5 else 1 if v < 10 else 2)

2


In [14]:
v = list(range(10))
print(v)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [16]:
[i for i in v if i == 6]

[6]

In [18]:
for i in v:
    if i == 6:
        print(i)
    else:
        print("0")
# [i for i in v if i ==6 else 0]
[i if i == 6 else "0" for i in v]

0
0
0
0
0
0
6
0
0
0


['0', '0', '0', '0', '0', '0', 6, '0', '0', '0']

In [12]:
from bs4 import BeautifulSoup
import requests
import time
from pandas import DataFrame

In [13]:
page_num = [0, 1, 11, 21]
search = input("검색할 내용을 입력하세요:")
#url 생성
urlEL = "https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=" + search + "%start=" + str(page_num[0])
print("생성url: ",urlEL)

생성url:  https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=우울증%start=0


In [14]:
userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"

In [15]:
# 접속객체 생성
session = requests.Session()
# 접속객체에 부가정보(header) 삽입하기
session.headers.update({
    "Referer": "",
    "User-Agent": userAgent
})
news = []
for i in range(len(page_num)):
    url = "https://search.naver.com/search.naver?sm=tab_hty.top&where=news&query=" + search + "%start=" + str(page_num[i])

    r = session.get(url)
    if r.status_code != 200:
        msg = "[%d Error] %s 에러가 발생함" % (r.status_code, r.reason)
        raise Exception(msg)
    r.encoding = "utf-8"
    soup = BeautifulSoup(r.text)

    articles = soup.select("div.group_news > ul.list_news > li div.news_area > a")

    news_title = []
    content = []
    agency = []
    for i in articles:
        news_title.append(i.attrs['title'])

        content.append(i.attrs['href'])
# print(news_title)
# print(content)
df = DataFrame(content, news_title)
df.to_excel("네이버기사.xlsx")
df

Unnamed: 0,0
"아산, 2022년 하반기 공·유(공감과 치유) 아카데미 'Start'",http://www.ccdn.co.kr/news/articleView.html?id...
"""매달 천만원 병원비가 아깝다고..."" 아버지 떠나보낸 송민호가 원망하며 쓴 편지",https://www.insight.co.kr/news/422878
[K-스타트업의 도약 17] 이모티브 “모바일 게임으로 ADHD 치료”,https://www.ekn.kr/web/view.php?key=2022111101...
"[K-스타트업의 도약 ⑧]“VR·AI로 ADHD 치료” 히포티앤씨...""디지털치료제 ‘어텐케어’로 비용 줄이고 효과 극대화""",https://www.ekn.kr/web/view.php?key=2022091201...
"[K-스타트업의 도약 ⑥] 슬립테크 루플 ""빛을 이용한 불면증 치유""",https://www.ekn.kr/web/view.php?key=2022090201...
우크라이나 사태와 한반도 비핵화,http://www.mediatoday.co.kr/news/articleView.h...
사회적 스트레스가 쌓이는 지금 마음 챙김이 필요!,http://www.breaknews.com/858647
"인공지능 기업, AI중심도시 광주행 가속화",http://www.breaknews.com/841815
[21세기 중심 의학 : 생활의학] 생활의학과 약물요법,http://www.withinnews.co.kr/news/view.html?sec...
블랙핑크 보고 있나? 캐나다 학생들의 '뚜두뚜두',http://www.ohmynews.com/NWS_Web/View/at_pg.asp...


In [1]:
# 주성분 분석용 패키지
from sklearn.decomposition import PCA
# 주성분 분석 결과를 DataFrame으로 확인할 수 있는 기능을 제공하는 패키지
from pca import pca 
# 표준화 처리 패키지
from sklearn.preprocessing import StandardScaler
from pandas import read_excel, DataFrame
from matplotlib import pyplot as plt
import seaborn as sb
import sys
import os
from sklearn.decomposition import PCA
# 주성분 분석 결과를 DataFrame으로 확인할 수 있는 기능을 제공하는 패키지
from pca import pca 
# 표준화 처리 패키지

In [2]:
from pandas import read_csv
import pandas as pd

In [5]:
df = pd.read_csv('서울시CCTV.CSV', encoding="cp949")
df

Unnamed: 0,구분,총계,2013년 이전\n설치된 CCTV,2013년,2014년,2015년,2016년,2017년,2018년,2019년,...,Unnamed: 16374,Unnamed: 16375,Unnamed: 16376,Unnamed: 16377,Unnamed: 16378,Unnamed: 16379,Unnamed: 16380,Unnamed: 16381,Unnamed: 16382,Unnamed: 16383
0,계,91341,2804,3097,3981,6576,8850,11566,11024,13151,...,,,,,,,,,,
1,종로구,1980,36,540,107,161,131,158,152,69,...,,,,,,,,,,
2,중 구,2584,130,87,77,236,240,372,386,155,...,,,,,,,,,,
3,용산구,2847,44,50,68,83,295,491,115,322,...,,,,,,,,,,
4,성동구,4047,58,99,110,366,279,945,459,647,...,,,,,,,,,,
5,광진구,3480,507,82,84,64,21,465,443,709,...,,,,,,,,,,
6,동대문구,2759,1,4,12,107,802,711,201,218,...,,,,,,,,,,
7,중랑구,4193,224,331,104,145,153,170,215,1074,...,,,,,,,,,,
8,성북구,4842,137,170,229,322,594,811,867,714,...,,,,,,,,,,
9,강북구,3321,0,21,16,68,210,4,375,963,...,,,,,,,,,,
