## Dataframe 데이터 다루기 기초: pandas (https://hong-sam.tistory.com/100)
- 데이터프레임(dataframe)은 행과 열을 가진 2 x 2 테이블로 엑셀의 스프레드시트와 유사한 구조를 가진 데이터 유형이다. 
- 텍스트 데이터를 저장하고 메타 정보를 이용하여 검색하기 위해 많이 사용하는 데이터 유형이기도 하다.
- 데이터프레임을 생성, 조작, 저장하기 위해서는 **pandas** 라이브러리가 필요하다.
- 데이터를 엑셀이나 csv 포맷 등으로 내보내거나 엑셀, csv 파일을 읽을 때에도 **pandas** 라이브러리를 이용한다.

#### 1. dataframe 만들기
- dataframe은 리스트(list)를 이용하거나 딕셔너리(dictionary)를 이용하여 만들 수 있다.

##### List를 이용하여 dataframe 만들기

In [None]:
import pandas as pd

list_a = ['a', 2, 3, True]
list_b = ['b', 5, 6, False]
list_c = ['c', 8, 9, True]

frame_1 = pd.DataFrame([list_a, list_b, list_c])
frame_1

In [None]:
print("The dimension of the dataframe is", frame_1.shape)
print("The row number of the dataframe is", frame_1.shape[0])
print("The column number of the dataframe is", frame_1.shape[1])

- 리스트로 만든 dataframe의 열에 이름(인덱스)을 붙이는 방법은 다음과 같다.

In [None]:
frame_1 = pd.DataFrame([list_a, list_b, list_c], index=["alpha", "bravo", "charlie"])
frame_1

- 리스트로 만든 dataframe의 칼럼에 이름을 붙이는 방법은 다음과 같다.

In [None]:
frame_1 = pd.DataFrame([list_a, list_b, list_c], index=["alpha", "bravo", "charlie"], columns=['alphabet', 'number_1', 'number_2', 'logi'])
frame_1

##### Dictionary를 이용하여 dataframe 만들기
- 위에서 리스트로 만든 것과 동일한 dataframe을 딕셔너리를 이용하여 만들 수 있다.

In [None]:
dic_data = {
    'alphabet': ['a', 'b', 'c'],
    'number_1': [2, 5, 8],
    'number_2': [3, 6, 9],
    'logi': [True, False, True]
}

frame_2 = pd.DataFrame(dic_data, index=["alpha", "bravo", "charlie"])
frame_2

#### 2. Dataframe 검색하기

##### 열(column) 검색하기

In [None]:
print(frame_2['alphabet']); print(frame_2['logi'])

In [None]:
print(frame_2['alphabet'][0]); print(frame_2['logi'][0])

In [None]:
print(frame_2.alphabet); print(frame_2.logi)

##### 열(row) 검색하기: **loc()**와 **iloc()**
- **loc()**: 인덱스명으로 검색
- **iloc()**: 인덱스 위치값, 즛 인덱스 시퀀스(sequence)로 검색

In [None]:
print(frame_2.loc['alpha']); print(frame_2.loc['bravo'])

In [None]:
print(frame_2.loc['alpha'][0]); print(frame_2.loc['alpha'][1])

In [None]:
print(frame_2.iloc[0]); print(frame_2.iloc[1])

In [None]:
print(frame_2.iloc[0][0]); print(frame_2.iloc[1][0])

#### 3. 열(column)과 행(row) 추가하기

##### 행 추가하기

In [None]:
frame_col_added = pd.DataFrame(frame_2, columns=['alphabet', 'number_1', 'number_2', 'logi', 'symbol'])
frame_col_added

In [None]:
frame_col_added['symbol'] = ['@', '&', '#']
frame_col_added

##### 열 추가하기

In [None]:
frame_row_added = frame_col_added.copy()
frame_row_added

In [None]:
frame_row_added.loc['delta'] = ['d', 10, 11, False, '~']
frame_row_added

#### 4. 행과 열 삭제하기: **drop()**

In [None]:
frame_col_added = frame_row_added.drop('symbol', axis=1)
frame_col_added

In [None]:
frame_row_added = frame_row_added.drop('delta', axis=0)
frame_row_added

#### 5. 실제 dataframe에서 정보 검색해 보기
- python_tutorial_03에서 실습했던 IMDb Top250 Movie 정보를 추출하여 dataframe으로 만들기
- 만든 dataframe에서 정보 검색하기 

In [None]:
import requests
from bs4 import BeautifulSoup
import re

url = 'https://www.imdb.com/chart/top?pf_rd_m=A2FGELUUNOQJNL&pf_rd_p=470df400-70d9-4f35-bb05-8646a1195842&pf_rd_r=74D09HPMTCCHQ2GNQSST&pf_rd_s=right-4&pf_rd_t=15506&pf_rd_i=top&ref_=chttp_ql_3'
source = requests.get(url)
source = source.content
webpage = BeautifulSoup(source, 'html.parser')

movie_list = webpage.find(name='tbody').find_all(name='tr')

poster_image_urls = []
movie_titles = []
movie_urls = []
movie_ranks = []
movie_years = []
movie_ratings = []
for movie in movie_list:
    poster_tag = movie.find(name='td').find('img')
    poster_url = poster_tag.attrs['src']
    poster_image_urls.append(poster_url)
    
    title_col = movie.find(name='td', class_='titleColumn')
    title = title_col.find('a').get_text().strip()
    title_url = title_col.find('a').attrs['href']
    movie_titles.append(title)
    movie_urls.append(title_url)

    x = title_col.get_text().strip()
    rank = re.search('^\d{1,3}', x).group()
    year = re.search('\d{4}', x).group()    
    # rank = re.search('^\d{1,3}', title_col.get_text().strip()).group()
    # year = re.search('\d{4}', title_col.get_text().strip()).group()
    movie_ranks.append(rank)
    movie_years.append(year)
    
    rating = movie.find(name='td', class_='ratingColumn imdbRating').get_text().strip()
    movie_ratings.append(rating)

In [None]:
import pandas as pd

top_250_movie = pd.DataFrame({'포스터': poster_image_urls, 
                         '제목': movie_titles, 
                         '영화_url': movie_urls,
                         '순위': movie_ranks,
                         '상영연도': movie_years,
                         '평점': movie_ratings
                         }
                         )

top_250_movie.head()

In [None]:
top_250_movie.info()

In [None]:
top_250_movie = top_250_movie.astype({'순위': 'int', '상영연도': 'int', '평점': 'float'})
top_250_movie.info()

##### Dataframe 검색해 보기

- '평점'이 9.0 이상인 열의 정보만 출력하기 (1)

In [None]:
top_250_movie[top_250_movie['평점'] >= 9.0]

- '평점'이 9.0 이상인 열의 정보만 출력하기 (2)

In [None]:
top_250_movie.loc[top_250_movie['평점'] >= 9.0]

- '평점'이 9.0 미만이면서 8.7 이상인 열의 정보만 출력하기

In [None]:
top_250_movie[(top_250_movie['평점'] < 9.0) & (top_250_movie['평점'] >= 8.7)]

- '평점'이 8.0을 초과하면서 '상영연도'가 2020년 이후인 열의 정보만 출력하기

In [None]:
top_250_movie[(top_250_movie['평점'] > 8.0) & (top_250_movie['상영연도'] >= 2020)]

- '평점'이 8.8을 초과하거나(or) '상영연도'가 2020년 이후인 열의 정보만 출력하기

In [None]:
top_250_movie[(top_250_movie['평점'] > 8.8) | (top_250_movie['상영연도'] >= 2020)]

- '제목'이 정확히 Daeboo와 일치하는 열만 출력하기

In [None]:
top_250_movie[top_250_movie['제목'] == 'Daeboo']

- '제목'에 'ment'라는 문자열이 포함된 열만 출력하기

In [None]:
top_250_movie[top_250_movie['제목'].str.contains('ment')]

- 조건에 맞는 행의 인덱스 얻기

In [None]:
top_250_movie.index[top_250_movie['평점'] >= 9.0].to_list()

#### 6. Dataframe 파일에 쓰기: 엑셀 및 csv 파일

In [None]:
top_250_movie.to_excel('../result/top_250_movie.xlsx', index=False)
top_250_movie.to_csv('../result/top_250_movie.csv', index=False)

#### 7. 엑셀 및 csv 파일을 읽어 dataframe에 저장하기

In [None]:
read_excel = pd.read_excel('../result/top_250_movie.xlsx', )
read_csv = pd.read_csv('../result/top_250_movie.csv')

In [None]:
read_excel.head()

In [None]:
top_250_movie.equals(read_excel)

#### 8. 네이버 지식인(Moby Dick) 웹 페이지 파싱 후 dataframe으로 만들기

In [None]:
import requests
from bs4 import BeautifulSoup
import re

url = 'https://kin.naver.com/search/list.naver?query=%ED%97%88%EB%A8%BC+%EB%A9%9C%EB%B9%8C'
source = requests.get(url)
source = source.content

webpage = BeautifulSoup(source, 'html.parser')
q_list = webpage.find(name='ul', class_='basic1')
q_list = q_list.find_all(name='li')
# q_list = webpage.find(name='ul', class_='basic1').find_all(name='li')

print('The number of q_list is', len(q_list))

q_titles = []
q_texts = []
q_dates = []
replies = []
for q in q_list:
    tit = q.find(name='a').get_text()
    date = q.find(name='dd', class_='txt_inline').get_text()
    txt = q.find(name='dd', attrs={'class': None}).get_text()
    repl = q.find(name='span', class_='hit').get_text()
    repl = int(re.sub('답변수 ', '', repl))

    q_titles.append(tit)
    q_texts.append(txt)
    q_dates.append(date)
    replies.append(repl)

print('The number of q_titles is', len(q_list))
print('The number of q_texts is', len(q_list))
print('The number of q_dates is', len(q_list))
print('The number of replies is', len(q_list))

In [None]:
import pandas as pd

q_list_df = pd.DataFrame({'제목': q_titles, 
                         '내용': q_texts, 
                         '날짜': q_dates,
                         '답변수': replies}
                         )

q_list_df.head(3)

- '날짜' 칼럼의 형식을 컴퓨터에서 인식할 수 있는 날짜 포맷(datetime)을 변경한다.

In [None]:
q_list_df['날짜'] = q_list_df['날짜'].replace('\.', '-', regex=True).replace('-$', '', regex=True)
q_list_df.head(3)

In [None]:
q_list_df['날짜'] = pd.to_datetime(q_list_df['날짜'], format='%Y-%m-%d')
q_list_df.head(3)

In [None]:
q_list_df.query('"2022-01-01" <= 날짜 <= "2022-12-31"')