### 판다스를 활용한 프렌차이즈 상가 입점 분석 

- 그동안 우리는 CSV 파일을 다운받아 처리하고 이를 드라이브에 업로드 한 후
- row라는 이름으로 한줄씩 도는 과정에서 다양한 프로그래밍을 수행했다.
- 그 과정에서 컴퓨터가 문자로 받아들이는 값을 int 또는 float로 만들어주는 등의 작업을 수행했다.
- 이번에는 Pandas라는 도구를 이용하여
- 강원도 상가 공공 데이터를 활용
- 데이터 프로그래밍 및 시각화를 진행해보자!

### 판다스와 데이터 프레임

- 판다스를 불러올 때는 다음과 같이 불러오고 pd로 줄여서 사용한다.
- plt는 우리가 많이 사용했던 시각화 도구
- CSV로 데이터를 불러올 때는 f=open(....)로 했다면
- pd로 데이터를 불러올 때는 이름 = pd.read_csv("경로")를 써주면 된다.
- 이름.head()를 하면 처음 5개의 값을 보여준다.

In [None]:
#시각화를 위한 한글 폰트 설치

import matplotlib.pyplot as plt
import matplotlib as mpl
import matplotlib.font_manager as fm

!apt-get update -qq
!apt-get install fonts-nanum* -qq

path = '/usr/share/fonts/truetype/nanum/NanumGothicEco.ttf'
font_name = fm.FontProperties(fname=path, size=10).get_name()
fm._rebuild()
plt.rc('font', family=font_name) 

mpl.rcParams['axes.unicode_minus'] = False
%config InlineBackend.figure_format = 'retina'

In [None]:
#필요한 도구를 불러오고 df에 강원도 음식 상권 정보(2020)을 불러와 저장한 후 상위 5개 출력 (포트폴리오!!!)

import pandas as pd
import matplotlib.pyplot as plt

df = .read_("https://raw.githubusercontent.com/CarlosQuperman/sdhs202121/main/%EA%B0%95%EC%9B%90%EC%83%81%EA%B6%8C%EC%A0%95%EB%B3%B4(%EC%9D%8C%EC%8B%9D).csv")
df.head()

In [None]:
# 불러온 데이터의 크기 확인

df.shape

In [None]:
# 불러온 데이터의 이름 및 종류(데이터형) 확인

df.info()

In [None]:
#결측치 보기 (포트폴리오!!!)

df.isnull().()

In [None]:
# (포트폴리오!!!)
# isnull() 을 사용하면 데이터의 결측치를 볼 수 있습니다.
# isnull() 함수는 결측치가 있는 경우는 True로 표시 하기 때문에 
# True 값을 sum()을 사용해서 더하게 되면 결측치의 합계를 볼 수 있습니다.
# mean()을 사용하면 결측치의 비율을 볼 수 있습니다.
# 한글이 깨지는 문제 해결은 폰에서는 실행이 어려우니 결과만 영상으로 확인할 것

df.isnull().().plot.barh(figsize=(7, 9))

In [None]:
# (포트폴리오!!!)
# 필요한 데이터의 종류만 따로 뽑아내기
# column -> 가로와 세로로 이루어진 데이터가 있을 때 데이터의 세로 방향을 열이라고 한다. 이를 줄여서 보통 col로 나타낸다

s = ['상호명', '상권업종대분류명', '상권업종중분류명', '상권업종소분류명', 
           '시군구명', '행정동명', '법정동명', '도로명주소', 
           '경도', '위도']

print(df.shape)
df = df[cols].copy()
print(df.shape)

In [None]:
# 필요한 데이터 추출 후 데이터 이름 및 종류(데이터형) 확인

df.info()

In [None]:
# 데이터 추출 후 뒤의 5개 살펴보기
df.tail()

### 강원도의 음식점 현황 분석 (베스킨라빈스, 파리바게트)

- 강원도의 음식점 현황 중 춘천의 음식점 현황만을 가져와 새롭게 저장하고
- 전체 강원도 음식 데이터에서 베스킨라빈스, 파리바게트의 점포 정보만 따로 출력하고 저장해보자

In [None]:
#(포트폴리오!!!)
#강원도 시군구명 중 중복되지 않은 값들을 뽑아내고 개수를 출력함

print(df[''].unique())
print(df[''].nunique())


In [None]:
#(포트폴리오!!!)
# 강원도 음식점 소상공인 정보중 시군구명이 춘천시인 데이터만 따로 뽑아서 저장함

df_choun = df[df['시군구명']==''].copy()
print(df_choun.shape)
df_choun.head()

In [None]:
#(포트폴리오!!!)
# 상호명의 일부분을 입력하면 그 상호명이 들어간 데이터를 출력해준다.

name = input("검색할 상호명 키워드를 입력하세요")
print(df[df['상호명']..(name)])
print(df[df['상호명'].str.contains(name)].shape)

In [None]:
# (포트폴리오!!!)
# 상호명을 입력하면 그 상호명이 들어간 데이터의 상호명을 출력해준다.

name = input("검색할 상호명 키워드를 입력하세요")
print(df.[df['상호명'].str.contains(name),"상호명"])
print(df[df['상호명'].str.contains(name)].shape)

In [None]:
#(포트폴리오!!!)
# 배스킨라빈스, 베스킨라빈스는 배스킨라빈스로
# 파리바게뜨, 파리바게트는 파리바게뜨로 통일시켜주자
# 브랜드명 열을 하나 만들어 그 안에 통일된 값을 넣어주자

df.loc[df["상호명"].str.contains("배스킨라빈스|베스킨라빈스"),""] = "배스킨라빈스"
df.loc[df["상호명"].str.contains("파리바게뜨|파리바게트"),""] = ""

In [None]:
#브랜드명이 잘 생겼는지 확인함
df.info()

In [None]:
name = input("검색할 상호명 키워드를 입력하세요")
print(df.loc[df['상호명'].str.contains(name),"브랜드명"])
print(df[df['상호명'].str.contains(name)].shape)

In [None]:
# (포트폴리오!!!)
# 강원도 음식점 소상공인 정보중 파리바게뜨와 배스킨라빈스만 따로 저장함
flag1 = df['브랜드명']=='파리바게뜨'
flag2 = df['브랜드명']=='배스킨라빈스'

df_two = df[].copy()
print(df_two.shape)
df_two.head()

In [None]:
# 컴퓨터로 하는 사람만!!

from google.colab import drive
drive.mount('/content/gdrive')

# 자기 자신의 구글 드라이브에 접근할 수 있는 권한 (사용 이유 : 데이터 파일을 읽어오고 프로그래밍과 시각화 진행 후 결과값을 파일로 출력하기 위해서)

In [None]:
df_two.to_csv("",mode='w',index=False,encoding='utf-8-sig')

### 선택과제

- 지금까지의 과정을 잘실행해왔다면 df에는 10개의 데이터 종류를 가진 강원도 음식 소상공인 데이터가 데이터프레임으로 저장되어 있을 것입니다.
- 오늘 학습한 내용을 토대로 df에 저장되어있는 데이터 프레임을 이용하여 새로운 데이터프레임을 만들어보거나 이를 가지고 자유롭게 프로그래밍 해보세요 (예 : 강릉시의 음식점 정보만 뽑아보기, 파리바게트 배스킨라빈스 이외의 여러 이름이 혼용되어 사용되는 점포 정리해보기 등)