## 파일 업로드

In [None]:
from google.colab import files
uploaded = files.upload()

In [None]:
import pandas as pd
import io

df = pd.read_csv(io.StringIO(uploaded['house_price.csv'].decode('cp949')))
df

## 상위 데이터 보기 

In [None]:
df.head()

## 상위 데이터 10행 보기

In [None]:
df.head(10)

## 하위 데이터 보기

In [None]:
df.tail()

## 데이터의 행과 열의 갯수 보기

In [None]:
df.shape

## 열(column) 별로 데이터 보기

In [None]:
df["지역명"]

In [None]:
col=["지역명","규모구분", "연도"]
df[col]

## 행(row) 별로 데이터 보기

In [None]:
df.loc[1]

In [None]:
df.loc[1:5]

In [None]:
df.reindex([1,3,5])

## 열(row)과 행(column) 별로 데이터 보기

In [None]:
df.loc[1,"지역명"]

In [None]:
df.loc[1,["지역명","규모구분","연도"]]

In [None]:
df.loc[[1,3,5],"지역명"]

In [None]:
df.loc[1:5,"지역명"]

In [None]:
df.loc[[1,3,5],["지역명","규모구분","연도"]]

## df 데이터프레임의 컬럼별 데이터의 형태 보기

In [None]:
df.dtypes

## 컬럼 이름 바꾸기

In [None]:
df=df.rename(columns={'분양가격(㎡)':'분양가'})

## 컬럼의 형태 바꾸기

In [None]:
df['분양가'] = df['분양가'].convert_objects(convert_numeric=True)

## 새로운 컬럼 만들기

In [None]:
df["평당분양가"]=df["분양가"]//3.3

In [None]:
df.head()

## 컬럼 추가하기

In [None]:
df["국가"]="대한민국"
df[["국가"]].head()

In [None]:
df.head()

## 컬럼 삭제하기

In [None]:
df=df.drop("국가", axis=1)
df.head()

## 위치 지정하여 컬럼 추가하기

In [None]:
df.insert(0,"국가","대한민국")
df.head()

## 조건에 따라 컬럼 추가하기

In [None]:
df["평가"]=df["평당분양가"]>1500
df.head()

In [None]:
df.loc[df["평당분양가"]>1500, "평가"]="비쌈"
df.loc[df["평당분양가"]<=1500, "평가"]="보통"
df.head()

## 조건이 2개 이상일 경우 & 활용해서 컬럼 추가하기 

In [None]:
df.loc[df["평당분양가"]<800, "평가"]="저렴"
df.loc[(df["평당분양가"]>=800) & (df["평당분양가"]<=1500), "평가"]="보통"
df.loc[df["평당분양가"]>1500, "평가"]="비쌈"
df.head()

## 조건이 2개 이상일 경우 | 활용해서 컬럼 추가하기 

In [None]:
df.loc[(df["지역명"]=="서울") | (df["지역명"]=="인천") | (df["지역명"]=="경기"), "광역권"]="수도권"
df.head()

## 컬럼의 데이터 변경하기

In [None]:
df["규모구분"]=df["규모구분"].apply(lambda a: a[5:])
df.head()

## 데이터프레임의 컬럼 확인하기

In [None]:
df.columns

## 컬럼 위치 조정하기

In [None]:
df=pd.DataFrame(df, columns=['국가', '광역권','지역명', '규모구분', '연도', '월', '분양가', '평당분양가', '평가'])
df.head()

## 수학/통계 연산 활용하기 

In [None]:
df.describe()

## 평균값 보기


In [None]:
df["분양가"].mean()

## 최댓값 보기

In [None]:
df["분양가"].max()

## 최솟값 보기

In [None]:
df["분양가"].min()

## index로 정렬하기 - 내림차순 정렬

In [None]:
df.sort_index(axis=0, ascending=False).head()

In [None]:
df.sort_index(axis=0, ascending=False)[:5]

## index로 정렬하기 - 오름차순 정렬

In [None]:
df.sort_index(axis=0, ascending=True)[:5]

## 컬럼 별로 정렬하기

In [None]:
df.sort_values(by="지역명")[:5]

In [None]:
df.sort_values(by="분양가", ascending=False)[:5]

## 문자열 변환하기 / 문자열을 이어서 새로운 컬럼의 값으로 넣기

In [None]:
df["연도(str)"]=df["연도"].astype('str')
df["월(str)"]=df["월"].astype('str')

df["날짜"]=df["연도(str)"] + df["월(str)"]
df.head()

In [None]:
df.dtypes

## Datetime으로 변환하기 

In [None]:
df["날짜"]=pd.to_datetime(df["날짜"],format='%Y%m')

In [None]:
df.dtypes

In [None]:
df.head()

## 연 또는 월 데이터만 가져오기


In [None]:
df["날짜"].dt.year[:5]

In [None]:
df["날짜"].dt.month[:5]

## 비어 있는 값 확인하기


In [None]:
df[df["지역명"].isnull()]

In [None]:
df[df["광역권"].isnull()].head()

## 비어 있는 값에 값 채우기 


In [None]:
df.loc[df["광역권"].isnull(), "광역권"]="비수도권"

In [None]:
df[df["광역권"].isnull()]

In [None]:
df.tail()

## 새로운 컬럼 만들어서 비어 있는 값에 값 채우기 (1) 


In [None]:
df[df["분양가"].isnull()][:5]

In [None]:
df.loc[df["분양가"].isnull(),"분양가(not null)"]=df["분양가"].mean()

In [None]:
df[df["분양가"].isnull()][:5]

## 새로운 컬럼 만들어서 비어 있는 값에 값 채우기 (2) 


In [None]:
df["평당분양가(not null)"]=df["평당분양가"].fillna(0)

In [None]:
df[df["평당분양가"].isnull()].head()

In [None]:
df=df.drop(['연도(str)', '월(str)','분양가(not null)', '평당분양가(not null)'] , axis=1)

## 등호 활용하여 특정 조건에 해당하는 데이터 검색하기


In [None]:
df[df["지역명"]=="부산"].head()

## 부등호 활용하여 특정 조건에 해당하는 데이터 검색하기


In [None]:
df[df["평당분양가"]>2000].head()

## 여러 특정 값에 해당하는 데이터 검색하기


In [None]:
df[df["규모구분"].isin(["60㎡이하", "60㎡초과 85㎡이하"])].head()

## 특정 문자가 들어가 있는 데이터 검색하기


In [None]:
df[df["규모구분"].str.contains("102㎡")].head()

## 여러 조건 중 하나만 성립해도 데이터 검색하기


In [None]:
df[df["규모구분"] =='85㎡초과 102㎡이하' | df["지역명"] == "서울"].head()

In [None]:
df[(df["규모구분"] =='85㎡초과 102㎡이하') | (df["지역명"] == "서울")].head()

## 여러 조건을 모두 만족하는 데이터 검색해서 새로운 변수에 저장하기


In [None]:
df[(df["규모구분"] =='85㎡초과 102㎡이하') & (df["지역명"] == "서울")].head()

In [None]:
df2=df[(df["규모구분"] =='85㎡초과 102㎡이하') & (df["지역명"] == "서울")]
df2.head()

## 앞 행의 데이터 가져오기


In [None]:
df2['분양가(전월대비)'] = df2['분양가'].shift(+1)
df2.head()

## 뒤 행의 데이터 가져오기


In [None]:
df2['분양가(익월대비)'] = df2['분양가'].shift(-1)
df2.head()

## 특정 조건으로 컬럼 검색하기


In [None]:
df.loc[df["지역명"] == "서울", ["평당분양가"]].head()

In [None]:
df.loc[df["지역명"] == "서울", ["규모구분", "날짜","평당분양가"]].head()

## 피벗테이블로 보기


In [None]:
pd.pivot_table(df,index="지역명", values="평당분양가")

In [None]:
pd.pivot_table(df,index=["지역명","규모구분"], values="평당분양가")

## 파일로 저장하기

In [None]:
writer = pd.ExcelWriter('house_price_result1.xlsx')
df.to_excel(writer)
writer.save()



In [None]:
from google.colab import files
files.download('house_price_result1.xlsx')


In [None]:
writer = pd.ExcelWriter('house_price_result2.xlsx')
df2.to_excel(writer)
writer.save()


In [None]:
from google.colab import files
files.download('house_price_result2.xlsx')
