In [1]:
import numpy as np
import pandas as pd
import re

### 문제 1
제공된 데이터 파일 `Energy Indicators2017.xlsx`은 UN의 [자료](https://unstats.un.org/unsd/envstats/qindicators)이며, 국가별로 에너지 공급량(Energy Supply), 개인별 에너지 공급량(Energy Supply per capita), 그리고 재생 에너지 비중(Renewable Electricity Production)에 관한 데이터를 가진 파일이다. 

이 파일를 로드하여 `Enery_df`라는 이름의 하나의 DataFrame을 생성한다. 이 파일은 `Excel` 파일이며 2장의 sheet로 구성되어 있는데 그 중에서 이름이 `Data`인 sheet만 읽어온다. 또한 불필요한 footer와 header가 포함되어 있다. 이런 불필요한 부분을 빼고 총 217개의 국가와 `Country and area`,	`Energy supply (petajoules)`,	`Energy supply per capita (gigajoules per capita)`, 그리고	`Conribution of renewables to electricity production (%)`라는 이름의 4개의 컬럼만을 읽어온다. 자동으로 생성된 정수 인덱스를 사용하라. `Excel` 파일을 읽기 위해서 `pandas.read_excel()` 함수를 사용하라. 이 함수에 대한 자세한 사항은 [문서](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)를 참조하라.

DataFrame을 생성한 후 컬럼들의 명칭을 `['Country', 'Energy Supply', 'Energy Supply per Capita', '% Renewable]`로 변경하라.

이 테이블에서 에너지 공급량(`Energy Supply`)의 단위는 `petajoule`이고 개인별 에너지 공급량(`Energy Supply per capita`)의 단위는 `gigajoule`이다. 에너지 공급량(`Energy Supply`)의 단위를 `gigajoule`로 변경하라. `1 petajoule` = `1,000,000 gigajoules`이다.

테이블에서 결측값이 존재하는지 확인하고 이들이 DataFrame에서 `NaN`으로 표현되도록 해야한다.

다음 4개의 국가들은 이름을 변경하라.
```
"Korea, Republic of": "South Korea", 
"United States of America": "United States", 
"United Kingdom of Great Britain and Northern Ireland": "United Kingdom", "China, Hong Kong SAR": "Hong Kong"
```

또한 몇몇 국가들은 이름에 괄호가 포함되어 있다. 괄호로 묶인 부분들을 이름에서 제거하라. 예를 들어 `Venezuela (Bolivar. Rep.)`는 `Venezuela`로 변경한다.

이상에서 설명한대로 DataFrame `Energy_df`를 생성하여 반환하는 함수 `answer_one`을 작성하라.

---
## 풀이

In [2]:
df = pd.read_excel('Energy Indicators2017.xlsx', sheet_name=1, nrows=217, header=0)#두번째 sheet에서 218번째 행까지 불러오기
df.drop(df.iloc[:,[0, 5, 6]], axis=1, inplace=True)#비어있는 열 없애기
df

Unnamed: 0,Country and area,Energy supply (petajoules),Energy supply \nper capita \n(gigajoules per capita),Conribution of renewables to electricity production (%)
0,Afghanistan,123,3,84.699454
1,Albania,100,34,100
2,Algeria,2289,55,0.835328
3,Andorra,9,117,83.962264
4,Angola,618,21,71.396586
...,...,...,...,...
212,Venezuela (Bolivar. Rep.),2064,65,53.495038
213,Viet Nam,2980,31,44.909546
214,Yemen,142,5,13.769752
215,Zambia,501,29,85.992245


#### 바꿔야할 국가 이름 확인
Korea, Republic of

In [3]:
df.columns = ['Country', 'Energy Supply', 'Energy Supply per Capita', '% Renewable']
df

Unnamed: 0,Country,Energy Supply,Energy Supply per Capita,% Renewable
0,Afghanistan,123,3,84.699454
1,Albania,100,34,100
2,Algeria,2289,55,0.835328
3,Andorra,9,117,83.962264
4,Angola,618,21,71.396586
...,...,...,...,...
212,Venezuela (Bolivar. Rep.),2064,65,53.495038
213,Viet Nam,2980,31,44.909546
214,Yemen,142,5,13.769752
215,Zambia,501,29,85.992245


이 테이블에서 에너지 공급량(`Energy Supply`)의 단위는 `petajoule`이고 개인별 에너지 공급량(`Energy Supply per capita`)의 단위는 `gigajoule`이다. 에너지 공급량(`Energy Supply`)의 단위를 `gigajoule`로 변경하라. `1 petajoule` = `1,000,000 gigajoules`이다.

In [4]:
df['Energy Supply'] = df['Energy Supply']*1000000
df

Unnamed: 0,Country,Energy Supply,Energy Supply per Capita,% Renewable
0,Afghanistan,123000000,3,84.699454
1,Albania,100000000,34,100
2,Algeria,2289000000,55,0.835328
3,Andorra,9000000,117,83.962264
4,Angola,618000000,21,71.396586
...,...,...,...,...
212,Venezuela (Bolivar. Rep.),2064000000,65,53.495038
213,Viet Nam,2980000000,31,44.909546
214,Yemen,142000000,5,13.769752
215,Zambia,501000000,29,85.992245


In [5]:
df.loc[df['% Renewable']=='…', '% Renewable'] = np.NaN
df['% Renewable'] = df['% Renewable'].astype('float')
df.dtypes

Country                      object
Energy Supply                 int64
Energy Supply per Capita      int64
% Renewable                 float64
dtype: object

####  국가 이름 바꾸기

In [6]:
df.loc[df['Country']=='Korea, Republic of', 'Country'] = 'South Korea'
df.loc[df['Country']=='United States of America', 'Country'] = 'United States'
df.loc[df['Country']=='United Kingdom of Great Britain and Northern Ireland', 'Country'] = 'United Kingdom'
df.loc[df['Country']=='China, Hong Kong SAR', 'Country'] = 'Hong Kong'
df.loc[df['Country']=='South Korea', :]

Unnamed: 0,Country,Energy Supply,Energy Supply per Capita,% Renewable
107,South Korea,11821000000,232,3.229249


In [7]:
country_val = df['Country'].values
for i in range(len(country_val)):
    country_val[i] = re.sub(r'\([^)]*\)', '', country_val[i])
df['Country'] = country_val
df

Unnamed: 0,Country,Energy Supply,Energy Supply per Capita,% Renewable
0,Afghanistan,123000000,3,84.699454
1,Albania,100000000,34,100.000000
2,Algeria,2289000000,55,0.835328
3,Andorra,9000000,117,83.962264
4,Angola,618000000,21,71.396586
...,...,...,...,...
212,Venezuela,2064000000,65,53.495038
213,Viet Nam,2980000000,31,44.909546
214,Yemen,142000000,5,13.769752
215,Zambia,501000000,29,85.992245


#### 함수로 만들기

In [8]:
def answer_one():
    df = pd.read_excel('Energy Indicators2017.xlsx', sheet_name=1, nrows=217, header=0)#두번째 sheet에서 218번째 행까지 불러오기
    df.drop(df.iloc[:,[0, 5, 6]], axis=1, inplace=True)#비어있는 열 없애기
    df.columns = ['Country', 'Energy Supply', 'Energy Supply per Capita', '% Renewable']
    df['Energy Supply'] = df['Energy Supply']*1000000
    df.loc[df['% Renewable']=='…', '% Renewable'] = np.NaN
    df['% Renewable'] = df['% Renewable'].astype('float')
    df.loc[df['Country']=='Korea, Republic of', 'Country'] = 'South Korea'
    df.loc[df['Country']=='United States of America', 'Country'] = 'United States'
    df.loc[df['Country']=='United Kingdom of Great Britain and Northern Ireland', 'Country'] = 'United Kingdom'
    df.loc[df['Country']=='China, Hong Kong SAR', 'Country'] = 'Hong Kong'
    country_val = df['Country'].values
    for i in range(len(country_val)):
        country_val[i] = re.sub(r'\([^)]*\)', '', country_val[i])
    df['Country'] = country_val
    return df

In [9]:
answer_one()

Unnamed: 0,Country,Energy Supply,Energy Supply per Capita,% Renewable
0,Afghanistan,123000000,3,84.699454
1,Albania,100000000,34,100.000000
2,Algeria,2289000000,55,0.835328
3,Andorra,9000000,117,83.962264
4,Angola,618000000,21,71.396586
...,...,...,...,...
212,Venezuela,2064000000,65,53.495038
213,Viet Nam,2980000000,31,44.909546
214,Yemen,142000000,5,13.769752
215,Zambia,501000000,29,85.992245
