# Pandas

**kaggle에서 [COVID-19 DATASET](https://www.kaggle.com/imdevskp/corona-virus-report)을 사용**  


## Pandas 시작하기

### 1. 복습 : Table
- Pandas는 테이블 역할 대체하기 위해 많이 사용한다.  
- 행과 열을 이용해서 데이터를 저장하고 관리하는 자료구조이다. (컨테이너)    
- 주로 행은 개체, 열은 속성을 나타낸다.  

### 2. Pandas library 설치 및 시작하기
명령 프롬프트 > `pip install pandas`  
jupyter notebook > `import pandas`  

In [4]:
import pandas as pd

## Pandas로 1차원 데이터 다루기 - Series

### 1. What is Series?

- 1차원이며 라벨링된 **array**
- 인덱스를 지정해줄 수 있다.
- 왼쪽에는 Index, 오른쪽에는 인덱스에 해당되는 Value가 나오며 마지막에는 dtype이 나온다.

In [9]:
s = pd.Series([1, 3, 9, 16, 26])

s

0     1
1     3
2     9
3    16
4    26
dtype: int64

In [10]:
t = pd.Series({'one':1, 'two':2, 'three':3, 'four':4, 'five':5})

t

one      1
two      2
three    3
four     4
five     5
dtype: int64

### 2. Series는 numpy array와 유사하다.

In [8]:
s[1]

NameError: name 's' is not defined

In [13]:
t[1]

2

In [14]:
t[1:3] # Sereis도 slicing 가능

two      2
three    3
dtype: int64

In [120]:
s[s > s.median()] # 자기 자신의 중앙값보다 큰 값들만 가지고 와라

3    16
4    26
dtype: int64

In [11]:
s[[3, 1, 4]]

3    16
1     3
4    26
dtype: int64

In [10]:
import numpy as np

np.exp(s) # Series는 Numpy와 같이 사용 가능

0    2.718282e+00
1    2.008554e+01
2    8.103084e+03
3    8.886111e+06
4    1.957296e+11
dtype: float64

In [18]:
s.dtype # Series 데이터 타입 확인

dtype('int64')

### 3. Series는 dict와 유사하다

- dictionary : Key와 Value와 한 쌍으로 이루어진 자료형으로 `{key:value}` 형식으로 구성되어 있다. 다만 Key는 변하지 않는 값을 사용하고, Value는 변하는 값과 변하지 않는 값 모두 사용이 가능하다.

In [19]:
t

one      1
two      2
three    3
four     4
five     5
dtype: int64

In [20]:
t['one']

1

In [21]:
### Series 값 추가

t['six'] = 6

t

one      1
two      2
three    3
four     4
five     5
six      6
dtype: int64

In [22]:
'six' in t # Series 안에 특정 value가 있는지 확인

True

In [23]:
'seven' in t

False

In [26]:
# Series 안에 특정 value 확인 후 없으면 아무것도 반환하지 않음
t.get('seven') 

In [27]:
# Series 안에 특정 value 확인 후 없으면 0 
t.get('seven', 0)

0

### 4. Series에 이름 붙이기

- `name` 속성을 가지고 있다.
- 처음 Series를 만들 때 이름을 붙일 수 있다.

In [29]:
s = pd.Series(np.random.randn(5), name="random_nums")

s

0   -0.230956
1   -0.569180
2   -0.738158
3   -0.704482
4   -0.017705
Name: random_nums, dtype: float64

In [31]:
s.name = "임의의 난수"

In [32]:
s

0   -0.230956
1   -0.569180
2   -0.738158
3   -0.704482
4   -0.017705
Name: 임의의 난수, dtype: float64

## Pandas로 2차원 데이터 다루기 - Dataframe

### 1. What is Dataframe?

- 2차원의 라벨링된 **Table**  
- 인덱스를 지정할 수 있다.

In [12]:
d = {"height": [1, 2, 3, 4], "weight":[10, 20, 30, 40]}

df = pd. DataFrame(d)

df

Unnamed: 0,height,weight
0,1,10
1,2,20
2,3,30
3,4,40


In [14]:
df.dtypes ## dtype 확인 (각 칼럼 별로 type을 체크)

height    int64
weight    int64
dtype: object

### 2. CSV에서 Dataframe로

- Comma Seperated Value 파일을 DataFrame으로 생성한다.
- `.read_csv()`를 이용한다. 

In [118]:
covid = pd.read_csv("./Covid-19/country_wise_latest.csv")

covid

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
0,Afghanistan,36263,1269,25198,9796,106,10,18,3.50,69.49,5.04,35526,737,2.07,Eastern Mediterranean
1,Albania,4880,144,2745,1991,117,6,63,2.95,56.25,5.25,4171,709,17.00,Europe
2,Algeria,27973,1163,18837,7973,616,8,749,4.16,67.34,6.17,23691,4282,18.07,Africa
3,Andorra,907,52,803,52,10,0,0,5.73,88.53,6.48,884,23,2.60,Europe
4,Angola,950,41,242,667,18,1,0,4.32,25.47,16.94,749,201,26.84,Africa
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
182,West Bank and Gaza,10621,78,3752,6791,152,2,0,0.73,35.33,2.08,8916,1705,19.12,Eastern Mediterranean
183,Western Sahara,10,1,8,1,0,0,0,10.00,80.00,12.50,10,0,0.00,Africa
184,Yemen,1691,483,833,375,10,4,36,28.56,49.26,57.98,1619,72,4.45,Eastern Mediterranean
185,Zambia,4552,140,2815,1597,71,1,465,3.08,61.84,4.97,3326,1226,36.86,Africa


## Pandas 활용하기

### 1. 일부만 관찰하기

- `head(n)` : 처음 n개의 데이터 추출
- `tail(n)` : 마지막 n개의 데이터 추출

In [17]:
covid.head(5)

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
182,West Bank and Gaza,10621,78,3752,6791,152,2,0,0.73,35.33,2.08,8916,1705,19.12,Eastern Mediterranean
183,Western Sahara,10,1,8,1,0,0,0,10.0,80.0,12.5,10,0,0.0,Africa
184,Yemen,1691,483,833,375,10,4,36,28.56,49.26,57.98,1619,72,4.45,Eastern Mediterranean
185,Zambia,4552,140,2815,1597,71,1,465,3.08,61.84,4.97,3326,1226,36.86,Africa
186,Zimbabwe,2704,36,542,2126,192,2,24,1.33,20.04,6.64,1713,991,57.85,Africa


In [18]:
covid.tail(5)

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
182,West Bank and Gaza,10621,78,3752,6791,152,2,0,0.73,35.33,2.08,8916,1705,19.12,Eastern Mediterranean
183,Western Sahara,10,1,8,1,0,0,0,10.0,80.0,12.5,10,0,0.0,Africa
184,Yemen,1691,483,833,375,10,4,36,28.56,49.26,57.98,1619,72,4.45,Eastern Mediterranean
185,Zambia,4552,140,2815,1597,71,1,465,3.08,61.84,4.97,3326,1226,36.86,Africa
186,Zimbabwe,2704,36,542,2126,192,2,24,1.33,20.04,6.64,1713,991,57.85,Africa


### 2. 데이터 접근하기

- `df['column_name']` 
- `df.column_name`

In [119]:
covid['Active'] ## 띄어쓰기 가능

0      9796
1      1991
2      7973
3        52
4       667
       ... 
182    6791
183       1
184     375
185    1597
186    2126
Name: Active, Length: 187, dtype: int64

In [21]:
covid.Active

0      9796
1      1991
2      7973
3        52
4       667
       ... 
182    6791
183       1
184     375
185    1597
186    2126
Name: Active, Length: 187, dtype: int64

**Column의 type은?**  
Dataframe의 각 Colum은 Series이다.  

In [26]:
type(covid['Confirmed'])

pandas.core.series.Series

In [28]:
covid['Confirmed'][0] ## indexing 가능

36263

In [31]:
covid['Confirmed'][1:5] ## Slicing 가능

1     4880
2    27973
3      907
4      950
Name: Confirmed, dtype: int64

### 3. 조건을 이용해서 데이터 접근하기

In [110]:
# 신규 확진자 100명 넘는 나라 찾기

covid[covid['New cases'] > 100]

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
0,Afghanistan,36263,1269,25198,9796,106,10,18,3.50,69.49,5.04,35526,737,2.07,Eastern Mediterranean
1,Albania,4880,144,2745,1991,117,6,63,2.95,56.25,5.25,4171,709,17.00,Europe
2,Algeria,27973,1163,18837,7973,616,8,749,4.16,67.34,6.17,23691,4282,18.07,Africa
6,Argentina,167416,3059,72575,91782,4890,120,2057,1.83,43.35,4.21,130774,36642,28.02,Americas
8,Australia,15303,167,9311,5825,368,6,137,1.09,60.84,1.79,12428,2875,23.13,Western Pacific
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
177,United Kingdom,301708,45844,1437,254427,688,7,3,15.19,0.48,3190.26,296944,4764,1.60,Europe
179,Uzbekistan,21209,121,11674,9414,678,5,569,0.57,55.04,1.04,17149,4060,23.67,Europe
180,Venezuela,15988,146,9959,5883,525,4,213,0.91,62.29,1.47,12334,3654,29.63,Americas
182,West Bank and Gaza,10621,78,3752,6791,152,2,0,0.73,35.33,2.08,8916,1705,19.12,Eastern Mediterranean


In [35]:
covid[covid['New cases'] > 100].head(5)

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
0,Afghanistan,36263,1269,25198,9796,106,10,18,3.5,69.49,5.04,35526,737,2.07,Eastern Mediterranean
1,Albania,4880,144,2745,1991,117,6,63,2.95,56.25,5.25,4171,709,17.0,Europe
2,Algeria,27973,1163,18837,7973,616,8,749,4.16,67.34,6.17,23691,4282,18.07,Africa
6,Argentina,167416,3059,72575,91782,4890,120,2057,1.83,43.35,4.21,130774,36642,28.02,Americas
8,Australia,15303,167,9311,5825,368,6,137,1.09,60.84,1.79,12428,2875,23.13,Western Pacific


In [36]:
# WHO 지역이 동남아시아인 나라 찾기

covid['WHO Region'].unique() ## 범주 종류 확인

array(['Eastern Mediterranean', 'Europe', 'Africa', 'Americas',
       'Western Pacific', 'South-East Asia'], dtype=object)

In [37]:
covid[covid['WHO Region'] == 'South-East Asia']

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
13,Bangladesh,226225,2965,125683,97577,2772,37,1801,1.31,55.56,2.36,207453,18772,9.05,South-East Asia
19,Bhutan,99,0,86,13,4,0,1,0.0,86.87,0.0,90,9,10.0,South-East Asia
27,Burma,350,6,292,52,0,0,2,1.71,83.43,2.05,341,9,2.64,South-East Asia
79,India,1480073,33408,951166,495499,44457,637,33598,2.26,64.26,3.51,1155338,324735,28.11,South-East Asia
80,Indonesia,100303,4838,58173,37292,1525,57,1518,4.82,58.0,8.32,88214,12089,13.7,South-East Asia
106,Maldives,3369,15,2547,807,67,0,19,0.45,75.6,0.59,2999,370,12.34,South-East Asia
119,Nepal,18752,48,13754,4950,139,3,626,0.26,73.35,0.35,17844,908,5.09,South-East Asia
158,Sri Lanka,2805,11,2121,673,23,0,15,0.39,75.61,0.52,2730,75,2.75,South-East Asia
167,Thailand,3297,58,3111,128,6,0,2,1.76,94.36,1.86,3250,47,1.45,South-East Asia
168,Timor-Leste,24,0,0,24,0,0,0,0.0,0.0,0.0,24,0,0.0,South-East Asia


### 4. 행을 기준으로 데이터 접근하기

In [57]:
# 예시 데이터 - 도서관 정보

book_dict = {"Available":[True, True, False], "Location":[102, 806, 403], "Genre":["Poem", "Fantasy", "Biology"]}

books_df = pd.DataFrame(book_dict, index=['윤동주 시집', '보건교사 안은영', '이기적 유전자'])

books_df

Unnamed: 0,Available,Location,Genre
윤동주 시집,True,102,Poem
보건교사 안은영,True,806,Fantasy
이기적 유전자,False,403,Biology


- 인덱스를 이용해서 가져오기 : `.loc[row. col]`

In [45]:
books_df.loc["윤동주 시집"]

Available    True
Location      102
Genre        Poem
Name: 윤동주 시집, dtype: object

In [48]:
books_df.loc["보건교사 안은영"]["Available"] # 특정 책의 대출 가능 여부 확인 1

True

In [51]:
books_df.loc["보건교사 안은영", "Available"] # 특정 책의 대출 가능 여부 확인 2

True

- 숫자 인덱스 이용해서 가져오기 : `.iloc[rowidx, colidx]`

In [52]:
books_df.iloc[0, 1]

102

In [58]:
books_df.iloc[0:2, 1:3] ## Slicing 가능

Unnamed: 0,Location,Genre
윤동주 시집,102,Poem
보건교사 안은영,806,Fantasy


In [56]:
books_df.iloc[1, 1:3]

Location        800
Genre       Fantasy
Name: 보건교사 안은영, dtype: object

### 5. groupby

- **Split** : 특정 기준을 바탕으로 DataFrame을 분할
- **Apply** : 통계함수`ex. sum(), mean()`를 적용해서 각 데이터 압축
- **Combine** : Apply된 결과를 바탕으로, 새로운 Series를 생성 (group_key : applied_value)  
- 간단한 통계함수
    - count : 요소개수
    - sum : 합
    - mean : 평균
    - abs : 절대값
    - median : 중앙값
    - min : 최소값
    - max : 최대값
    - mode : 최빈값
    - std : 표준편차
    - var : 편차
    - armin : 최소값을 가진 색인 위치
    - armax : 최대값을 가진 색인 위치
    - idxmin : 최소값을 가진 색인 값
    - idxmas : 최대값을 가진 색인 값
    - describe : 시리즈 혹은 데이터프레임 각 열에 대한 요약 통계

In [61]:
# WHO Region 별 확진자 수

## 1. covid에서 확진자수 Column만 추출
## 2. 이를 covid의 WHO Region를 기준으로 groupby 한다.

covid_by_region = covid['Confirmed'].groupby(by = covid["WHO Region"])

covid_by_region

<pandas.core.groupby.generic.SeriesGroupBy object at 0x00C97310>

In [62]:
covid_by_region.sum()

WHO Region
Africa                    723207
Americas                 8839286
Eastern Mediterranean    1490744
Europe                   3299523
South-East Asia          1835297
Western Pacific           292428
Name: Confirmed, dtype: int64

In [64]:
# 국가당 감연자 수

covid_by_region.mean() ## sum() / 국가 수

WHO Region
Africa                    15066.812500
Americas                 252551.028571
Eastern Mediterranean     67761.090909
Europe                    58920.053571
South-East Asia          183529.700000
Western Pacific           18276.750000
Name: Confirmed, dtype: float64

## Assignment - 2 

### 1. covid 데이터에서 100 case 대비 사망률 (Deaths / 100 Cases)이 가장 높은 국가는?

In [34]:
covid["Deaths / 100 Cases"]

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
0,Afghanistan,36263,1269,25198,9796,106,10,18,3.50,69.49,5.04,35526,737,2.07,Eastern Mediterranean
1,Albania,4880,144,2745,1991,117,6,63,2.95,56.25,5.25,4171,709,17.00,Europe
2,Algeria,27973,1163,18837,7973,616,8,749,4.16,67.34,6.17,23691,4282,18.07,Africa
3,Andorra,907,52,803,52,10,0,0,5.73,88.53,6.48,884,23,2.60,Europe
4,Angola,950,41,242,667,18,1,0,4.32,25.47,16.94,749,201,26.84,Africa
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
182,West Bank and Gaza,10621,78,3752,6791,152,2,0,0.73,35.33,2.08,8916,1705,19.12,Eastern Mediterranean
183,Western Sahara,10,1,8,1,0,0,0,10.00,80.00,12.50,10,0,0.00,Africa
184,Yemen,1691,483,833,375,10,4,36,28.56,49.26,57.98,1619,72,4.45,Eastern Mediterranean
185,Zambia,4552,140,2815,1597,71,1,465,3.08,61.84,4.97,3326,1226,36.86,Africa


In [111]:
covid[covid['Deaths / 100 Cases'].max()][0, 0]

### max 자체가 색인 위치를 가져오는 것이 아니라서 그 값 그대로 가지고 와서 KeyError가 난 듯 하다.

KeyError: 28.56

In [109]:
covid['Country/Region'][covid['Deaths / 100 Cases'].argmax()]

### 최대값의 색인 위치를 색출하는 armax를 이용하였다.

'Yemen'

In [169]:
covid['Country/Region'][covid['Deaths / 100 Cases'].idxmax()]

### 최대값의 색인의 값을 반환화는 idxmax를 이용하였다.

'Yemen'

In [100]:
covid[covid['Deaths / 100 Cases']==covid['Deaths / 100 Cases'].max()].iloc[0, 0] 

### max()를 사용한 방법이다.

'Yemen'

**과제 2-1**  
*초반에는 max 함수를 `covid[covid['New cases'] > 100]` 이러한 방식으로 이용하려고 했는데 계속 에러가 났다. 곰곰히 생각 해보니까 `max()`의 경우 최대값을 추출하여 색인 위치를 알 수 없기 때문이라는 것을 깨닫고 방법을 변형 해보았다. armax의 경우 색인 위치를 찾을 수 있어 값을 도출하기 용이했다. 그 다음에는 max 함수를 이용해서 값을 도출해는 것도 시도해보았다. 사실 구글링을 통해 얻은 방법인데 `covid['Deaths / 100 Cases']==covid['Deaths / 100 Cases']` 왜 이런식으로 쓰이는지는 아직 이해를 못하겠다. 좀 더 생각해보아야 할 것 같다.*

### 2. covid 데이터에서 신규 확진자가 없는 나라 중 WHO Region이 'Europe'를 모두 출력하면?
💡 Hint: 한 줄에 동시에 두 가지 조건을 Apply하는 경우 Warning이 발생할 수 있습니다.

In [117]:
nczero = covid[covid['New cases'] == 0]
nczero[nczero['WHO Region'] == 'Europe']

### Hint를 바탕으로 두 가지 조건을 줄로 나누었다.

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
56,Estonia,2034,69,1923,42,0,0,1,3.39,94.54,3.59,2021,13,0.64,Europe
75,Holy See,12,0,12,0,0,0,0,0.0,100.0,0.0,12,0,0.0,Europe
95,Latvia,1219,31,1045,143,0,0,0,2.54,85.73,2.97,1192,27,2.27,Europe
100,Liechtenstein,86,1,81,4,0,0,0,1.16,94.19,1.23,86,0,0.0,Europe
113,Monaco,116,4,104,8,0,0,0,3.45,89.66,3.85,109,7,6.42,Europe
143,San Marino,699,42,657,0,0,0,0,6.01,93.99,6.39,699,0,0.0,Europe
157,Spain,272421,28432,150376,93613,0,0,0,10.44,55.2,18.91,264836,7585,2.86,Europe


**과제 2-2**  
*과제 2-2는 hint 덕분에 용이하게 추출하였다.*

### 3. [다음 데이터](https://www.kaggle.com/neuromusic/avocado-prices)를 이용해 각 Region 별로 아보카도가 가장 비싼 평균가격(AveragePrice)을 출력하면?


In [126]:
# 1. region 별로 데이터 나누기
# 2. 각 region에서 가장 비싼 평균 가격 찾고 출력

avopri = pd.read_csv("./Avocado_prices/avocado.csv")
avopri.head(5)

Unnamed: 0.1,Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region
0,0,2015-12-27,1.33,64236.62,1036.74,54454.85,48.16,8696.87,8603.62,93.25,0.0,conventional,2015,Albany
1,1,2015-12-20,1.35,54876.98,674.28,44638.81,58.33,9505.56,9408.07,97.49,0.0,conventional,2015,Albany
2,2,2015-12-13,0.93,118220.22,794.7,109149.67,130.5,8145.35,8042.21,103.14,0.0,conventional,2015,Albany
3,3,2015-12-06,1.08,78992.15,1132.0,71976.41,72.58,5811.16,5677.4,133.76,0.0,conventional,2015,Albany
4,4,2015-11-29,1.28,51039.6,941.48,43838.39,75.78,6183.95,5986.26,197.69,0.0,conventional,2015,Albany


In [123]:
avopri['region'].unique()

array(['Albany', 'Atlanta', 'BaltimoreWashington', 'Boise', 'Boston',
       'BuffaloRochester', 'California', 'Charlotte', 'Chicago',
       'CincinnatiDayton', 'Columbus', 'DallasFtWorth', 'Denver',
       'Detroit', 'GrandRapids', 'GreatLakes', 'HarrisburgScranton',
       'HartfordSpringfield', 'Houston', 'Indianapolis', 'Jacksonville',
       'LasVegas', 'LosAngeles', 'Louisville', 'MiamiFtLauderdale',
       'Midsouth', 'Nashville', 'NewOrleansMobile', 'NewYork',
       'Northeast', 'NorthernNewEngland', 'Orlando', 'Philadelphia',
       'PhoenixTucson', 'Pittsburgh', 'Plains', 'Portland',
       'RaleighGreensboro', 'RichmondNorfolk', 'Roanoke', 'Sacramento',
       'SanDiego', 'SanFrancisco', 'Seattle', 'SouthCarolina',
       'SouthCentral', 'Southeast', 'Spokane', 'StLouis', 'Syracuse',
       'Tampa', 'TotalUS', 'West', 'WestTexNewMexico'], dtype=object)

In [150]:
avo_by_region = avopri['AveragePrice'].groupby(by = avopri["region"])

avo_by_region.groups ## 튜플 형식으로 그룹 별 데이터 확인

{'Albany': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 2808, 2809, 2810, 2811, 2812, 2813, 2814, 2815, 2816, 2817, 2818, 2819, 2820, 2821, 2822, 2823, 2824, 2825, 2826, 2827, 2828, 2829, 2830, 2831, 2832, 2833, 2834, 2835, 2836, 2837, 2838, 2839, 2840, 2841, 2842, 2843, 2844, 2845, 2846, 2847, 2848, 2849, 2850, 2851, 2852, 2853, 2854, 2855, ...], 'Atlanta': [52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 2860, 2861, 2862, 2863, 2864, 2865, 2866, 2867, 2868, 2869, 2870, 2871, 2872, 2873, 2874, 2875, 2876, 2877, 2878, 2879, 2880, 2881, 2882, 2883, 2884, 2885, 2886, 2887, 2888, 2889, 2890, 2891, 2892, 2893, 2894, 2895, 2896, 2897, 2898, 2899, 2900, 2901, 2902, 2903, 2904, 29

In [151]:
avo_by_region.max()

### 이미 평균 가격이 존재하여 max를 활용하여 가장 비싼 가격을 출력했다.

region
Albany                 2.13
Atlanta                2.75
BaltimoreWashington    2.28
Boise                  2.79
Boston                 2.19
BuffaloRochester       2.57
California             2.58
Charlotte              2.83
Chicago                2.30
CincinnatiDayton       2.20
Columbus               2.22
DallasFtWorth          1.90
Denver                 2.16
Detroit                2.08
GrandRapids            2.73
GreatLakes             1.98
HarrisburgScranton     2.27
HartfordSpringfield    2.68
Houston                1.92
Indianapolis           2.10
Jacksonville           2.99
LasVegas               3.03
LosAngeles             2.44
Louisville             2.29
MiamiFtLauderdale      3.05
Midsouth               2.17
Nashville              2.24
NewOrleansMobile       2.32
NewYork                2.65
Northeast              2.31
NorthernNewEngland     1.96
Orlando                2.87
Philadelphia           2.45
PhoenixTucson          2.62
Pittsburgh             1.83
Plains       

In [164]:
avo_region_idx = avopri.set_index(['region'])

avo_region_idx

avo_region_idx.loc["Albany"]["AveragePrice"].max()

### 최대값을 구했는 지 확인을 하였다.

2.13

**과제2-3**  
*사실 groupby 후 max 함수를 쓸 수 있는 지 모르고 엄청 다양한 방법으로 각 그룹 별 평균 가격을 추출해보려고 노력했다. 그러나 혹시나 하는 마음에 max 함수를 바로 써보았는데 쉽게 추출되어 생각보다 허무했다. 노력하는 중에 `set_index`를 발견하여 그것을 이용해서 실제로 최대값을 구했는지 점검해보았다.*