In [1]:
import numpy as np
from pandas import Series, DataFrame
import pandas as pd

# 7.3.4 축 색인 이름바꾸기
Renaming Axis Indexes 

In [2]:
data = DataFrame(np.arange(12).reshape((3,4)),
                 index = ['Ohio', 'Colorado', 'New York'],
                 columns = ['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [3]:
data.index = data.index.map(str.upper) #대문자로 변경된 축 이름을 DataFrame의 index에 바로 대입
data.index

Index(['OHIO', 'COLORADO', 'NEW YORK'], dtype='object')

In [4]:
#rename 메서드

#원래 객체를 변경하지 않고 새로운 객체 생성
data.rename(index = str.title, columns = str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [5]:
#사전 형식의 객체를 이용해서 축 이름 중 일부만 변경하는 것도 가능
data.rename(index={'OHIO': 'INDIANA'},
            columns={'three': 'peekaboo'})

Unnamed: 0,one,two,peekaboo,four
INDIANA,0,1,2,3
COLORADO,4,5,6,7
NEW YORK,8,9,10,11


In [6]:
#rename은 본래 DataFrame을 직접 복사해서 index와 columns 속성을 갱신할 필요 없이 바로 변경가능함
#rename을 이용해, 원본데이터에 바로 변경시키려면 inplace=True 옵션
_ = data.rename(index={'OHIO': 'INDIANA'}, inplace=True)

data

Unnamed: 0,one,two,three,four
INDIANA,0,1,2,3
COLORADO,4,5,6,7
NEW YORK,8,9,10,11


# 7.3.5 개별화와 양자화
Discretization and Binning
- 연속성 데이터를 개별로 분할하거나 분석을 위해 그룹별로 나눔

In [7]:
#수업에 참여하는 학생 그룹 데이터
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

In [8]:
#나이대에 따라 분류 (18-25, 26-35, 35-60, 60 이상)으로
#pandas의 cut 함수 사용
bins = [18, 25, 35, 60, 100]
cats = pd.cut(ages, bins) 
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, object): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

pandas에서 반환하는 객체는 Categorical 객체 (그룹 이름이 담긴 배열)

In [9]:
pd.value_counts(cats)

(18, 25]     5
(35, 60]     3
(25, 35]     3
(60, 100]    1
dtype: int64

In [10]:
#right = False 옵션 사용. 괄호와 대괄호의 위치 바꾸기 가능
pd.cut(ages, [18, 26, 36, 61, 100], right = False)

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, object): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

In [11]:
#labels 옵션 : 그룹의 이름을 직접 넘겨줄 수 있음
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']
pd.cut(ages, bins, labels = group_names)

[Youth, Youth, Youth, YoungAdult, Youth, ..., YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult]
Length: 12
Categories (4, object): [Youth < YoungAdult < MiddleAged < Senior]

- cut 함수에 그룹의 개수를 넘겨주면 최소값과 최대값을 기준으로 균등한 길이의 그룹을 자동 계산 


- 주의점 : cut 함수를 사용하면 데이터의 분산에 따라 각각의 그룹마다 데이터의 개수가 다르게 나누어질 수 있다.
- qcut 함수 : 표본 변위치를 기반으로 데이터를 나눠준다. 표본 변위치를 사용하기 때문에 적당히 같은 크기의 그룹으로 분할 가능

In [12]:
#균등분포 내에서 4개의 그룹 나누기

#cut 함수 이용
data = np.random.rand(20)     #.rand() : 균등분포에서 표본추출
pd.cut(data, 4, precision=2)

[(0.47, 0.69], (0.25, 0.47], (0.25, 0.47], (0.47, 0.69], (0.25, 0.47], ..., (0.024, 0.25], (0.47, 0.69], (0.69, 0.91], (0.25, 0.47], (0.69, 0.91]]
Length: 20
Categories (4, object): [(0.024, 0.25] < (0.25, 0.47] < (0.47, 0.69] < (0.69, 0.91]]

In [13]:
#qcut 함수 이용하여 같은 크기의 그룹 나누기
data = np.random.randn(1000)   #Normally distributed
cats = pd.qcut(data, 4) #4분할
cats
pd.value_counts(cats)

(0.692, 3.868]      250
(0.0215, 0.692]     250
(-0.611, 0.0215]    250
[-3.25, -0.611]     250
dtype: int64

In [14]:
#qcut 함수에서 cut 함수와 유사하게 변위치를 직접 지정하기도 가능 (변위치 값은 0~1)
pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.])

[(-1.234, 0.0215], (0.0215, 1.286], (0.0215, 1.286], (1.286, 3.868], (0.0215, 1.286], ..., (0.0215, 1.286], (-1.234, 0.0215], (0.0215, 1.286], (-1.234, 0.0215], (-1.234, 0.0215]]
Length: 1000
Categories (4, object): [[-3.25, -1.234] < (-1.234, 0.0215] < (0.0215, 1.286] < (1.286, 3.868]]

# 7.3.6 특이값 찾아내고 제외하기
Detecting and Filtering Outliers 

In [15]:
#예제 데이터 생성
np.random.seed(12345) #난수발생기의 seed를 지정해두면 다시 실행해도 같은 난수가 발생함.
data = DataFrame(np.random.randn(1000,4))   #randn() : 정규분포 표본추출
data.describe()  #describe() : 요약통계

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.067684,0.067924,0.025598,-0.002298
std,0.998035,0.992106,1.006835,0.996794
min,-3.428254,-3.548824,-3.184377,-3.745356
25%,-0.77489,-0.591841,-0.641675,-0.644144
50%,-0.116401,0.101143,0.002073,-0.013611
75%,0.616366,0.780282,0.680391,0.654328
max,3.366626,2.653656,3.260383,3.927528


In [16]:
#특정 열에서 절대값 3초과 값 찾기
col = data[3]
col[np.abs(col) > 3]

97     3.927528
305   -3.399312
400   -3.745356
Name: 3, dtype: float64

In [17]:
#절대값 3초과 값이 있는 모든 로우 선택
data[(np.abs(data) > 3).any(1)]

Unnamed: 0,0,1,2,3
5,-0.539741,0.476985,3.248944,-1.021228
97,-0.774363,0.552936,0.106061,3.927528
102,-0.655054,-0.56523,3.176873,0.959533
305,-2.315555,0.457246,-0.025907,-3.399312
324,0.050188,1.951312,3.260383,0.963301
400,0.146326,0.508391,-0.196713,-3.745356
499,-0.293333,-0.242459,-3.05699,1.918403
523,-3.428254,-0.296336,-0.439938,-0.867165
586,0.275144,1.179227,-3.184377,1.369891
808,-0.362528,-3.548824,1.553205,-2.186301


In [18]:
#특이값 대체하기
#3이 넘는 값들을 3또는 -3으로 대체
data[(np.abs(data) > 3)] = np.sign(data) * 3
#sign() : 부호가 +이면 '1' -이면 '-1'을 돌려줌.

In [19]:
data.describe()
#최대 최소 값이 3,-3이 넘지 않는 것을 확인

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.067623,0.068473,0.025153,-0.002081
std,0.995485,0.990253,1.003977,0.989736
min,-3.0,-3.0,-3.0,-3.0
25%,-0.77489,-0.591841,-0.641675,-0.644144
50%,-0.116401,0.101143,0.002073,-0.013611
75%,0.616366,0.780282,0.680391,0.654328
max,3.0,2.653656,3.0,3.0


# 7.3.7 치환과 임의 샘플링
Permutation and Random Sampling 

In [20]:
#numpy.random.permutation을 이용해 로우 임의재배치하기

df = DataFrame(np.arange(5 * 4).reshape(5, 4))

sampler = np.random.permutation(5) # 5 =바꾸고싶은만큼의 길이
sampler

array([1, 0, 2, 3, 4])

In [21]:
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [22]:
df.take(sampler) #df에 sampler를 대입. permutation 순서대로 row가 재배치됨

Unnamed: 0,0,1,2,3
1,4,5,6,7
0,0,1,2,3
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [23]:
#len(df)로 행의 갯수=5로 permutation하고 앞에서부터 3개를 가져옴.
df.take(np.random.permutation(len(df))[:3])

Unnamed: 0,0,1,2,3
1,4,5,6,7
3,12,13,14,15
4,16,17,18,19


In [24]:
#복원추출하기

bag = np.array([5, 7, -1, 6, 4])
#0부터 bag의 사이즈 사이에서 랜덤한 정수를 10개 추출
sampler = np.random.randint(0, len(bag), size=10)   #randint : 주어진 최대/최소 범위 내에서 난수생성

In [25]:
draws = bag.take(sampler)
draws

array([ 4,  4, -1, -1, -1,  5,  6,  5,  4,  7])

# 7.3.8 표시자 / 더미변수
Computing Indicator/Dummy Variables 
- 분류값을 더미나 표시행렬로 변형해보자. 

pd.get_dummies()

In [26]:
#pandas의 'get_dummies('기준열')'를 통해 
#해당되는 값에서 '1'을 가지는 더미 변수를 생성할 수 있음

df = DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],
                'data1': range(6)})
print(df)

   data1 key
0      0   b
1      1   b
2      2   a
3      3   c
4      4   a
5      5   b


In [27]:
pd.get_dummies(df['key']) #data1과 key값에 맞게 1.0이 할당됨.

Unnamed: 0,a,b,c
0,0.0,1.0,0.0
1,0.0,1.0,0.0
2,1.0,0.0,0.0
3,0.0,0.0,1.0
4,1.0,0.0,0.0
5,0.0,1.0,0.0


In [28]:
##prefix 속성값에 값을 주면 _과 합께 접두어가 붙음
dummies = pd.get_dummies(df['key'], prefix='key')
dummies

Unnamed: 0,key_a,key_b,key_c
0,0.0,1.0,0.0
1,0.0,1.0,0.0
2,1.0,0.0,0.0
3,0.0,0.0,1.0
4,1.0,0.0,0.0
5,0.0,1.0,0.0


In [29]:
#실제 데이터와 더비변수 합치기
df_with_dummy = df[['data1']].join(dummies)
df_with_dummy

Unnamed: 0,data1,key_a,key_b,key_c
0,0,0.0,1.0,0.0
1,1,0.0,1.0,0.0
2,2,1.0,0.0,0.0
3,3,0.0,0.0,1.0
4,4,1.0,0.0,0.0
5,5,0.0,1.0,0.0


In [30]:
#연속형 변수 범위로 끊어 범주형으로 변환하기

values = np.random.rand(10)

bins =  [0, 0.2, 0.4, 0.6, 0.8, 1]

pd.get_dummies(pd.cut(values, bins))

Unnamed: 0,"(0, 0.2]","(0.2, 0.4]","(0.4, 0.6]","(0.6, 0.8]","(0.8, 1]"
0,0.0,0.0,0.0,1.0,0.0
1,0.0,0.0,0.0,0.0,1.0
2,0.0,0.0,0.0,0.0,1.0
3,1.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,1.0
5,0.0,0.0,0.0,1.0,0.0
6,1.0,0.0,0.0,0.0,0.0
7,0.0,1.0,0.0,0.0,0.0
8,0.0,0.0,0.0,0.0,1.0
9,0.0,0.0,1.0,0.0,0.0


# [7.4] 문자열 다루기 String Manupulation
- 복잡한 패턴 매칭이나 텍스트 조작은 정규표현식이 필요하다
- pandas는 배열 데이터 전체에 쉽게 정규표현식을 적용하고 누락된 데이터를 편리하게 처리할 수 있는 기능을 포함하고있다

# 7.4.1 문자열 객체 메서드

String Object Methods

In [31]:
#split을 이용하여 지정 문자 기준으로 단어 쪼개기
val = 'a,b, guido'
val.split(',')

['a', 'b', ' guido']

In [32]:
#strip을 사용하여 공백 없애 주기(guido의 공백이 사라진 것을 확인)
#공백제거 메서드 strip
pieces = [x.strip() for x in val.split(',')]
pieces

['a', 'b', 'guido']

In [33]:
#문자열 연산하여 이어 붙이기
first, second, third = pieces
first + '::' + second + '::' + third

'a::b::guido'

In [34]:
#더 편한방법 join
'::'.join(pieces)

'a::b::guido'

In [35]:
#문자열내 값이 있는지 알아보기 >'in'키워드 이용
val = 'a,b, guido'
'guido' in val

True

In [36]:
#find도 이용가능, 못찾았으므로 '-1'을 리턴
val.find(':')

-1

In [37]:
#문자열내 원하는 값의 첫 위치 찾기
val.index(',')

1

In [38]:
#idex의 경우 못찾으면 에러 발생!
val.index('c')

ValueError: substring not found

In [39]:
#문자열이 등장하는 횟수 찾기
val.count(',')

2

In [40]:
#원하는 문자열로 바꾸기
val.replace(',', '::')

'a::b:: guido'

- 이 외 다양한 문자열 함수 python4analysis p.207또는 https://wikidocs.net/13 (점프투파이썬) 참고해주세요.

# 7.4.2 정규표현식

Regular expressions

- 텍스트에서 문자열 패턴 찾기
- re모듈 : 패턴 매칭, 치환, 분리 기능


- '정규표현식이란?' 간략히 설명된 글 (http://shaeod.tistory.com/559)
- 교재에서 추천하는 정규표현식 학습을 위한 사이트 http://regex.learncodethehardway.org/book/

In [42]:
import re

###test 데이터에서 "이메일주소"만 찾아내보자###

text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""

pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'

#pattern 정규표현식 컴파일하기
regex = re.compile(pattern, flags=re.IGNORECASE)# re.IGNORECASE : 정규표현식이 대.소문자 상관X 하도록

#findall() : 문자열에서 일치하는 모든 부분의 문자열 찾아줌
regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

# 7.4.3 pandas의 벡터화된 문자열 함수

Vectorized string functions in pandas

In [43]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com',
        'Rob': 'rob@gmail.com', 'Wes': np.nan}
data = Series(data)
data

Dave     dave@google.com
Rob        rob@gmail.com
Steve    steve@gmail.com
Wes                  NaN
dtype: object

In [44]:
#Series의 str 함수들
#gmail을 포함하는지 확인하기
data.str.contains('gmail')

Dave     False
Rob       True
Steve     True
Wes        NaN
dtype: object

## Example: USDA FOOD Database

In [45]:
#### 각각의 음식은 'nutrients'와 'portions' 두개의 리스트들과 함께 식별하게 하는 특성들을 가지고 있는데, 
#### 자료가 분석하기에 좋지않으므로 더 나은 형태로 바꿀 필요가 있다.

In [46]:
import pandas as pd
from pandas import Series, DataFrame, MultiIndex
import numpy as np
import os
os.getcwd()

'C:\\work_jupyter\\원앙'

In [47]:
#json 모듈을 이용하여 데이터 읽기
import json
db = json.load(open('foods-2011-10-03.json'))
len(db)

6636

In [48]:
#어떤 형태의 database인지 확인
db[0]

{'description': 'Cheese, caraway',
 'group': 'Dairy and Egg Products',
 'id': 1008,
 'manufacturer': '',
 'nutrients': [{'description': 'Protein',
   'group': 'Composition',
   'units': 'g',
   'value': 25.18},
  {'description': 'Total lipid (fat)',
   'group': 'Composition',
   'units': 'g',
   'value': 29.2},
  {'description': 'Carbohydrate, by difference',
   'group': 'Composition',
   'units': 'g',
   'value': 3.06},
  {'description': 'Ash', 'group': 'Other', 'units': 'g', 'value': 3.28},
  {'description': 'Energy',
   'group': 'Energy',
   'units': 'kcal',
   'value': 376.0},
  {'description': 'Water',
   'group': 'Composition',
   'units': 'g',
   'value': 39.28},
  {'description': 'Energy', 'group': 'Energy', 'units': 'kJ', 'value': 1573.0},
  {'description': 'Fiber, total dietary',
   'group': 'Composition',
   'units': 'g',
   'value': 0.0},
  {'description': 'Calcium, Ca',
   'group': 'Elements',
   'units': 'mg',
   'value': 673.0},
  {'description': 'Iron, Fe',
   'group': 

#### 각각의 음식은 'nutrients'와 'portions' 두개의 리스트들과 함께 식별하게 하는 특성들을 가지고 있다.

In [49]:
#db는 딕셔너리이므로, key확인
db[0].keys()

dict_keys(['description', 'group', 'portions', 'nutrients', 'id', 'manufacturer', 'tags'])

In [50]:
#db에 있는 각각의 entry는 하나의 음식에 대한 모든 데이터를 가지고 있는 딕셔너리이다.
#'nutrients'는 해당하는 음식에 대한 각각의 영양소 정보의 딕셔너리를 리스트로 갖는다.
db[0]['nutrients'][0]

{'description': 'Protein',
 'group': 'Composition',
 'units': 'g',
 'value': 25.18}

In [51]:
#nutrients를 데이터프레임으로 전화해보기 -> 어떤 음식에 대한 영양소인지 등등 필요한 정보가 없음.
nutrients = DataFrame(db[0]['nutrients'])
nutrients[:5]

Unnamed: 0,description,group,units,value
0,Protein,Composition,g,25.18
1,Total lipid (fat),Composition,g,29.2
2,"Carbohydrate, by difference",Composition,g,3.06
3,Ash,Other,g,3.28
4,Energy,Energy,kcal,376.0


In [52]:
#필요한 정보인 음식이름, 그룹, id, 제조사만 특정지어 데이터프레임으로 전환
info_keys = ['description', 'group', 'id', 'manufacturer']
info = DataFrame(db, columns=info_keys)

In [53]:
info[:5]

Unnamed: 0,description,group,id,manufacturer
0,"Cheese, caraway",Dairy and Egg Products,1008,
1,"Cheese, cheddar",Dairy and Egg Products,1009,
2,"Cheese, edam",Dairy and Egg Products,1018,
3,"Cheese, feta",Dairy and Egg Products,1019,
4,"Cheese, mozzarella, part skim milk",Dairy and Egg Products,1028,


In [54]:
#음식 group에 대한 분포를 파악할 수 있다.
pd.value_counts(info.group)[:10]

Vegetables and Vegetable Products    812
Beef Products                        618
Baked Products                       496
Breakfast Cereals                    403
Legumes and Legume Products          365
Fast Foods                           365
Lamb, Veal, and Game Products        345
Sweets                               341
Pork Products                        328
Fruits and Fruit Juices              328
Name: group, dtype: int64

#### 영양소 데이터에 대한 분석을 하기 위해서는, 각각의 음식과 그에대한 영양소를 모은 하나의 큰 테이블로 만드는 것이 편하다.

In [55]:
# 먼저, 음식 영양소의 각각의 리스트를 fnuts라는 데이터프레임으로 바꾼다.
# 음식의 'id'열을 fnuts에 추가한뒤 먼저 생성했던 nutrients에 첨부한다.
# 위의 과정이 끝난뒤 concat으로 합친다

nutrients = []

for rec in db:
    fnuts = DataFrame(rec['nutrients'])
    fnuts['id'] = rec['id']
    nutrients.append(fnuts)

nutrients = pd.concat(nutrients, ignore_index = True)

In [56]:
nutrients

Unnamed: 0,description,group,units,value,id
0,Protein,Composition,g,25.180,1008
1,Total lipid (fat),Composition,g,29.200,1008
2,"Carbohydrate, by difference",Composition,g,3.060,1008
3,Ash,Other,g,3.280,1008
4,Energy,Energy,kcal,376.000,1008
5,Water,Composition,g,39.280,1008
6,Energy,Energy,kJ,1573.000,1008
7,"Fiber, total dietary",Composition,g,0.000,1008
8,"Calcium, Ca",Elements,mg,673.000,1008
9,"Iron, Fe",Elements,mg,0.640,1008


In [57]:
#중복 체크
nutrients.duplicated().sum()

14179

In [58]:
#중복 제거
nutrients = nutrients.drop_duplicates()

In [59]:
#info와 nutrient의 열 이름이 description, group으로 겹치므로 각각 변경
#description -> food , group -> fgroup 으로 열이름 변경
col_mapping = {'description' : 'food',
               'group' : 'fgroup'}
info = info.rename(columns=col_mapping, copy = False)
info

Unnamed: 0,food,fgroup,id,manufacturer
0,"Cheese, caraway",Dairy and Egg Products,1008,
1,"Cheese, cheddar",Dairy and Egg Products,1009,
2,"Cheese, edam",Dairy and Egg Products,1018,
3,"Cheese, feta",Dairy and Egg Products,1019,
4,"Cheese, mozzarella, part skim milk",Dairy and Egg Products,1028,
5,"Cheese, mozzarella, part skim milk, low moisture",Dairy and Egg Products,1029,
6,"Cheese, romano",Dairy and Egg Products,1038,
7,"Cheese, roquefort",Dairy and Egg Products,1039,
8,"Cheese spread, pasteurized process, american, ...",Dairy and Egg Products,1048,
9,"Cream, fluid, half and half",Dairy and Egg Products,1049,


In [60]:
#description -> nutrient , group -> nutgroup 으로 열이름 변경
col_mapping = {'description' : 'nutrient',
               'group' : 'nutgroup'}
nutrients = nutrients.rename(columns=col_mapping, copy=False)
nutrients

Unnamed: 0,nutrient,nutgroup,units,value,id
0,Protein,Composition,g,25.180,1008
1,Total lipid (fat),Composition,g,29.200,1008
2,"Carbohydrate, by difference",Composition,g,3.060,1008
3,Ash,Other,g,3.280,1008
4,Energy,Energy,kcal,376.000,1008
5,Water,Composition,g,39.280,1008
6,Energy,Energy,kJ,1573.000,1008
7,"Fiber, total dietary",Composition,g,0.000,1008
8,"Calcium, Ca",Elements,mg,673.000,1008
9,"Iron, Fe",Elements,mg,0.640,1008


In [61]:
#nutrients와 info를 merge로 병합
ndata = pd.merge(nutrients, info, on='id', how='outer')

In [62]:
ndata.ix[30000]

nutrient                                       Glycine
nutgroup                                   Amino Acids
units                                                g
value                                             0.04
id                                                6158
food            Soup, tomato bisque, canned, condensed
fgroup                      Soups, Sauces, and Gravies
manufacturer                                          
Name: 30000, dtype: object

### 여기부터는 다음의 두개의 챕터에서 배우는 내용을 통해 분석하는 예시입니다.

In [63]:
result = ndata.groupby(['nutrient', 'fgroup'])['value'].quantile(0.5)
result['Zinc, Zn'].order().plot(kind='barh')

  from ipykernel import kernelapp as app


<matplotlib.axes._subplots.AxesSubplot at 0x17999748>

In [65]:
by_nutrient = ndata.groupby(['nutgroup','nutrient'])

get_maximum = lambda x: x.xs(x.value.idxmax())
get_minimum = lambda x: x.xs(x.value.idxmin())

max_foods = by_nutrient.apply(get_maximum)

# make the food a little smaller
max_foods.food = max_foods.food.str[:50]

In [66]:
max_foods.food 

nutgroup     nutrient                      
Amino Acids  Alanine                                           Gelatins, dry powder, unsweetened
             Arginine                                               Seeds, sesame flour, low-fat
             Aspartic acid                                                   Soy protein isolate
             Cystine                                Seeds, cottonseed flour, low fat (glandless)
             Glutamic acid                                                   Soy protein isolate
             Glycine                                           Gelatins, dry powder, unsweetened
             Histidine                                Whale, beluga, meat, dried (Alaska Native)
             Hydroxyproline                    KENTUCKY FRIED CHICKEN, Fried Chicken, ORIGINA...
             Isoleucine                        Soy protein isolate, PROTEIN TECHNOLOGIES INTE...
             Leucine                           Soy protein isolate, PROTEIN TECHNOL