# Pandas
![pandas](./Pandas_logo.png)

<br>

**데이터 분석**을 하고 싶으신가요? 그럼 `pandas`를 한번 거쳐가시는 것이 좋습니다. 물론 굉장히 멋있어 보이는 `Machine Learning`, `AI` 등을 하고 싶으시겠지만, 두 다리 없이 뛸 수는 없잖아요? 일단 데이터를 다룰 수 있는 기본기를 익히고, 멋있어 보이는 것들을 해봅시다.  

<br>
  
Pandas는 Python Data Analysis Library의 약자입니다. 이름만 보고 "오잉 판다가 갑자기 왜 나오징?" 하실 수 있지만 의외로 판다와 무관합니다 ㅎㅎ   
  
그럼 한번 pandas와 관련된 문제를 풀어보러 가시죠!

<br>

---

**알림**
- 본 컨텐츠는 강의 형식이 아닌, 스스로 공부하시는 분들을 위한 일종의 문제집 입니다.
- 데이터라는 큰 바다에서 여러분이 쓸 데 없는 시간 낭비 없이 바로바로 핵심을 배우실 수 있도록 커리큘럼을 짜봤습니다.
- 이 컨텐츠의 문제들만 해결한다고 실력이 오르지 않습니다. 본 컨텐츠의 목적은 문제를 해결하는 과정에서 발생하는 고민과 질문을 통한 실력 향상입니다. 
- 문제에서 절대 떠먹여주지 않습니다. 물고기를 잡아주는 것이 아닌, 물고기를 잡는 방법을 여러분이 이 컨텐츠를 통해 알아가셨으면 합니다.

<br>

<br>

# 1. Data Frame 다루기
- Tabular Data를 다루는 가장 기본적인 툴이 바로 `pandas`입니다. Tabular Data는 흔히 여러분이 엑셀에서 많이 봐오셨던 데이터를 말하는데요, 쉽게 말해서 그냥 표라고 생각하셔도 무방합니다.  
- 이번 Chapter에선 `pandas`의 가장 기본적인 형태인 `Data Frame`을 다루는 쉽지만 필수적인 method에 대해 알아보겠습니다.

❗ 잠깐 ❗  
들어가기 전에, Data Frame에 대한 간단한 설명이 있는 [pandas document](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html)를 한번 가볍게 쭉 읽고 오시는 것을 추천드려요 ㅎㅎ

### 1-1 Data Frame 만들기

**문제**  
열(Column)의 이름이 A, B, C, D이고, 각 열마다 Random한 숫자가 10개씩 담겨져 있는 Data Frame을 생성해보세요.

검색 힌트  : pandas Data Frame 생성, pandas data frame 만들기

_예시_  
![](./1-1answer.png)


In [4]:
import pandas as pd
import numpy as np

data = np.random.randn(10,4)
columns = ["A", "B", "C", "D"]
df = pd.DataFrame(data, columns = columns)

print(df)

          A         B         C         D
0  1.749471 -1.254013  0.059387 -0.749307
1  0.144592 -1.032246  1.173568  0.244655
2 -0.584726  0.504060 -1.564733 -0.461800
3  0.391155 -0.048346 -0.701504  0.855200
4 -0.502714  0.639526  1.241677 -1.171126
5  0.109277 -1.057273  0.224028 -0.111743
6  1.142330 -0.390520 -0.069347 -0.440128
7  0.113574  1.209800 -1.991071 -0.006969
8 -0.194257  0.506345 -0.438801 -0.304150
9  0.109430  0.885499 -1.190212  0.926039


### 1-2 Data Frame Indexing 1

**문제**  
1-1에서 생성한 DataFrame에서 위에서부터 5개의 행을 출력하는 코드를 작성해보세요  
  
검색 힌트 : pandas indexing, pandas print top5 rows  
  
_예시_  
![](./1-2answer.png)

In [16]:
df.head()

Unnamed: 0,A,B,C,D
0,1.749471,-1.254013,0.059387,-0.749307
1,0.144592,-1.032246,1.173568,0.244655
2,-0.584726,0.50406,-1.564733,-0.4618
3,0.391155,-0.048346,-0.701504,0.8552
4,-0.502714,0.639526,1.241677,-1.171126


### 1-3 Data Frame Indexing 2

**문제**  
1-1에서 생성한 DataFrame에서 1번째, 2번째 열만 추출하는 코드를 작성해보세요  
  
검색 힌트 : pandas indexing, pandas iloc, pandas loc  
  
_예시_  
![](./1-3answer.png)

In [54]:
df.head(n=2)

Unnamed: 0,A,B,C,D
0,1.749471,-1.254013,0.059387,-0.749307
1,0.144592,-1.032246,1.173568,0.244655


### 1-4 Data Frame Indexing 3

**문제**  
1-1에서 생성한 DataFrame에서 "A"열과 "D"열만 추출하는 코드를 작성해보세요  
  
검색 힌트 : pandas indexing, pandas iloc, pandas loc  
  
_예시_  
![](./1-4answer.png)

In [52]:
df.loc[:, ["A", "D"]]

Unnamed: 0,A,D
0,1.749471,-0.749307
1,0.144592,0.244655
2,-0.584726,-0.4618
3,0.391155,0.8552
4,-0.502714,-1.171126
5,0.109277,-0.111743
6,1.14233,-0.440128
7,0.113574,-0.006969
8,-0.194257,-0.30415
9,0.10943,0.926039


### 1-5 Data Frame columns, values, index

**문제**  
1-1에서 생성한 DataFrame의 Column들과 값들, index, shape을 출력하는 코드를 작성하세요 
  
검색 힌트 : pandas columns, pandas values, pandas index
  
_예시_  
![](./1-5answer.png)

In [26]:
print(df.dtypes)

A    float64
B    float64
C    float64
D    float64
dtype: object


### 1-6 Data Frame Informations

**문제**  
1-1에서 생성한 DataFrame의 column별 정보와 통계적 정보를 출력하는 코드를 작성하세요 
  
검색 힌트 : pandas get data frame information, pandas get statistic information
  
_예시_  
![](./1-6answer.png)

In [27]:
print(df.info())
print(df.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       10 non-null     float64
 1   B       10 non-null     float64
 2   C       10 non-null     float64
 3   D       10 non-null     float64
dtypes: float64(4)
memory usage: 448.0 bytes
None
               A          B          C          D
count  10.000000  10.000000  10.000000  10.000000
mean    0.247813  -0.003717  -0.325701  -0.121933
std     0.714496   0.886804   1.076556   0.662076
min    -0.584726  -1.254013  -1.991071  -1.171126
25%    -0.118373  -0.871814  -1.068035  -0.456382
50%     0.111502   0.227857  -0.254074  -0.207947
75%     0.329514   0.606230   0.182868   0.181749
max     1.749471   1.209800   1.241677   0.926039


### 1-7 Data Frame Sorting

**문제**  
1-1에서 생성한 DataFrame을 "A" Column을 기준으로 내림차순으로 정렬한 뒤, Index를 재정렬하는 코드를 작성하세요.  
(단, Index 재정렬 후 , 원래의 index는 삭제해주세요.)
  
검색 힌트 : pandas sort values, pandas sort values descending, pandas reset index
  
_예시_  
![](./1-7answer.png)

In [46]:
df.sort_values("A", ascending = False).reset_index(drop=True)

Unnamed: 0,A,B,C,D
0,1.749471,-1.254013,0.059387,-0.749307
1,1.14233,-0.39052,-0.069347,-0.440128
2,0.391155,-0.048346,-0.701504,0.8552
3,0.144592,-1.032246,1.173568,0.244655
4,0.113574,1.2098,-1.991071,-0.006969
5,0.10943,0.885499,-1.190212,0.926039
6,0.109277,-1.057273,0.224028,-0.111743
7,-0.194257,0.506345,-0.438801,-0.30415
8,-0.502714,0.639526,1.241677,-1.171126
9,-0.584726,0.50406,-1.564733,-0.4618


### 1-8 Data Frame Advanced Indexing 1

**문제**  
아래와 같은 Data Frame을 만들고, 주 언어가 파이썬인 사람들만 조회하는 코드를 작성해보세요.
  
검색 힌트 : pandas indexing, pandas query, pandas get specific values
  
<br>

Data Frame 예시  
![](./1-8df.png)

_예시_  
![](./1-8answer.png)


In [63]:
df2 = pd.DataFrame({"이름" : ["피카츄", "라이츄", "파이리", "꼬부기", "버터풀", "야도란", "피죤투", "또가스" ],
                    "학과" : ["경제", "경영", "컴공", "컴공", "경제", "전전", "컴공", "기계" ],
                    "언어" : ["파이썬", "C", "C+", "파이썬", "자바", "엄", "파이썬", "자바" ],
                    "직무" : ["AI엔지니어", "프론트", "백엔드", "AI엔지니어", "백엔드", "프론트", "AI엔지니어", "PM"]})
df2.query('언어 == "파이썬"')

Unnamed: 0,이름,학과,언어,직무
0,피카츄,경제,파이썬,AI엔지니어
3,꼬부기,컴공,파이썬,AI엔지니어
6,피죤투,컴공,파이썬,AI엔지니어


### 1-9 Data Frame Advanced Indexing 2

**문제**  
1-8에서 만든 Data Frame에서 학과가 컴공이고, 주 언어가 파이썬, 직무는 AI 엔지니어인 사람들만 조회하는 코드를 작성해보세요.
  
검색 힌트 : pandas indexing, pandas query, pandas get specific values

_예시_  
![](./1-9answer.png)

In [64]:
df2[(df2["학과"] == "컴공") & (df2["언어"] == "파이썬") & (df2["직무"] == "AI엔지니어")]


Unnamed: 0,이름,학과,언어,직무
3,꼬부기,컴공,파이썬,AI엔지니어
6,피죤투,컴공,파이썬,AI엔지니어


### 1-10 Data Frame Concat

**문제**  
1-1에서 만든 Data Frame과 1-8에서 만든 Data Frame을 위아래로 합치는 코드와, 좌우로 합치는 코드를 작성해주세요. 각 작업을 수행한 후엔 Index를 다시 세팅해주세요!
  
검색 힌트 : pandas concat Data Frame

_예시_  
위아래로 합치는 경우  
![](./1-10answer1.png)  
좌우로 합치는 경우  
![](./1-10answer2.png)  

In [69]:
updown = pd.concat([df, df2], axis=0)

leftright = pd.concat([df, df2], axis=1)

print(leftright)

          A         B         C         D   이름   학과   언어      직무
0  1.749471 -1.254013  0.059387 -0.749307  피카츄   경제  파이썬  AI엔지니어
1  0.144592 -1.032246  1.173568  0.244655  라이츄   경영    C     프론트
2 -0.584726  0.504060 -1.564733 -0.461800  파이리   컴공   C+     백엔드
3  0.391155 -0.048346 -0.701504  0.855200  꼬부기   컴공  파이썬  AI엔지니어
4 -0.502714  0.639526  1.241677 -1.171126  버터풀   경제   자바     백엔드
5  0.109277 -1.057273  0.224028 -0.111743  야도란   전전    엄     프론트
6  1.142330 -0.390520 -0.069347 -0.440128  피죤투   컴공  파이썬  AI엔지니어
7  0.113574  1.209800 -1.991071 -0.006969  또가스   기계   자바      PM
8 -0.194257  0.506345 -0.438801 -0.304150  NaN  NaN  NaN     NaN
9  0.109430  0.885499 -1.190212  0.926039  NaN  NaN  NaN     NaN


### 1-11 Data Frame Concat 2

**문제**  
1-10에서 만든 Data Frame가 뭔가 이상합니다. NaN값들이 막 섞여있고 상당히 지저분합니다. 왜 이러는 걸까요? 이유를 한번 생각해서 적어보세요!  
  
이유를 적어본 뒤에, 1-8에서 만든 Data Frame의 이름을 "A", "B", "C", "D"로 바꾼 다음 다시 시도해보세요.
  
검색 힌트 : pandas concat Data Frame, pandas column name change


In [71]:
df2.columns = ["A","B","C","D"]
updown = pd.concat([df, df2], axis=0)
index_reset_updown = updown.reset_index(drop=True)
index_reset_updown

Unnamed: 0,A,B,C,D
0,1.749471,-1.254013,0.059387,-0.749307
1,0.144592,-1.032246,1.173568,0.244655
2,-0.584726,0.50406,-1.564733,-0.4618
3,0.391155,-0.048346,-0.701504,0.8552
4,-0.502714,0.639526,1.241677,-1.171126
5,0.109277,-1.057273,0.224028,-0.111743
6,1.14233,-0.39052,-0.069347,-0.440128
7,0.113574,1.2098,-1.991071,-0.006969
8,-0.194257,0.506345,-0.438801,-0.30415
9,0.10943,0.885499,-1.190212,0.926039


# 2. 데이터 불러오기
  
- 여기까지 해내신 분들! 아주 대단하십니다. 여기까지 푸신 것만 해도, 데이터를 다뤄볼 준비가 됐다고 할 수 있습니다 ㅎㅎ 뭐든 기본기가 지루하고 귀찮다고는 하지만 제일 중요하니까요..! 
- 이제는 튜토리얼 데이터를 불러와서, 통계량을 확인해보고, 우리들이 만든 함수도 적용해볼 겁니다. 어떻게 하는지 볼까요?  


❗잠깐❗  
데이터를 다운 받아야겠죠? 
[이곳](https://www.kaggle.com/code/parulpandey/penguin-dataset-the-new-iris/data)에서 데이터를 다운 받은뒤, 압축을 해제하고, `penguins_size.csv`파일을 **코드 파일이 존재하는 폴더에 저장해주세요**

### 2-1 Read CSV

**문제**  
방금 다운받은 데이터를 Data Frame으로 읽는 코드를 작성해주세요.
  
검색 힌트 : pandas read data, pandas read csv file

_예시_  
![](./2-1answer.png)  
  

In [117]:
penguin_df = pd.read_csv("./penguins_lter.csv")
penguin_df

Unnamed: 0,studyName,Sample Number,Species,Region,Island,Stage,Individual ID,Clutch Completion,Date Egg,Culmen Length (mm),Culmen Depth (mm),Flipper Length (mm),Body Mass (g),Sex,Delta 15 N (o/oo),Delta 13 C (o/oo),Comments
0,PAL0708,1,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N1A1,Yes,11/11/07,39.1,18.7,181.0,3750.0,MALE,,,Not enough blood for isotopes.
1,PAL0708,2,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N1A2,Yes,11/11/07,39.5,17.4,186.0,3800.0,FEMALE,8.94956,-24.69454,
2,PAL0708,3,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N2A1,Yes,11/16/07,40.3,18.0,195.0,3250.0,FEMALE,8.36821,-25.33302,
3,PAL0708,4,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N2A2,Yes,11/16/07,,,,,,,,Adult not sampled.
4,PAL0708,5,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N3A1,Yes,11/16/07,36.7,19.3,193.0,3450.0,FEMALE,8.76651,-25.32426,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
339,PAL0910,120,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N38A2,No,12/1/09,,,,,,,,
340,PAL0910,121,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N39A1,Yes,11/22/09,46.8,14.3,215.0,4850.0,FEMALE,8.41151,-26.13832,
341,PAL0910,122,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N39A2,Yes,11/22/09,50.4,15.7,222.0,5750.0,MALE,8.30166,-26.04117,
342,PAL0910,123,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N43A1,Yes,11/22/09,45.2,14.8,212.0,5200.0,FEMALE,8.24246,-26.11969,


### 2-2 Data Frame Indexing 복습!

**문제**  
읽어온 Data Frame에서, `species`가 `Gentoo`인 데이터만 조회하고, index를 새로 재배치 하는 코드를 작성해주세요. 
  
검색 힌트 : pandas indexing, pandas query

_예시_  
![](./2-2answer.png)  
  

In [109]:
penguin_df[penguin_df['Island'] == "Biscoe"].reset_index(drop=True)

Unnamed: 0,studyName,Sample Number,Species,Region,Island,Stage,Individual ID,Clutch Completion,Date Egg,Culmen Length (mm),Culmen Depth (mm),Flipper Length (mm),Body Mass (g),Sex,Delta 15 N (o/oo),Delta 13 C (o/oo),Comments
0,PAL0708,21,Adelie Penguin (Pygoscelis adeliae),Anvers,Biscoe,"Adult, 1 Egg Stage",N11A1,Yes,11/12/07,37.8,18.3,174.0,3400.0,FEMALE,8.73762,-25.09383,
1,PAL0708,22,Adelie Penguin (Pygoscelis adeliae),Anvers,Biscoe,"Adult, 1 Egg Stage",N11A2,Yes,11/12/07,37.7,18.7,180.0,3600.0,MALE,8.66271,-25.06390,
2,PAL0708,23,Adelie Penguin (Pygoscelis adeliae),Anvers,Biscoe,"Adult, 1 Egg Stage",N12A1,Yes,11/12/07,35.9,19.2,189.0,3800.0,FEMALE,9.22286,-25.03474,
3,PAL0708,24,Adelie Penguin (Pygoscelis adeliae),Anvers,Biscoe,"Adult, 1 Egg Stage",N12A2,Yes,11/12/07,38.2,18.1,185.0,3950.0,MALE,8.43423,-25.22664,
4,PAL0708,25,Adelie Penguin (Pygoscelis adeliae),Anvers,Biscoe,"Adult, 1 Egg Stage",N13A1,Yes,11/10/07,38.8,17.2,180.0,3800.0,MALE,9.63954,-25.29856,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
163,PAL0910,120,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N38A2,No,12/1/09,,,,,,,,
164,PAL0910,121,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N39A1,Yes,11/22/09,46.8,14.3,215.0,4850.0,FEMALE,8.41151,-26.13832,
165,PAL0910,122,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N39A2,Yes,11/22/09,50.4,15.7,222.0,5750.0,MALE,8.30166,-26.04117,
166,PAL0910,123,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N43A1,Yes,11/22/09,45.2,14.8,212.0,5200.0,FEMALE,8.24246,-26.11969,


### 2-3 Groupby

**문제**  
2-1에서 읽어온 Data Frame에서, `species`별 평균값 데이터를 조회해보세요.  
`species`별 평균값의 조회가 끝났다면, `island`별 평균, 최대, 최소, 중앙값 데이터도 조회해보세요!  
  
검색 힌트 : pandas groupby, pandas aggregate function

_예시_  
![](./2-3answer.png)  
![](./2-3answer2.png)
  

In [95]:
# Species 별 평균값 확인
penguin_df.groupby(by="Species").agg("mean")

# Island 별 평균, 최대, 최소, 중앙값 확인
penguin_df.groupby(by="Island").agg(["mean", "max", "min", "median"])

  penguin_df.groupby(by="Species").agg("mean")
  penguin_df.groupby(by="Island").agg(["mean", "max", "min", "median"])


Unnamed: 0_level_0,Sample Number,Sample Number,Sample Number,Sample Number,Culmen Length (mm),Culmen Length (mm),Culmen Length (mm),Culmen Length (mm),Culmen Depth (mm),Culmen Depth (mm),...,Body Mass (g),Body Mass (g),Delta 15 N (o/oo),Delta 15 N (o/oo),Delta 15 N (o/oo),Delta 15 N (o/oo),Delta 13 C (o/oo),Delta 13 C (o/oo),Delta 13 C (o/oo),Delta 13 C (o/oo)
Unnamed: 0_level_1,mean,max,min,median,mean,max,min,median,mean,max,...,min,median,mean,max,min,median,mean,max,min,median
Island,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Biscoe,64.357143,124,1,62.5,45.257485,59.6,34.5,45.8,15.87485,21.1,...,2850.0,4775.0,8.398611,9.79532,7.6322,8.35599,-26.114634,-24.3613,-27.01854,-26.18681
Dream,60.370968,152,1,46.5,44.167742,58.0,32.1,44.65,18.344355,21.2,...,2700.0,3687.5,9.177922,10.02544,8.01485,9.23408,-25.066934,-23.78767,-26.69543,-24.746525
Torgersen,65.884615,132,1,74.5,38.95098,46.0,33.5,38.9,18.429412,21.5,...,2900.0,3700.0,8.792753,9.59462,7.69778,8.86853,-25.757806,-23.90309,-26.63085,-25.89741


### 2-4 apply lambda

**문제**  
들어온 input에 대해서 제곱된 값을 return 해주는 함수를 작성하세요.  
그런 다음 2-1에서 읽어온 Data Frame에서, `body_mass_g` Column의 값을 제곱한 새로운 Column을 만들어보세요

검색 힌트 : pandas new column, pandas apply lambda

_예시_  
![](./2-4answer.png)  
  

In [98]:
def make_power(x):
    return x**2

penguin_df["new_column"] = penguin_df['Body Mass (g)'].apply(lambda x: make_power(x))
penguin_df

Unnamed: 0,studyName,Sample Number,Species,Region,Island,Stage,Individual ID,Clutch Completion,Date Egg,Culmen Length (mm),Culmen Depth (mm),Flipper Length (mm),Body Mass (g),Sex,Delta 15 N (o/oo),Delta 13 C (o/oo),Comments,new_column
0,PAL0708,1,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N1A1,Yes,11/11/07,39.1,18.7,181.0,3750.0,MALE,,,Not enough blood for isotopes.,14062500.0
1,PAL0708,2,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N1A2,Yes,11/11/07,39.5,17.4,186.0,3800.0,FEMALE,8.94956,-24.69454,,14440000.0
2,PAL0708,3,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N2A1,Yes,11/16/07,40.3,18.0,195.0,3250.0,FEMALE,8.36821,-25.33302,,10562500.0
3,PAL0708,4,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N2A2,Yes,11/16/07,,,,,,,,Adult not sampled.,
4,PAL0708,5,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N3A1,Yes,11/16/07,36.7,19.3,193.0,3450.0,FEMALE,8.76651,-25.32426,,11902500.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
339,PAL0910,120,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N38A2,No,12/1/09,,,,,,,,,
340,PAL0910,121,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N39A1,Yes,11/22/09,46.8,14.3,215.0,4850.0,FEMALE,8.41151,-26.13832,,23522500.0
341,PAL0910,122,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N39A2,Yes,11/22/09,50.4,15.7,222.0,5750.0,MALE,8.30166,-26.04117,,33062500.0
342,PAL0910,123,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N43A1,Yes,11/22/09,45.2,14.8,212.0,5200.0,FEMALE,8.24246,-26.11969,,27040000.0


### 2-5 drop nan values

**문제**  
2-1에서 읽어온 Data Frame에서 칼럼 별로 값이 없는 데이터의 수를 구하는 코드를 작성해보세요.  
그리고 그런 공백값들을 제거한 Data Frame을 출력하는 코드를 작성해주세요.

검색 힌트 : pandas get number of nan, pandas remove null 

_예시_  
column별 공백값의 수  
![](./2-5answer1.png)   
제거 후 Data Frame  
![](./2-5answer2.png)   

In [123]:
# 결측값이 들어있는 열 전체 삭제하기(dropna(axis = 1))
print(penguin_df.isnull().sum())
drop_df = penguin_df.dropna(axis=1).reset_index(drop = True)
print(drop_df.isnull().sum())


studyName                0
Sample Number            0
Species                  0
Region                   0
Island                   0
Stage                    0
Individual ID            0
Clutch Completion        0
Date Egg                 0
Culmen Length (mm)       2
Culmen Depth (mm)        2
Flipper Length (mm)      2
Body Mass (g)            2
Sex                     10
Delta 15 N (o/oo)       14
Delta 13 C (o/oo)       13
Comments               318
dtype: int64
studyName            0
Sample Number        0
Species              0
Region               0
Island               0
Stage                0
Individual ID        0
Clutch Completion    0
Date Egg             0
dtype: int64


### 2-6 remove column

**문제**  
2-1에서 읽어온 Data Frame에서 `island` Column을 제거하는 코드를 작성해주세요.  
  
검색 힌트: pandas remove columns

_예시_  
![](./2-6answer.png)  
  

In [141]:
penguin_df.drop(["Island"], axis=1)

Unnamed: 0,studyName,Sample Number,Species,Region,Stage,Individual ID,Clutch Completion,Date Egg,Culmen Length (mm),Culmen Depth (mm),Flipper Length (mm),Body Mass (g),Sex,Delta 15 N (o/oo),Delta 13 C (o/oo),Comments
0,PAL0708,1,Adelie Penguin (Pygoscelis adeliae),Anvers,"Adult, 1 Egg Stage",N1A1,Yes,11/11/07,39.1,18.7,181.0,3750.0,MALE,,,Not enough blood for isotopes.
1,PAL0708,2,Adelie Penguin (Pygoscelis adeliae),Anvers,"Adult, 1 Egg Stage",N1A2,Yes,11/11/07,39.5,17.4,186.0,3800.0,FEMALE,8.94956,-24.69454,
2,PAL0708,3,Adelie Penguin (Pygoscelis adeliae),Anvers,"Adult, 1 Egg Stage",N2A1,Yes,11/16/07,40.3,18.0,195.0,3250.0,FEMALE,8.36821,-25.33302,
3,PAL0708,4,Adelie Penguin (Pygoscelis adeliae),Anvers,"Adult, 1 Egg Stage",N2A2,Yes,11/16/07,,,,,,,,Adult not sampled.
4,PAL0708,5,Adelie Penguin (Pygoscelis adeliae),Anvers,"Adult, 1 Egg Stage",N3A1,Yes,11/16/07,36.7,19.3,193.0,3450.0,FEMALE,8.76651,-25.32426,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
339,PAL0910,120,Gentoo penguin (Pygoscelis papua),Anvers,"Adult, 1 Egg Stage",N38A2,No,12/1/09,,,,,,,,
340,PAL0910,121,Gentoo penguin (Pygoscelis papua),Anvers,"Adult, 1 Egg Stage",N39A1,Yes,11/22/09,46.8,14.3,215.0,4850.0,FEMALE,8.41151,-26.13832,
341,PAL0910,122,Gentoo penguin (Pygoscelis papua),Anvers,"Adult, 1 Egg Stage",N39A2,Yes,11/22/09,50.4,15.7,222.0,5750.0,MALE,8.30166,-26.04117,
342,PAL0910,123,Gentoo penguin (Pygoscelis papua),Anvers,"Adult, 1 Egg Stage",N43A1,Yes,11/22/09,45.2,14.8,212.0,5200.0,FEMALE,8.24246,-26.11969,


# 1주차 종료
- 여기까지 완료하신 분들 너무 고생많았습니다 ㅎㅎ 우리가 위의 문제들을 푸는 과정에서 배우고 익혔던 메서드들은 앞으로 Tabular Data를 다룰 때 거의 무조건적으로 사용될 녀석들로 꼭 반복학습 하셔서 익혀두시는 걸 추천드려요.
- 더 배우고 싶으신 분들은 아래의 문제도 한번 풀어보시는 걸 추천드려요 ㅎㅎ
- 다음엔 시각화에 대한 문제를 풀어볼 겁니다. 우리가 읽어온 데이터를 가공한 결과를 그래프로 잘 표현하는 것만으로도 유의미한 정보를 얻어낼 수 있습니다. 백문이 불허일견인 만큼, 주저리주저리 얘기하는 것보다는 잘 된 시각화 그림 하나 보여주는 게 더 효과가 좋을 때가 많습니다. 
- 그럼 다음 주차에 봐요!
  
<br>

👀**추가 문제**👀  
아래의 두 Data Frame을 가지고, 아래 결과와 같은 Data Frame으로 생성해보세요! 

<br>

**input**  
![](./add_input.png)  
  
**output**  
![](./add_output.png)
