# Pandas
![pandas](./Pandas_logo.png)

<br>

**데이터 분석**을 하고 싶으신가요? 그럼 `pandas`를 한번 거쳐가시는 것이 좋습니다. 물론 굉장히 멋있어 보이는 `Machine Learning`, `AI` 등을 하고 싶으시겠지만, 두 다리 없이 뛸 수는 없잖아요? 일단 데이터를 다룰 수 있는 기본기를 익히고, 멋있어 보이는 것들을 해봅시다.  

<br>
  
Pandas는 Python Data Analysis Library의 약자입니다. 이름만 보고 "오잉 판다가 갑자기 왜 나오징?" 하실 수 있지만 의외로 판다와 무관합니다 ㅎㅎ   
  
그럼 한번 pandas와 관련된 문제를 풀어보러 가시죠!

<br>

---

**알림**
- 본 컨텐츠는 강의 형식이 아닌, 스스로 공부하시는 분들을 위한 일종의 문제집 입니다.
- 데이터라는 큰 바다에서 여러분이 쓸 데 없는 시간 낭비 없이 바로바로 핵심을 배우실 수 있도록 커리큘럼을 짜봤습니다.
- 이 컨텐츠의 문제들만 해결한다고 실력이 오르지 않습니다. 본 컨텐츠의 목적은 문제를 해결하는 과정에서 발생하는 고민과 질문을 통한 실력 향상입니다. 
- 문제에서 절대 떠먹여주지 않습니다. 물고기를 잡아주는 것이 아닌, 물고기를 잡는 방법을 여러분이 이 컨텐츠를 통해 알아가셨으면 합니다.


<br>

<br>

# 1. Data Frame 다루기
- Tabular Data를 다루는 가장 기본적인 툴이 바로 `pandas`입니다. Tabular Data는 흔히 여러분이 엑셀에서 많이 봐오셨던 데이터를 말하는데요, 쉽게 말해서 그냥 표라고 생각하셔도 무방합니다.  
- 이번 Chapter에선 `pandas`의 가장 기본적인 형태인 `Data Frame`을 다루는 쉽지만 필수적인 method에 대해 알아보겠습니다.

❗ 잠깐 ❗  
들어가기 전에, Data Frame에 대한 간단한 설명이 있는 [pandas document](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html)를 한번 가볍게 쭉 읽고 오시는 것을 추천드려요 ㅎㅎ

### 1-1 Data Frame 만들기

**문제**  
열(Column)의 이름이 A, B, C, D이고, 각 열마다 Random한 숫자가 10개씩 담겨져 있는 Data Frame을 생성해보세요.

검색 힌트  : pandas Data Frame 생성, pandas data frame 만들기

_예시_  
![](./1-1answer.png)


In [2]:
import pandas as pd
import numpy as np

df1 = pd.DataFrame(
    {
        "A": np.random.randn(10),
        "B": np.random.randn(10),
        "C": np.random.randn(10),
        "D": np.random.randn(10)
    }
)

### 1-2 Data Frame Indexing 1

**문제**  
1-1에서 생성한 DataFrame에서 위에서부터 5개의 행을 출력하는 코드를 작성해보세요  
  
검색 힌트 : pandas indexing, pandas print top5 rows  
  
_예시_  
![](./1-2answer.png)

In [3]:
print(df1.head(5))

          A         B         C         D
0 -0.373219  0.172783  1.411468 -0.191473
1 -0.026404 -1.119474 -1.471817 -1.845682
2  0.877498 -0.012344 -0.165289 -1.867834
3 -0.247451  0.363504  0.356897  0.691472
4 -0.586845  0.124294  1.023525 -1.920236


### 1-3 Data Frame Indexing 2

**문제**  
1-1에서 생성한 DataFrame에서 1번째, 2번째 열만 추출하는 코드를 작성해보세요  
  
검색 힌트 : pandas indexing, pandas iloc, pandas loc  
  
_예시_  
![](./1-3answer.png)

In [4]:
print(df1.iloc[:,:2])

          A         B
0 -0.373219  0.172783
1 -0.026404 -1.119474
2  0.877498 -0.012344
3 -0.247451  0.363504
4 -0.586845  0.124294
5  0.570009 -0.076743
6 -0.349253 -1.130694
7  0.351534  2.330204
8 -0.500995 -2.576687
9  1.083473  1.970882


### 1-4 Data Frame Indexing 3

**문제**  
1-1에서 생성한 DataFrame에서 "A"열과 "D"열만 추출하는 코드를 작성해보세요  
  
검색 힌트 : pandas indexing, pandas iloc, pandas loc  
  
_예시_  
![](./1-4answer.png)

In [5]:
print(df1.loc[:,["A","D"]])

          A         D
0 -0.373219 -0.191473
1 -0.026404 -1.845682
2  0.877498 -1.867834
3 -0.247451  0.691472
4 -0.586845 -1.920236
5  0.570009  0.911951
6 -0.349253  0.479796
7  0.351534 -1.322833
8 -0.500995 -0.727059
9  1.083473  0.056814


### 1-5 Data Frame columns, values, index

**문제**  
1-1에서 생성한 DataFrame의 Column들과 값들, index, shape을 출력하는 코드를 작성하세요 
  
검색 힌트 : pandas columns, pandas values, pandas index
  
_예시_  
![](./1-5answer.png)

In [6]:
print(df1.columns)
print(df1.values)
print(df1.index)
print(df1.shape)

Index(['A', 'B', 'C', 'D'], dtype='object')
[[-0.37321858  0.17278332  1.41146846 -0.19147294]
 [-0.02640361 -1.11947376 -1.47181668 -1.84568232]
 [ 0.87749803 -0.01234414 -0.16528916 -1.86783408]
 [-0.24745125  0.36350406  0.35689667  0.69147198]
 [-0.58684526  0.12429403  1.02352484 -1.92023606]
 [ 0.57000939 -0.07674285 -1.39335795  0.91195113]
 [-0.34925295 -1.13069436 -0.82579063  0.47979579]
 [ 0.35153435  2.33020444 -0.21719198 -1.32283319]
 [-0.50099511 -2.57668668  0.56466366 -0.72705912]
 [ 1.08347337  1.97088196  1.66317625  0.05681402]]
RangeIndex(start=0, stop=10, step=1)
(10, 4)


### 1-6 Data Frame Informations

**문제**  
1-1에서 생성한 DataFrame의 column별 정보와 통계적 정보를 출력하는 코드를 작성하세요 
  
검색 힌트 : pandas get data frame information, pandas get statistic information
  
_예시_  
![](./1-6answer.png)

In [7]:
df1.info()
print(df1.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       10 non-null     float64
 1   B       10 non-null     float64
 2   C       10 non-null     float64
 3   D       10 non-null     float64
dtypes: float64(4)
memory usage: 448.0 bytes
               A          B          C          D
count  10.000000  10.000000  10.000000  10.000000
mean    0.079835   0.004573   0.094628  -0.573508
std     0.600671   1.440236   1.106887   1.113150
min    -0.586845  -2.576687  -1.471817  -1.920236
25%    -0.367227  -0.858791  -0.673641  -1.714970
50%    -0.136927   0.055975   0.095804  -0.459266
75%     0.515391   0.315824   0.908810   0.374050
max     1.083473   2.330204   1.663176   0.911951


### 1-7 Data Frame Sorting

**문제**  
1-1에서 생성한 DataFrame을 "A" Column을 기준으로 내림차순으로 정렬한 뒤, Index를 재정렬하는 코드를 작성하세요.  
(단, Index 재정렬 후 , 원래의 index는 삭제해주세요.)
  
검색 힌트 : pandas sort values, pandas sort values descending, pandas reset index
  
_예시_  
![](./1-7answer.png)

In [8]:
df2 = df1.sort_values(by = "A", ascending = False)
df2 = df2.reset_index(drop = True)
print(df2)

          A         B         C         D
0  1.083473  1.970882  1.663176  0.056814
1  0.877498 -0.012344 -0.165289 -1.867834
2  0.570009 -0.076743 -1.393358  0.911951
3  0.351534  2.330204 -0.217192 -1.322833
4 -0.026404 -1.119474 -1.471817 -1.845682
5 -0.247451  0.363504  0.356897  0.691472
6 -0.349253 -1.130694 -0.825791  0.479796
7 -0.373219  0.172783  1.411468 -0.191473
8 -0.500995 -2.576687  0.564664 -0.727059
9 -0.586845  0.124294  1.023525 -1.920236


### 1-8 Data Frame Advanced Indexing 1

**문제**  
아래와 같은 Data Frame을 만들고, 주 언어가 파이썬인 사람들만 조회하는 코드를 작성해보세요.
  
검색 힌트 : pandas indexing, pandas query, pandas get specific values
  
<br>

Data Frame 예시  
![](./1-8df.png)

_예시_  
![](./1-8answer.png)


In [9]:
df3 = pd.DataFrame(
    {
        "이름": ["피카츄","라이츄", "파이리", "꼬부기", "버터풀","야도란","피죤투","또가스"],
        "학과": ["경제","경영","컴공","컴공","경제","전전","컴공","기계"],
        "언어": ["파이썬","C","C++","파이썬","자바","엄","파이썬","자바"],
        "직무": ["AI엔지니어", "프론트","백엔드","AI엔지니어","백엔드","프론트","AI엔지니어","PM"]
    }
)

print(df3.query("언어.str.contains ('파이썬')"))

    이름  학과   언어      직무
0  피카츄  경제  파이썬  AI엔지니어
3  꼬부기  컴공  파이썬  AI엔지니어
6  피죤투  컴공  파이썬  AI엔지니어


### 1-9 Data Frame Advanced Indexing 2

**문제**  
1-8에서 만든 Data Frame에서 학과가 컴공이고, 주 언어가 파이썬, 직무는 AI 엔지니어인 사람들만 조회하는 코드를 작성해보세요.
  
검색 힌트 : pandas indexing, pandas query, pandas get specific values

_예시_  
![](./1-9answer.png)

In [10]:
print(df3.query(" 학과 == '컴공' & 언어 == '파이썬' & 직무 == 'AI엔지니어'"))

    이름  학과   언어      직무
3  꼬부기  컴공  파이썬  AI엔지니어
6  피죤투  컴공  파이썬  AI엔지니어


### 1-10 Data Frame Concat

**문제**  
1-1에서 만든 Data Frame과 1-8에서 만든 Data Frame을 위아래로 합치는 코드와, 좌우로 합치는 코드를 작성해주세요. 각 작업을 수행한 후엔 Index를 다시 세팅해주세요!
  
검색 힌트 : pandas concat Data Frame

_예시_  
위아래로 합치는 경우  
![](./1-10answer1.png)  
좌우로 합치는 경우  
![](./1-10answer2.png)  

In [11]:
df4 = pd.concat([df1,df3],ignore_index=True)
print(df4)
df5 = pd.concat([df1,df3], axis = 1)
print(df5)

           A         B         C         D   이름   학과   언어      직무
0  -0.373219  0.172783  1.411468 -0.191473  NaN  NaN  NaN     NaN
1  -0.026404 -1.119474 -1.471817 -1.845682  NaN  NaN  NaN     NaN
2   0.877498 -0.012344 -0.165289 -1.867834  NaN  NaN  NaN     NaN
3  -0.247451  0.363504  0.356897  0.691472  NaN  NaN  NaN     NaN
4  -0.586845  0.124294  1.023525 -1.920236  NaN  NaN  NaN     NaN
5   0.570009 -0.076743 -1.393358  0.911951  NaN  NaN  NaN     NaN
6  -0.349253 -1.130694 -0.825791  0.479796  NaN  NaN  NaN     NaN
7   0.351534  2.330204 -0.217192 -1.322833  NaN  NaN  NaN     NaN
8  -0.500995 -2.576687  0.564664 -0.727059  NaN  NaN  NaN     NaN
9   1.083473  1.970882  1.663176  0.056814  NaN  NaN  NaN     NaN
10       NaN       NaN       NaN       NaN  피카츄   경제  파이썬  AI엔지니어
11       NaN       NaN       NaN       NaN  라이츄   경영    C     프론트
12       NaN       NaN       NaN       NaN  파이리   컴공  C++     백엔드
13       NaN       NaN       NaN       NaN  꼬부기   컴공  파이썬  AI엔지니어
14       N

### 1-11 Data Frame Concat 2

**문제**  
1-10에서 만든 Data Frame가 뭔가 이상합니다. NaN값들이 막 섞여있고 상당히 지저분합니다. 왜 이러는 걸까요? 이유를 한번 생각해서 적어보세요!  
  
이유를 적어본 뒤에, 1-8에서 만든 Data Frame의 이름을 "A", "B", "C", "D"로 바꾼 다음 다시 시도해보세요.
  
검색 힌트 : pandas concat Data Frame, pandas column name change


In [12]:
'''두 dataframe의 column이 다르기 때문이다'''

df3.columns = ["A","B","C","D"]
df4 = pd.concat([df1,df3],ignore_index=True)
print(df4)
df5 = pd.concat([df1,df3], axis = 1)
print(df5)

           A         B         C         D
0  -0.373219  0.172783  1.411468 -0.191473
1  -0.026404 -1.119474 -1.471817 -1.845682
2   0.877498 -0.012344 -0.165289 -1.867834
3  -0.247451  0.363504  0.356897  0.691472
4  -0.586845  0.124294  1.023525 -1.920236
5   0.570009 -0.076743 -1.393358  0.911951
6  -0.349253 -1.130694 -0.825791  0.479796
7   0.351534  2.330204 -0.217192 -1.322833
8  -0.500995 -2.576687  0.564664 -0.727059
9   1.083473  1.970882  1.663176  0.056814
10       피카츄        경제       파이썬    AI엔지니어
11       라이츄        경영         C       프론트
12       파이리        컴공       C++       백엔드
13       꼬부기        컴공       파이썬    AI엔지니어
14       버터풀        경제        자바       백엔드
15       야도란        전전         엄       프론트
16       피죤투        컴공       파이썬    AI엔지니어
17       또가스        기계        자바        PM
          A         B         C         D    A    B    C       D
0 -0.373219  0.172783  1.411468 -0.191473  피카츄   경제  파이썬  AI엔지니어
1 -0.026404 -1.119474 -1.471817 -1.845682  라이츄   경영  

# 2. 데이터 불러오기
  
- 여기까지 해내신 분들! 아주 대단하십니다. 여기까지 푸신 것만 해도, 데이터를 다뤄볼 준비가 됐다고 할 수 있습니다 ㅎㅎ 뭐든 기본기가 지루하고 귀찮다고는 하지만 제일 중요하니까요..! 
- 이제는 튜토리얼 데이터를 불러와서, 통계량을 확인해보고, 우리들이 만든 함수도 적용해볼 겁니다. 어떻게 하는지 볼까요?  


❗잠깐❗  
데이터를 다운 받아야겠죠? 
[이곳](https://www.kaggle.com/code/parulpandey/penguin-dataset-the-new-iris/data)에서 데이터를 다운 받은뒤, 압축을 해제하고, `penguins_size.csv`파일을 **코드 파일이 존재하는 폴더에 저장해주세요**

### 2-1 Read CSV

**문제**  
방금 다운받은 데이터를 Data Frame으로 읽는 코드를 작성해주세요.
  
검색 힌트 : pandas read data, pandas read csv file

_예시_  
![](./2-1answer.png)  
  

In [13]:
peng = pd.read_csv("penguins_size.csv")

### 2-2 Data Frame Indexing 복습!

**문제**  
읽어온 Data Frame에서, `species`가 `Gentoo`인 데이터만 조회하고, index를 새로 재배치 하는 코드를 작성해주세요. 
  
검색 힌트 : pandas indexing, pandas query

_예시_  
![](./2-2answer.png)  
  

In [17]:
peng_s = peng.query("species == 'Gentoo'")
peng_s = peng_s.reset_index(drop = True)
print(peng_s)

    species  island  culmen_length_mm  culmen_depth_mm  flipper_length_mm  \
0    Gentoo  Biscoe              46.1             13.2              211.0   
1    Gentoo  Biscoe              50.0             16.3              230.0   
2    Gentoo  Biscoe              48.7             14.1              210.0   
3    Gentoo  Biscoe              50.0             15.2              218.0   
4    Gentoo  Biscoe              47.6             14.5              215.0   
..      ...     ...               ...              ...                ...   
119  Gentoo  Biscoe               NaN              NaN                NaN   
120  Gentoo  Biscoe              46.8             14.3              215.0   
121  Gentoo  Biscoe              50.4             15.7              222.0   
122  Gentoo  Biscoe              45.2             14.8              212.0   
123  Gentoo  Biscoe              49.9             16.1              213.0   

     body_mass_g     sex  
0         4500.0  FEMALE  
1         5700.0    M

### 2-3 Groupby

**문제**  
2-1에서 읽어온 Data Frame에서, `species`별 평균값 데이터를 조회해보세요.  
`species`별 평균값의 조회가 끝났다면, `island`별 평균, 최대, 최소, 중앙값 데이터도 조회해보세요!  
  
검색 힌트 : pandas groupby, pandas aggregate function

_예시_  
![](./2-3answer.png)  
![](./2-3answer2.png)
  

In [65]:
peng_sm = peng.groupby(['species'], as_index = True).mean()
print(peng_sm)

peng_islagg = peng.groupby('island')[['culmen_length_mm' , 'culmen_depth_mm' , 'flipper_length_mm' , 'body_mass_g']].agg(['mean','max','min','median'])
print(peng_islagg)

           culmen_length_mm  culmen_depth_mm  flipper_length_mm  body_mass_g
species                                                                     
Adelie            38.791391        18.346358         189.953642  3700.662252
Chinstrap         48.833824        18.420588         195.823529  3733.088235
Gentoo            47.504878        14.982114         217.186992  5076.016260
          culmen_length_mm                    culmen_depth_mm              \
                      mean   max   min median            mean   max   min   
island                                                                      
Biscoe           45.257485  59.6  34.5  45.80       15.874850  21.1  13.1   
Dream            44.167742  58.0  32.1  44.65       18.344355  21.2  15.5   
Torgersen        38.950980  46.0  33.5  38.90       18.429412  21.5  15.9   

                 flipper_length_mm                       body_mass_g          \
          median              mean    max    min median         mean    

  peng_sm = peng.groupby(['species'], as_index = True).mean()


### 2-4 apply lambda

**문제**  
들어온 input에 대해서 제곱된 값을 return 해주는 함수를 작성하세요.  
그런 다음 2-1에서 읽어온 Data Frame에서, `body_mass_g` Column의 값을 제곱한 새로운 Column을 만들어보세요

검색 힌트 : pandas new column, pandas apply lambda

_예시_  
![](./2-4answer.png)  
  

In [66]:
def square(x):
    x = x**2
    return x

peng2 = peng.copy()
peng2['new_column'] =  peng2['body_mass_g'].apply(square)
print(peng2)

    species     island  culmen_length_mm  culmen_depth_mm  flipper_length_mm  \
0    Adelie  Torgersen              39.1             18.7              181.0   
1    Adelie  Torgersen              39.5             17.4              186.0   
2    Adelie  Torgersen              40.3             18.0              195.0   
3    Adelie  Torgersen               NaN              NaN                NaN   
4    Adelie  Torgersen              36.7             19.3              193.0   
..      ...        ...               ...              ...                ...   
339  Gentoo     Biscoe               NaN              NaN                NaN   
340  Gentoo     Biscoe              46.8             14.3              215.0   
341  Gentoo     Biscoe              50.4             15.7              222.0   
342  Gentoo     Biscoe              45.2             14.8              212.0   
343  Gentoo     Biscoe              49.9             16.1              213.0   

     body_mass_g     sex  new_column  


### 2-5 drop nan values

**문제**  
2-1에서 읽어온 Data Frame에서 칼럼 별로 값이 없는 데이터의 수를 구하는 코드를 작성해보세요.  
그리고 그런 공백값들을 제거한 Data Frame을 출력하는 코드를 작성해주세요.

검색 힌트 : pandas get number of nan, pandas remove null 

_예시_  
column별 공백값의 수  
![](./2-5answer1.png)   
제거 후 Data Frame  
![](./2-5answer2.png)   

In [67]:
print(peng.isna().sum())
print(peng.dropna())

species               0
island                0
culmen_length_mm      2
culmen_depth_mm       2
flipper_length_mm     2
body_mass_g           2
sex                  10
dtype: int64
    species     island  culmen_length_mm  culmen_depth_mm  flipper_length_mm  \
0    Adelie  Torgersen              39.1             18.7              181.0   
1    Adelie  Torgersen              39.5             17.4              186.0   
2    Adelie  Torgersen              40.3             18.0              195.0   
4    Adelie  Torgersen              36.7             19.3              193.0   
5    Adelie  Torgersen              39.3             20.6              190.0   
..      ...        ...               ...              ...                ...   
338  Gentoo     Biscoe              47.2             13.7              214.0   
340  Gentoo     Biscoe              46.8             14.3              215.0   
341  Gentoo     Biscoe              50.4             15.7              222.0   
342  Gentoo     Bis

### 2-6 remove column

**문제**  
2-1에서 읽어온 Data Frame에서 `island` Column을 제거하는 코드를 작성해주세요.  
  
검색 힌트: pandas remove columns

_예시_  
![](./2-6answer.png)  
  

In [68]:
print(peng.drop(columns = 'island'))

    species  culmen_length_mm  culmen_depth_mm  flipper_length_mm  \
0    Adelie              39.1             18.7              181.0   
1    Adelie              39.5             17.4              186.0   
2    Adelie              40.3             18.0              195.0   
3    Adelie               NaN              NaN                NaN   
4    Adelie              36.7             19.3              193.0   
..      ...               ...              ...                ...   
339  Gentoo               NaN              NaN                NaN   
340  Gentoo              46.8             14.3              215.0   
341  Gentoo              50.4             15.7              222.0   
342  Gentoo              45.2             14.8              212.0   
343  Gentoo              49.9             16.1              213.0   

     body_mass_g     sex  
0         3750.0    MALE  
1         3800.0  FEMALE  
2         3250.0  FEMALE  
3            NaN     NaN  
4         3450.0  FEMALE  
..       

# 1주차 종료
- 여기까지 완료하신 분들 너무 고생많았습니다 ㅎㅎ 우리가 위의 문제들을 푸는 과정에서 배우고 익혔던 메서드들은 앞으로 Tabular Data를 다룰 때 거의 무조건적으로 사용될 녀석들로 꼭 반복학습 하셔서 익혀두시는 걸 추천드려요.
- 더 배우고 싶으신 분들은 아래의 문제도 한번 풀어보시는 걸 추천드려요 ㅎㅎ
- 다음엔 시각화에 대한 문제를 풀어볼 겁니다. 우리가 읽어온 데이터를 가공한 결과를 그래프로 잘 표현하는 것만으로도 유의미한 정보를 얻어낼 수 있습니다. 백문이 불허일견인 만큼, 주저리주저리 얘기하는 것보다는 잘 된 시각화 그림 하나 보여주는 게 더 효과가 좋을 때가 많습니다. 
- 그럼 다음 주차에 봐요!
  
<br>

👀**추가 문제**👀  
아래의 두 Data Frame을 가지고, 아래 결과와 같은 Data Frame으로 생성해보세요! 

<br>

**input**  
![](./add_input.png)  
  
**output**  
![](./add_output.png)


In [14]:
print('hello')

hello
