# Pandas 기본 사용법

### Pandas란?
- 데이터를 효과적으로 처리하고, 보여줄 수 있도록 도와주는 라이브러리입니다.
- Numpy와 함께 사용되어 다양한 연계적인 기능을 제공합니다.
- 인덱스(Index)에 따라 데이터를 나열하므로 사전(Dictionary) 자료형에 가깝습니다.
- 시리즈(Series)를 기본적인 자료형으로 사용합니다.
- 엑셀과 유사합니다.

### Series란?
- 시리즈는 **인덱스와 값**으로 구성됩니다.

In [2]:
import pandas as pd

array = pd.Series(['사과', '바나나', '당근'], index=['a', 'b', 'c'])
print(array)
print(array['a'])

# Dict 자료형을 Series로 바꾸기
data = {
    'a': '사과',
    'b': '바나나',
    'c': '당근'
}
array = pd.Series(data)
print(array['a'])

a     사과
b    바나나
c     당근
dtype: object
사과
사과


#### 시리즈의 연산
- 시리즈를 서로 연산하여 새로운 시리즈를 만들 수 있습니다.

In [6]:
import pandas as pd

word_dict = {
    'Apple': '사과',
    'Banana': '바나나',
    'Carrot': '당근'
}

frequency_dict = {
    'Apple': 3,
    'Banana': 5,
    'Carrot': 7
}

importance_dict = {
    'Apple': 3,
    'Banana': 2,
    'Carrot': 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({
    'word': word,
    'frequency': frequency,
    'importance': importance
})

score = summary['frequency'] * summary['importance']
summary['score'] = score
print(summary)

       word  frequency  importance  score
Apple    사과          3           3      9
Banana  바나나          5           2     10
Carrot   당근          7           1      7


#### 시리즈 자료형의 연산
- 인덱스가 일치하는 부분끼리 계산합니다.
- 두 시리즈에 모두 존재하지 않는 부분은 Nan 값이 나옵니다.

In [27]:
import pandas as pd

array1 = pd.Series([1, 2, 3], index=['A', 'B', 'C'])
array2 = pd.Series([4, 5, 6], index=['B', 'C', 'D'])

array = array1.add(array2, fill_value=0)
print(array)

A    1.0
B    6.0
C    8.0
D    6.0
dtype: float64


### 데이터 프레임이란?
- **다수의 시리즈(Series)를 모아 처리**하기 위한 목적으로 사용합니다.
- 표 형태로 데이터를 손쉽게 출력하고자 할 때 사용할 수 있습니다.

In [15]:
import pandas as pd

word_dict = {
    'Apple': '사과',
    'Banana': '바나나',
    'Carrot': '당근'
}

frequency_dict = {
    'Apple': 3,
    'Banana': 5,
    'Carrot': 7
}

importance_dict = {
    'Apple': 3,
    'Banana': 2,
    'Carrot': 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({
    'word': word,
    'frequency': frequency,
    'importance': importance
})

print(summary)

       word  frequency  importance
Apple    사과          3           3
Banana  바나나          5           2
Carrot   당근          7           1


#### 데이터 프레임의 슬라이싱

In [16]:
# 이름을 기준으로 슬라이싱
print(summary.loc['Banana': 'Carrot', 'importance':])

# 인덱스를 기준으로 슬라이싱
print(summary.iloc[1:3, 2:])

        importance
Banana           2
Carrot           1
        importance
Banana           2
Carrot           1


#### 데이터 프레임의 연산

In [17]:
summary.loc['Apple', 'importance'] = 5  # 데이터의 변경
summary.loc['Elderberry'] = ['엘더베리', 5, 3]  # 새 데이터 삽입

print(summary)

            word  frequency  importance
Apple         사과          3           5
Banana       바나나          5           2
Carrot        당근          7           1
Elderberry  엘더베리          5           3


#### 데이터 프레임의 Null 여부 확인

In [25]:
import pandas as pd
import numpy as np

word_dict = {
    'Apple': '사과',
    'Banana': '바나나',
    'Carrot': '당근'
}

frequency_dict = {
    'Apple': 3,
    'Banana': np.nan,
    'Carrot': 7
}

importance_dict = {
    'Apple': 3,
    'Banana': 2,
    'Carrot': 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({
    'word': word,
    'frequency': frequency,
    'importance': importance
})

print(summary.notnull())
print(summary.isnull())
summary['frequency'] = summary['frequency'].fillna('데이터 없음')
print(summary)

        word  frequency  importance
Apple   True       True        True
Banana  True      False        True
Carrot  True       True        True
         word  frequency  importance
Apple   False      False       False
Banana  False       True       False
Carrot  False      False       False
       word frequency  importance
Apple    사과         3           3
Banana  바나나    데이터 없음           2
Carrot   당근         7           1


#### 데이터 프레임 집계합수

In [28]:
import pandas as pd

array1 = pd.DataFrame([[1, 2], [3, 4]], index=['A', 'B'])
array2 = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], index=['B', 'C', 'D'])

array = array1.add(array2, fill_value=0)
print(array)
print("컬럼 1의 합:", array[1].sum())
print(array.sum())

     0    1    2
A  1.0  2.0  NaN
B  4.0  6.0  3.0
C  4.0  5.0  6.0
D  7.0  8.0  9.0
컬럼 1의 합: 21.0
0    16.0
1    21.0
2    18.0
dtype: float64


#### 데이터 프레임 정렬 함수

In [32]:
import pandas as pd
import numpy as np

word_dict = {
    'Apple': '사과',
    'Banana': '바나나',
    'Carrot': '당근'
}

frequency_dict = {
    'Apple': 3,
    'Banana': 4,
    'Carrot': 7
}

importance_dict = {
    'Apple': 3,
    'Banana': 2,
    'Carrot': 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({
    'word': word,
    'frequency': frequency,
    'importance': importance
})

summary = summary.sort_values('frequency', ascending=False)
print(summary)

       word  frequency  importance
Carrot   당근          7           1
Banana  바나나          4           2
Apple    사과          3           3


#### 데이터 프레임의 마스킹

In [34]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randint(1, 10, (2, 2)), index=[0, 1], columns=["A", "B"])
# 데이터 프레임 출력하기
print(df)
# 컬럼 A의 각 원소가 5보다 작거나 같은지 출력
print(df["A"] <= 5)
# 컬럼 A의 원소가 5보다 작고, 컬럼 B의 원소가 8보다 작은 행 추출
print(df.query("A <= 5 and B <= 8"))

   A  B
0  1  5
1  2  1
0    True
1    True
Name: A, dtype: bool
   A  B
0  1  5
1  2  1


#### 데이터 프레임의 개별 연산 ①

In [35]:
import pandas as pd

df = pd.DataFrame([[1, 2, 3, 4], [1, 2, 3, 4]], index=[0, 1], columns=["A", "B", "C", "D"])
print(df)

df = df.apply(lambda x: x + 1)
print(df)

def addOne(x):
    return x + 1
  
df = df.apply(addOne)
print(df)

   A  B  C  D
0  1  2  3  4
1  1  2  3  4
   A  B  C  D
0  2  3  4  5
1  2  3  4  5
   A  B  C  D
0  3  4  5  6
1  3  4  5  6


#### 데이터 프레임의 개별 연산 ②

In [36]:
import pandas as pd

df = pd.DataFrame([
    ['Apple', 'Apple', 'Carrot', 'Banana'],
    ['Durian', 'Banana', 'Apple', 'Carrot']],
    index=[0, 1],
    columns=["A", "B", "C", "D"])

print(df)
df = df.replace({"Apple": "Airport"})  # Apple -> Airport로 변환
print(df)

        A       B       C       D
0   Apple   Apple  Carrot  Banana
1  Durian  Banana   Apple  Carrot
         A        B        C       D
0  Airport  Airport   Carrot  Banana
1   Durian   Banana  Airport  Carrot


#### 데이터 프레임의 그룹화 ①

In [37]:
import pandas as pd

df = pd.DataFrame([
    ['Apple', 7, 'Fruit'],
    ['Banana', 3, 'Fruit'],
    ['Beef', 5, 'Meal'],
    ['Kimchi', 4, 'Meal']],
    columns=["Name", "Frequency", "Type"])

print(df)
print(df.groupby(['Type']).sum())

     Name  Frequency   Type
0   Apple          7  Fruit
1  Banana          3  Fruit
2    Beef          5   Meal
3  Kimchi          4   Meal
       Frequency
Type            
Fruit         10
Meal           9


#### 데이터 프레임의 그룹화 ②

In [39]:
import numpy as np
import pandas as pd

df = pd.DataFrame([
    ['Apple', 7, 5, 'Fruit'],
    ['Banana', 3, 6, 'Fruit'],
    ['Beef', 5, 2, 'Meal'],
    ['Kimchi', 4, 8, 'Meal']],
    columns=["Name", "Frequency", "Importance", "Type"])

print(df)
print(df.groupby(["Type"]).aggregate([min, max, np.average]))

     Name  Frequency  Importance   Type
0   Apple          7           5  Fruit
1  Banana          3           6  Fruit
2    Beef          5           2   Meal
3  Kimchi          4           8   Meal
      Frequency             Importance            
            min max average        min max average
Type                                              
Fruit         3   7     5.0          5   6     5.5
Meal          4   5     4.5          2   8     5.0


#### 데이터 프레임의 그룹화 ③

In [40]:
import pandas as pd

df = pd.DataFrame([
    ['Apple', 7, 5, 'Fruit'],
    ['Banana', 3, 6, 'Fruit'],
    ['Beef', 5, 2, 'Meal'],
    ['Kimchi', 4, 8, 'Meal']],
    columns=["Name", "Frequency", "Importance", "Type"])


def my_filter(data):
    return data["Frequency"].mean() >= 5


print(df)
df = df.groupby("Type").filter(my_filter)
print(df)

     Name  Frequency  Importance   Type
0   Apple          7           5  Fruit
1  Banana          3           6  Fruit
2    Beef          5           2   Meal
3  Kimchi          4           8   Meal
     Name  Frequency  Importance   Type
0   Apple          7           5  Fruit
1  Banana          3           6  Fruit


#### 데이터 프레임의 그룹화 ④

In [41]:
import pandas as pd

df = pd.DataFrame([
    ['Apple', 7, 5, 'Fruit'],
    ['Banana', 3, 6, 'Fruit'],
    ['Beef', 5, 2, 'Meal'],
    ['Kimchi', 4, 8, 'Meal']],
    columns=["Name", "Frequency", "Importance", "Type"])

df = df.groupby("Type").get_group("Fruit")
print(df)

     Name  Frequency  Importance   Type
0   Apple          7           5  Fruit
1  Banana          3           6  Fruit


#### 데이터 프레임의 그룹화 ⑤

In [42]:
import pandas as pd

df = pd.DataFrame([
    ['Apple', 7, 5, 'Fruit'],
    ['Banana', 3, 6, 'Fruit'],
    ['Beef', 5, 2, 'Meal'],
    ['Kimchi', 4, 8, 'Meal']],
    columns=["Name", "Frequency", "Importance", "Type"])

df["Gap"] = df.groupby("Type")["Frequency"].apply(lambda x: x - x.mean())
print(df)

     Name  Frequency  Importance   Type  Gap
0   Apple          7           5  Fruit  2.0
1  Banana          3           6  Fruit -2.0
2    Beef          5           2   Meal  0.5
3  Kimchi          4           8   Meal -0.5


#### 데이터 프레임의 다중화

In [43]:
import numpy as np
import pandas as pd

df = pd.DataFrame(
    np.random.randint(1, 10, (4, 4)),
    index=[['1차', '1차', '2차', '2차'], ['공격', '수비', '공격', '수비']],
    columns=['1회', '2회', '3회', '4회']
)

print(df)
print(df[["1회", "2회"]].loc["2차"])

       1회  2회  3회  4회
1차 공격   2   5   5   2
   수비   3   3   7   1
2차 공격   2   8   6   6
   수비   6   3   6   3
    1회  2회
공격   2   8
수비   6   3


#### 피벗 테이블의 기초

In [44]:
import numpy as np
import pandas as pd

df = pd.DataFrame([
    ['Apple', 7, 5, 'Fruit'],
    ['Banana', 3, 6, 'Fruit'],
    ['Coconut', 2, 6, 'Fruit'],
    ['Rice', 8, 2, 'Meal'],
    ['Beef', 5, 2, 'Meal'],
    ['Kimchi', 4, 8, 'Meal']],
   columns=["Name", "Frequency", "Importance", "Type"])

print(df)
df = df.pivot_table(
    index="Importance", columns="Type", values="Frequency",
    aggfunc=np.max
)
print(df)

      Name  Frequency  Importance   Type
0    Apple          7           5  Fruit
1   Banana          3           6  Fruit
2  Coconut          2           6  Fruit
3     Rice          8           2   Meal
4     Beef          5           2   Meal
5   Kimchi          4           8   Meal
Type        Fruit  Meal
Importance             
2             NaN   8.0
5             7.0   NaN
6             3.0   NaN
8             NaN   4.0


### 엑셀로 내보내기/불러오기

In [21]:
summary.to_csv("summary.csv", encoding="utf-8-sig")
saved = pd.read_csv("summary.csv", index_col=0)
print(saved)

   Unnamed: 0  word  frequency  importance
0       Apple    사과          3           5
1      Banana   바나나          5           2
2      Carrot    당근          7           1
3  Elderberry  엘더베리          5           3
