# pandas 기본 익히기
- iris 데이터를 활용하여 pandas 문법을 이해한다.  

In [None]:
import pandas as pd 
import seaborn as sns
import numpy as np 

print("pandas version:", pd.__version__)
print("seaborn version:", sns.__version__)
print("numpy version:", np.__version__)

pandas version: 1.1.5
seaborn version: 0.11.2
numpy version: 1.19.5


- 어려운 데이터셋에 적용하기 어렵다면, 비교적 이해하기 쉬운 데이터로 시작하는 것을 추천한다. 

In [None]:
sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'exercise',
 'flights',
 'fmri',
 'gammas',
 'geyser',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'taxis',
 'tips',
 'titanic']

- iris 데이터셋을 불러온다. 

In [None]:
iris = sns.load_dataset("iris")
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


# Value와 Index의 차이
- values는 배열을 의미하며, 이 때 column명은 확인할 수 없다. 

In [None]:
iris.values

array([[5.1, 3.5, 1.4, 0.2, 'setosa'],
       [4.9, 3.0, 1.4, 0.2, 'setosa'],
       [4.7, 3.2, 1.3, 0.2, 'setosa'],
       [4.6, 3.1, 1.5, 0.2, 'setosa'],
       [5.0, 3.6, 1.4, 0.2, 'setosa'],
       [5.4, 3.9, 1.7, 0.4, 'setosa'],
       [4.6, 3.4, 1.4, 0.3, 'setosa'],
       [5.0, 3.4, 1.5, 0.2, 'setosa'],
       [4.4, 2.9, 1.4, 0.2, 'setosa'],
       [4.9, 3.1, 1.5, 0.1, 'setosa'],
       [5.4, 3.7, 1.5, 0.2, 'setosa'],
       [4.8, 3.4, 1.6, 0.2, 'setosa'],
       [4.8, 3.0, 1.4, 0.1, 'setosa'],
       [4.3, 3.0, 1.1, 0.1, 'setosa'],
       [5.8, 4.0, 1.2, 0.2, 'setosa'],
       [5.7, 4.4, 1.5, 0.4, 'setosa'],
       [5.4, 3.9, 1.3, 0.4, 'setosa'],
       [5.1, 3.5, 1.4, 0.3, 'setosa'],
       [5.7, 3.8, 1.7, 0.3, 'setosa'],
       [5.1, 3.8, 1.5, 0.3, 'setosa'],
       [5.4, 3.4, 1.7, 0.2, 'setosa'],
       [5.1, 3.7, 1.5, 0.4, 'setosa'],
       [4.6, 3.6, 1.0, 0.2, 'setosa'],
       [5.1, 3.3, 1.7, 0.5, 'setosa'],
       [4.8, 3.4, 1.9, 0.2, 'setosa'],
       [5.0, 3.0, 1.6, 0.

- 컬럼명을 확인한다. 

In [None]:
iris.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

- index를 추출한다. 

In [None]:
iris.index

RangeIndex(start=0, stop=150, step=1)


In [None]:
# 인덱스 추출하려면 반복문을 사용해야 한다. 
for row in iris.index:
    print(row, end = " ")

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 

# Pandas 열 정렬
- 열을 선택하고 정렬하는 방법은 크게 2가지다. 
  + one column
  + multiple columns

In [None]:
temp = iris.sort_values('sepal_length')
temp.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
13,4.3,3.0,1.1,0.1,setosa
42,4.4,3.2,1.3,0.2,setosa
38,4.4,3.0,1.3,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
41,4.5,2.3,1.3,0.3,setosa


In [None]:
temp = iris.sort_values('sepal_length', ascending=False)
temp.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
131,7.9,3.8,6.4,2.0,virginica
135,7.7,3.0,6.1,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica


- 이번에는 2개의 컬럼을 정렬한다. 
- 이 때, 처음 정렬한 코드를 기준으로 다시 정렬하는 것을 기억한다. 

In [None]:
# sepal_length 내림차순, petal_length 오름차순
temp = iris.sort_values(by = ['sepal_length', 'petal_length'], 
                        axis = 0,
                        ascending = [False, False])
temp.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
131,7.9,3.8,6.4,2.0,virginica
118,7.7,2.6,6.9,2.3,virginica
117,7.7,3.8,6.7,2.2,virginica
122,7.7,2.8,6.7,2.0,virginica
135,7.7,3.0,6.1,2.3,virginica


# 컬럼 선택
- 하나의 컬럼만 선택한다. 

In [None]:
temp = iris["sepal_length"]
temp.head()

0    5.1
1    4.9
2    4.7
3    4.6
4    5.0
Name: sepal_length, dtype: float64

- 이번에는 다중 컬럼을 선택한다. 

In [None]:
temp = iris[["sepal_length", "petal_length"]]
temp.head()

Unnamed: 0,sepal_length,petal_length
0,5.1,1.4
1,4.9,1.4
2,4.7,1.3
3,4.6,1.5
4,5.0,1.4


# 행 선택
- 행 선택은 조건문이다. 
  + data[data["수치형 컬럼"] > 수치]
  + data[data["문자형 컬럼"] == "특정문자"]
- 두 조건을 작성해야 한다면, 아래와 같이 작업한다. 
  + data[(data["수치형 컬럼" > 60) & (data["문자형 컬럼"] == "문자")]


- sepal_length가 5 이상인 것만 추출한다. 

In [None]:
temp = iris[iris["sepal_length"] > 5]
print(temp)

     sepal_length  sepal_width  petal_length  petal_width    species
0             5.1          3.5           1.4          0.2     setosa
5             5.4          3.9           1.7          0.4     setosa
10            5.4          3.7           1.5          0.2     setosa
14            5.8          4.0           1.2          0.2     setosa
15            5.7          4.4           1.5          0.4     setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

[118 rows x 5 columns]


- 이번에는 setosa만 추출한다. 

In [None]:
temp = iris[iris["species"] == "setosa"]
print(temp)

    sepal_length  sepal_width  petal_length  petal_width species
0            5.1          3.5           1.4          0.2  setosa
1            4.9          3.0           1.4          0.2  setosa
2            4.7          3.2           1.3          0.2  setosa
3            4.6          3.1           1.5          0.2  setosa
4            5.0          3.6           1.4          0.2  setosa
5            5.4          3.9           1.7          0.4  setosa
6            4.6          3.4           1.4          0.3  setosa
7            5.0          3.4           1.5          0.2  setosa
8            4.4          2.9           1.4          0.2  setosa
9            4.9          3.1           1.5          0.1  setosa
10           5.4          3.7           1.5          0.2  setosa
11           4.8          3.4           1.6          0.2  setosa
12           4.8          3.0           1.4          0.1  setosa
13           4.3          3.0           1.1          0.1  setosa
14           5.8         

- 기존 두개의 조건을 모두 만족하는 코드를 작성한다. 

In [None]:
temp = iris[(iris["sepal_length"] > 5)& (iris["species"] == "setosa")]
print(temp)

    sepal_length  sepal_width  petal_length  petal_width species
0            5.1          3.5           1.4          0.2  setosa
5            5.4          3.9           1.7          0.4  setosa
10           5.4          3.7           1.5          0.2  setosa
14           5.8          4.0           1.2          0.2  setosa
15           5.7          4.4           1.5          0.4  setosa
16           5.4          3.9           1.3          0.4  setosa
17           5.1          3.5           1.4          0.3  setosa
18           5.7          3.8           1.7          0.3  setosa
19           5.1          3.8           1.5          0.3  setosa
20           5.4          3.4           1.7          0.2  setosa
21           5.1          3.7           1.5          0.4  setosa
23           5.1          3.3           1.7          0.5  setosa
27           5.2          3.5           1.5          0.2  setosa
28           5.2          3.4           1.4          0.2  setosa
31           5.4         

- 이번에는 species 칼럼에서 setosa와 virginica 값만 조회하는 코드를 작성한다. 

In [None]:
temp = iris[iris["species"].isin(["setosa", "virginica"])]
print(temp)

     sepal_length  sepal_width  petal_length  petal_width    species
0             5.1          3.5           1.4          0.2     setosa
1             4.9          3.0           1.4          0.2     setosa
2             4.7          3.2           1.3          0.2     setosa
3             4.6          3.1           1.5          0.2     setosa
4             5.0          3.6           1.4          0.2     setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

[100 rows x 5 columns]


- sepal_length가 5 이상인 setosa, virginica만 출력한다. 

In [None]:
temp = iris[(iris['sepal_length'] > 5)& (iris["species"].isin(["setosa", "virginica"]))]
print(temp)

     sepal_length  sepal_width  petal_length  petal_width    species
0             5.1          3.5           1.4          0.2     setosa
5             5.4          3.9           1.7          0.4     setosa
10            5.4          3.7           1.5          0.2     setosa
14            5.8          4.0           1.2          0.2     setosa
15            5.7          4.4           1.5          0.4     setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

[71 rows x 5 columns]


# 새로운 컬럼 생성
- 변수간 사칙 연산을 통해 새로운 컬럼을 추가할 수 있다. 

In [None]:
temp = iris.copy() # 원본 데이터 보존을 위해 복제 한다. 
temp["sepal_total"] = temp["sepal_length"] + temp["sepal_width"]
temp

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,sepal_total
0,5.1,3.5,1.4,0.2,setosa,8.6
1,4.9,3.0,1.4,0.2,setosa,7.9
2,4.7,3.2,1.3,0.2,setosa,7.9
3,4.6,3.1,1.5,0.2,setosa,7.7
4,5.0,3.6,1.4,0.2,setosa,8.6
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,9.7
146,6.3,2.5,5.0,1.9,virginica,8.8
147,6.5,3.0,5.2,2.0,virginica,9.5
148,6.2,3.4,5.4,2.3,virginica,9.6
