# 1주차 스터디_Pandas
-----

## 1. Pandas의 개념 및 특징

- *__Pandas__*는 데이터 분석을 위한 자료구조로 데이터 분석 도구를 제공하는 파이썬 라이브러리이며, Pandas의 특징은 다음과 같음
 - 각각의 행,열에 따라 데이터를 정렬할 수 있는 자료구조
 - 시계열, 비시계열 데이터를 함께 다룰 수 있는 통합 자료구조
 - 데이터의 결측치값을 유연하게 처리할 수 있는 기능
 - 데이터 핸들링 및 특정 행,열의 모든 값을 더하는 등의 데이터 연산 기능
- Pandas의 자료구조로는 Series와 DataFrame이 있음
 - Series는 1차원 데이터를 다루는 데 효과적인 자료구조임
 - DataFrame은 행과 열로 구성된 2차원 데이터를 다루는 데 효과적인 자료구조임

In [1]:
import pandas as pd
import numpy as np

------
## 2. Series
- pandas의 series로 데이터를 선언할 때 따로 인덱스를 지정하지 않았다면 기본적으로 0부터 시작하는 정수값으로 인덱싱됨
- 아래 예제 처럼 index를 사용자가 지정할 수 있음
 - 선언 후 데이터 값을 확인할 때는 values, index를 확인할 때는 index 함수를 이용해서 확인 할 수 있음
 - 기본 함수 사용법 : pd.Series(data, index=index)
 - Series객체 생성 시 인덱스값을 통해 데이터에 접근할 수 있음
 - 파이썬의 리스트와 달리 사용자가 index 값을 지정해 줄 수 있으며, 지정한 index 값으로 데이터에 접근 할 수 있음

In [10]:
s1 = pd.Series([1,2,3])
s1

0    1
1    2
2    3
dtype: int64

In [11]:
s2 = pd.Series(["a","b","c"])
s2

0    a
1    b
2    c
dtype: object

In [12]:
s3 = pd.Series(["a",1,"b",2])
s3

0    a
1    1
2    b
3    2
dtype: object

In [13]:
s4 = pd.Series(["a","b","c"], index=[1,2,3])
s4

1    a
2    b
3    c
dtype: object

In [14]:
s5 = pd.Series([1,2,3],["a","b","c"])
s5

a    1
b    2
c    3
dtype: int64

In [15]:
s5.values

array([1, 2, 3], dtype=int64)

In [17]:
s5.index

Index(['a', 'b', 'c'], dtype='object')

- 다음과 같이 value와 index를 변경해 줄 수 있음

In [None]:
s6 = pd.Series([21, 22, 23, 24])
s6

In [None]:
s6.index = ("a", "b", "c", "d")
s6

### 1.1 Series 기본 함수
> `size` : 개수 반환

> `count()` : NaN을 제외한 개수를 반환

> `shape` : tuple 형태로 shape 반환

> `mean()` : NaN을 제외한 평균 반환

> `unique()` : 유일한 값만 array형태로 반환

> `value_counts()` : NaN 을 제외하고 각 값들의 빈도를 반환

In [19]:
s7 = pd.Series([1,1,1,4,5,6,7,9,9,9,np.NaN])
s7

0     1.0
1     1.0
2     1.0
3     4.0
4     5.0
5     6.0
6     7.0
7     9.0
8     9.0
9     9.0
10    NaN
dtype: float64

In [20]:
# size
s7.size

11

In [21]:
len(s7)

11

In [22]:
# count()
s7.count()

10

In [23]:
# shape
s7.shape

(11,)

In [25]:
# mean
a1 = np.array(s7)
a1

array([ 1.,  1.,  1.,  4.,  5.,  6.,  7.,  9.,  9.,  9., nan])

In [26]:
print(a1.mean())
print(s7.mean())

nan
5.2


In [27]:
# unique()
s7.unique()

array([ 1.,  4.,  5.,  6.,  7.,  9., nan])

In [29]:
# value_counts()
s7.value_counts()

9.0    3
1.0    3
7.0    1
6.0    1
5.0    1
4.0    1
dtype: int64

### 1.2 Series 연산
- Series와 스칼라의 연산은 각 원소별로 스칼라와의 연산이 적용
- Series끼리의 사칙연산도 가능함. 단, index별로 계산이 되는 점을 유의하여야 함

In [34]:
s1 = pd.Series([1,2,3,4,5], ["a","b","c","d","e"])
s2 = pd.Series([2,2,2,2,2], ["a","b","c","d","e"])

print(s1)
print(s2)

a    1
b    2
c    3
d    4
e    5
dtype: int64
a    2
b    2
c    2
d    2
e    2
dtype: int64


In [31]:
s1*2

0    2
1    4
2    6
dtype: int64

In [35]:
s2**2

a    4
b    4
c    4
d    4
e    4
dtype: int64

In [36]:
s1 + s2

a    3
b    4
c    5
d    6
e    7
dtype: int64

In [37]:
s1["f"] = 100
s2["z"] = 100

print(s1)
print(s2)

a      1
b      2
c      3
d      4
e      5
f    100
dtype: int64
a      2
b      2
c      2
d      2
e      2
z    100
dtype: int64


In [38]:
s1 * s2

a     2.0
b     4.0
c     6.0
d     8.0
e    10.0
f     NaN
z     NaN
dtype: float64

### 1.3 Series 업데이트
- 인덱스를 이용하여 값을 추가 및 변경 가능
> `drop`을 이용하여 값 삭제
 - inplace=True 응 이용하여 원 데이터 변경 가능

In [39]:
s1 = pd.Series(np.arange(2,12,2), ["a","b","c","d","e"])
s1

a     2
b     4
c     6
d     8
e    10
dtype: int32

In [40]:
s1["a"] = 200
s1

a    200
b      4
c      6
d      8
e     10
dtype: int32

In [42]:
# drop
s1

a    200
b      4
c      6
d      8
e     10
dtype: int32

In [43]:
s1.drop("a")

b     4
c     6
d     8
e    10
dtype: int32

In [45]:
s1

a    200
b      4
c      6
d      8
e     10
dtype: int32

In [46]:
s1.drop("a",inplace = True)
s1

b     4
c     6
d     8
e    10
dtype: int32

### 1.4 Series Selection
- slicing
  - 리스트, array와 동일하게 적용
- Series에서 조건절은 기본적으로 각 요소(value)에 적용 됨
- 또한 데이터의 결측치를 확인 할 때 pandas의 함수를 이용하여 찾을 수 있음

In [47]:
s1 = pd.Series(np.arange(2,11,2), ["a","b","c","d","e"])
s1

a     2
b     4
c     6
d     8
e    10
dtype: int32

In [48]:
s1[1:4]

b    4
c    6
d    8
dtype: int32

In [49]:
s1["b":"d"]


b    4
c    6
d    8
dtype: int32

In [50]:
s1 = pd.Series(np.arange(2,21,2), np.arange(10))
s1

0     2
1     4
2     6
3     8
4    10
5    12
6    14
7    16
8    18
9    20
dtype: int32

In [51]:
s1 > 10

0    False
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
9     True
dtype: bool

In [52]:
s1[s1 > 10]

5    12
6    14
7    16
8    18
9    20
dtype: int32

In [53]:
s1.index >= 5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [54]:
s1 > 10

0    False
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
9     True
dtype: bool

In [55]:
(s1 > 10).sum()

5

In [56]:
s1[s1>10].sum()

80

In [57]:
# pandas 이용
s1 = pd.Series([1,2,3,4,5,np.NaN])
s1

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
5    NaN
dtype: float64

In [58]:
pd.isnull(s1)

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool

In [59]:
s1[pd.isnull(s1)]

5   NaN
dtype: float64

In [60]:
pd.notnull(s1)

0     True
1     True
2     True
3     True
4     True
5    False
dtype: bool

In [61]:
s1[pd.notnull(s1)]

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

-------
## 2. DataFrame
- Pandas의 Series가 1차원 형태의 자료구조라면 DataFrame은 여러 개의 열로 구성된 2차원 형태의 자료구조임
- numpy array를 받아 만들 수 있으며, Series 처럼 변환 가능한 오브젝트들을 갖고 있는 dict 형태를 인자로 넣어주어 DataFrame을 만들 수 있음

> DataFrame의 컬럼들은 각기 특별한 자료형을 갖고 있음
 - 이는 DataFrame 내에 있는 dtypes라는 속성을 통해 확인 가능함
 - 파이썬의 기본적인 소수점은 float64로 잡히고, 기본적은 문자열은 str이 아니라 object라는 자료형으로 나타남
 - DataFrame의 인덱스를 확인하려면 .index 속성을, 컬럼을 확인하려면 .columns 속성을, 데이터값을 확인하려면 .values 속성을 통해 확인함

> `.describe()` 메소드는 DataFrame의 간단한 통계 정보를 보여줌
 - 컬럼별 데이터의 개수, 데이터의 평균, 표준 편차, 최소값, 4분위수, 그리고 최대값 정보를 알 수 있음
 
> `ort_index()`라는 메소드로 행과 열 이름을 정렬하여 나타낼 수 있음
 - 정렬할 대상 축을 결정할 때에는 axis를 이용함
 - `axis = 0` 은 인덱스 기준으로 정렬(기본값), axis = 1 은 컬럼 기준 정렬
 - 정렬의 방향은 ascending을 이용함. ascending=True는 오름차순 정렬(기본값), ascending=False는 내림차순 정렬

In [63]:
ex = pd.DataFrame({'A': 1.,
                   'B': pd.Timestamp('20130102'),
                   'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                   'D': np.array([3]*4, dtype='int32'),
                   'E': pd.Categorical(['test', 'train', 'test', 'train']),
                   'F': 'foo'})
ex

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


In [64]:
ex.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

In [65]:
# 데이터 탐색
ex2 = pd.DataFrame(np.random.randn(5, 2), columns=['A','B'])
ex2

Unnamed: 0,A,B
0,-0.912486,0.495824
1,0.171178,1.192101
2,-0.703067,-0.003898
3,0.874162,-0.326516
4,-1.656346,-0.960897


In [66]:
ex2.head() # 기본값 = 5

Unnamed: 0,A,B
0,-0.912486,0.495824
1,0.171178,1.192101
2,-0.703067,-0.003898
3,0.874162,-0.326516
4,-1.656346,-0.960897


In [67]:
ex2.tail(2) # 끝에서 2개만 확인

Unnamed: 0,A,B
3,0.874162,-0.326516
4,-1.656346,-0.960897


In [68]:
ex2.index

RangeIndex(start=0, stop=5, step=1)

In [69]:
ex2.columns

Index(['A', 'B'], dtype='object')

In [70]:
ex2.values

array([[-0.91248584,  0.49582366],
       [ 0.17117783,  1.19210081],
       [-0.70306663, -0.0038984 ],
       [ 0.87416196, -0.32651573],
       [-1.65634604, -0.96089708]])

In [71]:
ex2.describe()

Unnamed: 0,A,B
count,5.0,5.0
mean,-0.445312,0.079323
std,0.983916,0.816308
min,-1.656346,-0.960897
25%,-0.912486,-0.326516
50%,-0.703067,-0.003898
75%,0.171178,0.495824
max,0.874162,1.192101


In [72]:
ex2.sort_index(axis=1, ascending=False) # 내림 차순이라서 컬럼 B가 먼저 오게 됨

Unnamed: 0,B,A
0,0.495824,-0.912486
1,1.192101,0.171178
2,-0.003898,-0.703067
3,-0.326516,0.874162
4,-0.960897,-1.656346


In [73]:
ex2.sort_index(axis=0, ascending=False)

Unnamed: 0,A,B
4,-1.656346,-0.960897
3,0.874162,-0.326516
2,-0.703067,-0.003898
1,0.171178,1.192101
0,-0.912486,0.495824


In [74]:
ex2.sort_values(by='B')

Unnamed: 0,A,B
4,-1.656346,-0.960897
3,0.874162,-0.326516
2,-0.703067,-0.003898
0,-0.912486,0.495824
1,0.171178,1.192101


### Selection using pandas
- 데이터프레임 자체가 갖고 있는 []는 슬라이싱 기능을 이용하는 방법임
- 특정‘컬럼’의 값들만 가져오고 싶다면 df['A']와 같은 형태로 입력함. 이는 df.A와 동일
- 출력되는 값은 Series의 자료구조를 갖고 있음

In [76]:
ex2

Unnamed: 0,A,B
0,-0.912486,0.495824
1,0.171178,1.192101
2,-0.703067,-0.003898
3,0.874162,-0.326516
4,-1.656346,-0.960897


In [77]:
ex2['A']

0   -0.912486
1    0.171178
2   -0.703067
3    0.874162
4   -1.656346
Name: A, dtype: float64

In [78]:
ex2.A

0   -0.912486
1    0.171178
2   -0.703067
3    0.874162
4   -1.656346
Name: A, dtype: float64

In [79]:
ex2[['A']]

Unnamed: 0,A
0,-0.912486
1,0.171178
2,-0.703067
3,0.874162
4,-1.656346


In [80]:
type(ex2['A'])

pandas.core.series.Series

In [81]:
type(ex2[['A']])

pandas.core.frame.DataFrame

In [82]:
# 행의 경우
ex2[0:3]

Unnamed: 0,A,B
0,-0.912486,0.495824
1,0.171178,1.192101
2,-0.703067,-0.003898


-------
## 3. DataFrame 병합하기

> `pd.concat()` 함수 사용하여 dataframe 병합하기

> `pd.merge()` 함수 사용하여 dataframe 병합하기
 - on : 기준이되는 key값 명시
 - how :
 - inner : 기본값, 일치하는 값이 있는 경우
 - left : 왼쪽 데이터 기준으로 병합
 - right : 오른쪽 데이터 기준으로 병합
 - outer : 모든 경우의수 출력

In [83]:
# pd.concat()
df1 = pd.DataFrame({'key' : list('ABCDE'),
                    'value' : np.random.randn(5)})
df1

Unnamed: 0,key,value
0,A,0.714089
1,B,-0.375288
2,C,0.403248
3,D,0.977948
4,E,1.263317


In [84]:
df2 = pd.DataFrame({'key' : list('ABCXZ'),
                    'value' : np.random.randn(5)})
df2

Unnamed: 0,key,value
0,A,0.725437
1,B,-0.632813
2,C,1.953809
3,X,0.645736
4,Z,-1.036731


In [85]:
pd.concat([df1, df2]) # axis=0(기본값) 행단위 병합

Unnamed: 0,key,value
0,A,0.714089
1,B,-0.375288
2,C,0.403248
3,D,0.977948
4,E,1.263317
0,A,0.725437
1,B,-0.632813
2,C,1.953809
3,X,0.645736
4,Z,-1.036731


In [86]:
pd.concat([df1, df2], axis=0, ignore_index=True)

Unnamed: 0,key,value
0,A,0.714089
1,B,-0.375288
2,C,0.403248
3,D,0.977948
4,E,1.263317
5,A,0.725437
6,B,-0.632813
7,C,1.953809
8,X,0.645736
9,Z,-1.036731


In [87]:
pd.concat([df1, df2]).reset_index()

Unnamed: 0,index,key,value
0,0,A,0.714089
1,1,B,-0.375288
2,2,C,0.403248
3,3,D,0.977948
4,4,E,1.263317
5,0,A,0.725437
6,1,B,-0.632813
7,2,C,1.953809
8,3,X,0.645736
9,4,Z,-1.036731


In [88]:
pd.concat([df1, df2], axis=1) # axis=1 열단위 병합

Unnamed: 0,key,value,key.1,value.1
0,A,0.714089,A,0.725437
1,B,-0.375288,B,-0.632813
2,C,0.403248,C,1.953809
3,D,0.977948,X,0.645736
4,E,1.263317,Z,-1.036731


In [89]:
df2.columns = ['key','value2']
df2

Unnamed: 0,key,value2
0,A,0.725437
1,B,-0.632813
2,C,1.953809
3,X,0.645736
4,Z,-1.036731


In [90]:
pd.concat([df1, df2])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,key,value,value2
0,A,0.714089,
1,B,-0.375288,
2,C,0.403248,
3,D,0.977948,
4,E,1.263317,
0,A,,0.725437
1,B,,-0.632813
2,C,,1.953809
3,X,,0.645736
4,Z,,-1.036731


In [91]:
# pd.merge()
df1
df2
pd.merge(df1, df2, on = 'key', how = 'inner')
pd.merge(df1, df2, on = 'key', how = 'left')
pd.merge(df1, df2, on = 'key', how = 'right')
pd.merge(df1, df2, on = 'key', how = 'outer')

Unnamed: 0,key,value,value2
0,A,0.714089,0.725437
1,B,-0.375288,-0.632813
2,C,0.403248,1.953809
3,D,0.977948,
4,E,1.263317,
5,X,,0.645736
6,Z,,-1.036731


------
## 4. Practice using dataset - iris dataset

### 4.1 data 탐색

#### 1) 데이터 변수의 형식
- 데이터 변수의 형식을 확인하려면, .dtypes를 이용
- 특정 변수의 형식을 변경하려면, 해당 변수를 astype()함수를 이용하여 변경 한 후 다시 assign
> `info()` : 데이터 타입, 각 아이템의 개수 확인
 - NaN 개수 확인 가능

In [96]:
df = pd.read_csv("C:/Users/yiyeon/TIL/python_study/data/iris.csv")
df.shape

(150, 5)

In [97]:
df.head()

Unnamed: 0,sepal.length(cm),sepal.width(cm),petal.length(cm),petal.width(cm),variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [98]:
df.tail(10)

Unnamed: 0,sepal.length(cm),sepal.width(cm),petal.length(cm),petal.width(cm),variety
140,6.7,3.1,5.6,2.4,Virginica
141,6.9,3.1,5.1,2.3,Virginica
142,5.8,2.7,5.1,1.9,Virginica
143,6.8,3.2,5.9,2.3,Virginica
144,6.7,3.3,5.7,2.5,Virginica
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica
149,5.9,3.0,5.1,1.8,Virginica


In [99]:
# data index 확인
df.index

RangeIndex(start=0, stop=150, step=1)

In [100]:
# data columns 확인
df.columns

Index(['sepal.length(cm)', 'sepal.width(cm)', 'petal.length(cm)',
       'petal.width(cm)', 'variety'],
      dtype='object')

In [101]:
df.dtypes

sepal.length(cm)    float64
sepal.width(cm)     float64
petal.length(cm)    float64
petal.width(cm)     float64
variety              object
dtype: object

In [102]:
df[['sepal.length(cm)', 'sepal.width(cm)']] = df[['sepal.length(cm)', 'sepal.width(cm)']].astype(object)
df.dtypes

sepal.length(cm)     object
sepal.width(cm)      object
petal.length(cm)    float64
petal.width(cm)     float64
variety              object
dtype: object

In [103]:
df[['sepal.length(cm)', 'sepal.width(cm)']] = df[['sepal.length(cm)', 'sepal.width(cm)']].astype(float)
df.dtypes

sepal.length(cm)    float64
sepal.width(cm)     float64
petal.length(cm)    float64
petal.width(cm)     float64
variety              object
dtype: object

In [104]:
# info()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal.length(cm)    150 non-null float64
sepal.width(cm)     150 non-null float64
petal.length(cm)    150 non-null float64
petal.width(cm)     150 non-null float64
variety             150 non-null object
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


### 4.2 데이터 전처리
- 변수명을 바꾸고 싶을 때에는 rename 이라는 함수를 이용할 수 있음
- 함수 이용 방법은 'oldName1': 'newName1'임

> dataframe column 선택 - dataframe[]으로 컬럼 추출 - [] -> Series로 반환 - [[]] -> Dataframe로 반환

In [105]:
df = df.rename(columns={'sepal.length(cm)': 'sepal length', 'sepal.width(cm)': 'sepal width',
                        'petal.length(cm)' : 'petal length', 'petal.width(cm)': 'petal width',
                        'variety' : 'species'})
df.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [106]:
df.to_csv("C:/Users/yiyeon/TIL/python_study/data/iris_v2.csv", index=False)

In [107]:
df = pd.read_csv("../python_study/data/iris_v2.csv")
df.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


#### 1-1) dataframe column 선택
- dataframe[]으로 컬럼 추출
- [] -> Series로 반환 
- [[]] -> Dataframe로 반환

In [108]:
df.columns

Index(['sepal length', 'sepal width', 'petal length', 'petal width',
       'species'],
      dtype='object')

In [109]:
df['species']

0         Setosa
1         Setosa
2         Setosa
3         Setosa
4         Setosa
         ...    
145    Virginica
146    Virginica
147    Virginica
148    Virginica
149    Virginica
Name: species, Length: 150, dtype: object

In [110]:
df[['species']]

Unnamed: 0,species
0,Setosa
1,Setosa
2,Setosa
3,Setosa
4,Setosa
...,...
145,Virginica
146,Virginica
147,Virginica
148,Virginica


In [111]:
df[['sepal length', 'species']]

Unnamed: 0,sepal length,species
0,5.1,Setosa
1,4.9,Setosa
2,4.7,Setosa
3,4.6,Setosa
4,5.0,Setosa
...,...,...
145,6.7,Virginica
146,6.3,Virginica
147,6.5,Virginica
148,6.2,Virginica


#### 1-2) dataframe row 선택
- dataframe의 경우 기본적으로 [] 연산자는 컬럼(column) 선택, 하지만 슬라이싱(slicing)은 행(row) 선택
> `.loc()`, `.iloc()`로 행(row) 선택 가능
>> `.loc()` : 인덱스 자체를 사용
>> `.iloc()` : 0 based 인덱스 사용
 - 이 두 함수는 행(row) & 열(column) 선택 가능

In [112]:
df.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [113]:
df[0:5]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [114]:
df.index = df.index + 100
df.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
100,5.1,3.5,1.4,0.2,Setosa
101,4.9,3.0,1.4,0.2,Setosa
102,4.7,3.2,1.3,0.2,Setosa
103,4.6,3.1,1.5,0.2,Setosa
104,5.0,3.6,1.4,0.2,Setosa


In [115]:
df.loc[[100]]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
100,5.1,3.5,1.4,0.2,Setosa


In [116]:
df.iloc[[100]]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
200,6.3,3.3,6.0,2.5,Virginica


In [117]:
df.iloc[[0]]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
100,5.1,3.5,1.4,0.2,Setosa


In [118]:
df.loc[[100, 101, 102], ["sepal length", "species"]]

Unnamed: 0,sepal length,species
100,5.1,Setosa
101,4.9,Setosa
102,4.7,Setosa


In [119]:
df.iloc[[0, 1, 2], [0, 4]]

Unnamed: 0,sepal length,species
100,5.1,Setosa
101,4.9,Setosa
102,4.7,Setosa


#### 2) boolean selection 으로 원하는 row만 선택¶

In [120]:
df.index = df.index - 100
df.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [121]:
# sepal length가 7.6 보다 큰 데이터 확인

df[df["sepal length"] > 7.6]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
117,7.7,3.8,6.7,2.2,Virginica
118,7.7,2.6,6.9,2.3,Virginica
122,7.7,2.8,6.7,2.0,Virginica
131,7.9,3.8,6.4,2.0,Virginica
135,7.7,3.0,6.1,2.3,Virginica


In [122]:
df.loc[df['sepal length'] > 7.6, :]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
117,7.7,3.8,6.7,2.2,Virginica
118,7.7,2.6,6.9,2.3,Virginica
122,7.7,2.8,6.7,2.0,Virginica
131,7.9,3.8,6.4,2.0,Virginica
135,7.7,3.0,6.1,2.3,Virginica


In [123]:
# sepal length가 7.6 보다 크면서 sepal width 가 3.7보다 큰 데이터 확인

df[ (df["sepal length"] > 7.6 ) & (df["sepal width"] > 3.7) ]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
117,7.7,3.8,6.7,2.2,Virginica
131,7.9,3.8,6.4,2.0,Virginica


In [124]:
# sepal length가 7.6 보다 크거나 sepal width 가 3.7보다 큰 데이터 확인

df[ (df["sepal length"] > 7.6 )  | (df["sepal width"] > 3.7) ].head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
5,5.4,3.9,1.7,0.4,Setosa
14,5.8,4.0,1.2,0.2,Setosa
15,5.7,4.4,1.5,0.4,Setosa
16,5.4,3.9,1.3,0.4,Setosa
18,5.7,3.8,1.7,0.3,Setosa


#### 3) 열(column) 추가, 열(column) 삭제
- [] 사용하여 추가
- insert() 사용하여 원하는 위치에 추가
> drop() 함수 사용하여 삭제
 - axis = 1 : 열 기준 삭제
 - axis = 0 : 행 기준 삭제
 - inplace = True : 원 데이터 변경

In [126]:
df['sepal length*2'] = df['sepal length']*2
df.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,species,sepal length*2
0,5.1,3.5,1.4,0.2,Setosa,10.2
1,4.9,3.0,1.4,0.2,Setosa,9.8
2,4.7,3.2,1.3,0.2,Setosa,9.4
3,4.6,3.1,1.5,0.2,Setosa,9.2
4,5.0,3.6,1.4,0.2,Setosa,10.0


In [127]:
df.insert(2, "sepal sum", df['sepal length'] + df['sepal width'])
df.head()

Unnamed: 0,sepal length,sepal width,sepal sum,petal length,petal width,species,sepal length*2
0,5.1,3.5,8.6,1.4,0.2,Setosa,10.2
1,4.9,3.0,7.9,1.4,0.2,Setosa,9.8
2,4.7,3.2,7.9,1.3,0.2,Setosa,9.4
3,4.6,3.1,7.7,1.5,0.2,Setosa,9.2
4,5.0,3.6,8.6,1.4,0.2,Setosa,10.0


In [128]:
df.drop(['sepal sum', 'sepal length*2'], axis = 1)
df.head()

Unnamed: 0,sepal length,sepal width,sepal sum,petal length,petal width,species,sepal length*2
0,5.1,3.5,8.6,1.4,0.2,Setosa,10.2
1,4.9,3.0,7.9,1.4,0.2,Setosa,9.8
2,4.7,3.2,7.9,1.3,0.2,Setosa,9.4
3,4.6,3.1,7.7,1.5,0.2,Setosa,9.2
4,5.0,3.6,8.6,1.4,0.2,Setosa,10.0


In [129]:
df.drop(['sepal sum', 'sepal length*2'], axis = 1, inplace = True)
df.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


#### 4) 중복 값 제거
- 이 경우, duplicated 함수를 이용,
- (기본값) 중복되는 열 중 첫번 째 열을 제외하고 출력
- 중복되는 모든열을 보고 싶으면, keep = False를 입력

In [130]:
df[(df["sepal length"] == 5.8) & (df["sepal width"] == 2.7) & (df["petal length"] == 5.1)]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
101,5.8,2.7,5.1,1.9,Virginica
142,5.8,2.7,5.1,1.9,Virginica


In [131]:
df[df.duplicated()]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
142,5.8,2.7,5.1,1.9,Virginica


In [132]:
df[df.duplicated(keep = False)]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
101,5.8,2.7,5.1,1.9,Virginica
142,5.8,2.7,5.1,1.9,Virginica


In [133]:
# duplicated를 이용하여 중복되는 3개의 값을 제거할 수 있음
print(df.shape)
df[~df.duplicated()].shape

(150, 5)


(149, 5)

In [134]:
print(df.shape)
df[~df.duplicated(keep=False)].shape

(150, 5)


(148, 5)

#### 5) missing 데이터 처리하기
- 결측값을 다루기 위해 임의의 데이터 자리에 numpy의 nan으로 값들 대체
- 결측값인 행을 확인
 - isnull함수에는 all, any를 사용할 수 있음
 - 행, 열 방향으로 모든 값이 결측값인지, 적어도 하나의 변수에 대해서만 결측값인지 확인 할 수 있음
- 각 변수마다 결측값 갯수 확인
 - 위에서 임의로 값을 결측값으로 바꾼 2개의 값이 sepal width, petal length 변수에 있음
- 결측값이 존재하는 행, 열을 제거하려면 dropna()을 이용하여 제거

In [135]:
print(df.iloc[1:3, 1:3])
df.iloc[1:3, 1:3] = np.nan
df.head()

   sepal width  petal length
1          3.0           1.4
2          3.2           1.3


Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,,,0.2,Setosa
2,4.7,,,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [136]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal length    150 non-null float64
sepal width     148 non-null float64
petal length    148 non-null float64
petal width     150 non-null float64
species         150 non-null object
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [159]:
df[df.isnull().all(axis=1)]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species


In [160]:
df[df.isnull().any(axis=1)]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species


In [139]:
df.isnull().sum()

sepal length    0
sepal width     2
petal length    2
petal width     0
species         0
dtype: int64

In [140]:
df.dropna().shape # 하나라도 NaN이 있다면 해당 행 삭제

(148, 5)

In [141]:
df.dropna(axis=1).shape # 하나라도 NaN이 있다면 해당 열 삭제

(150, 3)

In [142]:
df.shape

(150, 5)

In [143]:
df.dropna(inplace=True)
df.shape

(148, 5)

### 4.3 Groupby 다루기

In [154]:
df = pd.read_csv("../python_study/data/iris_v2.csv")
df.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [155]:
df_g = df.groupby('species')
df_g

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000213EA73AEC8>

In [156]:
df_g.groups

{'Setosa': Int64Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
             17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
             34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
            dtype='int64'),
 'Versicolor': Int64Index([50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66,
             67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83,
             84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99],
            dtype='int64'),
 'Virginica': Int64Index([100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112,
             113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125,
             126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138,
             139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149],
            dtype='int64')}

#### 1) Group 함수
- 그룹 데이터에 적용 가능한 통계 함수(NaN은 제외하여 연산)
 - `count()` : 그룹별 데이터 개수
 - `sum()` : 그룹별 데이터의 합
 - `mean()`,`var()`,`std()` : 그룹별 데이터 평균, 분산, 표준편차
 - `min()`, `max()` : 그룹별 최소, 최대값

In [147]:
df_g.count()

Unnamed: 0_level_0,sepal length,sepal width,petal length,petal width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,48,48,48,48
Versicolor,50,50,50,50
Virginica,50,50,50,50


In [148]:
df_g.sum()

Unnamed: 0_level_0,sepal length,sepal width,petal length,petal width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,240.7,165.2,70.4,11.9
Versicolor,296.8,138.5,213.0,66.3
Virginica,329.4,148.7,277.6,101.3


In [149]:
df_g.var()

Unnamed: 0_level_0,sepal length,sepal width,petal length,petal width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,0.12723,0.14461,0.03078,0.011485
Versicolor,0.266433,0.098469,0.220816,0.039106
Virginica,0.404343,0.104004,0.304588,0.075433


In [150]:
df_g.max()

Unnamed: 0_level_0,sepal length,sepal width,petal length,petal width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,5.8,4.4,1.9,0.6
Versicolor,7.0,3.4,5.1,1.8
Virginica,7.9,3.8,6.9,2.5


In [151]:
df.groupby('species').mean()[['sepal length']]

Unnamed: 0_level_0,sepal length
species,Unnamed: 1_level_1
Setosa,5.014583
Versicolor,5.936
Virginica,6.588


In [152]:
df.groupby('species').mean()[['sepal length', 'petal length']]

Unnamed: 0_level_0,sepal length,petal length
species,Unnamed: 1_level_1,Unnamed: 2_level_1
Setosa,5.014583,1.466667
Versicolor,5.936,4.26
Virginica,6.588,5.552
