# 20230119 Pandas 

우선 실습을 위한 간단한 데이터 프레임을 만들어준다

In [4]:
import numpy as np
import pandas as pd

data = {
    "c1":[1,2,'누락'],
    "c2":[1.11, '' ,3.33],
    "c3":['one', 'two', 'three']
}
columns = ["c"+str(_) for _ in range(1,4)]
index = [_ for _ in range(3)]

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


## pandas dataframe을 csv로 내보내기
```
pandas.DataFrame.to_csv
```
를 통해서 csv 파일로 출력한다<br>
index는 의미 없는 값이므로 출력할 때 빼려면<br>
to_csv에서 index=False 해주면 됨(default == True)

In [10]:
#해당 파일과 동일한 디렉토리에 csv 생성
df.to_csv("sample1.csv", index=False)

엑셀에서 한글 텍스트가 깨진다면 utf-8로 인코딩을 해보도록 하자

In [11]:
# 해당 파일과 동일한 디렉토리에 csv 생성
df.to_csv("sample1.csv", index=False, encoding='utf-8')

csv를 읽을 때는 
```
pandas.read_csv()
```
를 사용한다


In [12]:
df_read = pd.read_csv("sample1.csv")
df_read

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


column 인덱스를 배제하고 저장하면 다음과 같이 코드를 작성하면 된다.

In [14]:
df.to_csv("sample2.csv", index=False, header=False)

파일을 다시 불러오자. column 인덱스 정보를 직접 추가할 수 있다.

In [16]:
pd.read_csv('sample2.csv',names = columns)

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


공백으로 이루어진 파일을 아래와 같이 생성해보자

In [15]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing sample3.txt


이 파일을 읽어보도록 하자

**'\s+'** 정규식 문자열을 사용하여 정해지지 않은 공백을 구분자로 지정할 수 있다.

In [18]:
# \s+ 
pd.read_table('sample3.txt', sep = '\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


또 다른 예시를 살펴보자

In [22]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


**skiprows**인수를 사용하여 건너 뛸 줄을 리스트 안에 작성하면 된다. 

range도 사용할 수 있다

In [23]:
pd.read_csv('sample4.txt',skiprows=[0,1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


데이터로 불러올 자료 안 특정 값을 NaN으로 취급하고 싶으면 **na_values** 인수에 취급할 값을 넣는다 

In [24]:
df_na_val = pd.read_csv('sample1.csv', na_values=['누락'])
df_na_val

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


파일을 읽을 때와 마찬가지로 파일을 출력할 때도 sep 인수로 구분자를 바꿀 수 있다

In [26]:
df_na_val.to_csv('sample5.txt', sep = '|')

In [27]:
pd.read_csv('sample5.txt')

Unnamed: 0,|c1|c2|c3
0,0|1.0|1.11|one
1,1|2.0||two
2,2||3.33|three


## 온라인의 csv 파일 가져오기

위 내용을 바탕으로 온라인의 csv 파일을 가져와보자

In [31]:
titanic = pd.read_csv("https://storage.googleapis.com/tf-datasets/titanic/train.csv")
titanic

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.2500,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.9250,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1000,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
...,...,...,...,...,...,...,...,...,...,...
622,0,male,28.0,0,0,10.5000,Second,unknown,Southampton,y
623,0,male,25.0,0,0,7.0500,Third,unknown,Southampton,y
624,1,female,19.0,0,0,30.0000,First,B,Southampton,y
625,0,female,28.0,1,2,23.4500,Third,unknown,Southampton,n


이렇게 온라인 경로를 사용해도 csv를 가져올 수 있다<br>
(이 타이타닉 생존여부 데이터는 상존 가능성에 대한 데이터 모델로 사용된다고 한다)

특정 개수만 보고 싶다면 head()나 tail()메서드를 사용하면 된다

In [33]:
titanic.head(5)

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.25,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.925,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y


## DataFrame 고급 인덱싱

특정한 데이터만 골라내는 것을 인덱싱이라고 한다. 

pandas는 numpy 배열과 같이 ','를 사용한 형식의 2차윈 인덱싱을 지원하기 위해 다음과 같은 인덱서 속성을 제공함

> loc: label값 기반의 2차원 인덱싱 <br>
> iloc: 순서를 나타내는 정수기반의 2차원 인덱싱


loc 인덱서는 다음과 같이 사용할 수 있다.
```
df.loc[row 인덱싱 값]
```

```
df.loc[row 인덱싱 값, column 인덱싱 값]
```

### loc 인덱서
row 인덱싱 값은 정수 또는 row index 데이터이고 column 인덱싱 값은 label 문자열이다. 

인덱싱 값은 다음 중 하나다
- index 데이터
- index 데이터 슬라이스
- index 데이터 리스트 
- 같은 row 인덱스를 가지는 boolean seies(row 인덱싱의 경우)
- 또는 위의 값을 반환하는 함-수


일단 실습을 위해 아래와 같이 데이터프레임을 만들어보자 

In [42]:
columns = ['A','B','C','D']
index = ['a','b','c']
data = np.arange(10,22).reshape(3,4)
df = pd.DataFrame(data,index=index,columns=columns)
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


loc인덱스를 사용하면서 인덱서를 콤마 없이 하나만 넣으면 row를 선택한다.

In [44]:
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

인덱스 데이터가 "a"인 행을 고르면 해당하는 row가 Series로 반환된다.

인덱스 데이터의 슬라이스도 가능하다

In [45]:
df.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


사실 이 경우는 그냥 슬라이싱 한 것과 결과는 같다

In [47]:
df["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


리스트 자료형도 사용 가능하다. 이 때 loc을 사용하지 않으면 KeyError를 뱉는다

In [49]:
#이 경우에는 .loc을 사용해야 에러가 나지 않는다.
df.loc[["b","c"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [50]:
#영문으로 된 놈은 속성으로 접근할 수도 있다 (개쩐다)
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

Series에 담긴 속성들 간 비교 연산을 수행하여 T/F를 뱉는다. 

어쩜 이렇게 알아서 잘 뱉어내는지.. 

In [52]:
def select_rows(df, num):
    return df.A>num

select_rows(df, 10)

a    False
b     True
c     True
Name: A, dtype: bool

이런식으로 함수를 만들어서 A열의 값이 10보다 큰 row만 선택하여 아래와 같이 출력할 수도 있다

In [53]:
df.loc[select_rows(df,10)]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


**loc 인덱서는 label인덱싱이나 label list 인덱싱은 불가능하다**


> <br> **row 인덱스 값이 아래의 예제처럼 default 로 주어지는 정수로 생성된 dataframe의 경우 슬라이싱 마지막 숫자가 포함된 결과를 가져온다** <br><Br>

loc은 label index에 접근한다고 했기 때문.

In [54]:
df2 = pd.DataFrame(np.arange(10,26).reshape(4,4), columns=["A","B","C","D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [55]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


loc 인덱서 vs iloc 인덱서

iloc는 loc와 다르게 label 인덱스가 아닌 숫자로된 인덱스에 접근하기에 우리가 아는 슬라이싱 방식과 동일하게 포함하지 않는다.

In [56]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [57]:
df2.iloc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17


인덱싱 값을 row와 column 모두 받으려면
```
df.loc[row인덱스, column 인덱스]
```
형태로 사용한다

','로 구분된 인덱싱 값으로 label 데이터의 슬라이싱 또는 리스트도 사용할 수도 있다.

In [64]:
df.loc["b":,"A"]

b    14
c    18
Name: A, dtype: int64

In [62]:
df.loc["a",:]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [67]:
df.loc[['a','b'],['B','D']]

Unnamed: 0,B,D
a,11,13
b,15,17


row index가 같은 boolean seies나 이러한 boolean series를 반환하는 함수도 row의 인덱싱 값이 될 수 있다


In [68]:
df.loc[df.A>10,["C","D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


### iloc 인덱서

loc와는 반대로 label이 아니라 **순서를 나타내는 integer인덱스**만 받는다

다른 사항은 loc인덱서와 같다

In [69]:
df.iloc[0,1]

11

In [70]:
df.iloc[:2,2]

a    12
b    16
Name: C, dtype: int64

In [71]:
df.iloc[0,-2:]

C    12
D    13
Name: a, dtype: int64

In [72]:
df.iloc[2:3,1:3]

Unnamed: 0,B,C
c,19,20


loc인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택한다

In [73]:
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int64

In [77]:
df.iloc[-1] = df.iloc[2]
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


## Series 데이터 개수 세기 

count 메서드를 사용한다


In [79]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [81]:
s.count()

9

보다시피 NaN은 세지 않는다. 

DataFrame객체에 count메서드를 사용하면 각 열마다 데이터의 개수를 센다. 

그리고 그 결과를 Series로 반환한다. count()메서드는 NaN 값을 제외하고 개수를 세기 때문에 데이터에서 값이 누락된 부분을 찾을때 유용하다

In [83]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4,4)),dtype=float)
df.iloc[2,3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


앞서 언급한 titanic data set을 활용해보자 

이런 seaborn 패키지가 없어서 설치해줬다
```shell
pip3 install seaborn
```


In [87]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5) #데이터 중 앞의 5개를 본다

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


연습문제: 데이터 개수를 각 column마다 구해보자

In [94]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

### Series 카테고리 값 세기

Series의 앖이 정수, 문자열, 카테고리 값인 경우에는
```
value_counts()
```
메서드를 통해 각각의 값이 나온 횟수를 셀 수 있다. 

In [96]:
# 0과 5 사이의 정수를 100회 생성하고 있습니다.
np.random.seed(1)
s2 = pd.Series(np.random.randint(6,size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int64

In [97]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

이를 dataframe에 적용해보자

dataframe에는 value_counts메서드가 없으므로 각 column(Series)마다 별도로 적용해야 한다

In [99]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size = (4,4)), dtype=float)
df.iloc[2,3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


### index 기준 정렬

sort_index()는 index순으로, sort_values()는 메서드를 사용한다.

In [100]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

이렇게 하면 정렬되지 않은 값이 나오지만

In [101]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

이렇게 Method chaining을 하면 오름차순으로 정렬된다

내림차순으로 정렬하고 싶으면 다음과 같이 키워드 인수를 지정하면 된다. 

단, NaN은 마지막에 위치한다


In [102]:
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

sort_values메서드를 사용하려면 by 키워드 인수를 통해 정렬 기준이 되는 column 을 지정해주어야 한다

In [103]:
df.sort_values(by=1)
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [104]:
df.sort_values(by=1)

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [105]:
#1번째 기준으로 먼저 정렬하고 그 다음 기준이 2번째
df.sort_values(by=[1,2])

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [112]:
titanic.value_counts("class")

class
Third     491
First     216
Second    184
dtype: int64

In [113]:
titanic['sex'].value_counts().sort_values(ascending=False)

male      577
female    314
Name: sex, dtype: int64

In [115]:
titanic['age'].value_counts().sort_values(ascending=False)

24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
66.00     1
0.67      1
0.42      1
34.50     1
74.00     1
Name: age, Length: 88, dtype: int64

In [117]:
titanic['class'].value_counts().sort_values(ascending=False)


Third     491
First     216
Second    184
Name: class, dtype: int64

In [116]:
titanic['alive'].value_counts().sort_values(ascending=False)


no     549
yes    342
Name: alive, dtype: int64

## 행렬 합계 
```
sum(axis)
```
메서드를 사용한다. axis인수에는 합계로 인해 없어지는 방향축을 지정한다.row의 집계 수를 구할 때는 
```
sum(axis=1)
```
메서드를 사용한다.

In [129]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4,8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [119]:
df2.sum(axis=0)

0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64

In [121]:
#axis인수는 생략할 수 있다
df2.loc["ColTotal12"] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1
ColTotal12,48,66,50,48,30,20,10,32


```mean()```메서드를 통해 평균을 구할 수 있다. ```sum()```과 사용법은 동일하다.

In [122]:
df2.mean()

0    14.4
1    19.8
2    15.0
3    14.4
4     9.0
5     6.0
6     3.0
7     9.6
dtype: float64

In [130]:
df2.loc["colmean",:3] = df2.mean()
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0
colmean,6.0,8.25,6.25,6.0,,,,


In [183]:
#타이타닉 승객의 평균 나이 구하기
round(titanic['age'].mean(),1)

29.7

In [194]:
# 타이타닉호 승객 중 여성 승객의 평균 나이 구하기
round(titanic[titanic['sex']=='female'].loc[:,'age'].mean(),1)
# or
round(titanic[titanic['sex']=='female']['age'].mean(),1)

27.9

In [195]:
# 타이타닉 승객 중 1등실 (pclass==1)선실의 여성 승객의 평균 나이를 구하기
round(titanic[(titanic['sex']=='female')&(titanic['pclass']==1)].loc[:,'age'].mean(),1)
# or
round(titanic[(titanic['sex']=='female')&(titanic['pclass']==1)]['age'].mean(),1)

34.6

.


















<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>

<br>



.