# Pandas

## Pandas 데이터 입출력

### Pandas 데이터 csv로 출력하기

In [34]:
import pandas as pd

data = {
    "c1": [1, 2, "누락"],
    "c2": [1.11, "", 3.33],
    "c3": ["one", "two", "three"]
}
df_csv = pd.DataFrame(data)
df_csv

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [35]:
df_csv.to_csv("sample1.csv", index=False)

In [36]:
df_read = pd.read_csv("sample1.csv")
df_read

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


### Pandas csv로부터 데이터 입력하기

In [37]:
df_csv.to_csv("sample2.csv", index=False, header=False)

In [38]:
pd.read_csv('sample2.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [39]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Overwriting sample3.txt


In [40]:
pd.read_table("sample3.txt", sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [41]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample4.txt


In [42]:
pd.read_csv("sample4.txt", skiprows=[0, 1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [43]:
df_na_val = pd.read_csv("sample1.csv", na_values=["누락"])
df_na_val

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [44]:
df_na_val.to_csv('sample5.txt', sep='|')

In [46]:
df_na_val

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [47]:
df_na_val.to_csv('sample6.csv', na_rep='누락')

### 온라인의 csv 파일 가져오기

In [48]:
titanic = pd.read_csv("https://storage.googleapis.com/tf-datasets/titanic/train.csv")

In [50]:
titanic.head(20)

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.25,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.925,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
5,0,male,2.0,3,1,21.075,Third,unknown,Southampton,n
6,1,female,27.0,0,2,11.1333,Third,unknown,Southampton,n
7,1,female,14.0,1,0,30.0708,Second,unknown,Cherbourg,n
8,1,female,4.0,1,1,16.7,Third,G,Southampton,n
9,0,male,20.0,0,0,8.05,Third,unknown,Southampton,y


## DataFrame 고급 인덱싱

### loc 인덱서

In [66]:
import numpy as np
index = ['a', 'b', 'c']
columns = ['A', 'B', 'C', 'D']
df = pd.DataFrame(np.arange(10,22).reshape(3,4), index = index, columns = columns)

df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [67]:
df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [68]:
df.loc['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [70]:
df['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [72]:
df.loc[['b', 'c']]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [73]:
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [74]:
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [79]:
def select_rows(df, num):
    return df.A > num

In [80]:
select_rows(df, 10)

a    False
b     True
c     True
Name: A, dtype: bool

In [81]:
df.loc[select_rows(df, 10)]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [82]:
df.loc['A'] # KeyError

KeyError: 'A'

In [83]:
df.loc[['A', 'B']] # KeyError

KeyError: "None of [Index(['A', 'B'], dtype='object')] are in the [index]"

In [84]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns = ['A', 'B', 'C', 'D'])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [85]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [88]:
df.loc['a', 'A']

10

In [89]:
df.loc['b':, 'A']

b    14
c    18
Name: A, dtype: int32

In [90]:
df.loc['a', :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [91]:
df.loc[['a', 'b'], ['B', 'D']]

Unnamed: 0,B,D
a,11,13
b,15,17


In [92]:
df.loc[df.A > 10, ['C', 'D']]

Unnamed: 0,C,D
b,16,17
c,20,21


### iloc 인덱서

In [93]:
df.iloc[0, 1]

11

In [94]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int32

In [95]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

In [96]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [97]:
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [98]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


### loc 인덱서 vs iloc 인덱서

In [86]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [87]:
df2.iloc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17


## Series 데이터 개수 세기

In [100]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [101]:
s.count()

9

In [102]:
len(s)

10

In [103]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df


Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [104]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

## DataFrame 데이터 개수 세기

In [105]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head(5) # 데이터 중 앞의 5개를 봅니다.

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### 연습문제

타이타닉호 승객 데이터를 seaborn 패키지를 통해 불러오고, 그 데이터 개수를 각  
column마다 구해보세요. 아래와 같은 결과를 가져오면 됩니다.

In [108]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

## Series 카테고리 값 세기

In [114]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [115]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

## DataFrame 카테고리 값 세기

In [111]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype = float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [113]:
df[0].value_counts()

3.0    2
0.0    1
4.0    1
Name: 0, dtype: int64

In [9]:
import numpy as np
df3 = pd.DataFrame(np.ones((3, 4)), columns=list('가나다라'))
df3['나'] = 2.0
df3.iloc[1, 2] = 3.0
df3.iloc[2, 3] = np.nan
df3

Unnamed: 0,가,나,다,라
0,1.0,2.0,1.0,1.0
1,1.0,2.0,3.0,1.0
2,1.0,2.0,1.0,


In [10]:
df3.value_counts(['가', '다'])

가    다  
1.0  1.0    2
     3.0    1
dtype: int64

In [12]:
df3.value_counts(['가', '라'])

가    라  
1.0  1.0    2
dtype: int64

In [14]:
titanic.value_counts('class')

class
Third     491
First     216
Second    184
dtype: int64

## Series 정렬

### Series 정렬 - index 기준

In [116]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [117]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

### Series 정렬 - value 기준

In [118]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [120]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

### Series 정렬 - 내림차순

In [121]:
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

## DataFrame 정렬

In [122]:
df.sort_values(by=1)

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [123]:
df.sort_values(by=[1, 2])

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


### 연습문제

타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수,  
사망/생존(alive) 인원수를 구하고 sort_values 메서드를 사용하여 내림차순으로 정렬해보세요.

In [1]:
import pandas as pd
import seaborn as sns
titanic = sns.load_dataset('titanic')

In [3]:
titanic.value_counts('sex')

sex
male      577
female    314
dtype: int64

In [15]:
titanic.value_counts(['sex'])

sex   
male      577
female    314
dtype: int64

In [16]:
titanic['sex'].value_counts().sort_values(ascending=False)

male      577
female    314
Name: sex, dtype: int64

In [17]:
titanic['age'].value_counts().sort_values(ascending=False)

24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
66.00     1
0.67      1
0.42      1
34.50     1
74.00     1
Name: age, Length: 88, dtype: int64

In [18]:
titanic['class'].value_counts().sort_values(ascending=False)

Third     491
First     216
Second    184
Name: class, dtype: int64

In [19]:
titanic['alive'].value_counts().sort_values(ascending=False)

no     549
yes    342
Name: alive, dtype: int64

## DataFrame 행/열 합계

In [34]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [35]:
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [36]:
df2["RowSum"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [37]:
df2.sum()

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSum    152
dtype: int64

In [38]:
df2.loc["ColTotal", :] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


In [31]:
df2.loc["ColTotal2"] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0
ColTotal2,48.0,66.0,50.0,48.0,30.0,20.0,10.0,32.0,304.0


In [39]:
df2.mean()

0          9.6
1         13.2
2         10.0
3          9.6
4          6.0
5          4.0
6          2.0
7          6.4
RowSum    60.8
dtype: float64

In [40]:
df2.loc['ColTotal', :] = df2.mean()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal,9.6,13.2,10.0,9.6,6.0,4.0,2.0,6.4,60.8


### 연습문제

1) 타이타닉호 승객의 평균 나이를 구하세요.  
29.7
2) 타이타닉호 승객중 여성 승객의 평균 나이를 구하세요.  
27.9
3) 타이타닉호 승객중 1등실(pclass==1) 선실의 여성 승객의 평균 나이를 구하세요.  
34.6

In [118]:
round(titanic.age.mean(), 2)

29.7

In [119]:
round(titanic.age[titanic.sex == 'female'].mean(), 1)

27.9

In [120]:
round(titanic.age[(titanic.sex == 'female') & (titanic.pclass == 1)].mean(), 1)

34.6

## Class 복습

### 연습문제

팀 생성기(TeamBuilder) 객체를 생성할 수 있는 클래스를 만들어보세요.

> 클래스 속성:  
has_team(default False)  
teams(default 빈 리스트) 

> 인스턴스 속성:  
members (필수) - 전체 인원 이름 목록  
team_count (필수) - 팀의 개수

> 클래스 설명:  
1번에 1개의 팀의 정보를 갖고 있는 클래스입니다. has_team

> 메서드:  
creat_team() 인스턴스 생성 시 받아온 self.members의 목록으로 Team 객체를 만듭니다. has_team 값을 확인하여 값이  
True일 경우 팀을 우선 초기화합니다. 팀은 self.team_count 만큼 만들며, 팀 배분은 랜덤하게 합니다. 인원 배분은 최대한 쏠림  
없이 배분해야 합니다.(최대 1명 차이) teams에 Team 객체를 추가합니다. 반환 값은 없습니다.  
show_team_info()는 오른쪽의 결과와 같이 팀 번호와 팀의 멤버를 출력합니다.

```python
tb = TeamBuilder(["이기수" + str(_) for _ in range(11, 33)], 7)
```
```python
tb.create_teams()
```
> 실행결과 :  
팀을 7개 생성했습니다.

```python
tb.show_team_info()
```

1팀은 이기수 14, 이기수 19, 이기수 26, 이기수 30 입니다.  
2팀은 이기수 15, 이기수 20, 이기수 25 입니다.  
3팀은 이기수 12, 이기수 16, 이기수 22 입니다.  
4팀은 이기수 11, 이기수 13, 이기수 27 입니다.  
5팀은 이기수 24, 이기수 29, 이기수 32 입니다.  
6팀은 이기수 17, 이기수 21, 이기수 23 입니다.  
7팀은 이기수 18, 이기수 28, 이기수 31 입니다.

In [None]:
class Team:
    """팀 객체를 만듭니다."""
    # 클래스 속성
    count = 0 # Team 클래스로부터 초기화된 인스턴스 개수
    order = []
    
    def __init__(self, number, name=None, member=set()):
        self.number = number
        self.name = name
        self.__member = member
        Team.count += 1
        
    def add_member(self, name):
        # 해당 이름이 팀에 있을 경우
        if name in self.__member:
            print(f"{name} 님은 이미 팀에 있습니다.")
            return
        # 해당 이름이 팀에 없을 경우
        else:
            self.__member.add(name)
            print(f"{name} 님을 {self.number} 팀에 추가했습니다.")
            
    def rm_member(self, name):
        # 해당 이름이 팀에 있을 경우
        if name in self.__member:
            self.__member.discard(name)
            print(f"{name}님을 {self.number} 팀에서 삭제했습니다.")
        # 해당 이름이 팀에 없을 경우
        else:
            print(f"{name}님은 해당 팀에 없습니다.")
            
    def get_count(self):
        return self.count
    
    def get_order(self):
        return self.order
    
    def set_order(self, number):
        if number in self.order:
            self.order.remove(number)
        self.order.append(number)
        
    # 내장 함수(Built-in function) len(Team()) --> 파이썬이 __len__(self)를 찾아서 실행
    def __len__(self):
        return len(self.__member)

In [None]:
class TeamBuilder:
    has_team = False
    teams = []
    
    def __init__(self, *members, team_count):
        self.members = members
        self.team_count = team_count
        TeamBuilder.has_team = True
        
    def creat_team(self):
        for _ in self.members:
            _ = Team()
    def show_team_info():
        pass

### 연습문제

팀 인원 짜기

이름 목록을 리스트로 받습니다.  
팀 개수도 입력 받습니다.  
이때 팀을 짜야겠죠? 근데 팀간에 인원이 최대 1명 초과로 차이나지 않게 짜보세요.  

예를 들어 23명인데 5개 팀을 짜야하는 경우  
1팀 5명, 2팀 5명, 3팀 5명, 4팀 5명, 5팀 3명 -> 이렇게 짜면 안됩니다.  
1팀 5명, 2팀 4명, 3팀 4명, 5팀 4명, 5팀 4명 -> 이렇게는 괜찮습니다.

In [2]:
name_list = "강지인 김강직 김경목 김기훈 김민수 김예린 김유림 김호영 도강현 맹지호 민병창 서영호 신제우 우상욱 윤규헌 이민호 이병호 이선주 이호진 허경모 황도희".split()
print(name_list)

['강지인', '김강직', '김경목', '김기훈', '김민수', '김예린', '김유림', '김호영', '도강현', '맹지호', '민병창', '서영호', '신제우', '우상욱', '윤규헌', '이민호', '이병호', '이선주', '이호진', '허경모', '황도희']


In [35]:
# team_count = int(input("팀 수를 입력해주세요."))

# team_number = 0
# team = []
# random_index = set()

# import numpy as np
# import random
# random_index = [random.randint(0, len(name_list) - 1) for _ in range(len(name_list))]
# print(random_index)
# len(random_index)

# for i in range(team_count):
#     team_number += 1
#     for _ in random_index:
#         team + team_number.append(team_list[_])
#         team_number += 1

In [47]:
import random

# 이름 리스트 생성
name_list = "강지인 김강직 김경목 김기훈 김민수 김예린 김유림 김호영 도강현 맹지호 민병창 서영호 신제우 우상욱 윤규헌 이민호 이병호 이선주 이호진 허경모 황도희".split()
print(name_list)

# 이름 리스트 길이만큼 랜덤 인덱스 리스트 생성
index_list = []
while len(index_list) < len(name_list):
    index_num = random.randint(1,21)
    if index_num not in index_list:
        index_list.append(index_num)
print(index_list)   
len(index_list) 

# 팀 리스트 생성
team_count = int(input("팀 수를 입력해주세요"))
lst = []
for i in range(team_count):
    lst2 = []
    lst.append(lst2)
print(lst)

count = 0

# 이름이 하나씩 들어올때마다 다음 팀으로 넘어가서 할당
for i in index_list:
    if count == team_count:
        count = 0
    else:
        lst[count].append(name_list[i - 1])
        count += 1

# 팀별 이름 리스트를 팀수만큼 출력
for j in range(1, len(lst) + 1):
    print(f'{j}팀은 {lst[j - 1]} 입니다.')

['강지인', '김강직', '김경목', '김기훈', '김민수', '김예린', '김유림', '김호영', '도강현', '맹지호', '민병창', '서영호', '신제우', '우상욱', '윤규헌', '이민호', '이병호', '이선주', '이호진', '허경모', '황도희']
[15, 12, 2, 8, 1, 13, 6, 11, 10, 4, 19, 20, 5, 21, 16, 14, 9, 17, 18, 7, 3]


팀 수를 입력해주세요 4


[[], [], [], []]
1팀은 ['윤규헌', '신제우', '이호진', '우상욱', '김경목'] 입니다.
2팀은 ['서영호', '김예린', '허경모', '도강현'] 입니다.
3팀은 ['김강직', '민병창', '김민수', '이병호'] 입니다.
4팀은 ['김호영', '맹지호', '황도희', '이선주'] 입니다.
