# Pandas 2

In [2]:
import pandas as pd

## DataFrame에서 컬럼의 데이터 타입 변환

In [4]:
df = pd.DataFrame({'A': [1, 2, 3],
                  'B': [1.0, 2.0, 3.0],
                  'C': ['1.1.2020', '2.1.2020', '3.1.2020'],
                  'D' : ['1 days', '2 days', '3 days'],
                  'E': ['1', '2', '3']})
df

Unnamed: 0,A,B,C,D,E
0,1,1.0,1.1.2020,1 days,1
1,2,2.0,2.1.2020,2 days,2
2,3,3.0,3.1.2020,3 days,3


### 모든 컬럼의 데이타 타입 확인

In [5]:
df.dtypes

A      int64
B    float64
C     object
D     object
E     object
dtype: object

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       3 non-null      int64  
 1   B       3 non-null      float64
 2   C       3 non-null      object 
 3   D       3 non-null      object 
 4   E       3 non-null      object 
dtypes: float64(1), int64(1), object(3)
memory usage: 248.0+ bytes


In [7]:
df['A'].dtypes

dtype('int64')

### 컬럼 A의 데이타타입을 실수로 변경 

In [8]:
df['A'].dtypes

dtype('int64')

In [9]:
df['A'].astype('float')

0    1.0
1    2.0
2    3.0
Name: A, dtype: float64

### 컬럼 B의 데이타타입을 정수로 변경

In [10]:
df['B'].dtypes

dtype('float64')

In [11]:
df['B'].astype(int)

0    1
1    2
2    3
Name: B, dtype: int32

In [12]:
df['B'].astype('int64')

0    1
1    2
2    3
Name: B, dtype: int64

### 컬럼 A와 B를 동시에 다른 데이타 타입으로 변경

In [15]:
df_a = df.astype({'A': float, 'B': 'int64'})
df_a.dtypes

A    float64
B      int64
C     object
D     object
E     object
dtype: object

### 컬럼 E의 데이타 타입을 숫자로 변경 : pd.to_numeric()

In [12]:
df['E'].dtypes

dtype('O')

In [13]:
pd.to_numeric(df['E'])

0    1
1    2
2    3
Name: E, dtype: int64

### 컬럼 C의 데이타 타입을 datetime으로 변경 : pd.to_datateime()

In [14]:
df['C']

0    1.1.2020
1    2.1.2020
2    3.1.2020
Name: C, dtype: object

In [15]:
pd.to_datetime(df['C'])

0   2020-01-01
1   2020-02-01
2   2020-03-01
Name: C, dtype: datetime64[ns]

### 컬럼 D의 데이타 타입을 timedelta로 변경

In [16]:
df['D']

0    1 days
1    2 days
2    3 days
Name: D, dtype: object

In [17]:
pd.to_timedelta(df['D'])

0   1 days
1   2 days
2   3 days
Name: D, dtype: timedelta64[ns]

## DataFrame Group By 함수

In [2]:
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Sera', 'major': "Psychology", 'sex': "female"}
         ]
df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'])
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


### 전공별 그룹 생성

In [3]:
groupby_major = df.groupby('major')

In [4]:
type(groupby_major)

pandas.core.groupby.generic.DataFrameGroupBy

In [5]:
groupby_major.groups

{'Computer Science': Int64Index([0, 1, 6, 7], dtype='int64'),
 'Economics': Int64Index([4, 5, 9], dtype='int64'),
 'Physics': Int64Index([2], dtype='int64'),
 'Psychology': Int64Index([3, 8, 10], dtype='int64')}

In [6]:
list(groupby_major)

[('Computer Science',
         name             major     sex
  0      John  Computer Science    male
  1      Nate  Computer Science    male
  6  Jeniffer  Computer Science  female
  7    Edward  Computer Science    male),
 ('Economics',
      name      major     sex
  4  Janny  Economics  female
  5   Yuna  Economics  female
  9  Wendy  Economics  female),
 ('Physics',
        name    major   sex
  2  Abraham  Physics  male),
 ('Psychology',
       name       major     sex
  3   Brian  Psychology    male
  8    Zara  Psychology  female
  10   Sera  Psychology  female)]

In [7]:
for name, group in groupby_major:
    print(name + ": " + str(len(group)))
    print(group)
    print()

Computer Science: 4
       name             major     sex
0      John  Computer Science    male
1      Nate  Computer Science    male
6  Jeniffer  Computer Science  female
7    Edward  Computer Science    male

Economics: 3
    name      major     sex
4  Janny  Economics  female
5   Yuna  Economics  female
9  Wendy  Economics  female

Physics: 1
      name    major   sex
2  Abraham  Physics  male

Psychology: 3
     name       major     sex
3   Brian  Psychology    male
8    Zara  Psychology  female
10   Sera  Psychology  female



### 그룹 객체를 다시 데이터프레임으로 생성

In [8]:
df_major_cnt = pd.DataFrame({'count' : groupby_major.size()}).reset_index()
df_major_cnt

Unnamed: 0,major,count
0,Computer Science,4
1,Economics,3
2,Physics,1
3,Psychology,3


### 성별로 그룹 생성

In [9]:
groupby_sex = df.groupby('sex')

In [10]:
for name, group in groupby_sex:
    print(name + ": " + str(len(group)))
    print(group)
    print()

female: 6
        name             major     sex
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female

male: 5
      name             major   sex
0     John  Computer Science  male
1     Nate  Computer Science  male
2  Abraham           Physics  male
3    Brian        Psychology  male
7   Edward  Computer Science  male



In [11]:
df_sex_cnt = pd.DataFrame({'count' : groupby_sex.size()}).reset_index()
df_sex_cnt

Unnamed: 0,sex,count
0,female,6
1,male,5


## 데이타프레임 교차

In [12]:
data = {'name':['Lee', 'Hwang', 'Kim', 'Choi'],
      'score':[100, 95, 90, 85],
      'grade':['A', 'A', 'B', 'B']}
df = pd.DataFrame(data)
df

Unnamed: 0,name,score,grade
0,Lee,100,A
1,Hwang,95,A
2,Kim,90,B
3,Choi,85,B


In [13]:
df = df.T
df

Unnamed: 0,0,1,2,3
name,Lee,Hwang,Kim,Choi
score,100,95,90,85
grade,A,A,B,B


In [14]:
df.dtypes

0    object
1    object
2    object
3    object
dtype: object

In [15]:
df.index

Index(['name', 'score', 'grade'], dtype='object')

In [16]:
df.values

array([['Lee', 'Hwang', 'Kim', 'Choi'],
       [100, 95, 90, 85],
       ['A', 'A', 'B', 'B']], dtype=object)

## 여러  개의  데이타프레임  합치기
- 1) pd.concat() : 데이터프레임들을 새로운 로우(행)로 합치기, axis=0
- 2) pd.concat() : 데이터프레임들을 새로운 컬럼으로 합치기, axis=1
- 3) append() : 데이터프레임들을 새로운 로우(행)로 합치기
- 4) merge() : 열을  기반으로  데이터프레임을  JOIN(inner or outer) 할  때  사용

In [23]:
D1 = [{'name': 'John', 'job': "teacher"},
      {'name': 'Nate', 'job': "student"},
      {'name': 'Fred', 'job': "developer"}]

D2 = [{'name': 'Ed', 'job': "dentist"},
      {'name': 'Jack', 'job': "farmer"},
      {'name': 'Ted', 'job': "designer"}]
         
df1 = pd.DataFrame(D1, columns = ['name', 'job'])
df2 = pd.DataFrame(D2, columns = ['name', 'job'])

In [24]:
print(df1)

   name        job
0  John    teacher
1  Nate    student
2  Fred  developer


In [25]:
print(df2)

   name       job
0    Ed   dentist
1  Jack    farmer
2   Ted  designer


### 1) pd.concat - 행으로 합치기
- 두번째 데이터프레임을 첫번째 데이터프레임의 새로운 로우(행)로 합칩니다.

In [27]:
# pd.concat - 행으로 합치기
result = pd.concat([df1, df2], axis=0) # 디렉토리 같이 행과 열이 전치되는 경우에는 반대로 보면됨
result

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer
0,Ed,dentist
1,Jack,farmer
2,Ted,designer


In [26]:
# pd.concat - 행으로 합치기
result = pd.concat([df1, df2], axis=0, ignore_index=True)
result

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer
3,Ed,dentist
4,Jack,farmer
5,Ted,designer


### 2) pd.concat() - 열로 합치기
- 두번째 데이터프레임을 첫번째 데이터프레임의 새로운 컬럼(열)으로 합칩니다.

In [28]:
# pd.concat() - 열로 합치기
result = pd.concat([df1, df2], axis=1, ignore_index=True)
result

Unnamed: 0,0,1,2,3
0,John,teacher,Ed,dentist
1,Nate,student,Jack,farmer
2,Fred,developer,Ted,designer


### 3) append
- 두번째 데이터프레임을 첫번째 데이터프레임의 새로운 로우(행)로 합칩니다.

In [29]:
# append
result = df1.append(df2, ignore_index=True)
result

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer
3,Ed,dentist
4,Jack,farmer
5,Ted,designer


###  4) merge() 함수 : 열을  기반으로  데이터프레임을  JOIN(inner or outer) 할  때  사용
- how 옵션 – inner, left, right, outer

## 중요**

In [30]:
# merge() 함수 : 열을  기반으로  데이터프레임을  JOIN
import pandas as pd

member_df = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005],
    '이름': ['AAA', 'BBB', 'CCC', 'DDD', 'EEE']
}, columns=['고객번호', '이름'])
print(member_df)

transaction_df = pd.DataFrame({
    '고객번호': [1001, 1001, 1002, 1005, 1006],
    '금액': [1000, 2000, 1500, 500, 700]
}, columns=['고객번호', '금액'])
print(transaction_df)

   고객번호   이름
0  1001  AAA
1  1002  BBB
2  1003  CCC
3  1004  DDD
4  1005  EEE
   고객번호    금액
0  1001  1000
1  1001  2000
2  1002  1500
3  1005   500
4  1006   700


- how = 'inner'

In [31]:
inner_result = pd.merge(member_df, transaction_df, how = 'inner')
print(inner_result) # null값 제외

   고객번호   이름    금액
0  1001  AAA  1000
1  1001  AAA  2000
2  1002  BBB  1500
3  1005  EEE   500


- how = 'left'

In [26]:
inner_result = pd.merge(member_df, transaction_df, how = 'left')
print(inner_result) # 이름을 기준으로 생성 null값 까지

   고객번호   이름      금액
0  1001  AAA  1000.0
1  1001  AAA  2000.0
2  1002  BBB  1500.0
3  1003  CCC     NaN
4  1004  DDD     NaN
5  1005  EEE   500.0


- how = 'right'

In [27]:
inner_result = pd.merge(member_df, transaction_df, how = 'right')
print(inner_result) # 금액을 기준으로 생성

   고객번호   이름    금액
0  1001  AAA  1000
1  1001  AAA  2000
2  1002  BBB  1500
3  1005  EEE   500
4  1006  NaN   700


- how = 'outer'

In [28]:
inner_result = pd.merge(member_df, transaction_df, how = 'outer')
print(inner_result) # 왼쪽 오른쪽 다 기준점으로 null값 모두 출력

   고객번호   이름      금액
0  1001  AAA  1000.0
1  1001  AAA  2000.0
2  1002  BBB  1500.0
3  1003  CCC     NaN
4  1004  DDD     NaN
5  1005  EEE   500.0
6  1006  NaN   700.0


## 피봇테이블(pivot table) : pivot 메서드 사용
- 데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것을 말한다.
- pivot 메서드
   - 첫번째 인수 : 행 인덱스로 사용할 열 이름
   - 두번째 인수 : 열 인덱스로 사용할 열 이름
   - 마지막 인수 : 데이터로 사용할 열 이름
   - 만약 주어진 데이터가 존재하지 않으면 해당 칸에 NaN 값을 넣는다.

- 각 도시의 연도별 인구

In [33]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
df = pd.DataFrame(data, columns=columns)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


- 어떤 도시의 어떤 시점의 인구 파악하기 위해 pivot 테이블로 변경
    - 행 인덱스 : "연도", 열 인덱스 : "도시",  데이터 이름 : "인구"

In [34]:
df.pivot(index="연도", columns="도시", values="인구")

도시,부산,서울,인천
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2005,3512547.0,9762546.0,
2010,3393191.0,9631482.0,263203.0
2015,3448737.0,9904312.0,2890451.0


- 이 피봇테이블의 값 3512547은 "도시"가 부산이고 "연도"가 2005년인 데이터를 "인구"열에서 찾은 값이다. 
- 2005년 인천의 인구는 데이터에 없기 때문에 NaN으로 표시된다.

In [42]:
# 결측치 처리
df2 = df.pivot(index="연도", columns="도시", values="인구")
df2.fillna(0)

도시,부산,서울,인천
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2005,3512547.0,9762546.0,0.0
2010,3393191.0,9631482.0,263203.0
2015,3448737.0,9904312.0,2890451.0


- pd.pivot_table() 사용하여 결측치 처리 

In [39]:
#fill-value - 결측치 대체
pd.pivot_table(df, index="연도", columns="도시", values="인구", aggfunc='sum', fill_value=0)

도시,부산,서울,인천
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2005,3512547,9762546,0
2010,3393191,9631482,263203
2015,3448737,9904312,2890451


## 실수 값을 카테고리 값으로 변환
- 실수 값을 크기 기준으로 하여 카테고리 값으로 변환
- cut: 실수 값의 경계선을 지정하는 경우
- qcut: 갯수가 똑같은 구간으로 나누는 경우

## 이해 ㄴㄴ

In [22]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

- bins 인수는 카테고리를 나누는 기준값이 된다. 영역을 넘는 값은 NaN으로 처리된다.

In [23]:
bins = [1, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 노년, 청년, 장년, 중년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

- cut 명령이 반환하는 값은 Categorical 클래스 객체이다. 
- 이 객체는 categories 속성으로 라벨 문자열을, codes 속성으로 정수로 인코딩한 카테고리 값을 가진다.

In [24]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [25]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [26]:
cats.codes

array([-1,  0,  0,  1,  1,  3,  2,  4,  1,  3,  2, -1], dtype=int8)

In [27]:
df = pd.DataFrame(ages, columns=["ages"])
df["age_cat"] = pd.cut(df.ages, bins, labels=labels)
df

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


- qcut 명령은 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다. 
- 예를 들어 다음 코드는 1000개의 데이터를 4개의 구간으로 나누는데 각 구간은 250개씩의 데이터를 가진다.

In [29]:
import numpy as np
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
cats

[Q4, Q2, Q3, Q3, Q3, ..., Q1, Q3, Q4, Q3, Q4]
Length: 1000
Categories (4, object): [Q1 < Q2 < Q3 < Q4]

In [30]:
pd.value_counts(cats)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64

## Pandas 데이타 입출력

In [35]:
friend_list = [ ['John', 20, 'student'],
               ['Jenny', 30, 'developer'],
               ['Nate', 30, 'teacher'] ]
column_name = ['name', 'age', 'job']
df = pd.DataFrame.from_records(friend_list, columns=column_name)
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


## 데이타프레임을 csv 파일로 저장 

### 1) 데이타프레임을 csv 파일로 저장 : to_csv()

In [36]:
df.to_csv('friend_list.csv')

### 2) 헤더가 없는 데이타프레임의 csv 파일 저장 

In [37]:
friend_list = [ ['John', 20, 'student'],
               ['Jenny', 30, 'developer'],
               ['Nate', 30, 'teacher'] ]
df = pd.DataFrame.from_records(friend_list)
df

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [38]:
df.to_csv('friend_list2.csv', header = False, index = False)

### 3) 헤더 정보를 저장할 경우 header 키워드로 컬럼 이름을 지정

In [39]:
df.to_csv('friend_list3.csv', header = ['name', 'age', 'job'], index = False)

## csv 파일 데이타 불러오기

In [37]:
import pandas as pd
data_frame = pd.read_csv('friend_list.csv')
data_frame

Unnamed: 0.1,Unnamed: 0,name,age,job
0,0,John,20,student
1,1,Jenny,30,developer
2,2,Nate,30,teacher


In [38]:
data_frame = pd.read_csv('friend_list2.csv')
data_frame.head()

Unnamed: 0,John,20,student
0,Jenny,30,developer
1,Nate,30,teacher


In [39]:
data_frame = pd.read_csv('friend_list3.csv')
data_frame.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


## excel 파일로 저장하기

#### 모듈 설치 : pip install xlrd, pip install openpyxl

In [40]:
df_friend = pd.read_csv('friend_list3.csv')

In [41]:
df_friend 

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [42]:
# 엑셀로 저장하기 
df_friend.to_excel('friend_list.xlsx', 'sheet1', index=False)   

## excel 파일 읽기

In [43]:
# 엑셀 파일 읽기
df_friend2 = pd.read_excel('friend_list.xlsx', 'sheet1')
df_friend2

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


## html 불러오기 - 웹에서 테이블 형태 자료 불러오기 

#### 모듈 설치 : pip install lxml

In [45]:
import pandas as pd

In [46]:
# html에서 <table> 태그로 되어 있는 테이블 불러오기
df_list = pd.read_html('https://www.fdic.gov/bank/individual/failed/banklist.html')
df_list

[                             Bank Name        City  ST   CERT  \
 0                   Ericson State Bank     Ericson  NE  18265   
 1     City National Bank of New Jersey      Newark  NJ  21111   
 2                        Resolute Bank      Maumee  OH  58317   
 3                Louisa Community Bank      Louisa  KY  58112   
 4                 The Enloe State Bank      Cooper  TX  10716   
 ..                                 ...         ...  ..    ...   
 555                 Superior Bank, FSB    Hinsdale  IL  32646   
 556                Malta National Bank       Malta  OH   6629   
 557    First Alliance Bank & Trust Co.  Manchester  NH  34264   
 558  National State Bank of Metropolis  Metropolis  IL   3815   
 559                   Bank of Honolulu    Honolulu  HI  21029   
 
                    Acquiring Institution       Closing Date  
 0             Farmers and Merchants Bank  February 14, 2020  
 1                        Industrial Bank   November 1, 2019  
 2               

In [47]:
# 테이블 개수 확인
len(df_list) # 1개 

1

In [48]:
df = df_list[0] # 첫번째 테이블 확인하기

In [49]:
df

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date
0,Ericson State Bank,Ericson,NE,18265,Farmers and Merchants Bank,"February 14, 2020"
1,City National Bank of New Jersey,Newark,NJ,21111,Industrial Bank,"November 1, 2019"
2,Resolute Bank,Maumee,OH,58317,Buckeye State Bank,"October 25, 2019"
3,Louisa Community Bank,Louisa,KY,58112,Kentucky Farmers Bank Corporation,"October 25, 2019"
4,The Enloe State Bank,Cooper,TX,10716,"Legend Bank, N. A.","May 31, 2019"
...,...,...,...,...,...,...
555,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001"
556,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001"
557,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001"
558,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000"
