<h1>Pandas</h1>

pandas는 다음과 같은 특징을 가짐

* Numpy를 내부적으로 활용(Numpy의 특징을 그대로 가짐)
* 데이터 분석에 특화된 데이터 구조 제공
* 다양한 데이터 분석 함수 제공
* 데이터베이스에 쉽게 연결 가능

<h2>Cheat Sheet</h2>
여기에 다 있음  
</br>
<img src = "./Data Wrangling with pandas [Cheat Sheet].png" style = "width: 600px"/>

In [2]:
import pandas as pd

Pandas의 모든 API는 help함수를 이용하여 도움말을 확인할 수 있음

In [3]:
# help(pd)
# help(pd.read_csv)
# help(pd.DataFrame)

<h1>Pandas 데이터 구조</h1>

Series: 1차원 배열 자료 구조  
DataFrame: 2차원 자료 구조(엑셀 시트와 비슷)



<h2>Series</h2>

* 1차원 데이터 구조
* 일반적으로 s 또는 sr로 이름 붙임

Series는 **pd.Series()** 로 생성함

In [4]:
s = pd.Series([3, -5, 7, 4])

pd.Series(s)

0    3
1   -5
2    7
3    4
dtype: int64

인덱스를 특별히 지정해주지 않으면 Numpy 다차원배열처럼 0부터 인덱스가 시작됨  
**Numpy** 다차원 배열과 다르게 Pandas Series는 인덱스를 지정해 줄 수 있으며 숫자가 아닌 문자열도 인덱스가 될 수 있음

In [5]:
s = pd.Series([3, -5, 7, 4], index = ['a', 'b', 'c', 'd'])
s['a']
s

a    3
b   -5
c    7
d    4
dtype: int64

**type()** 를 통해 데이터 타입이 Series인 것을 확인할 수 있음

In [6]:
print(s.dtype)
print(type(s))

int64
<class 'pandas.core.series.Series'>


<h1>속성</h1>

**Series** 는 index와 values를 가짐

In [7]:
s.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [8]:
s.values

array([ 3, -5,  7,  4])

<h2>인덱싱</h2>

Series는 요소는 index명 또는 index의 순서를 통해 인덱싱할 수 있음

In [9]:
 #@ index명으로 조회
s['a']

3

In [10]:
 #@ index순서로 조회
s[0]

3

<h1>파이썬 딕셔너리와 Pandas Series의 공통점, 차이점</h1>

index와 value를 가진다는 점에서 key와 value를 가지는 파이썬 딕셔너리와 유사하다고 볼 수 있음  
그렇기에 파이썬 딕셔너리를 통해 Series를 생성할 수 있음  

In [11]:
pop_dict = {
    'Germany': 81.3,
    'Belgium': 11.3,
    'France': 64.3,
    'United Kingdom': 64.9,
    'Netherlands': 16.9
}

population = pd.Series(pop_dict)
population

Germany           81.3
Belgium           11.3
France            64.3
United Kingdom    64.9
Netherlands       16.9
dtype: float64

딕셔너리에서 key값을 이용해 value를 조회하듯 Series에서 index를 이용해 value를 조회할 수 있음  
허나 딕셔너리에서는 순서를 활용한 인덱싱이 불가능함

In [12]:
population['France']

64.3

In [13]:
 #!또한 population은 element wise를 지원, 그러나 딕셔너리는 지원하지 않음
print(population*1000)

Germany           81300.0
Belgium           11300.0
France            64300.0
United Kingdom    64900.0
Netherlands       16900.0
dtype: float64


<h1>DataFrame</h1>

* 2차원 데이터 구조
* 일반적으로 df로 이름 붙임
* 엑셀 스프레드시트, 데이터베이스 등과 동일한 2차원 구조
* 가장 많이 활용하게 될 구조
* Series가 합쳐진 형태

DataFrame은 **pd.DataFrame()** 으로 생성함</br></br>
중첩된 리스트나 딕셔너리를 통해 DataFrame을 생성할 수 있음

In [14]:
data = [['Belgium', 'Brussels', 11190846],
        ['India', 'New Delhi', 1303171035],
        ['Brazil', 'Brasilia', 207847528]]

df = pd.DataFrame(data)

df

Unnamed: 0,0,1,2
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasilia,207847528


근데 coloumn에 대한 정보를 적어주지 않으면 0, 1, 2 ...과 같은 정보만 뜨게 되므로  
columns 파라미터를 통해 정해줄 수 있음

In [15]:
df = pd.DataFrame(data, columns=['Country', 'Capital', 'Population'])
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasilia,207847528


데이터프레임의 데이터는 딕셔너리로 넘겨주는게 일반적임
* 칼럼명을 함께 넘겨줄 수 있기 때문
* **동일한 데이터타입끼리 함께 묶어서 넘겨줄 수 있기 때문**

In [16]:
data = {
    'Country': ['Belgium', 'India', 'Brazil'],
    'Capital': ['Brusseles', 'New Delhi', 'Brasillia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brusseles,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasillia,207847528


칼럼명과 마찬가지로 인덱스 역시 변경할 수 있음

In [17]:
df_2 = pd.DataFrame(data, index=['aa','bb','cc'])
df_2

Unnamed: 0,Country,Capital,Population
aa,Belgium,Brusseles,11190846
bb,India,New Delhi,1303171035
cc,Brazil,Brasillia,207847528


**type()** 을 통해 데이터타입이 DataFrame인 걸 확인할 수 있음

In [18]:
type(df)

pandas.core.frame.DataFrame

데이터 프레임의 하나의 열의 데이터 타입은 Series임  
DF를 슬라이싱;numpy에서 배웠던 걸 회기하면 알 수 있음

In [19]:
type(df['Country'])

pandas.core.series.Series

<h1>속성</h1>
아래와 같은 속성을 가짐

* index
* columns
* dtypes
* values

In [20]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [21]:
df.columns

Index(['Country', 'Capital', 'Population'], dtype='object')

In [22]:
df.dtypes

Country       object
Capital       object
Population     int64
dtype: object

In [23]:
df.values

array([['Belgium', 'Brusseles', 11190846],
       ['India', 'New Delhi', 1303171035],
       ['Brazil', 'Brasillia', 207847528]], dtype=object)

index, columns, dtypes를 한번에 조회하고 싶을 경우 
```python
df.info()
```
를 사용하면 됨

하나의 인덱스만 가능한 것이 아님. DataFrame은 여러 개의 인덱스를 가질 수 있음

In [24]:
df_index_with_country_and_capital = df.set_index(['Country', 'Capital'])
df_index_with_country_and_capital

Unnamed: 0_level_0,Unnamed: 1_level_0,Population
Country,Capital,Unnamed: 2_level_1
Belgium,Brusseles,11190846
India,New Delhi,1303171035
Brazil,Brasillia,207847528


In [25]:
#인덱싱
df_index_with_country_and_capital.loc['Belgium', 'Brusseles']

Population    11190846
Name: (Belgium, Brusseles), dtype: int64

<h1>DataFrame의 column의 datatype</h1></br>
판다스는 Series를 만들고 그것들을 한대묶어 DataFrame을 만듬

파이썬의 리스트 -> Series -> DataFrame

In [26]:
data = {
    'col1': [1, 2, 3, 4],
    'col2': [5, 6, 7, 8,],
    'col3': [9, 10, 11, 12]
}

df_3 = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])
df_3

Unnamed: 0,col1,col2,col3
A,1,5,9
B,2,6,10
C,3,7,11
D,4,8,12


Series를 통해서도 DataFrame을 생성할 수 있음

In [27]:
s_1 = pd.Series([1, 2, 3, 4], index=['A', 'B', 'C', 'D'])
s_2 = pd.Series([5, 6, 7, 8], index=['A', 'B', 'C', 'D'])
s_3 = pd.Series([9, 10, 11, 12], index=['A', 'B', 'C', 'D'])

data = {
    'col1':s_1,
    'col2':s_2,
    'col3':s_3
}
df_4 = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])
df_4

Unnamed: 0,col1,col2,col3
A,1,5,9
B,2,6,10
C,3,7,11
D,4,8,12


<h1>numpy ndarray와 비교</h1>

<h2>공통점</h2>
numpy 다차원 배열처럼 많은 연산들이 요소들 간에 이루어짐(Elementwise-operation)

In [28]:
s

a    3
b   -5
c    7
d    4
dtype: int64

In [29]:
s+10

a    13
b     5
c    17
d    14
dtype: int64

In [30]:
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brusseles,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasillia,207847528


In [31]:
df['Population']

0      11190846
1    1303171035
2     207847528
Name: Population, dtype: int64

In [32]:
df['Population'] / 1000

0      11190.846
1    1303171.035
2     207847.528
Name: Population, dtype: float64

문자열도 가능

In [33]:
df['Country']

0    Belgium
1      India
2     Brazil
Name: Country, dtype: object

In [34]:
df['Capital']

0    Brusseles
1    New Delhi
2    Brasillia
Name: Capital, dtype: object

In [35]:
df['Country'] + df['Capital']

0    BelgiumBrusseles
1      IndiaNew Delhi
2     BrazilBrasillia
dtype: object

<h1>차이점</h1>
Series간 연산을 하는 경우, index를 기반으로 이루어짐  
(모든 numpy 다차원 배열은 shape가 동일하다면 index도 동일하기에 index가 달라 연산이 이루어지지 않는 경우는 없음)

In [36]:
s

a    3
b   -5
c    7
d    4
dtype: int64

In [37]:
s1 = s[['a', 'b']]
s2 = s[['b', 'c']]

In [38]:
s1

a    3
b   -5
dtype: int64

In [39]:
s2

b   -5
c    7
dtype: int64

In [40]:
s1 + s2

a     NaN
b   -10.0
c     NaN
dtype: float64

<h1>Pandas Importing/Exporting</h1>
직접 데이터를 입력하여 DataFrame이나 Series를 생성할 일은 실무에서 많지 않음  
실무에서는 이미 데이터가 존재하는 경우가 ㅁ낳고 그 데이터를 판다스로 importing해서 분석을 진행함  
</br>
CSV나 엑셀 형태의 파일로 저장된 데이터를 판다스로 가져오거나 직접 데이터베이스에 연결해서 데이터를 가져와서 작업하는 경우가 일반적임  
pandas가 지원하는 Importing/Exporting 포맷은 아래와 같음


* csv(모든 text파일 연결에 사용)
* excel
* sql(모든 데이터베이스 연결에 사용)
* hdf5
* json
* html
* pickle
* ...

importing 함수의 경우 **pd.read** 형태를 가지며 Exporting 함수의 경우 **df.to** 형태를 가짐

In [41]:
json_data = df.to_json()
json_data


'{"Country":{"0":"Belgium","1":"India","2":"Brazil"},"Capital":{"0":"Brusseles","1":"New Delhi","2":"Brasillia"},"Population":{"0":11190846,"1":1303171035,"2":207847528}}'

In [42]:
pd.read_json(json_data)

Unnamed: 0,Country,Capital,Population
0,Belgium,Brusseles,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasillia,207847528


<h1>1) CSV </h1>
하나의 파일로 관리 가능한 크기의 데이터라면, 데이터를 파일로 저장할 때 일반적으로 CSV포맷을 활용함  
<h3>Importing</h3>

In [43]:
#파일 다운로드 받기
!wget -o 'iris_sample.csv' https://raw.githubusercontent.com/duc-ke/edu_jupyter_pandas/master/dataset/iris_sample.csv

In [44]:
df_iris_sample = pd.read_csv('iris_sample.csv')

In [45]:
df_iris_sample

Unnamed: 0,Unnamed: 1,Unnamed: 2,--2022-03-11 15:10:46-- https://raw.githubusercontent.com/duc-ke/edu_jupyter_pandas/master/dataset/iris_sample.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133,185.199.110.133,185.199.109.133,...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.,,,
HTTP request sent,awaiting response... 200 OK,,
Length: 683 [text/plain],,,
Saving to: ‘iris_sample.csv.2’,,,
0K 100% 93.1M=0s,,,
2022-03-11 15:10:47 (93.1 MB/s) - ‘iris_sample.csv.2’ saved [683/683],,,


csv뿐만 아니라, tsv(tap separated values), txt도 read_csv()파일을 통해 읽어올 수 있음  
파일 관점에서 보면 csv, tsv, txt는 동일함, csv, tsv 역시 txt파일이며 값을 구분하는 구분자로 ,냐 'tab'이냐의 차이임

In [46]:
#파일 다운로드 받기
!wget -o 'iris_sample.txt' https://raw.githubusercontent.com/duc-ke/edu_jupyter_pandas/master/dataset/iris_sample.csv

In [47]:
pd.read_csv('iris_sample.txt')

Unnamed: 0,Unnamed: 1,Unnamed: 2,--2022-03-11 15:10:47-- https://raw.githubusercontent.com/duc-ke/edu_jupyter_pandas/master/dataset/iris_sample.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133,185.199.111.133,185.199.109.133,...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.,,,
HTTP request sent,awaiting response... 200 OK,,
Length: 683 [text/plain],,,
Saving to: ‘iris_sample.csv.3’,,,
0K 100% 109M=0s,,,
2022-03-11 15:10:47 (109 MB/s) - ‘iris_sample.csv.3’ saved [683/683],,,


In [48]:
!wget -o 'tsv_sample.tsv' https://gist.githubusercontent.com/mbostock/3305937/raw/a5be7c5fd55c4fa0ca8a400cb68d658a40989966/data.tsv

In [49]:
pd.read_csv('data.tsv')

Unnamed: 0,x\ty
0,5\t90
1,25\t30
2,45\t50
3,65\t55
4,85\t25


In [50]:
pd.read_csv('data.tsv', sep='\t')

Unnamed: 0,x,y
0,5,90
1,25,30
2,45,50
3,65,55
4,85,25


데이터 저장(exporting)

In [51]:
df_iris_sample2 = df_iris_sample.head(n = 6)
df_iris_sample2

Unnamed: 0,Unnamed: 1,Unnamed: 2,--2022-03-11 15:10:46-- https://raw.githubusercontent.com/duc-ke/edu_jupyter_pandas/master/dataset/iris_sample.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133,185.199.110.133,185.199.109.133,...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.,,,
HTTP request sent,awaiting response... 200 OK,,
Length: 683 [text/plain],,,
Saving to: ‘iris_sample.csv.2’,,,
0K 100% 93.1M=0s,,,


In [52]:
df_iris_sample2.to_csv('iris_sample_2.csv')

default로 index 정보를 넣어주는데 보기 싫으면 다음과 같이 한다.

In [53]:
df_iris_sample2.to_csv('iris_sample_2_no_index.csv', index=False)

<h1>2) 엑셀</h2>
엑셀파일은 read_excel(), to_excel()을 활용해서 다룸

배터리 관련 코드 보기(sheet number 어떻게 가져오는지에 관한 정보있음)

<h1>3) 데이터베이스</h2>

In [54]:
import sqlalchemy

user = "anonymous"
host = "ensembldb.ensembl.org"
port = 3337
database = "ailuropoda_melanoleuca_core_79_1"

url = "mysql+mysqlconnector://{}@{}:{}/{}".format(user, host, port, database)

connection = sqlalchemy.create_engine(url)

ModuleNotFoundError: No module named 'sqlalchemy'

In [55]:
pd.read_sql("select * from analysis limit 10", connection)

NameError: name 'connection' is not defined

<h1>인덱싱/슬라이싱</h1>
<h2>0)[]</h2>

* []연산사를 활용해 데이터를 가져올 수 있음  
* 간단히 사용하기에는 좋지만 불규칙적이기 때문에 loc, iloc를 통한 인덱싱/슬라이싱을 추천함

In [56]:
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brusseles,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasillia,207847528


* 단일 칼럼 조회

In [57]:
df['Country']

0    Belgium
1      India
2     Brazil
Name: Country, dtype: object

* 복수 칼럼 조회

In [58]:
df[['Country', 'Population']]

Unnamed: 0,Country,Population
0,Belgium,11190846
1,India,1303171035
2,Brazil,207847528


* 슬라이싱
   * []를 통한 슬라이싱은 row(행)에 적용됨 

In [59]:
#index 슬라이싱, 2 미포함
df[0:2]

Unnamed: 0,Country,Capital,Population
0,Belgium,Brusseles,11190846
1,India,New Delhi,1303171035


* 슬라이싱
    * index로 슬라이싱 하지 않고 label로 슬라이싱 하는 경우, 마지막 라벨은 포함됨 

In [60]:
data = {'Country': ['Belgium', 'India', 'Brazil'],
        'Capital': ['Brussels', 'New Delhi', 'Brasillia'],
        'Population': [11190846, 1303171035, 207847528]}

df_2 = pd.DataFrame(data, index=['aa','bb','cc'])
df_2

Unnamed: 0,Country,Capital,Population
aa,Belgium,Brussels,11190846
bb,India,New Delhi,1303171035
cc,Brazil,Brasillia,207847528


<h1>1) 인덱싱</h1>

* loc(Label based indexing)
* iloc (Positional indexing)
* ix (사용 권장하지 않음)

In [61]:
df.iloc[0, 0] # 위치를 통한 인덱싱

'Belgium'

In [62]:
df.iat[0, 0] # 위치를 통한 인덱싱

'Belgium'

In [63]:
df.loc[0, 'Country'] # 라벨을 통한 인덱싱

'Belgium'

In [64]:
df.at[0, 'Country'] # 라벨을 통한 인덱싱

'Belgium'

In [65]:
df.ix[1, 'Capital'] # 위치/라벨을 통한 인덱싱 (사용하지 말 것을 권장)
                    # 행은 위치, 열은 라벨을 통해 인덱싱
#! deprecated

AttributeError: 'DataFrame' object has no attribute 'ix'

<h1>2) 슬라이싱</h1>

In [66]:
df.iloc[0:1, 0:2] # 위치를 통한 슬라이싱 (끝은 미포함)

Unnamed: 0,Country,Capital
0,Belgium,Brusseles


In [67]:
df.loc[0:1, 'Country':'Capital'] # 라벨을 통한 슬라이싱 (끝 포함)

Unnamed: 0,Country,Capital
0,Belgium,Brusseles
1,India,New Delhi


<h1>3) 불리언 인덱싱 (필터링)</h1>

* 조건을 제시하고 조건이 True인 요소만을 조회하는 방식
* 필터링이라고도 불림

In [68]:
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brusseles,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasillia,207847528


In [72]:
df.loc[:,'Population']

0      11190846
1    1303171035
2     207847528
Name: Population, dtype: int64

In [73]:
df['Population'] > 200000000

0    False
1     True
2     True
Name: Population, dtype: bool

In [74]:
df[df['Population'] > 200000000]

Unnamed: 0,Country,Capital,Population
1,India,New Delhi,1303171035
2,Brazil,Brasillia,207847528


<h1>5. 삭제</h1>
<h2>1) Row(행) 삭제</h2>

* axis = 0
* axis의 기본 값이 0이니 생략 가능

<h2>단일 행 삭제</h2>

In [75]:
df.drop(1)

Unnamed: 0,Country,Capital,Population
0,Belgium,Brusseles,11190846
2,Brazil,Brasillia,207847528


<h2>복수 행 삭제</h2>

In [76]:
df.drop([0, 1])

Unnamed: 0,Country,Capital,Population
2,Brazil,Brasillia,207847528


<h1>2) Column(열) 삭제</h1>

* axis = 1

<h2>단일 열 삭제</h2>

In [77]:
df.drop('Country', axis = 1)

Unnamed: 0,Capital,Population
0,Brusseles,11190846
1,New Delhi,1303171035
2,Brasillia,207847528


<h2>복수 열 삭제</h2>

In [None]:
df.drop(['Country', 'Population'], axis=1)

<h2>참조. Series 삭제</h2>

In [78]:
s

a    3
b   -5
c    7
d    4
dtype: int64

In [80]:
s.drop(['a','c'])

b   -5
d    4
dtype: int64

6. Pandas 함수

In [81]:
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brusseles,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasillia,207847528


<h1>데이터 탐색에 유용한 함수</h1>

In [82]:
df.describe() # 숫자 열에만 적용. 숫자열의 통계값과 최대최소값 등을 보여줌

Unnamed: 0,Population
count,3.0
mean,507403100.0
std,696134600.0
min,11190850.0
25%,109519200.0
50%,207847500.0
75%,755509300.0
max,1303171000.0


In [83]:
df.head() #상위 n행을 보여줌. default는 5

Unnamed: 0,Country,Capital,Population
0,Belgium,Brusseles,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasillia,207847528


In [84]:
df.sort_values('Population') # 오름차순 정렬

Unnamed: 0,Country,Capital,Population
0,Belgium,Brusseles,11190846
2,Brazil,Brasillia,207847528
1,India,New Delhi,1303171035


In [None]:
df.sort_values('Population', ascending=False) # 내림차순 정렬

In [None]:
df.isnull() # null 값이 있는지 확인

만약에 숫자가 너무 크면(eg. 10^8x10^8)  
컴퓨터에 부하가 걸리기 때문에 아래와 같은 방식으로 null값이 있는지 확인함

In [85]:
# column(열)별로 null값이 있는지 확인
df.isnull().any() # axis=0이 생략된 형태
# df.isnull().any(axis=0)

Country       False
Capital       False
Population    False
dtype: bool

In [86]:
# Null값이 DataFrame내에 하나라도 있는지 확인
df.isnull().any().any()

False

In [87]:
df2 = df.copy()
df2

Unnamed: 0,Country,Capital,Population
0,Belgium,Brusseles,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasillia,207847528


In [94]:
df2.loc[0, 'Population'] = None

In [95]:
df2

Unnamed: 0,Country,Capital,Population
0,Belgium,Brusseles,11190850.0
1,India,New Delhi,1303171000.0
2,Brazil,Brasillia,207847500.0


In [92]:
df2.isnull().any()

Country       False
Capital       False
Population     True
dtype: bool

<h1>aggregate 함수</h1>

In [93]:
df.count()

Country       3
Capital       3
Population    2
dtype: int64

In [96]:
df.sum() # 문자열도 다 더해버림

Country                BelgiumIndiaBrazil
Capital       BrusselesNew DelhiBrasillia
Population                   1522209409.0
dtype: object

In [97]:
df.min() # 문자열은 알파벳순

Country          Belgium
Capital        Brasillia
Population    11190846.0
dtype: object

In [98]:
df.max() # 알파벳순

Country              India
Capital          New Delhi
Population    1303171035.0
dtype: object

In [99]:
df.mean() # 숫자 열에만 적용

  df.mean() # 숫자 열에만 적용


Population    5.074031e+08
dtype: float64

In [100]:
df.median() # 숫자 열에만 적용

  df.median() # 숫자 열에만 적용


Population    207847528.0
dtype: float64

<h1>7. apply 함수</h1>

* apply함수는 요소별로 적용됨

<h2>하나의 요소를 활용하는 경우</h2>

In [102]:
df.loc[:,'Population':'Population']

Unnamed: 0,Population
0,11190850.0
1,1303171000.0
2,207847500.0


* 각 Population에 1씩 추가

In [103]:
df.loc[:, 'Population':'Population'].apply(lambda x: x + 1)

Unnamed: 0,Population
0,11190850.0
1,1303171000.0
2,207847500.0


In [104]:
df.loc[:, 'Country':'Capital']

Unnamed: 0,Country,Capital
0,Belgium,Brusseles
1,India,New Delhi
2,Brazil,Brasillia


칼럼명(Country, Capital)을 사용해도 되고 칼럼 위치(0, 1)를 사용해도 됨

In [105]:
df.loc[:, 'Country':'Capital'].apply(lambda x: x['Country'] + "'s capital is " + x['Capital'], axis = 1)

0    Belgium's capital is Brusseles
1      India's capital is New Delhi
2     Brazil's capital is Brasillia
dtype: object

<h1>8.GroupBy</h1>
dataframe을 key값에 따라 나눈 뒤 각각에 특정한 함수를 적용한 뒤 다시 합치고 싶을 때 사용함  
groupby는 split-apply-combine 단계를 거침

* **Split** : Key값에 따라 나눈 뒤  
* **Apply** : 함수를 적용
* **Combine** : 다시 합치기  

SQL의 **GROUP BY** 와 유사함

In [106]:
df= pd.DataFrame({'key':['A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C'],
                'data':[0, 5, 10, 5, 10, 15, 10, 15, 20]})
df

Unnamed: 0,key,data
0,A,0
1,B,5
2,C,10
3,A,5
4,B,10
5,C,15
6,A,10
7,B,15
8,C,20


key값에 따라 data의 합을 구하고 싶을 때는 key값대로 불리언 인덱싱 후 sum()함수를 취해주면 됨

In [107]:
df['key'].unique()

array(['A', 'B', 'C'], dtype=object)

key는 'A', 'B', 'C' 이렇게 3개가 있고 각각의 키값에 대해 불리언 인덱싱을 한 후 sum()하기

In [109]:
df[df['key']=="A"].sum()
df[df['key']=="B"].sum()
df[df['key']=="C"].sum()

key     CCC
data     45
dtype: object

이 과정을 groupby를 사용하면 한 번에 수행할 수 있음

In [110]:
df.groupby('key').sum()
# df.groupby('key').aggregate(np.sum) # 'sum'

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,15
B,30
C,45
