In [27]:
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv("data_1.csv")

In [3]:
data

Unnamed: 0,name,age,state,num_children,num_pets
0,달문,23,분당,2,0
1,메리,78,안양,2,4
2,피터,22,수원,0,0
3,제프,19,서울,1,5
4,빌,45,인천,2,0
5,리사,33,안산,1,0


## 축을 조정하는 함수나 메소드에서 axis 처리

### 삭제를 원할 때는 axis 축이 1 일 경우는 칼럼단위로 처리된다

In [4]:
data.drop(["age","num_children"],axis=1)

Unnamed: 0,name,state,num_pets
0,달문,분당,0
1,메리,안양,4
2,피터,수원,0
3,제프,서울,5
4,빌,인천,0
5,리사,안산,0


In [5]:
data

Unnamed: 0,name,age,state,num_children,num_pets
0,달문,23,분당,2,0
1,메리,78,안양,2,4
2,피터,22,수원,0,0
3,제프,19,서울,1,5
4,빌,45,인천,2,0
5,리사,33,안산,1,0


### 행단위로 처리하기 위해서는 axis=0 으로 처리

In [9]:
data.drop([0,5],axis=0)

Unnamed: 0,name,age,state,num_children,num_pets
1,메리,78,안양,2,4
2,피터,22,수원,0,0
3,제프,19,서울,1,5
4,빌,45,인천,2,0


## 원소를 계산할 때 축 알아보기

    axis=0은 칼럼 내의 모든 인덱스를 계산
    
    axis=1은 인덱스 내의 모든 칼럼을 계산
    

### 기본적으로 axis=0로 처리하면 칼럼별로 계산한다.

In [7]:
data.mean(axis=0)

age             36.666667
num_children     1.333333
num_pets         1.500000
dtype: float64

In [10]:
data.sum()

name             달문메리피터제프빌리사
age                      220
state           분당안양수원서울인천안산
num_children               8
num_pets                   9
dtype: object

### 행단위 즉 인덱스 기준으로 처리하려면 axis=1로 지정해야 한다.

In [8]:
data.mean(axis=1)

0     8.333333
1    28.000000
2     7.333333
3     8.333333
4    15.666667
5    11.333333
dtype: float64

In [14]:
help(data.sum)

Help on method sum in module pandas.core.frame:

sum(axis=None, skipna=None, level=None, numeric_only=None, **kwargs) method of pandas.core.frame.DataFrame instance
    Return the sum of the values for the requested axis
    
    Parameters
    ----------
    axis : {index (0), columns (1)}
    skipna : boolean, default True
        Exclude NA/null values. If an entire row/column is NA, the result
        will be NA
    level : int or level name, default None
        If the axis is a MultiIndex (hierarchical), count along a
        particular level, collapsing into a Series
    numeric_only : boolean, default None
        Include only float, int, boolean columns. If None, will attempt to use
        everything, then use only numeric data. Not implemented for Series.
    
    Returns
    -------
    sum : Series or DataFrame (if level specified)



In [15]:
data.sum(axis=1)

0    25
1    84
2    22
3    25
4    47
5    34
dtype: int64

## 두 개의 열과 계산하려면 두개의 열만 추출해서 계산해야 한다.

In [22]:
data[['num_children','num_pets']]

Unnamed: 0,num_children,num_pets
0,2,0
1,2,4
2,0,0
3,1,5
4,2,0
5,1,0


### 기본적을 axis가 0 이므로 칼럼 내에 포함한 열에 있는 원소를 계산한다

In [24]:
data[['num_children','num_pets']].sum()

num_children    8
num_pets        9
dtype: int64

### 행단위 원소를 더하려면 axis=1로 처리하면 행단위로 계산을 한다.

In [25]:
data[['num_children','num_pets']].sum(axis=1)

0    2
1    6
2    0
3    6
4    2
5    1
dtype: int64

## apply 메소드를 이용해서 함수 구동하기

### 칼럼별로  들어간 원소를 계산하기 위해서는 axis=1로 처리하면 행별로 계산된 결과를 보여준다

In [28]:
data[["age","num_pets","num_children"]].apply(lambda row: np.sum(row),axis=1)

0    25
1    84
2    22
3    25
4    47
5    34
dtype: int64

### 칼런 내에 들어간 원소를 계산하기 위해서는 axis=0을 주고 처리한다.

In [30]:
data[["age","num_pets","num_children"]].apply(lambda col : np.sum(col),axis=0)

age             220
num_pets          9
num_children      8
dtype: int64

# 인덱싱 처리시 하나의 칼럼을 읽을 때 데이터프레임이나 시리즈로 결과가 나오는 경우 비교하기

### 칼럼을 하나를 가져오지만 팬시 인덱싱은 데이터프레임으로 결과를 준다

In [37]:
data[["age"]]

Unnamed: 0,age
0,23
1,78
2,22
3,19
4,45
5,33


### 문자열로 넣고 인덱싱 처리할 때는 칼럼을 읽고 시리즈로 결과를 준다.

In [38]:
data["age"]

0    23
1    78
2    22
3    19
4    45
5    33
Name: age, dtype: int64

## 칼럼 내부의 값 변경하기

In [31]:
data[["age"]].apply(lambda value: value*2)

Unnamed: 0,age
0,46
1,156
2,44
3,38
4,90
5,66


## 시리즈로 처리해서 apply 처리하기

In [36]:
data['age'].map(lambda value: value*2)

0     46
1    156
2     44
3     38
4     90
5     66
Name: age, dtype: int64