# [활용선택] 파이썬으로 시작하는 데이터 분석

## Numpy 조건 검색

### 1. Masking and quqery

In [10]:
import numpy as np
import pandas as pd

print("Masking & query")
df = pd.DataFrame(np.random.rand(5, 2), columns=["A", "B"])
print(df, "\n")


# Q. 데이터 프레임에서 A컬럼값이 0.4보다 작고 B컬럼 값이 0.3보다 큰값 구하기
print(df[(df['A'] < 0.4) & (df['B'] > 0.3)])
print(df.query("A < 0.4 and B > 0.3"))

Masking & query
          A         B
0  0.773110  0.030133
1  0.454515  0.826287
2  0.383027  0.531427
3  0.806887  0.228643
4  0.625255  0.272295 

          A         B
2  0.383027  0.531427
          A         B
2  0.383027  0.531427


### 2. apply

일정한 동작으로 데이터 프레임을 수정하고자 할 때 편리하게 이용할 수 있는 기능

In [14]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.arange(5), columns=["Num"])

# 값을 받으면 세제곱을 해서 돌려주는 함수
def square(x):
    return x**3
# apply로 컬럼에 함수 적용
df['Square'] = df['Num'].apply(square)
print(df)



# 함수 대신 람다 표현식으로도 적용이 가능하다.
df['Square'] = df['Num'].apply(lambda x:x**3)

   Num  Square
0    0       0
1    1       1
2    2       8
3    3      27
4    4      64


### 3. groupby

1) 키 값을 기준으로 그룹으로 묶을 수 있다. 

In [22]:
import numpy as np
import pandas as pd

df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'A', 'B', 'C'],
    'data1': [1, 2, 3, 1, 2, 3],
    'data2': [4, 4, 6, 0, 6, 1]
})
print("DataFrame:")
print(df, "\n")

# groupby 함수를 이용해봅시다.
# key를 기준으로 묶어 합계를 구해 출력해보세요.
a1 = df.groupby('key').sum()
print(a1)

# key와 data1을 기준으로 묶어 합계를 구해 출력해보세요.

b = df.groupby(['key','data1']).sum()
print(b)

DataFrame:
  key  data1  data2
0   A      1      4
1   B      2      4
2   C      3      6
3   A      1      0
4   B      2      6
5   C      3      1 

     data1  data2
key              
A        2      4
B        4     10
C        6      7
           data2
key data1       
A   1          4
B   2         10
C   3          7


2) aaggregate() 키 값을 기준으로 그룹으로 묶은 결과의 요약 통계량

In [23]:
import numpy as np
import pandas as pd

df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'A', 'B', 'C'],
    'data1': [0, 1, 2, 3, 4, 5],
    'data2': [4, 4, 6, 0, 6, 1]
})
print("DataFrame:")
print(df, "\n")

# aggregate를 이용하여 요약 통계량을 나타내보자!
# 데이터 프레임을 'key' 칼럼으로 묶고, data1과 data2 각각의 
# 최솟값, 중앙값, 최댓값을 출력하세요.

a1 = df.groupby('key').aggregate(['min',np.median,max])
print(a1)


# 데이터 프레임을 'key' 칼럼으로 묶고, data1의 최댓값, data2의 합계를 출력하세요.

b = df.groupby('key').aggregate({'data1':max,'data2':np.sum})

print(b)




DataFrame:
  key  data1  data2
0   A      0      4
1   B      1      4
2   C      2      6
3   A      3      0
4   B      4      6
5   C      5      1 

    data1            data2           
      min median max   min median max
key                                  
A       0    1.5   3     0    2.0   4
B       1    2.5   4     4    5.0   6
C       2    3.5   5     1    3.5   6
     data1  data2
key              
A        3      4
B        4     10
C        5      7


3) filter() 와 apply() 함수 적용해 설정한 조건으로 원하는 값 추출

In [26]:
# groupby()로 묶은 데이터에 filter를 적용해봅시다.
# key별 data2의 평균이 2이 넘는 인덱스만 출력해봅시다.

print("filtering : ")
def filter_by_mean(x) :
    return x['data2'].mean() > 2

a = df.groupby('key').filter(filter_by_mean)
print(a)

# groupby()로 묶은 데이터에 apply도 적용해봅시다.
# 람다식을 이용해 평균에서 최솟값을 뺀 값을 적용해봅시다.

print("applying : ")

b = df.groupby('key').apply(lambda x : x.mean()-x.min())
print(b)

filtering : 
  key  data1  data2
1   B      1      4
2   C      2      6
4   B      4      6
5   C      5      1
applying : 
     data1  data2  key
key                   
A      1.5    2.0  NaN
B      1.5    1.0  NaN
C      1.5    2.5  NaN


## 4. Multi Index & Pivot Table

인덱스를 계층적으로 만드는 방법

In [29]:
df2 = pd.DataFrame(
    np.random.randn(4, 4),
    columns=[["A", "A", "B", "B"], ["1", "2", "1", "2"]])

# df2의 [A][1] 칼럼 출력
print(df2["A"]["1"], "\n")

0   -1.383593
1    0.180837
2    0.288359
3   -0.978761
Name: 1, dtype: float64 



df.pivot_table(index="a",columns="b",values="c") 이렇게 지정 가능