In [None]:
## 데이터프레임의 정렬
# axis: 행 or 열 기준으로 정렬할지를 결정(디폴트는 열 기준)
# axis=0: 행 기준, axis=1: 열 기준 (정렬함수만 반대!)
# ascending: 오름차순 or 내림차순으로 정렬할지를 결정(디폴트는 오름차순)
# ascending=True: 오름차순, ascending=False: 내림차순
import numpy as np
import pandas as pd
df = pd.DataFrame({
    'col1':['1','2','9','7','8','4'],
    'col2':['A','A','B','D',np.nan,'C'],
    'col3':['1','0','9','2','4','3']
    }, index = [1,0,2,4,3,5])
print(df)
print("\n---프레임 정렬 후---\n")

# 프레임을 정렬하는 함수: sort_index()
df = df.sort_index(axis=0)
print(df, end = "\n\n")

df = df.sort_index(axis=1,ascending=False)
print(df)
print("\n---column의 데이터 정렬 후---\n")

# column의 데이터를 정렬하는 함수: sort_values()
# 여러 행을 기준으로 하면 우선순위에 의해 정렬한다
df = df.sort_values('col3',ascending = True)
print(df, end = "\n\n")
df = df.sort_values(['col2','col3'], ascending = [True,False])
print(df)

  col1 col2 col3
1    1    A    1
0    2    A    0
2    9    B    9
4    7    D    2
3    8  NaN    4
5    4    C    3

---프레임 정렬 후---

  col1 col2 col3
0    2    A    0
1    1    A    1
2    9    B    9
3    8  NaN    4
4    7    D    2
5    4    C    3

  col3 col2 col1
0    0    A    2
1    1    A    1
2    9    B    9
3    4  NaN    8
4    2    D    7
5    3    C    4

---column의 데이터 정렬 후---

  col3 col2 col1
0    0    A    2
1    1    A    1
4    2    D    7
5    3    C    4
3    4  NaN    8
2    9    B    9

  col3 col2 col1
1    1    A    1
0    0    A    2
2    9    B    9
5    3    C    4
4    2    D    7
3    4  NaN    8


In [None]:
## 데이터프레임 집계함수: count(), max(), min(), sum()

## 데이터프레임의 NaN값을 제외한 데이터 개수를 구하는 함수: count()
## values가 int형인 Series를 반환한다
import numpy as np
import pandas as pd
df = pd.DataFrame({
    'korean':[50,60,70],
    'math':[10,np.nan,40]
}, index = ['a','b','c'])
print(df)
print("\n---집계함수 결과---\n")

print(df.count(axis=0))  #열 기준
print()
print(df.count(axis=1))  #행 기준

   korean  math
a      50  10.0
b      60   NaN
c      70  40.0

---집계함수 결과---

korean    3
math      2
dtype: int64

a    2
b    1
c    2
dtype: int64


In [None]:
## 데이터프레임의 최대,최소를 구하는 함수: max(), min()
## values가 float형인 Series를 반환한다
import numpy as np
import pandas as pd
df = pd.DataFrame({
    'korean':[50,60,70],
    'math':[10,np.nan,40]
}, index = ['a','b','c'])
print(df)
print("\n---최대, 최소함수 결과---\n")

print(df.max())
print()
print(df.min())

   korean  math
a      50  10.0
b      60   NaN
c      70  40.0

---최대, 최소함수 결과---

korean    70.0
math      40.0
dtype: float64

korean    50.0
math      10.0
dtype: float64


In [None]:
## 데이터프레임의 합, 평균을 구하는 함수: sum(), mean()
## values가 float형인 Series를 반환한다
import numpy as np
import pandas as pd
df = pd.DataFrame({
    'korean':[50,60,70],
    'math':[10,np.nan,40]
}, index = ['a','b','c'])
print(df)
print("\n---합, 평균 함수 결과---\n")

print(df.sum())
print()
print(df.mean())
print()

# axis 인자: 0이면 열 기준(디폴트), 1이면 행 기준
# skipna 인자: NaN 값을 포함 시킬지를 결정
# skipna=True(디폴트): NaN 값 무시, skipna=False: NaN 값 포함
print(df.sum(axis = 1))
print()
print(df.mean(axis = 1, skipna = False))

   korean  math
a      50  10.0
b      60   NaN
c      70  40.0

---합, 평균 함수 결과---

korean    180.0
math       50.0
dtype: float64

korean    60.0
math      25.0
dtype: float64

a     60.0
b     60.0
c    110.0
dtype: float64

a    30.0
b     NaN
c    55.0
dtype: float64


In [None]:
## NaN을 포함한 합, 평균은 구할 수 없으므로 NaN으로 표기한다
## NaN값을 대체하는 함수: fillna()
## 주로 NaN값이 존재하는 column의 평균으로 대체한다
import numpy as np
import pandas as pd
df = pd.DataFrame({
    'korean':[50,60,70],
    'math':[10,np.nan,40]
}, index = ['a','b','c'])
print(df.mean(axis=1, skipna=False))
print("\n---NaN 값 대체 후---\n")

B_avg = df['math'].mean()  #B_avg = 25.0
df['math'] = df['math'].fillna(B_avg)
print(df.mean(axis=1, skipna=False))


a    30.0
b     NaN
c    55.0
dtype: float64

---NaN 값 대체 후---

a    30.0
b    42.5
c    55.0
dtype: float64


In [None]:
## groupby() 함수: 조건부로 집계하는 함수
import numpy as np
import pandas as pd
df = pd.DataFrame({
    'data1':range(6),
    'data2':[4,4,6,0,6,1],
    'key':['A','B','C','A','B','C']
})
print(df)
print("\n---조건부로 집계한 후---\n")

print(df.groupby('key').sum(), "\n")
print(df.groupby(['key','data1']).sum())  #계층적 groupby()
print("\n---조건부로 여러번 집계한 후---\n")

# groupby()를 통해서 여러 집계를 한번에 계산하는 함수: aggregate()
# aggregate() 함수의 매개변수 형식은 자유롭다
print(df.groupby('key').aggregate(['min',np.median,max]))
print(df.groupby('key').aggregate({'data1':'min','data2':np.sum}))


   data1  data2 key
0      0      4   A
1      1      4   B
2      2      6   C
3      3      0   A
4      4      6   B
5      5      1   C

---조건부로 집계한 후---

     data1  data2
key              
A        3      4
B        5     10
C        7      7 

           data2
key data1       
A   0          4
    3          0
B   1          4
    4          6
C   2          6
    5          1

---조건부로 여러번 집계한 후---

    data1            data2           
      min median max   min median max
key                                  
A       0    1.5   3     0    2.0   4
B       1    2.5   4     4    5.0   6
C       2    3.5   5     1    3.5   6
     data1  data2
key              
A        0      4
B        1     10
C        2      7


In [None]:
import numpy as np
import pandas as pd
df = pd.DataFrame({
    'data1':range(6),
    'data2':[4,4,6,0,6,1],
    'key':['A','B','C','A','B','C']
})
print(df)
print('\n---filter() 함수 적용---\n')

## filter() 함수: groupby()를 통해서 묶인 데이터를 기준으로 필터링한다
# groupby() 함수가 적용되지 않은 DataFrame을 반환한다
# 매개변수에 lambda 함수를 넣어도 된다
def filter_by_mean(x):
  return x['data2'].mean()>3

print(df.groupby('key').mean()['data2'], "\n")
print(df.groupby('key').filter(filter_by_mean))  #key=A 인 행은 탈락
print('\n---apply() 함수 적용---\n')

## apply() 함수: groupby()를 통해서 묶인 데이터에 함수를 적용하여 반환
# groupby() 함수가 적용된 DataFrame을 반환한다
# 매개변수에 lambda 함수를 넣어도 된다
print(df.groupby('key').apply(lambda x: x.max()-x.min()))

   data1  data2 key
0      0      4   A
1      1      4   B
2      2      6   C
3      3      0   A
4      4      6   B
5      5      1   C

---filter() 함수 적용---

key
A    2.0
B    5.0
C    3.5
Name: data2, dtype: float64 

   data1  data2 key
1      1      4   B
2      2      6   C
4      4      6   B
5      5      1   C

---apply() 함수 적용---

     data1  data2
key              
A        3      4
B        3      2
C        3      5


In [None]:
## get_group() 함수: groupby()를 통해서 묶인 데이터에서 key값으로 데이터를 불러온다
# groupby() 함수가 적용되지 않은 DaraFrame을 반환한다
df = pd.read_csv("/content/sample_data/cali.csv")
print(df.head(), "\n\n\n")  #상위 5개 데이터 추출
print(df.groupby('housing_median_age').get_group(27), "\n\n\n")
print(len(df.groupby('housing_median_age').get_group(27)))

   longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0    -122.05     37.37                27.0       3885.0           661.0   
1    -118.30     34.26                43.0       1510.0           310.0   
2    -117.81     33.78                27.0       3589.0           507.0   
3    -118.36     33.82                28.0         67.0            15.0   
4    -119.67     36.33                19.0       1241.0           244.0   

   population  households  median_income  median_house_value  
0      1537.0       606.0         6.6085            344700.0  
1       809.0       277.0         3.5990            176500.0  
2      1484.0       495.0         5.7934            270500.0  
3        49.0        11.0         6.1359            330000.0  
4       850.0       237.0         2.9375             81700.0   



      longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0       -122.05     37.37                27.0       3885.0           661.0   
2       -11