In [8]:
import pandas as pd

data = {
    "Name" : ["홍길동", "임꺽정", "성춘향"],
    "Age" : [25, None, 20],
    "City" : ["서울", "부산", None],
}
df = pd.DataFrame(data)
print(df)
print(df.isnull())

  Name   Age  City
0  홍길동  25.0    서울
1  임꺽정   NaN    부산
2  성춘향  20.0  None
    Name    Age   City
0  False  False  False
1  False   True  False
2  False  False   True


In [4]:
# 결측값 개수 확인
df.isnull().sum()

Name    0
Age     1
City    1
dtype: int64

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    3 non-null      object 
 1   Age     2 non-null      float64
 2   City    2 non-null      object 
dtypes: float64(1), object(2)
memory usage: 204.0+ bytes


In [10]:
# 결측값 있는 행 모두 삭제
df_drop_row = df.dropna()
df_drop_row

Unnamed: 0,Name,Age,City
0,홍길동,25.0,서울


In [11]:
# 결측값 있는 열 모두 삭제
df_drop_col = df.dropna(axis=1)
df_drop_col

Unnamed: 0,Name
0,홍길동
1,임꺽정
2,성춘향


In [12]:
df_fillna = df.fillna(0)
df_fillna

Unnamed: 0,Name,Age,City
0,홍길동,25.0,서울
1,임꺽정,0.0,부산
2,성춘향,20.0,0


In [13]:
# 결측치 : 이전행의 값으로 대체 (method="ffill")
# 첫 행의 결측값은 결측값으로 그대로 남게 됨
df_fill_f = df.fillna(method="ffill")
df_fill_f

  df_fill_f = df.fillna(method="ffill")


Unnamed: 0,Name,Age,City
0,홍길동,25.0,서울
1,임꺽정,25.0,부산
2,성춘향,20.0,부산


In [14]:
# 결측치 : 다음행의 값으로 대체 (method="bfill")
# 마지막 행의 결측값은 결측값으로 그대로 남게 됨
df_fill_b = df.fillna(method="bfill")
df_fill_b

  df_fill_b = df.fillna(method="bfill")


Unnamed: 0,Name,Age,City
0,홍길동,25.0,서울
1,임꺽정,20.0,부산
2,성춘향,20.0,


In [21]:
# .isin() 메서드 /w Series ㅡ 결측값은 무시됨
s = pd.Series(["홍길동", "임꺽정", "성춘향", "이몽룡", None])
result = s.isin(["홍길동", "이몽룡"])
result

0     True
1    False
2    False
3     True
4    False
dtype: bool

In [20]:
# .isin() 메서드 /w DataFrame ㅡ 결측값은 무시됨
data = {
    "Name" : ["홍길동", "임꺽정", "성춘향", "이몽룡"],
    "Age" : [None, 30, 20, 32]
}
df = pd.DataFrame(data)
df.isin(["성춘향", "홍길동", 30, 32])

Unnamed: 0,Name,Age
0,True,False
1,False,True
2,True,False
3,False,True


In [22]:
df.isin([None])     # 결측값을 무시하기에 None을 찾아주진 않는다

Unnamed: 0,Name,Age
0,False,False
1,False,False
2,False,False
3,False,False


In [26]:
df['Name'].isin(["임꺽정", "성춘향", 32])


0    False
1     True
2     True
3    False
Name: Name, dtype: bool

In [27]:
df[df['Name'].isin(["임꺽정", "성춘향", 32])]

Unnamed: 0,Name,Age
1,임꺽정,30.0
2,성춘향,20.0


In [28]:
# .value_counts() 메서드 ㅡ 범주(카테고리)별 빈도수 산출
s = pd.Series(['사과', '바나나', '사과', '오렌지', '바나나', '사과'])
s.value_counts()


사과     3
바나나    2
오렌지    1
Name: count, dtype: int64

In [29]:
df= pd.DataFrame({
    "과일" : ['사과', '바나나', '사과', '오렌지', '바나나', '사과'],
    "수량" : [1, 2, 3, 4, 5, 6]
})
df['과일'].value_counts()

과일
사과     3
바나나    2
오렌지    1
Name: count, dtype: int64

In [30]:
df['수량'].value_counts()

수량
1    1
2    1
3    1
4    1
5    1
6    1
Name: count, dtype: int64

In [31]:
# 빈도비율로 환산 (normalize=True)
df['과일'].value_counts(normalize=True)

과일
사과     0.500000
바나나    0.333333
오렌지    0.166667
Name: proportion, dtype: float64

In [32]:
# 빈도수 오름차순 정렬 (ascending=True)
df['과일'].value_counts(ascending=True)

과일
오렌지    1
바나나    2
사과     3
Name: count, dtype: int64

In [33]:
df= pd.DataFrame({
    "과일" : ['사과', '바나나', '사과', '오렌지', None, '사과'],
    "수량" : [1, 2, 3, 4, 5, 6]
})

# 결측값도 하나의 범주로 계산 (dropna=False)
df['과일'].value_counts(dropna=False)

과일
사과      3
바나나     1
오렌지     1
None    1
Name: count, dtype: int64

In [34]:
# .describe() ㅡ 모든 통계지표 출력
# .agg() 메서드 ㅡ 지정한 통계지표 요약
s = pd.Series([1, 2, 3, 4, 5])
s.agg(['sum', 'mean', 'max'])

sum     15.0
mean     3.0
max      5.0
dtype: float64

In [35]:

df = pd.DataFrame({
    "A" : [1,2,3],
    "B" : [10,11,12]
})
df.agg(["sum", "mean"])

Unnamed: 0,A,B
sum,6.0,33.0
mean,2.0,11.0


In [36]:
df.agg({"A":"sum", "B":"mean"})

A     6.0
B    11.0
dtype: float64

In [37]:
s1 = pd.Series([10, 20, 30])
s2 = pd.Series([5, 15, 25])

s1 + s2

0    15
1    35
2    55
dtype: int64

In [38]:
s1 - s2

0    5
1    5
2    5
dtype: int64

In [39]:
s1 * s2

0     50
1    300
2    750
dtype: int64

In [40]:
s1 / s2

0    2.000000
1    1.333333
2    1.200000
dtype: float64

In [41]:
s1 >15

0    False
1     True
2     True
dtype: bool

In [42]:
# 통계연산
s1.sum()

np.int64(60)

In [43]:
s1.mean()

np.float64(20.0)

In [46]:
s1.max()

np.int64(30)

In [47]:
s1.std()        # 표준편차

np.float64(10.0)

In [48]:
s1.var()        # 분산

np.float64(100.0)

In [49]:
s1.median()        # 중앙값

np.float64(20.0)

In [50]:
s1.describe()

count     3.0
mean     20.0
std      10.0
min      10.0
25%      15.0
50%      20.0
75%      25.0
max      30.0
dtype: float64

In [51]:
# 그룹화 .groupby(by=['col1', 'col2']).집계메서드
df = pd.DataFrame({
    "group" : ["A", "A", "B", "B", "C"], 
    "value" : [10,20,30,40,50] 
})

df.groupby('group')['value'].sum()

group
A    30
B    70
C    50
Name: value, dtype: int64

In [52]:
df.groupby('group')['value'].agg(["sum", "mean", "max"])

Unnamed: 0_level_0,sum,mean,max
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,30,15.0,20
B,70,35.0,40
C,50,50.0,50


In [54]:
df = pd.DataFrame({
    "group" : ["A", "A", "B", "B", "C"], 
    "value_1" : [10,20,30,40,50],
    "value_2" : [5, 15, 25, 35, 45] 
})
# value_1 : sum, mean  &  value_2 : min, max
df.groupby('group').agg({
    "value_1" : ["sum", "mean"],
    "value_2" : ["min", "max"]
})

Unnamed: 0_level_0,value_1,value_1,value_2,value_2
Unnamed: 0_level_1,sum,mean,min,max
group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,30,15.0,5,15
B,70,35.0,25,35
C,50,50.0,45,45


In [55]:
# 그룹 > 집계:sum > sum이 30 초과만 필터링
df.groupby("group").filter(lambda x: x['value_1'].sum() > 30)

Unnamed: 0,group,value_1,value_2
2,B,30,25
3,B,40,35
4,C,50,45


파일 불러오기 (CSV / Excel / JSON / SQL / HTML)
** 엑셀은 별도의 라이브러리가 필요함

In [None]:
# 실습. 공공데이터 활용 ㅡ 서울시 공원내 운동기구 설치 현황
df = pd.read_csv("")