In [6]:
import pandas as pd

# Series
s = pd.Series([10, 20, 30], index=["a", "b", "c"])
print(s, '\n')

# dict -> DataFrame
data = {
	"이름": ["철수", "영희", "민수"],
	"점수": [85, 90, 78]
}
df = pd.DataFrame(data)

print(df.head(), '\n') # .head(n) : 앞 n행 출력 (디폴트는 5)
print(df.info(), '\n') # .info() : 데이터 구조 확인
print(df.describe(), '\n') # .describe() : 수치 데이터 통계

a    10
b    20
c    30
dtype: int64 

   이름  점수
0  철수  85
1  영희  90
2  민수  78 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   점수      3 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 180.0+ bytes
None 

              점수
count   3.000000
mean   84.333333
std     6.027714
min    78.000000
25%    81.500000
50%    85.000000
75%    87.500000
max    90.000000 



In [5]:
import pandas as pd

data = {
	"이름": ["철수", "영희", "민수"],
	"점수": [85, 90, 78]
}
df = pd.DataFrame(data)

# indexing
print(df.loc[0, "이름"]) # 0행 "이름"열 : 철수
print(df.iloc[1, 1]) # 1행 1열 : 90

# filtering
print(df[df["점수"] > 80])
#    이름  점수
# 0  철수  85
# 1  영희  90
# 3  소원  95

철수
90
   이름  점수
0  철수  85
1  영희  90


In [4]:
import pandas as pd

data={
	"이름": ["철수", "영희", "민수"],
	"점수": [85, 90, 78],
	"과목": ["영어", "수학", "영어"]
}
df = pd.DataFrame(data)

# 과목별 평균 점수
avg_score = df.groupby("과목")["점수"].mean()
print(avg_score, '\n')

# 과목별 점수의 여러 통계값 동시에
agg_df = df.groupby("과목")["점수"].agg(["mean", "max", "min"])
print(agg_df)

과목
수학    90.0
영어    81.5
Name: 점수, dtype: float64 

    mean  max  min
과목                
수학  90.0   90   90
영어  81.5   85   78


In [10]:
import pandas as pd

df = pd.DataFrame({
	"이름": ["철수", "영희", "민수"],
	"점수": [85, None, 78]
})

print(df.isnull(), '\n') # 결측 여부 확인
print(df.fillna(0), '\n') # NaN 0으로 채움
print(df.dropna(), '\n') # NaN 있는 행 제거

      이름     점수
0  False  False
1  False   True
2  False  False 

   이름    점수
0  철수  85.0
1  영희   0.0
2  민수  78.0 

   이름    점수
0  철수  85.0
2  민수  78.0 



In [None]:
"""
병합 & 조인
- merge : 공통 키 기준. SQL 조인과 유사
- concat : 단순 위/옆으로 붙이기
- pivot_table : 데이터 요약해서 테이블 형태로 반환
"""
import pandas as pd

df_users = pd.DataFrame({
  "user_id": [1, 2, 3],
  "name": ["철수", "영희", "민수"]
})
df_scores = pd.DataFrame({
  "user_id": [1, 2, 4],
  "score": [85, 90, 79]
})

# 공통 키 병합(user_id) : merge
merged = pd.merge(df_users, df_scores, on="user_id")
print(merged, '\n')

# INNER JOIN
merged_inner = pd.merge(df_users, df_scores, on="user_id", how="inner") # => default가 inner
print("INNER JOIN", merged_inner, sep='\n')
# LEFT JOIN
merged_left = pd.merge(df_users, df_scores, on="user_id", how="left")
print("LEFT JOIN", merged_left, sep='\n')
# RIGHT JOIN
merged_right = pd.merge(df_users, df_scores, on="user_id", how="right")
print("RIGHT JOIN", merged_right, sep='\n')
# OUTER JOIN
merged_outer = pd.merge(df_users, df_scores, on="user_id", how="outer")
print("OUTER JOIN", merged_outer, sep='\n')

# 위로(행으로) 이어붙이기 : concat (axis=0)
concat_row = pd.concat([df_users, df_scores], axis=0)
print(concat_row)
# 옆으로(열로) 이어붙이기 : concat (axis=1)
concat_col = pd.concat([df_users, df_scores], axis=1)
print(concat_col)
"""
없는 값은 NaN으로 채움
단순 이어붙이기라 열 중복 가능
"""

# pivot_table
df = pd.DataFrame({
  "이름": ["철수", "영희", "철수", "민수", "철수"],
  "과목": ["수학", "수학", "영어", "영어", "수학"],
  "점수": [90, 85, 85, 75, 100]
})

pivot = df.pivot_table(
  values = "점수", # 집계할 값
  index="이름", # 행 기준
  columns="과목", # 열 기준
  aggfunc="mean" # 통계 방식
)
print(pivot)

   user_id name  score
0        1   철수     85
1        2   영희     90 

INNER JOIN
   user_id name  score
0        1   철수     85
1        2   영희     90
LEFT JOIN
   user_id name  score
0        1   철수   85.0
1        2   영희   90.0
2        3   민수    NaN
RIGHT JOIN
   user_id name  score
0        1   철수     85
1        2   영희     90
2        4  NaN     79
OUTER JOIN
   user_id name  score
0        1   철수   85.0
1        2   영희   90.0
2        3   민수    NaN
3        4  NaN   79.0
   user_id name  score
0        1   철수    NaN
1        2   영희    NaN
2        3   민수    NaN
0        1  NaN   85.0
1        2  NaN   90.0
2        4  NaN   79.0
   user_id name  user_id  score
0        1   철수        1     85
1        2   영희        2     90
2        3   민수        4     79
과목    수학    영어
이름            
민수   NaN  75.0
영희  85.0   NaN
철수  95.0  85.0
