# pandas

- 데이터프레임 : 행과 열로 이루어진 표
    - 데이터 프레임을 이용하면 각 열(컬럼)에 있는 값을 편하게 사용 가능
        - ex) 평균 나이, 성적 상위 10% 등
    - 행과 열로 데이터 구분
        - 행 : index, 열 : column

In [2]:
import pandas as pd

In [16]:
df = pd.DataFrame({
    'name' : ['apple', 'banana', 'melon'],
    'price' : [1000, 1500, 3000] # 3행 2열의 데이터 프레임
})

print(df)
print(df.shape)

print(df['name']) # 열에 해당하는 데이터와 정보 출력

print(df[:1]) # 행(index)에 해당하는 값 출력. 1부터 시작

print(df.index) # 인덱스 정보
print(df.columns) # 컬럼 정보

     name  price
0   apple   1000
1  banana   1500
2   melon   3000
(3, 2)
0     apple
1    banana
2     melon
Name: name, dtype: object
    name  price
0  apple   1000
RangeIndex(start=0, stop=3, step=1)
Index(['name', 'price'], dtype='object')


## 필터링, 정렬

In [47]:
df = pd.DataFrame({
    'weight': [91, 85, 100, 75, 43, 38],
    'height': [180, 173, 190, 170, 163, 152],
    'gender': ['male','female', 'male', 'female', 'female', 'male']
})


df_test = df['weight'] > 80 # 조건에 따라 True / False가 정해진 데이터 프레임
print(df_test)

df_filtered = df[df['weight'] > 80] # 조건에 따라 filter된 결과만 남음
print('\n',df_filtered)


# .sort_values(column값, ascending=(True/False)(생략가능)) : column값 기준 정렬(True : 작은 값부터, False : 큰 값부터)
df_sorted1 = df_filtered.sort_values('weight', ascending=True) # 오름차순
print('\n',df_sorted1)

df_sorted2 = df_filtered.sort_values('height', ascending=False) # 내림차순
print('\n',df_sorted2)


# .groupby(column값) : 데이터를 컬럼 값 그룹으로 묶어줌
df_grouped = df.groupby('gender') # 성별에 따라 키와 몸무게를 그룹으로 만듦


# .mean() : group에 따라 평균 계산
df_mean = df.mean() # 데이터프레임 전체의 평균
print('\n',df_mean)
df_grouped_mean = df_grouped.mean() # group 기준인 gender에 따른 키와 몸무게의 평균
print('\n',df_grouped_mean)


for key, group in df_grouped:
    print('\n',key) # group을 묶을 때 쓴 key
    print(group) # key로 묶인 group

0     True
1     True
2     True
3    False
4    False
5    False
Name: weight, dtype: bool

    weight  height  gender
0      91     180    male
1      85     173  female
2     100     190    male

    weight  height  gender
1      85     173  female
0      91     180    male
2     100     190    male

    weight  height  gender
2     100     190    male
0      91     180    male
1      85     173  female

 weight     72.000000
height    171.333333
dtype: float64

            weight      height
gender                       
female  67.666667  168.666667
male    76.333333  174.000000

 female
   weight  height  gender
1      85     173  female
3      75     170  female
4      43     163  female

 male
   weight  height gender
0      91     180   male
2     100     190   male
5      38     152   male


## 통계 관련 함수

In [53]:
df = pd.DataFrame({
    '몸무게': [70, 80, 90, 82, 91],
    '키': [170, 181, 185, 168, 180]})

# df[column값].sum() : column값에 해당하는 값들의 총합
total_weight = df['몸무게'].sum()
print(total_weight)

# df[column값].mean() : column값에 해당하는 값들의 평균
mean_weight = df['키'].mean()
print(mean_weight)

# .describe() : 요약된 통계 결과
print(df.describe())

# .corr() : 항목들간의 상관관계
# 상관 계수가 1에 가까울 수록 양의 상관관계가 있고,
# -1에 가까울수록 음의 상관관계가 있고,
# 0에 가까울수록 서로 상관이 없다.(독립적)
corr = df.corr()
print(corr)

413
176.8
             몸무게           키
count   5.000000    5.000000
mean   82.600000  176.800000
std     8.532292    7.395945
min    70.000000  168.000000
25%    80.000000  170.000000
50%    82.000000  180.000000
75%    90.000000  181.000000
max    91.000000  185.000000
          몸무게         키
몸무게  1.000000  0.663979
키    0.663979  1.000000


## csv 읽기, 저장하기

In [58]:
# pd.read_csv(파일명) : 읽기
df = pd.read_csv('my_data.csv') # 읽기
print(df)

   Unnamed: 0  name  age
0           0   Bob   20
1           1  Jane   33
2           2  Mike   45


In [59]:
# .to_csv(파일명) : 쓰기
# .to_csv('경로+파일명', sep=',', na_rep='NaN')
#     sep=',' : seperator, delimiter (구분자)
#     na_rep='NaN' : missing data representation (결측값 표기)



출처: https://rfriend.tistory.com/252 [R, Python 분석과 프로그래밍의 친구 (by R Friend)]
df = pd.DataFrame({
    'name': ['Bob', 'Jane', 'Mike'],
    'age': [20, 33, 45]
})

df.to_csv('my_data.csv') # 쓰기