# Pandas

- 행과 열로 이루어진 대용량 데이터를 쉽게 처리하도록 지원하는 파이썬 라이브러리
- Series & Dataframe 객체는 다양한 자료형의 데이터를 담을 수 있으며, 손쉽게 데이터의 결합과 분리가 가능하다.
- 데이터분석에서 변수가 1개일 경우는 시리즈, 변수가 2개 이상일 경우 데이터프레임을 사용한다. 

In [5]:
import pandas as pd

sr1 = pd.Series([10,20,30,40,50,60]) # list를 Series 객체로 생성
print(sr1.values)
print(sr1.index)
print(sr1)

[10 20 30 40 50 60]
RangeIndex(start=0, stop=6, step=1)
0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64


In [12]:
sr1 = pd.Series([10,20,30,40,50,60], index=['a','b','c','d','e','f'])
print(sr1[[1,2]])
print(sr1[['a','c']])
print(sr1['a':'d'])

b    20
c    30
dtype: int64
a    10
c    30
dtype: int64
a    10
b    20
c    30
d    40
dtype: int64


In [25]:
df1 = pd.DataFrame([[10,20,30], [40,50,60]]) # 2차원 리스트로 데이터 프레임 생성
df1
dict1 = {'fruit' : ['apple', 'strawberry', 'peer', 'orange'],
'price' : [100,200,150,50],
'qty' : [10,20,40,50]}
df2 = pd.DataFrame(dict1)
df2 = pd.DataFrame(dict1, index = ['a', 'b','c','d']) # 행열 이름 정하기
df2.rename(columns={'fruit': '과일', 'price': '기격', 'qty':'수량'}, inplace= True) # inplace True가 생략되면 새로운 객체를 생성해서 반환
df2.rename(index = {'a':'01', 'b':'02', 'c':'03', 'd': '04'}, inplace=True)
df2


Unnamed: 0,과일,기격,수량
1,apple,100,10
2,strawberry,200,20
3,peer,150,40
4,orange,50,50


In [33]:
df1 = pd.read_csv('data/df_sample.csv')
print(df1.head(5)) # 앞부분 5개
print(df1.shape) #데이터프레임 요약 정보
print(df1.info()) # 데이터프레임에 대한 기본 정보
print(df1.count()) # 열별 데이터 개수

    학번  중간  기말  리포트  퀴즈
0  S01  90  95   20  20
1  S02  82  83   18  18
2  S03  80  78   18  18
3  S04  78  75   10  10
4  S05  93  91   12  12
(10, 5)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   학번      10 non-null     object
 1   중간      10 non-null     int64 
 2   기말      10 non-null     int64 
 3   리포트     10 non-null     int64 
 4   퀴즈      10 non-null     int64 
dtypes: int64(4), object(1)
memory usage: 528.0+ bytes
None
학번     10
중간     10
기말     10
리포트    10
퀴즈     10
dtype: int64


In [43]:
df1.describe(include='all') # 기술통계 정보 한번에 보여주기
print(df1['중간'].mean())
print(df1[['중간', '기말']].mean()) # list 대괄호 2개 주의
print(df1.median()) #중간값 그 외 var, std 등등
print(df1['퀴즈'].value_counts()) # 열에서 고유값 개수 확인
print(df1[['중간', '기말']].corr()) # 상관계수 확인

77.6
중간    77.6
기말    78.5
dtype: float64
중간     79.0
기말     78.0
리포트    15.0
퀴즈     15.0
dtype: float64
18    3
14    2
10    2
12    1
20    1
16    1
Name: 퀴즈, dtype: int64
          중간        기말
중간  1.000000  0.707196
기말  0.707196  1.000000


In [2]:
# 데이터프레임 조작
import pandas as pd
df1 = pd.read_csv('data/df_sample.csv') 
df1.set_index('학번') # 특정 열을 행 인덱스로 설정, 전체 행을 대표하는 열을 인덱스로 지정하려는 경우 
# 주의) 지정한 열은 인덱스 역할을 하기 때문에, 열 이름으로 접근할 수 없음.

Unnamed: 0_level_0,중간,기말,리포트,퀴즈
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
S01,90,95,20,20
S02,82,83,18,18
S03,80,78,18,18
S04,78,75,10,10
S05,93,91,12,12
S06,71,75,16,16
S07,60,80,18,18
S08,72,65,14,14
S09,65,65,14,14
S10,85,78,10,10
