# Pandas는 무엇인가요?
* 데이터 분석 및 가공에 사용되는 파이썬 라이브러리.


In [1]:
import pandas as pd

pd.__version__

'1.3.5'

In [14]:
data_frame = pd.read_csv('data/friend_list.csv')
print(data_frame)
data_frame

    name  age        job
0   John   20    student
1  Jenny   30  developer
2   Nate   30    teacher
3  Julia   40    dentist
4  Brian   45    manager
5  Chris   25     intern


Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


# 데이터 프레임(Dataframe)
- 가로축과 세로축이 있는 엑셀과 유사한 데이터 구조
- 가로축은 row(행), 세로축은 column(열)
- 데이터베이스의 테이블 구조


In [12]:
# 데이터프레임이 가지고 있는 함수의 예제
data_frame.head(3) # default :5

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


## 시리즈(Series)
- 데이터프레임의 컬럼(열)은 모두 시리즈.
- 단순히 파이썬 리스트를 간직한 오브젝트.
- 리스트를 파라미터로 주면 바로 시리즈가 생성.
- 데이터 가공 및 분석이 파이썬 리스트보다 훨씬 쉽다.

In [15]:
type(data_frame.job)

pandas.core.series.Series

In [19]:
# 시리즈의 함수 예제
data_frame.job = data_frame.job.str.upper()
data_frame.head()

Unnamed: 0,name,age,job
0,John,20,STUDENT
1,Jenny,30,DEVELOPER
2,Nate,30,TEACHER
3,Julia,40,DENTIST
4,Brian,45,MANAGER


In [20]:
s1 = pd.core.series.Series(['one', 'two','three'])
s2 = pd.core.series.Series([1, 2, 3])

In [21]:
pd.DataFrame(data=dict(word=s1, num=s2))

Unnamed: 0,word,num
0,one,1
1,two,2
2,three,3


In [22]:
df = pd.read_csv('data/friend_list.txt')
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [25]:
# 구분자에 의해 컬럼이 구분되어 있는 데이터는 모두 지원.
df2 = pd.read_csv('data/friend_list_tab.txt', delimiter='\t')
df2.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [37]:
df3 = pd.read_csv('data/friend_list_no_head.csv',header = None)  # 자동으로 header를 지정 0 , 1, 2.....
df3.head()

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [35]:
df3 = pd.read_csv('data/friend_list_no_head.csv',header = None, names=['name', 'age', 'job'])  # names == columns 와 동일 기능
df3.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [32]:
df3.columns = ['name', 'age', 'job']   # names == columns 와 동일 기능
df3.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


# 데이터프레임을 파이썬 코드로 생성하기

In [39]:
friend_dict_list=[{'name':'Jone', 'age':20, 'job':'student'}, 
                  {'name':'Jenny','age':30, 'job':'developer'}, 
                  {'name':'Nate','age':25, 'job':'teacher'}]

df = pd.DataFrame(friend_dict_list)
df.head()

Unnamed: 0,name,age,job
0,Jone,20,student
1,Jenny,30,developer
2,Nate,25,teacher


In [40]:
df = df[['name','age','job']]  # 데이터의 순서가 항상 설정한 대로 출력되지 않기 때문에 따로 지정해주면 원하는 순서로 출력 가능
df.head()

Unnamed: 0,name,age,job
0,Jone,20,student
1,Jenny,30,developer
2,Nate,25,teacher


### OrderedDict로 데이터 프레임 생성하기
- OrderdDict 자료구조로 데이터프레임을 생성하면, 컬럼의 순서가 뒤바뀌지 않음.


In [41]:
from collections import OrderedDict

In [48]:
                                friend_orderd_dict = OrderedDict([('name', ['John', 'Jenny','Nate']),
                                ('age', [20,30,25]),
                                ('job', ['student','developer', 'teacher'])])


df4 = pd.DataFrame.from_dict(friend_orderd_dict)  # OrderedDict의 자료형을 DataFrame으로 변경시 from_dict 함수를 사용
df4.tail(2)

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,25,teacher


### list로 데이터프레임 생성하기

In [51]:
friend_list = [['John', 20, 'student'],
              ['Jenny', 30, 'developer'],
              ['Nate', 25, 'teacher']]

colunm_name = ['name', 'age', 'job']

df = pd.DataFrame.from_records(friend_list, columns=colunm_name)
df.head()


Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,25,teacher


In [52]:
friend_dict ={'name': ['John', 'Jenny','Nate'], 
                    'age' : [20,30,25],
                    'job' : ['student','developer', 'teacher']}

df =pd.DataFrame.from_dict(friend_dict)
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,25,teacher


In [53]:
# 파일 저장하기 to_csv()

df.to_csv('data/friend_list_from_df.csv') 

In [54]:
df.to_csv('data/friend_list_from_df.txt') 

In [55]:
df.to_csv('data/friend_list_from_df_header_index.csv', header=False, index=False) # header index 유무 지정 가능

In [56]:
friend_dict ={'name': ['John', 'Jenny','Nate'], 
                    'age' : [20, None,25],  #NaN : Not a Number
                    'job' : ['student','developer', 'teacher']}

df =pd.DataFrame.from_dict(friend_dict)
df.head()

Unnamed: 0,name,age,job
0,John,20.0,student
1,Jenny,,developer
2,Nate,25.0,teacher


In [58]:
df.to_csv('data/friend_dict_from_df.csv')  # None 값은 공란으로 저장된다.

In [59]:
df.to_csv('data/friend_dict_from_df_narep.csv', na_rep='-') # 공백을 ' - '로 대체하는 방법 na_rep = ' '

### 데이터 접근 방법
- 인덱스로 row 선택하기

In [72]:
friend_dict ={'name': ['John', 'Jenny','Nate'], 
                    'age' : [20, 30,25],  #NaN : Not a Number
                    'job' : ['student','developer', 'teacher']}

df =pd.DataFrame.from_dict(friend_dict)
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,25,teacher


In [86]:
df[1:3]  # dataframe일 경우 슬라이싱을 하면 row가 지정된다. 직접 접근은 슬라이싱만 가능

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,25,teacher


In [87]:
df[0,2]  # 행렬의 구분과 혼동될 여지가 있어 지원하지 않는다.

KeyError: (0, 2)

In [108]:
# 순차적이지 않은 row를 선택  list형태로만 접근 가능
df.loc[[0,2]]

# df.loc[1:2, 'age']  # 행은 : 로 지정  ,뒤에 ' '특정 열을 지정해 그 열의 값만 출력 가능

Unnamed: 0,name,age,job
0,John,20,student
2,Nate,25,teacher


In [93]:
df.loc[0, 2] # error

KeyError: 2

In [104]:
df.loc[[0:2]] # 주의 - loc는 슬라이싱 기능 지원하지 않음

SyntaxError: invalid syntax (1152240759.py, line 1)

Unnamed: 0,name,age,job
0,John,20,student
2,Nate,25,teacher


### 컬럼값에 따른 row 선택하기
- 마치 데이터베이스에 쿼리를 전달하듯, 특정한 컬럼값을 충족하는 row만 선택.

In [101]:
df_filtered = df[df.age > 25]

df_filtered

Unnamed: 0,name,age,job
1,Jenny,30,developer


In [103]:
df_query = df.query('age>25')
df_query

Unnamed: 0,name,age,job
1,Jenny,30,developer


In [110]:
df_filtered = df[(df.age>=25) & (df.name=='Nate')]
df_filtered

Unnamed: 0,name,age,job
2,Nate,25,teacher


# 컬럼 필터하기
### 인덱스로 필터하기

In [112]:
friend_list=[['John', 20, 'student'],
            ['Jenny', 30, 'developer'],
            ['Nate', 25, 'teacher']]

df = pd.DataFrame.from_records(friend_list)
df

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,25,teacher


In [126]:
# 모든 row를 보여주되, 컬럼은 0부터 1까지만 출력.
df.iloc[:,:2]

Unnamed: 0,0,1
0,John,20
1,Jenny,30
2,Nate,25


In [127]:
# 모든 row를 보여주되, 컬럼은 0과 2만 출력.
df.iloc[:,[0,2]]

Unnamed: 0,0,2
0,John,student
1,Jenny,developer
2,Nate,teacher


### 컬럼 이름으로 필터링하기


In [129]:
df = pd.read_csv('data/friend_list_no_head.csv', header=None, names=['name','age','job']) # pd.read_table()  / default가 , 와 tab으로 구분
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [139]:
df_filtered = df[['name', 'age']]
df_filtered

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [137]:
df.filter(items = ['age','job'])

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher
3,40,dentist
4,45,manager
5,25,intern


In [141]:
df.filter(like='a', axis=1) 

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [142]:
# 정규식 
df.filter(regex='b$', axis=1) #regularexpression 정규식 

Unnamed: 0,job
0,student
1,developer
2,teacher
3,dentist
4,manager
5,intern
