# Pandas는 무엇인가요_20221109
- 데이터 분석 및 가공에 사용되는 파이썬 라이브러리

In [14]:
import pandas as pd

pd.__version__

'1.3.5'

In [18]:
data_frame = pd.read_csv('data/friend_list.csv')
data_frame

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


## 데이터 프레임_20221109
- 가로축과 세로축이 있는 엑셀과 유사한 데이터 구조
- 가로축은 row(행), 세로축은 column(열)
- 데이터베이스의 테이블 구조

In [22]:
# 데이터프레임이 가지고 있는 함수의 예제
data_frame.head(3) # default : 5 개를 보여줌 (R은 6개)

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


## 시리즈(Series)_20221109
- 데이터 프레임의 컬럼(열)은 모두 시리즈.
- 단순히 파이썬 리스트를 간직한 오브젝트.
- 리스트를 파라미터로 주면 바로 시리즈가 생성.
- 데이터 가공 및 분석이 파이썬 리스트보다 훨씬 많다.

In [25]:
type(data_frame.job) # pandas.core.series.Series # 대문자 Series 클래스

pandas.core.series.Series

In [27]:
# 시리즈의 함수 예제
data_frame.job = data_frame.job.str.upper()
data_frame.head()

Unnamed: 0,name,age,job
0,John,20,STUDENT
1,Jenny,30,DEVELOPER
2,Nate,30,TEACHER
3,Julia,40,DENTIST
4,Brian,45,MANAGER


In [30]:
s1 = pd.core.series.Series(['one', 'two', 'three'])
s2 = pd.core.series.Series([1,2,3])

In [31]:
pd.DataFrame(data=dict(word=s1, num=s2)) 

Unnamed: 0,word,num
0,one,1
1,two,2
2,three,3


In [33]:
df = pd.read_csv('data/friend_list.txt')
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [35]:
# 구분자에 의해 컬럼이 구분되어져 있는 데이터는 모두 지원
df = pd.read_csv('data/friend_list_tab.txt', delimiter='\t') # delimiter = 구분자 # R에서도 delimiter 매개변수 사용
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [39]:
df = pd.read_csv('data/friend_list_no_head.csv', header = None) 
df.head()

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [40]:
df.columns = ['name','age','job']
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [41]:
df = pd.read_csv('data/friend_list_no_head.csv', header = None, names=['name','age','job']) 
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


# 데이터 프레임을 파이썬 코드로 생성하기


In [46]:
friend_dict_list = [{'name':'Jane','age':20,'job':'student'},
                    {'name':'Jenny','age':30,'job':'developer'},
                    {'name':'Nate','age':25,'job':'teacher'}]

df = pd.DataFrame(friend_dict_list)
df.head()

Unnamed: 0,name,age,job
0,Jane,20,student
1,Jenny,30,developer
2,Nate,25,teacher


In [48]:
df = df[['name','age','job']] # 만약에 순서가 다르게 나왔을 경우 따로 이름을 지정을 해줘서 변수로 담아줘야함.
df.head()

Unnamed: 0,name,age,job
0,Jane,20,student
1,Jenny,30,developer
2,Nate,25,teacher


## OrderedDict으로 데이터 프레임 생성하기_20221109
- OrderedDict 자료구조로 데이터프레임을 생성하면, 컬럼의 순서가 뒤바뀌지 않음.

In [51]:
from collections import OrderedDict

In [58]:
friend_ordered_dict = OrderedDict([('name',['John','Jenny','Nate']),
                                   ('age',[20, 30, 25]),
                                   ('job',['student','developer','teacher'])])

df = pd.DataFrame.from_dict(friend_ordered_dict) # 메서드 체이닝 방식으로 from_dict메서드 호출
df.tail(2)

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,25,teacher


### list로 데이터프레임 생성하기

In [60]:
friend_list= [['John', 20, 'student'],
              ['Jenny',30,'developer'],
              ['Nate',25,'teacher']]

column_name = ['name','age','job']

df = pd.DataFrame.from_records(friend_list, columns=column_name) # list에서 DataFrame으로 바꿔주는 메서드는 from_records
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,25,teacher


In [64]:
friend_dict = {'name':['John','Jenny','Nate'],
               'age': [20, 30, 25],
               'job': ['student','developer','teacher']
               }

df = pd.DataFrame.from_dict(friend_dict) # 메서드 체이닝 방식으로 from_dict메서드 호출
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,25,teacher


In [65]:
df.to_csv('data/friend_list_from_df.csv') # 만들어짐

In [67]:
df.to_csv('data/friend_list_from_df.txt') # csv포맷만 만들어지는 것이 아니라 txt도 생성 가능함.

In [68]:
df.to_csv('data/friend_list_from_df_header_index.csv', header=False, index=False)

In [69]:
friend_dict = {'name':['John','Jenny','Nate'],
               'age': [20, None, 25], # Not a Number = NaN
               'job': ['student','developer','teacher']
               }

df = pd.DataFrame.from_dict(friend_dict) 
df.head()

Unnamed: 0,name,age,job
0,John,20.0,student
1,Jenny,,developer
2,Nate,25.0,teacher


In [73]:
df.to_csv('data/friend_dict_from_df.csv')

In [74]:
df.to_csv('data/friend_dict_from_df_narep.csv', na_rep='-')

## 데이터 접근 방법_20221109
* 인덱스로 row 선택하기

In [76]:
friend_dict = {'name':['John','Jenny','Nate'],
               'age': [20, 30, 25],
               'job': ['student','developer','teacher']
               }

df = pd.DataFrame.from_dict(friend_dict) 
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,25,teacher


In [79]:
df[1:3] # row로 지정해줌 # 데이터프레임은 슬라이싱으로 # 순차적인 접근

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,25,teacher


In [None]:
df[0,2] # KeyError: (0, 2) # 행렬처럼 될 수 있기 때문에 KeyError 오류 

In [87]:
# 순차적이지 않은 row를 선택
df.loc[[0,2]] # location(위치) 제공 # list 자료형으로 표현하면 행만 출력된다.

Unnamed: 0,name,age,job
0,John,20,student
2,Nate,25,teacher


In [89]:
df.loc[[0:2]] # SyntaxError: invalid syntax # loc는 슬라이싱 기능 지원 안 됨.

SyntaxError: invalid syntax (1573064818.py, line 1)

### 컬럼값에 따른 row 선택하기_20221109
- 마치 데이터베이스에 쿼리를 전달하듯, 특정한 컬럼값을 충족하는 row만 선택.

In [94]:
df_filtered = df[df.age > 25]
df_filtered

Unnamed: 0,name,age,job
1,Jenny,30,developer


In [96]:
df_query = df.query('age > 25')
df_query

Unnamed: 0,name,age,job
1,Jenny,30,developer


In [102]:
df_filtered = df[(df.age >= 25) & (df.name == 'Nate')]
df_filtered

Unnamed: 0,name,age,job
2,Nate,25,teacher


# 컬럼 필터하기_20221109
### 인덱스로 필터하기

In [105]:
friend_list = [['John',20,'student'],
               ['Jenny',30,'developer'],
               ['Nate', 25, 'teacher']]

df = pd.DataFrame.from_records(friend_list)
df

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,25,teacher


In [111]:
# 모든 row를 보여주되, 컬럼은 0 ~ 1까지만 출력.

df.iloc[:, :2] # i location는 행,열 전체를 컨트롤 할 수 있게 만들어준 메서드

Unnamed: 0,0,1
0,John,20
1,Jenny,30
2,Nate,25


In [112]:
df.iloc[:, [0,2]]

Unnamed: 0,0,2
0,John,student
1,Jenny,developer
2,Nate,teacher


# 컬럼 이름으로 필터링하기

In [121]:
df = pd.read_csv('data/friend_list_no_head.csv', header=None, names=['name','age','job']) # pd.read_table()
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [122]:
df_filtered = df[['name', 'age']]
df_filtered

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [123]:
df.filter(items=['age','job'])

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher
3,40,dentist
4,45,manager
5,25,intern


In [125]:
df.filter(like='a', axis=1) # (axis=1 기준으로 검색해서 보면) header 이름에 a가 들어가있으면 열 기준으로 출력

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25
