## Padas란?
: 데이터 분석및 가공에 사용되는 파이썬 라이브러리이다.

### 데이터프레임이란?
: 가로축과 세로축이 있는 엑셀과 유사한 데이터구조이다. 가로축은 row(행), 세로축은 column(열)이라고 한다.

### 시리즈란?
: 데이터 프레임의 column(행)은 모두 시리즈이다.\
: 시리즈는 단순히 파이썬 리스트를 간직한 오브젝트이므로, 리스트를 파라미터로 주면 바로 시리즈가 생긴다.\
: 파이썬 list 보다 데이터 가공 및 분석이 더 쉽다.

### 왜 Pandas를 사용?
: 엑셀과 상당히 유사하고, 데이터의 수정/가공 및 분석이 용이하다.\
: 데이터 가공을 위한 수많은 함수를 지원한다.\
: Numpy 기반으로 데이터 처리가 상당히 빠르다.

## 파일에서 데이터 불러오기
: 데이터 프레임은 2차원 자료구조이다. row와 column으로 엑셀 형식과 유사하다.\
: 기본적으로 csv 포맷을 지원하지만, 구분자로 컬럼이 구분되어 있는 데이터는 모두 지원한다.\
: read_csv 함수로 파일을 데이터프레임으로 호출할 수 있다.

In [17]:
!conda list | grep pandas

pandas                    1.0.5            py38h47e9c7a_0  


In [1]:
import pandas as pd # 판다스를 pd라고 부르겠다!

In [6]:
data_frame = pd.read_csv('data/friend_list.csv') # csv 파일 읽어서 data_frame에 넣기

In [7]:
data_frame

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [18]:
data_frame.tail(2)

Unnamed: 0,name,age,job
4,Brian,45,manager
5,Chris,25,intern


In [10]:
data_frame.head(2)

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer


In [20]:
data_frame = pd.read_csv('data/friend_list.txt')

In [22]:
data_frame

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [24]:
data_frame = pd.read_csv('data/friend_list_tab.txt')

In [25]:
data_frame

Unnamed: 0,name\tage\tjob
0,John\t20\tstudent
1,Jenny\t30\tdeveloper
2,Nate\t30\tteacher
3,Julia\t40\tdentist
4,Brian\t45\tmanager
5,Chris\t25\tintern


In [26]:
data_frame = pd.read_csv('data/friend_list_tab.txt', delimiter= '\t') # 탭으로 구분되었다고 적어두기

In [27]:
data_frame

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [28]:
data_frame = pd.read_csv('data/friend_list_no_head.csv')

In [29]:
data_frame

Unnamed: 0,John,20,student
0,Jenny,30,developer
1,Nate,30,teacher
2,Julia,40,dentist
3,Brian,45,manager
4,Chris,25,intern


In [30]:
data_frame = pd.read_csv('data/friend_list_no_head.csv', header = None) # header가 없다고 넣어주기

In [31]:
data_frame

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [32]:
data_frame.columns = ['name', 'age', 'job']

In [33]:
data_frame

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [35]:
data_frame = pd.read_csv('data/friend_list_no_head.csv', header = None, names = ['name', 'age', 'job'])

In [36]:
data_frame

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [11]:
type(data_frame.name) # column이 series 형식으로 저장된다.

pandas.core.series.Series

In [12]:
s1 = pd.core.series.Series([1,2,3]) # series 형식은 list 형태로 만든다.

In [37]:
s2 = pd.core.series.Series(['one', 'two', 'three']) # series 형식은 list 형태로 만든다.

In [15]:
pd.DataFrame(data=dict(num=s1, word=s2)) # dataframe을 만들어준다.

Unnamed: 0,num,word
0,1,one
1,2,two
2,3,three


## 데이터프레임을 파이썬 코드로 생성하기
### 1. 딕셔너리로 데이터프레임 생성하기
: 파이썬의 기본 자료구조로 데이터프레임 생성이 가능하다.\
: 아래의 예제는 딕셔너리로 데이터프레임을 생성하는 예제이다.

In [38]:
friend_dict_list = [
    {'name': 'Jone', 'age': 20, 'job': 'student'},
    {'name': 'Jenny', 'age': 30, 'job': 'developer'},
    {'name': 'Nate', 'age': 30, 'job': 'teacher'}
]

In [39]:
df = pd.DataFrame(friend_dict_list)

In [40]:
df.head()

Unnamed: 0,name,age,job
0,Jone,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [43]:
df = df[['name', 'job', 'age']] # 데이터프레임 생성 시 컬럼의 순서가 뒤바뀔 수 있다.
# 그래서 이렇게 컬럼을 원하는 순서로 지정할 수 있다.

In [42]:
df.head()

Unnamed: 0,name,job,age
0,Jone,student,20
1,Jenny,developer,30
2,Nate,teacher,30


### 2. OrderedDict로 데이터프레임 생성하기
: OrderedDict 자료구조로 데이터프레임을 생성하면, 컬럼의 순서가 뒤바뀌지 않음.

In [60]:
from collections import OrderedDict

In [46]:
friend_ordered_dict = OrderedDict([
    ('name', ['John', 'Jenny', 'Nate']),
    ('age', [20, 30, 30]),
    ('job', ['student', 'developer', 'teacher'])
])

In [47]:
df = pd.DataFrame.from_dict(friend_ordered_dict)

In [49]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


### 3. list로 데이터프레임 생성하기
: list로 데이터프레임을 생성하는 예제이다.

In [50]:
friend_list = [ 
    ['John', 20, 'student'],
    ['Jenny', 30, 'developer'],
    ['Nate', 30, 'teacher']
]
column_name = ['name', 'age', 'job']
df = pd.DataFrame.from_records(friend_list, columns=column_name)

In [51]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


## 파일로 데이터프레임을 저장하기

In [2]:
fiend_list = [
    ['name', ['John', 'Jenny', 'nate']],
    ['age', [20, 30, 30]],
    ['job', ['student', 'developer', 'teacher']]
]
df = pd.DataFrame.from_items(friend_list)

NameError: name 'pd' is not defined

In [3]:
df.head()

NameError: name 'df' is not defined