# Pandas
 - 자료구조, 데이터 분석 도구를 제공하는 데이터 분석 Library
> import pandas as pd  
**read_csv(파일명, 옵션)** : pandas로 파일 로드 (delimiter - 구분자, header - 헤더 존재여부, names - header)    
**shape** : 파일 행렬 확인  
**head/tail** : 상/하단 데이터 조회  

In [8]:
! conda list | grep pandas

pandas                    0.22.0           py36hf484d3e_0  


In [9]:
import pandas as pd

In [16]:
df = pd.read_csv('friend_list_tab.txt', delimiter='\t')

In [17]:
df.tail(10)

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [22]:
noheader_df = pd.read_csv('friend_list_no_head.csv', header=None, names=['name', 'age', 'job'])

In [23]:
noheader_df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


# DataFrame 생성  
>**pd.DataFrame(dict 데이터)** : dict 로 만들기  
**pd.DataFrame.from_dict(OrderedDict 데이터)** : OrederedDict 로 만들기  
**pd.DataFrame.from_records(list 데이터, columns = 헤더)** : list 로 만들기(헤더 따로)  
**pd.DataFrame.from_items(list데이터)** : list로 만들기(헤더 포함)  

- dict로 dataFrame 만들기  
dict로 만들경우 컬럼 순서를 보장해 줄수 없다.(**pd.DataFrame**)   
-> 순서를 재설정 해주거나 OrderedDict를 이용해야한다(**pd.DataFrame.df_dict**)

In [31]:
friend_dict_list = [
    {'name':'John', 'age':20, 'job':'studenet'},
    {'name':'Nate', 'age':30, 'job':'teacher'},
    {'name':'Jenny', 'age':30, 'job':'developer'}
]

순서 재설정

In [35]:
df_dict = pd.DataFrame(friend_dict_list)
df_dict = df_dict[['name','age','job']]
df_dict

Unnamed: 0,name,age,job
0,John,20,studenet
1,Nate,30,teacher
2,Jenny,30,developer


orderedDict 이용

In [46]:
from collections import OrderedDict

In [47]:
friend_ordereddict_list = OrderedDict(
    [
        ('name', ['John','Nate','Jenny']),
        ('age', ['20','30','30']),
        ('job', ['student','teacher','developer'])
    ]
)
df_ordereddict = pd.DataFrame.from_dict(friend_ordereddict_list)

In [51]:
df_ordereddict

Unnamed: 0,name,age,job
0,John,20,student
1,Nate,30,teacher
2,Jenny,30,developer


  - list로 dataframe 만들어주기 (**from_records**)  
  - header까지 한번에 list로 dataframe 만들어주기 (**from_items**)

In [55]:
firend_list = [
    ['john', 20, 'student'],
    ['Nate', 30, 'teacher'],
    ['Jenny', 30, 'developer']
]
column_name = ['name','age','job']
df_list = pd.DataFrame.from_records(firend_list, columns=column_name)

In [53]:
df_list

Unnamed: 0,0,1,2
name,john,20,student
age,Nate,30,teacher
job,Jenny,30,developer


In [56]:
friend_list_header = [
    ['name', ['John','Nate','Jenny']],
    ['age', ['20','30','30']],
    ['job', ['student','teacher','developer']]
]
df_list_header = pd.DataFrame.from_items(friend_list_header)

In [58]:
df_list_header

Unnamed: 0,name,age,job
0,John,20,student
1,Nate,30,teacher
2,Jenny,30,developer


# csv
> **df.to_csv(파일명,index=T/F, header=T/F, na_rep=None default값)** : csv로 저장(index와 header 는 default 값이 True)

In [60]:
df_dict.to_csv('csv_friends.csv', index= False)
! dir

csv_friends.csv  friend_list_no_head.csv  friend_list.txt
friend_list.csv  friend_list_tab.txt	  Pandas.ipynb


# filter
> **df[startIndex : endIndex+1]** : startIndex ~ endIndex까지 조회  
**df.loc[[indexs]]** : index 배열에 해당되는 데이터 조회  
**df[조건]** : 조건에 해당되는 데이터 조회  
**df.query(조건)** : query에 해당되는 데이터 조회  
**df.iloc[rowIndex조건, columnIndex조건]** : 조건에 해당되는 데이터 조회  
**df[:,column배열]** : column 배열을 조회  
### filter() 
>**df.filter(items=column배열)** : column 배열을 조회  
**df.filter(like=string, axis=index)** : string이 포함된 axis의 값을 조회(header의 axis는 1)  
**df.filter(regex=정규식, axis=index)** : 정규식이 포함된 axis의 값을 조회(header의 axis는 1)  

In [63]:
df_dict

Unnamed: 0,name,age,job
0,John,20,studenet
1,Nate,30,teacher
2,Jenny,30,developer


In [68]:
df_dict[1:3]

Unnamed: 0,name,age,job
1,Nate,30,teacher
2,Jenny,30,developer


In [69]:
df_dict.loc[[0,2]]

Unnamed: 0,name,age,job
0,John,20,studenet
2,Jenny,30,developer


In [77]:
df_dict[(df_dict.age > 20) & (df_dict.name == 'Jenny')]

Unnamed: 0,name,age,job
2,Jenny,30,developer


In [74]:
df_dict.query('age<30')

Unnamed: 0,name,age,job
0,John,20,studenet


In [81]:
df_dict.iloc[:,:2]

Unnamed: 0,name,age
0,John,20
1,Nate,30
2,Jenny,30


In [86]:
df_filter = df[['name','age']]
df_filter

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [88]:
df_filter2 = df.filter(items = ['name','job'])
df_filter2

Unnamed: 0,name,job
0,John,student
1,Jenny,developer
2,Nate,teacher
3,Julia,dentist
4,Brian,manager
5,Chris,intern


In [90]:
df_filter3 = df.filter(like='me',axis=1)
df_filter3

Unnamed: 0,name
0,John
1,Jenny
2,Nate
3,Julia
4,Brian
5,Chris


In [92]:
df_filter4 = df.filter(regex='ob$', axis=1)
df_filter4

Unnamed: 0,job
0,student
1,developer
2,teacher
3,dentist
4,manager
5,intern


# DataFame 행,열 CRUD
### drop()
>**df.drop([indexies], inplace=T/F)** : *(index명이 존재할 경우)* index 데이터 삭제, inplace 속성의 기본값은 False(True로 설정시 바로 df에 적용)  
**df.drop(df.index[indexies])** : *(index명이 존재하지 않을 경우)* index 데이터 삭제  
**df[조건]** : 조건에 해당하는 데이터만 가져온다  
**df.drop(string, axis=index, inplac=T/F)** : ㄴtring이 포함된 axis의 값을 제거(header의 axis는 1)

In [96]:
friend_dict_list = [{'age': 20, 'job': 'student'},
         {'age': 30, 'job': 'developer'},
         {'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list, index = ['John', 'Jenny', 'Nate'], columns=['age','job'])
df

Unnamed: 0,age,job
John,20,student
Jenny,30,developer
Nate,30,teacher


In [97]:
df.drop(['John','Nate'])

Unnamed: 0,age,job
Jenny,30,developer


In [98]:
df_dict

Unnamed: 0,name,age,job
0,John,20,studenet
1,Nate,30,teacher
2,Jenny,30,developer


In [100]:
df_dict.drop(df_dict.index[[0,2]])

Unnamed: 0,name,age,job
1,Nate,30,teacher


In [101]:
df_dict[df_dict.age > 20]

Unnamed: 0,name,age,job
1,Nate,30,teacher
2,Jenny,30,developer


In [104]:
df_dict.drop('job',axis=1)

Unnamed: 0,name,age
0,John,20
1,Nate,30
2,Jenny,30


### 열 추가
>**df[column명] = default값** : column명의 column을 기본값 으로 추가   

In [106]:
df_dict['salary'] = 0

In [107]:
df_dict

Unnamed: 0,name,age,job,salary
0,John,20,studenet,0
1,Nate,30,teacher,0
2,Jenny,30,developer,0


npmpy를 이용해 salary가 student일 경우 no, 아닐경우 yes의 값을 넣어준다

In [113]:
import numpy as np

In [114]:
df_dict['salary'] = np.where(df_dict['job'] == 'student' , 'no' , 'yes')

In [115]:
df_dict

Unnamed: 0,name,age,job,salary
0,John,20,studenet,yes
1,Nate,30,teacher,yes
2,Jenny,30,developer,yes


In [129]:
grade_list = [{'name': 'John', 'midterm': 95, 'final': 85},
         {'name': 'Jenny', 'midterm': 85, 'final': 80},
         {'name': 'Nate', 'midterm': 10, 'final': 30}]
df_grade = pd.DataFrame(grade_list, columns = ['name', 'midterm', 'final'])
df_grade

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,10,30


In [130]:
df_grade['total'] = df_grade['midterm']+ df_grade['final']
df_grade['avg'] = df_grade['total']/2
df_grade

Unnamed: 0,name,midterm,final,total,avg
0,John,95,85,180,90.0
1,Jenny,85,80,165,82.5
2,Nate,10,30,40,20.0


In [131]:
grades = []
for row in df_grade['avg'] :
    if row >= 90 :
        grades.append('A')
    elif row >= 80 :
        grades.append('B')
    else :
        grades.append('F')
        
df_grade['grade'] = grades

df_grade

Unnamed: 0,name,midterm,final,total,avg,grade
0,John,95,85,180,90.0,A
1,Jenny,85,80,165,82.5,B
2,Nate,10,30,40,20.0,F


### 수정
> **df.column명.apply(func명)** : 함수를 적용시켜서 column을 변경

In [138]:
def pass_or_fail(row) :
    if row != 'F' :
        return 'Pass'
    else :
        return 'Fail'
    
df_grade.grade = df_grade.grade.apply(pass_or_fail)
df_grade

Unnamed: 0,name,midterm,final,total,avg,grade
0,John,95,85,180,90.0,Pass
1,Jenny,85,80,165,82.5,Pass
2,Nate,10,30,40,20.0,Pass


In [134]:
date_list = [{'yyyy-mm-dd': '2000-06-27'},
         {'yyyy-mm-dd': '2002-09-24'},
         {'yyyy-mm-dd': '2005-12-20'}]
df_date = pd.DataFrame(date_list, columns = ['yyyy-mm-dd'])
df_date

Unnamed: 0,yyyy-mm-dd
0,2000-06-27
1,2002-09-24
2,2005-12-20


연도 추출

In [137]:
def extract_year(row) :
    return row.split('-')[0]

df_date['year'] = df_date['yyyy-mm-dd'].apply(extract_year)
df_date

Unnamed: 0,yyyy-mm-dd,year
0,2000-06-27,2000
1,2002-09-24,2002
2,2005-12-20,2005


### 행 추가
>**df.append(추가할 dataFrame, ignore_index=T/F)** : 행 추가 (dataFrame을 추가한다. ignore_index의 기본값은 False)  

In [144]:
df_date2 = pd.DataFrame([['2018-05-15', '2018']], columns=['yyyy-mm-dd', 'year'])
df_date2

Unnamed: 0,yyyy-mm-dd,year
0,2018-05-15,2018


In [146]:
df_date.append(df_date2, ignore_index = True)

Unnamed: 0,yyyy-mm-dd,year
0,2000-06-27,2000
1,2002-09-24,2002
2,2005-12-20,2005
3,2018-05-15,2018
