# Pandas는 무엇인가요?
* 데이터 분석 및 가공에 사용되는 파이썬 라이브러리

In [1]:
import pandas as pd #판다스는 파이썬의 문법처럼 사용되는 패키지이기 때문에 pd의 약칭을 관용적으로 사용한다.
# 패키지 설치: Anaconda Prompt -> 가상환경 접속: conda activate tf_cpu -> conda install pandas -> y

pd.__version__ #현재 설치되어진 판다스의 버전을 리턴해줌 => 1.5.3

'1.5.3'

In [2]:
data_frame = pd.read_csv('data/friend_list.csv') #read_csv: 파일에 있는 내용을 읽어와주는 함수
#표의 형태로 저장되어져 있는 데이터, 데이터 단위가 콤마(,)로 데이터의 구분이 되어져 있을 때 읽어올 수 있음 
data_frame #파일에서 봤던 데이터가 표의 형태로 출력 => dataFrame이라는 데이터구조를 가지게 됨

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


## 데이터프레임은 무엇인가요?
- 가로축과 세로축이 있는 엑셀과 유사한 데이터 구조.
- 가로축은 로우(행), 세로축은 컬럼(열).

In [3]:
#read_csv은 데이터를 읽어올 때 엑셀의 데이터 프레임을 테이블 형태일 때 가져올 수 있었음, 순수 텍스트 파일은 읽어오지 못한다.
#순수 텍스트파일로 작성이 되어져 있을 때 R에서는 File을 통해서 읽어올 수 있었음
#데이터프레임이 가지고 있는 함수의 예제
data_frame.head() #파이썬은 디폴트가 5개이다.

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


##  시리즈(series)는 무엇인가요?
- 데이터프레임의 컬럼(열)은 모두 시리즈라고 불러주고 있다.
- 위의 예제는 3개의 시리즈로 구성되어져 있는 데이터 프레임이다.

In [4]:
print(type(data_frame))
print(type(data_frame.job)) #series의 이름으로 결과를 보여주고 있음

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [5]:
# 시리즈의 제공 메소드들

data_frame.job = data_frame.job.str.upper() #대문자로 다 리턴을 받아서 다시 data_frame.jop에 업데이트를 해주도록 함
data_frame.head()

Unnamed: 0,name,age,job
0,John,20,STUDENT
1,Jenny,30,DEVELOPER
2,Nate,30,TEACHER
3,Julia,40,DENTIST
4,Brian,45,MANAGER


- 시리즈는 단순히 파이썬 리스트를 간직한 오브젝트.
- 리스트를 파라미터로 주면 바로 시리즈가 생성.
- 시리즈는 데이터 가공 및 분석이 파이썬 리스트보다 훨씬 쉽다.

In [6]:
s1 = pd.core.series.Series(['one', 'two', 'three']) 
s2 = pd.core.series.Series([1, 2, 3]) #R에서는 combine함수를 이용해서 데이터를 생성해서 dataframe으로 묶어줬었음

In [7]:
pd.DataFrame(data=dict(word=s1, num=s2)) #dict: 딕셔너리로 강제 형변환
#분석에 최적화된 패키지가 판다스!

Unnamed: 0,word,num
0,one,1
1,two,2
2,three,3


In [8]:
# 구분자에 의해 컬럼이 구분되어 있는 데이터는 모두 지원
df = pd.read_csv('data/friend_list.txt') #확장자가 다르더라도 문제없이 읽어오는 것을 확인할 수 있다.
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [9]:
# friend_list_tab.txt => 탭단위로 데이터가 저장이 되어져 있을 때 어떻게 데이터를 읽어와서 처리할 수 있을까? read_csv를 동일하게 읽어오도록 한다.
df = pd.read_csv('data/friend_list_tab.txt', delimiter='\t') 
#read_csv(): 디폴트로는 콤마단위의 구분자로 구분함 이때, 구분자를 변경하고 싶다면 delimiter매개변수(구분자 지정)를 활용하도록 한다.
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [10]:
# 헤더가 없을 경우
df = pd.read_csv('data/friend_list_no_head.csv', header=None) 
#첫번째라인을 컬럼으로 인식하고, 두번째 데이터부터 레코드데이터로 인식하여 불러와주고 있음.
#header=None : 헤더에 정보가 없다는 의미로 지정을 해주게 되면 인덱스 의미 값을 디폴트로 헤더에 붙여주면서 해당 데이터들을 읽어와준다.
df.head()

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [11]:
df.columns = ['name', 'age', 'job'] #헤더의 이름을 붙여줌
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [12]:
#헤더정보가 없는 파일의 경우 읽어오는 순간에 이름을 붙여주고 싶다면
df = pd.read_csv('data/friend_list_no_head.csv', header=None, names=['name', 'age', 'job']) 
#names파라메타에다가 컬럼에 붙여주고 싶은 이름으로 지정해주면 된다. =>주의) header=None으로 지정을 해줘야 함(첫번째 행을 컬럼으로 인식하지 못하도록 하는 것)
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


## 데이터프레임을 파이썬 코드로 생성하기
#### 딕셔너리로 데이터프레임 생성하기

In [13]:
friend_dict_list = [{'name':'John', 'age':'20', 'job':'student'}, 
                    {'name':'Jenny', 'age':'30', 'job':'developer'}, 
                    {'name':'Nate', 'age':'30', 'job':'teacher'}] 
#딕셔너리 자료구조의 데이터를 리스트에 담아줌 / 컬럼값을 딕셔너리의 키값으로 넣음

df = pd.DataFrame(friend_dict_list) 
#입력으로 리스트 자료형을 넣어주게 되면 딕셔너리 안에 담겨진 데이터셋들을 자동으로 테이블로 구성하여줌.
#리스트에 딕셔너리 데이터구조를 name, age, job의 순서로 넣어줬다고 하더라도 순서가 그대로 보장되지 않음. 데이터프레임에 의해 순서는 뒤바뀔 수 있음

In [14]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [15]:
#만약 순서를 다르게 바꾸고 싶다면? 아래와 같은 방법으로 처리하면 됨
df = df[['name', 'job', 'age']] 
#인덱스의 개념으로 접근을 하는데 그 안에 순서는 리스트의 자료형으로 데이터를 넣어주도록 해야한다. 
# => 순서 반환값을 실제 데이터가 담겨진 변수에 담음
df.head()
#파이썬 3.6이전 버전까지는 딕셔너리의 데이터 저장 순서를 전혀 고려하지 않았음. 그렇기 때문에 데이터 저장 순서대로 읽어오도록 보장해주는 기능이 따로 있었음

Unnamed: 0,name,job,age
0,John,student,20
1,Jenny,developer,30
2,Nate,teacher,30


### OrderedDict로 데이터프레임 생성하기
* 파이썬 3.6 이전 버전까지는 딕셔너리 데이터 저장 순서를 보장하지 않음.
* OrderedDict 자료구조로 데이터프레임을 생성하면, 컬럼의 순서가 뒤바꾸지 않음.
* 데이터의 저장 순서대로 읽어오도록 보장.

In [16]:
from collections import OrderedDict

In [17]:
friend_ordered_dict = OrderedDict(
                    [('name',['John', 'Jenny', 'Nate']), 
                     ('age', [20, 30, 30]), 
                     ('job', ['student', 'developer', 'teacher'])]) 
#리스트의 자료구조로 딕셔너리에 대한 데이터를 삽입해주는데 OrderedDict에 담음 
#이때 데이터를 넣어줄 때는 딕셔너리형태로 데이터를 넣어주는 것이 아니라 리스트의 자료구조에 튜플로 데이터를 담아주도록 한다.
#컬럼명은 그대로 넣고, 컬럼에 대한 데이터들은 리스트로 담아주도록 한다!!
#OrderedDict의 특징은 내가 넣어준 컬럼 순서를 그대로 보장하여 담아준다.

df = pd.DataFrame.from_dict(friend_ordered_dict) # from_dict()는 dict 객체로부터 DataFrame 객체로 변환하는 메소드

In [18]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


#### list로 데이터프레임 생성하기

In [19]:
friend_list = [['John', 20, 'student'], 
               ['Jenny', 30, 'developer'], 
               ['Nate', 30, 'teacher']]

column_name = ['name', 'age', 'job'] #헤더이름을 보관할 변수 선언

df = pd.DataFrame.from_records(friend_list, columns=column_name) #column_name를 헤더에 붙여서 데이터들을 데이터프레임구조로 넣어서 리턴을 해주게 됨

In [20]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [21]:
friend_list = {
    'name':['John', 'Jenny', 'Nate'],
    'age':[20, 30, 30],
    'job':['student', 'developer', 'teacher']
} #딕셔너리 형태로 데이터 생성 => value값들은 리스트에 담도록 함

df = pd.DataFrame.from_dict(friend_list)

In [22]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


### 파일로 데이터프레임을 저장하기

In [23]:
friend_list = {
    'name':['John', 'Jenny', 'Nate'],
    'age':[20, 30, 30],
    'job':['student', 'developer', 'teacher']
} 

df = pd.DataFrame.from_dict(friend_list)
df.head() #프로그램 안에서 데이터를 생성했다고할 때, 생성되어진 데이터를 파일로 보관

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [24]:
# 파일로 저장
df.to_csv('friend_list_from_df.csv') #to_csv(): 입력으로 저장하고 싶은 이름을 지정해주면 됨 => 작업하고 있는 위치에 파일이 생성될 것임!!

In [25]:
# 헤더가 없는 데이터프레임

friend_list = [['John', 20, 'student'], 
               ['Jenny', 30, 'developer'], 
               ['Nate', 30, 'teacher']]

df = pd.DataFrame.from_records(friend_list)

In [26]:
df.head() #from_records(): 헤더 이름을 별도로 생성해주고 있지 않기 때문에 디폴트로 헤더 이름을 추가해주면서 데이터를 반환해줌

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [27]:
df.to_csv('friend_list_from_df.csv')

In [28]:
# 사실 파일의 확장자명은 원하는대로 지정해도 무관.
df.to_csv('friend_list_from_df.txt') #확장자가 csv만 가능한것이 아니라 txt도 가능함!

In [29]:
# 파라메타의 default값
df.to_csv('friend_list_from_df.txt', header=True, index=True) 
#index=True => 행의 이름이 디폴트로 붙여주는 것임 / header=True => 컬럼의 이름이 디폴트로 인덱스가 붙는 것임

In [30]:
df.to_csv('friend_list_from_df_no.txt', header=False, index=False) 
#컬럼의 이름이 디폴트로 붙지 않고 데이터만 저장되어져 있는 것을 결과로 확인할 수 있음

In [31]:
df.to_csv('friend_list_from_header.csv', header=['name', 'age', 'job'])

In [32]:
# None 값이 있는 데이터프레임

friend_list = {
    'name':['John', 'Jenny', 'Nate'],
    'age':[20, None, 30],
    'job':['student', 'developer', 'teacher']
} 

df = pd.DataFrame.from_dict(friend_list)

In [33]:
df.head() #데이터가 누락되어 있을 때 None으로 표현하여 담아준다면 출력할 때 자료형에 따른 키워드로 정보를 보여줌

Unnamed: 0,name,age,job
0,John,20.0,student
1,Jenny,,developer
2,Nate,30.0,teacher


In [34]:
df.to_csv('friend_list_from_df.csv') #저장을 하게 되면 None의 키워드로 지정된 데이터 부분이 아무 값도 표현되고 있지 않음!!

In [35]:
# na_rep을 사용하면 None을 원하는 값으로 쉽게 변경 가능.

df.to_csv('friend_list_from_df.csv', na_rep='-') 
#None으로 지정된 공간이 빈공간으로 표현되는 것이 아닌 na_rep에 지정한 값으로 대체된 것을 확인할 수 있음

### 데이터프레임 접근 방법
* row(행) 선택하기

In [36]:
friend_list = {
    'name':['John', 'Jenny', 'Nate'],
    'age':[20, 30, 30],
    'job':['student', 'developer', 'teacher']
} 

print(type(friend_list))
df = pd.DataFrame.from_dict(friend_list)

<class 'dict'>


In [37]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [38]:
# row의 index를 사용한 접근 
df[1:3] #데이터프레임의 구조도 행의 인덱스를 통해서도 접근을 할 수 있음
#슬라이싱: 콜론을 통해서 데이터를 연속 접근 / 판다스에서도 동일하게 적용해서 활용할 수 있게끔 제공함

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


In [39]:
# 순차적이지 않은 행을 선택
df.loc[[0, 2]] #df.loc[0, 2] #잘못된 접근 형태!! error남 => 행렬의 접근을 지원하지 않기 때문임.
#loc에 기호는 []로 인덱스 의미임 주의) 두 개 이상의 행을 연속적이지 않게 불러오고 싶을 때, 리스트형으로 접근해야한다!!

#판다스 접근에 주의할 사항) 하나의 값에 접근할 때는 행의 인덱스 개념으로 정의되어져 있고, 행이라는 것을 지정할 때는 
#                          리스트로 []로 감싸서 처리가 되어져야 한다.(하나의 값 형태)

Unnamed: 0,name,age,job
0,John,20,student
2,Nate,30,teacher


In [40]:
# 주의 - loc는 슬라이싱 기능을 지원하지 않는다.
df.loc[[0:2]] #연속된 값을 지정한다고 생각하면서 슬라이싱을 []안에 넣어주면 error남

SyntaxError: invalid syntax (395981131.py, line 2)

### 컬럼값에 따른 로우 선택하기

In [41]:
# 특정 컬럼값을 충족하는 행 선택
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [42]:
df_filtered = df[df.age > 25] #행의 인덱스 값을 넣어줄 수 있었지만 비교연산자를 통한 조건을 넣어줄 수 있음
df_filtered #조건에 만족하는 행데이터만이 필터링되어져서 담겨진 것을 확인할 수 있음.

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


In [43]:
df_filtered = df.query('age > 25') #query의 메소드 기능을 이용해서도 []를 통한 조건처리와 동일한 결과를 도출할 수 있음
df_filtered

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


In [44]:
df_filtered = df[(df.age > 25) & (df.name == 'Nate')] #최종적으로 지정한 조건이 만족하는 행 데이터만을 선택 (디테일한 조건 지정)
df_filtered

Unnamed: 0,name,age,job
2,Nate,30,teacher


### 컬럼 필터하기
* 인덱스로 필터하기

In [45]:
friend_list = [['John', 20, 'student'], 
               ['Jenny', 30, 'developer'], 
               ['Nate', 30, 'teacher']]

df = pd.DataFrame.from_records(friend_list)
df

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [46]:
#1차원은 컬럼단위를 시리즈로 관리 판다스에서는 백터를 시리즈라는 용어로 제공해주는 것임.
#2차원은 데이터프레임으로 표현을 하고 있는 것이다. (판다스에서 제공해주는 배열은 2차원임.)
#근데 데이터프레임은 매트릭스(모든 데이터가 동일자료형이여야 함)는 아님. 행렬의 구조를 가져서 2차원이라고 하는 것임 

# 모든 행(row)을 보여주되, 컬럼은 0부터 1까지만 출력 (특정 컬럼만 필터링을 하여 보여주고 싶을 때.)
df.iloc[:, 0:2] #loc와 구분해야함. loc는 행에 접근!! -> 2차원임에도 하나의 값만 설정해주면 됐음
#iloc는 행과 열의 접근을 해야함. 콤마를 기준으로 행과 열의 순서로 지정해주면 됨
#iloc는 슬라이싱을 지원함. :만 지정하면 처음부터 끝까지를 지정하는 것임

Unnamed: 0,0,1
0,John,20
1,Jenny,30
2,Nate,30


In [47]:
# 모든 행(row)을 보여주되, 컬럼은 0과 2만 출력 (연속적으로 데이터를 추출하는 것이 아닌 특정 컬럼을 가지고 오려고 할 때)
#df.iloc[;, 0, 2] #error남 -> 차원이 맞지 않다는 에러!!
df.iloc[:,[0, 2]] #이때는 슬라이싱이 아닌 개별적인 인덱스의 접근이기 때문에 하나의 자료구조[]를 통해 전달을 해주도록 한다.

Unnamed: 0,0,2
0,John,student
1,Jenny,developer
2,Nate,teacher


* 컬럼 이름으로 필터하기

In [48]:
#파일 안에 담긴 데이터 가져오기
df = pd.read_csv('data/friend_list_no_head.csv', header=None, names=['name', 'age', 'job']) 
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [49]:
df_filtered = df[['name', 'age']] #컬럼의 이름 지정
df_filtered # 데이터프레임에 컬럼의 이름만 지정하면 해당 컬럼항목이 선택이 되어지면서 화면상에 출력됨
#데이터프레임의 값을 넣으면 행의 인덱스로 인식되고, 컬럼의 이름을 지정하면 컬럼으로 필터링되는 기능을 정의한 것임

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [50]:
df.filter(items=['age', 'job']) #필터링돼서 지정한 컬럼항목만의 데이터들이 리턴됨

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher
3,40,dentist
4,45,manager
5,25,intern


In [51]:
# 원하는 글자를 가진 행(row)을 선택.

df.filter(like='a', axis=1) #a라는 알파벳이 포함되어져 있는 행을 선택하고자 하는 것임
#axis(축): 1은 열중심, 0은 행중심
#따라서 컬럼의 이름이 열이 되어 a가 이름에 포함된 컬럼을 출력하는 것이다.

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


### row 드롭하기
* row index로 행을 드롭할 수 있음.

In [52]:
friend_dict_list = [{'age':20, 'jop':'student'}, 
                    {'age':30, 'jop':'developer'}, 
                    {'age':30, 'jop':'teacher'}]

df = pd.DataFrame(friend_dict_list, index=['John', 'Jenny', 'Nate']) #행의 이름을 index에 지정한 이름으로 붙여서 데이터 프레임으로 생성하도록 함

In [53]:
df.head()

Unnamed: 0,age,jop
John,20,student
Jenny,30,developer
Nate,30,teacher


* drop된 결과는 데이터프레임에 저장되지 않는다. 저장하고 싶으면, 결과를 데이터프레임에 따로 저장해야 됨.

In [54]:
df.drop(['John', 'Nate']) # drop => 제거하겠다는 의미로 John과 Nate의 행의 데이터를 제거됨

Unnamed: 0,age,jop
Jenny,30,developer


In [55]:
df 
#데이터프레임을 출력해보면 원데이터를 바꾸지 않고 독립적으로 출력되는 것을 볼 수 있다.
#즉, 원데이터에서 데이터를 제거하고 출력해주는 것이 아닌 drop으로 지정된 데이터를 제외하고 출력을 해주는 것이다.

Unnamed: 0,age,jop
John,20,student
Jenny,30,developer
Nate,30,teacher


In [56]:
# 드롭된 결과를 데이터프레임에 저장.
df = df.drop(['John', 'Nate']) #결과를 바로 업데이트 해주면 데이터를 삭제한 결과로 원데이터가 변경된다.
df

Unnamed: 0,age,jop
Jenny,30,developer


In [57]:
friend_dict_list = [{'age':20, 'jop':'student'}, 
                    {'age':30, 'jop':'developer'}, 
                    {'age':30, 'jop':'teacher'}]

df = pd.DataFrame(friend_dict_list, index=['John', 'Jenny', 'Nate'])

In [58]:
# drop된 결과를 바로 데이터프레임에 저장.

df.drop(['John', 'Nate'], inplace=True) 
#inplace파라메타의 default는 false임 -> true로 변경해주게 되면 삭제와 동시에 원데이터에 업데이트되어지게끔 처리가 되어진다.
df

Unnamed: 0,age,jop
Jenny,30,developer


### row index로 drop하기

In [59]:
friend_dict_list = [{'name':'John', 'age':'20', 'job':'student'}, 
                    {'name':'Jenny', 'age':'30', 'job':'developer'}, 
                    {'name':'Nate', 'age':'30', 'job':'teacher'}] 

df = pd.DataFrame(friend_dict_list) 
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [60]:
df = df.drop(df.index[[0, 2]]) #인덱스로 접근을 해서도 데이터에 대한 삭제를 수행할 수 있다.
df

Unnamed: 0,name,age,job
1,Jenny,30,developer


### 컬럼값으로 row drop하기

In [61]:
friend_dict_list = [{'name':'John', 'age':'20', 'job':'student'}, 
                    {'name':'Jenny', 'age':'30', 'job':'developer'}, 
                    {'name':'Nate', 'age':'30', 'job':'teacher'}] 

df = pd.DataFrame(friend_dict_list) 
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [62]:
df[df.age != '30'] #해당 컬럼의 값을 통해서 조건을 만족하는 데이터만을 뽑아오도록 할 수 있음

Unnamed: 0,name,age,job
0,John,20,student


### 컬럼 drop하기

In [63]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [64]:
df.drop('age', axis=1) #데이터프레임이 2차원!! / 컬럼명을 지정해주면서 exis를 1로 지정(열) 
#결과적으로 job에 대한 컬럼이 삭제되는 결과로 확인할 수 있음

Unnamed: 0,name,job
0,John,student
1,Jenny,developer
2,Nate,teacher


### 컬럼 추가 또는 변경하기

In [65]:
df['salary'] = 0 #지정한 이름에 컬럼항목이 추가되면서 각 데이터는 0의 값으로 초기화가 돼서 담겨져 있는 것을 확인할 수 있다.
df

Unnamed: 0,name,age,job,salary
0,John,20,student,0
1,Jenny,30,developer,0
2,Nate,30,teacher,0


* 넘파이를 사용해, 한 줄에 새로운 컬럼값을 생성할 수도 있음.

In [66]:
import numpy as np

df['salary'] = np.where(df['job'] != 'student', 'yes', 'no') #조건을 체크해서 true이면 두번째 매개변수, false이면 세번째 매개변수로 반환 
                                                             #결과를 별도의 컬럼항목에 담도록 한다.
df
#넘파이의 where메소드를 활용하면 새로운 컬럼을 추가하면서 그 값에 대해 원하는 데이터로 저장할 수 있게끔 처리를 수행할 수 있다.

Unnamed: 0,name,age,job,salary
0,John,20,student,no
1,Jenny,30,developer,yes
2,Nate,30,teacher,yes


In [67]:
friend_dict_list = [{'name':'John', 'midterm':95, 'final':85},
                    {'name':'Jenny', 'midterm':85, 'final':80},
                    {'name':'Nate', 'midterm':10, 'final':30}]

df = pd.DataFrame(friend_dict_list, columns=['name', 'midterm', 'final']) #columns매개변수를 통해서 컬럼명 지정이 가능함.
df

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,10,30


In [68]:
df['total'] = df['midterm'] + df['final'] 
#연산을 진행한 후 파생변수를 생성하여 컬럼으로 추가할 수 있음.
df 

Unnamed: 0,name,midterm,final,total
0,John,95,85,180
1,Jenny,85,80,165
2,Nate,10,30,40


In [69]:
df['average'] = df['total'] / 2
df
#*** 이렇듯 파생변수를 통해 연산을 진행한 필드를 즉각적으로 만들면서 추가할 수 있는 것임!!

Unnamed: 0,name,midterm,final,total,average
0,John,95,85,180,90.0
1,Jenny,85,80,165,82.5
2,Nate,10,30,40,20.0


In [70]:
# 리스트에 조건별 값을 담아서, 새로운 컬럼으로 추가.
#기존에 데이터를 가지고 의미를 부여한 파생변수들을 생성하는 실습을 진행하는 것임

grades = [] #자료형을 확정시켜놓음!

for row in df['average']: 
    if row >= 90:
        grades.append('A')
    elif row >= 80:
        grades.append('B')
    elif row >= 70:
        grades.append('C')
    elif row >= 60:
        grades.append('D')
    else:
        grades.append('F')
#평균의 데이터를 이용해서 학생들별 학점을 추가하면서 등급별로 나누도록 함

df['grade'] = grades #평균값에 등급까지 추가적으로 필드 추가!!
df

Unnamed: 0,name,midterm,final,total,average,grade
0,John,95,85,180,90.0,A
1,Jenny,85,80,165,82.5,B
2,Nate,10,30,40,20.0,F


### apply() 메소드 사용 예제
* apply()를 사용하면, 깔끔하게 컬럼의 값을 변경하는 코드를 구현할 수 있다.

In [71]:
def pass_or_fail(row):
    if row != 'F': #전달받은 값이 F면
        return 'Pass' # Pass전달
    else:
        return 'Fail' #전달받은 값이 F가 아니면 Fail전달

In [72]:
df.grade = df.grade.apply(pass_or_fail) 
#apply(): ***입력으로 함수만 전달해주게 되면 기존 컬럼 항목에 담겨져 있었던 값을 변경할 수 있음
#grade는 컬럼값으로 판다스에서는 시리즈를 일컫는다. => 1차원 배열
#grade에 A, B, F값이 저장되어져 있었음. 이때 저장된 값에 따라서 등록된 함수를 통해 데이터를 업데이트 해주는 것이다.
df

#기존 존재하고 있는 컬럼의 데이터를 다른 값으로 변경을 해줘야한다고 할 때 그 변경해주고 싶은 
#값에 대한 처리를 수행할 함수를 정의하고 그 함수만 apply메소드에 입력으로 전달만 해준다면
#그 함수의 기능에 의해서 수행과 동시에 빠르게 해당 데이터 값에 대한 변경 처리를 수행할 수 있는 것이다.

Unnamed: 0,name,midterm,final,total,average,grade
0,John,95,85,180,90.0,Pass
1,Jenny,85,80,165,82.5,Pass
2,Nate,10,30,40,20.0,Fail


In [73]:
# apply() 사용해서 연월일의 정보에서 연도만 추출.

date_list = [{'yyyy-mm-dd':'2000-06-27'},
             {'yyyy-mm-dd':'2002-09-24'},
             {'yyyy-mm-dd':'2005-12-20'}]

df = pd.DataFrame(date_list, columns=['yyyy-mm-dd'])
df

Unnamed: 0,yyyy-mm-dd
0,2000-06-27
1,2002-09-24
2,2005-12-20


In [74]:
def extract_year(row):
    return row.split('-')[0] 
#년월일 정보가 전달이 되어지면 split에 문자열로 전달되는 데이터를 구분자를 통해 데이터를 잘라서 가져오는데
#그 데이터 중에서 첫번째 데이터만을 가져오도록 함. -> 0번째 인덱스 데이터!!
#=> 문자열 데이터에서 split메소드를 제공: 입력으로 전달된 구분자를 통해서 데이터를 잘라서 각각을 검색 추출하는 기능
#   구분자로 추출된 데이터에서 첫번째 데이터(인덱스 0)를 가지고 오도록 함

In [75]:
df['year'] = df['yyyy-mm-dd'].apply(extract_year) #입력으로 전달한 함수에 데이터를 전달하고 리턴된 데이터가 year에 담기게 될 것임
df #year 컬럼을 추가하고 기존 yyyy-mm-dd컬럼의 시리즈데이터를 읽어와서 apply메소드가 실행되면서 등록한 함수가 실행되면서 
   #수행된 데이터가 year컬럼에 담기게 될 것이다.

Unnamed: 0,yyyy-mm-dd,year
0,2000-06-27,2000
1,2002-09-24,2002
2,2005-12-20,2005


### apply() 메소드에 파라미터 전달하기
* 키워드 파라미터를 사용하면, apply()가 적용된 함수에 파라미터를 전달할 수 있음. 

In [76]:
def extract_year(year, current_year): #나이를 계산해주는 기능 (매개변수의 갯수는 제한이 없음)
    return current_year - int(year) 

In [77]:
df['age'] = df['year'].apply(extract_year, current_year=2023) #매개변수 값을 지정해주면서 값을 전달해줄 수 있음. 
df #나이에 대한 계산 결과가 age컬럼에 담기게 될 것이다.

Unnamed: 0,yyyy-mm-dd,year,age
0,2000-06-27,2000,23
1,2002-09-24,2002,21
2,2005-12-20,2005,18


In [78]:
# 한 개 이상의 파라미터 전달하기

def get_introduce(age, prefix, suffix): #세 개의 데이터를 전달받을 수 있는 파라메타를 정의
    return prefix + str(age) + suffix

In [79]:
df['introduce'] = df['age'].apply(get_introduce, prefix="I am", suffix=" years old.") #매개변수에 담길 값들을 각각 지정해주도록 한다.
df

Unnamed: 0,yyyy-mm-dd,year,age,introduce
0,2000-06-27,2000,23,I am23 years old.
1,2002-09-24,2002,21,I am21 years old.
2,2005-12-20,2005,18,I am18 years old.


In [80]:
# 여러 개의 컬럼을 동시에 전달

def get_introduce2(row):
    return "I was born in " + str(row.year) + "my age is" +  str(row.age) 
    #코드 상에 줄바꿈할 때 \를 사용하도록 한다.(다음라인까지 이어진다는 의미) => 파이썬은 여백이 문법요소이기 때문이다.

In [81]:
df.introduce = df.apply(get_introduce2, axis=1) #axis=1: 모든 컬럼을 지정하는 의미이다. / 지금 현재 컬럼명을 따로 지정하지 않고 df로 지정하고 있음.
df #기존 저장된 문장에서 바뀐 문장으로 저장되어져 있는 것을 확인할 수 있다.

Unnamed: 0,yyyy-mm-dd,year,age,introduce
0,2000-06-27,2000,23,I was born in 2000my age is23
1,2002-09-24,2002,21,I was born in 2002my age is21
2,2005-12-20,2005,18,I was born in 2005my age is18


### map()함수로 컬럼 추가 및 변경하기
* 파라미터로 함수를 전달하면 apply 함수와 동일하게 컬럼값을 추가 및 변경할 수 있음.

In [82]:
def extract_year(row):
    return row.split('-')[0]

date_list = [{'yyyy-mm-dd':'2000-06-27'},
             {'yyyy-mm-dd':'2002-09-24'},
             {'yyyy-mm-dd':'2005-12-20'}]

df = pd.DataFrame(date_list, columns=['yyyy-mm-dd'])
df

Unnamed: 0,yyyy-mm-dd
0,2000-06-27
1,2002-09-24
2,2005-12-20


In [83]:
df['year'] = df['yyyy-mm-dd'].map(extract_year) #apply를 적용했을 때와 동일한 결과를 리턴해주고 있음
df

Unnamed: 0,yyyy-mm-dd,year
0,2000-06-27,2000
1,2002-09-24,2002
2,2005-12-20,2005


* 파라미터로 딕셔너리를 전달하면 컬럼값을 쉽게 원하는 값으로 변경 가능함.
* 기존의 컬럼값은 딕셔너리의 key로 사용되고, 해당되는 value의 값으로 칼럼값이 변경되게 됨.

In [84]:
job_list = [{'age':'20', 'job':'student'}, 
            {'age':'30', 'job':'developer'}, 
            {'age':'40', 'job':'teacher'}]

df = pd.DataFrame(job_list) 
df #데이터프레임으로 잘 담겨서 테이블로 리턴해주는 것을 결과적으로 확인할 수 있다.

Unnamed: 0,age,job
0,20,student
1,30,developer
2,40,teacher


In [85]:
df.job = df.job.map({"student":1, "developer":2, "teacher":3}) 
df
#기존 job의 데이터 자료형은 문자열이였음. 실질적으로 머신러닝이나 딥러닝의 알고리즘에 
#데이터를 넣고자할 때 모든 데이터는 수치형의 데이터만을 입력으로 전달받게끔 정의되어져 있음
#=> 어마어마한 연산 처리를 컴퓨터가 이해할 수 있는 형태의 데이터로 전달을 해줬을 때 최대의 퍼포먼스를 보여줄 수 있을 것임
#   인간이 사용하고 이해할 수 있는 문자열 형태로 데이터를 전달해준다면 컴퓨터는 제대로 알지 못함. -> 단지 상태값만을 보고 동작이 됨
#   그러다 보니 프로그래밍에 키워드들은 내부적으로 숫자값으로 매핑이 되어져 있음. 
#   문자열 데이터로만 데이터 분석이 진행된다면 컴퓨터의 퍼포먼스는 현저히 떨어지게 될 것이다. -> 수치로 변환하는 처리가 내부에서 수행해야하기 때문임
#   따라서 문자열 데이터가 있다고 할 때 수치형의 범주형 데이터로 변환을 해서 실질적인 알고리즘에 적용을 해줘야 한다. 
#   이에 대한 방법이 이번실습인 것이다. 즉, 이번 실습은 머신러닝과 딥러닝에서 중요한 의미를 가짐

Unnamed: 0,age,job
0,20,1
1,30,2
2,40,3


### applymap() 함수
* 데이터프레임 전체의 각각의 값을 한번에 변경시킬 때 사용하면 좋다.

In [86]:
x_y = [{'x': 5.5, 'y': -5.6},
       {'x': -5.2, 'y': 5.5},
       {'x': -1.6, 'y': -4.5}]

df = pd.DataFrame(x_y)
df

Unnamed: 0,x,y
0,5.5,-5.6
1,-5.2,5.5
2,-1.6,-4.5


In [88]:
df = df.applymap(np.around) #applymap는 현재 df에 담겨진 데이터프레임 전체에서 각각의 값을 한번에 변경시키고자할 때 활용 
df

#around의 이름의 함수는 대부분 반올림의 기능을 제공함 / around는 데이터를 반올림해주는 함수임
#모든 데이터를 하나 하나 다 수행하고자 할 때 applymap함수를 활용.

Unnamed: 0,x,y
0,6.0,-6.0
1,-5.0,6.0
2,-2.0,-4.0


### 데이터프레임에 row(행) 추가하기

In [93]:
friend_dict_list = [{'name':'John', 'midterm':95, 'final':85},
                    {'name':'Jenny', 'midterm':85, 'final':80},
                    {'name':'Nate', 'midterm':10, 'final':30}]

df = pd.DataFrame(friend_dict_list, columns=['name', 'midterm', 'final']) #columns매개변수를 통해서 컬럼명 지정
df

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,10,30


In [94]:
df2 = pd.DataFrame([['Ben', 50, 50]], columns=['name', 'midterm', 'final']) 
#첫 번째는 삽입하고자 할 데이터를 지정해주면 됨. 
#주의) pd.DataFrame은 리턴값이 2차원이고, ['Ben', 50, 50]로 지정을 하게 되면 데이터는 시리즈로써 1차원임. 
#      => 따라서 차원을 맞춰달라는 오류가 나는 것임

df2

Unnamed: 0,name,midterm,final
0,Ben,50,50


In [96]:
#데이터프레임도 append()메소드를 제공 - 기존 데이터 맨 뒤에 추가
df.append(df2, ignore_index=True) #false값을 넣어주면 행에 값이 넣어질때 새롭게 0부터 카운팅하면서 추가됨
#ignore_index: 기존 index값을 무시하고 삽입하겠느냐에 관련된 매개변수
#ignore_index를 true로 지정하면 새롭게 인덱스가 추가되면서 삽입된다.

  df.append(df2, ignore_index=True) #false값을 넣어주면 행에 값이 넣어질때 새롭게 0부터 카운팅하면서 추가됨


Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,10,30
3,Ben,50,50


### groupby() 함수
* 데이터에서 정보를 취하기 위해서 그룹별로 묶는 방법에 대해 알아보자.

In [2]:
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Sera', 'major': "Psychology", 'sex': "female"}
         ] #리스트 안에 딕셔너리로 데이터가 담겨져 있음.

df = pd.DataFrame(student_list, columns=['name', 'major', 'sex'])
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [98]:
groupby_major = df.groupby('major') #학과별로 그룹핑
groupby_major #데이터프레임에 groupby가 됐다는 정보와 위치 정보 값을 리턴해줌

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000021BC0E3C1C0>

In [99]:
groupby_major.groups #전공 데이터들과 전공데이터가 담긴 행의 위치값을 같이 리턴해줌 (묶여진 정보를 groups를 통해서 딕셔너리 형태로 확인할 수 있는 것)

{'Computer Science': [0, 1, 6, 7], 'Economics': [4, 5, 9], 'Physics': [2], 'Psychology': [3, 8, 10]}

In [100]:
for name, group in groupby_major:
    print(name + " : " + str(len(group))) #그룹에 담겨진 실제 데이터를 출력하면서 확인할 수 있음.
    print(group)
    print()

Computer Science : 4
       name             major     sex
0      John  Computer Science    male
1      Nate  Computer Science    male
6  Jeniffer  Computer Science  female
7    Edward  Computer Science    male

Economics : 3
    name      major     sex
4  Janny  Economics  female
5   Yuna  Economics  female
9  Wendy  Economics  female

Physics : 1
      name    major   sex
2  Abraham  Physics  male

Psychology : 3
     name       major     sex
3   Brian  Psychology    male
8    Zara  Psychology  female
10   Sera  Psychology  female



In [102]:
# 그룹 객체를 다시 데이터프레임으로 생성하는 예제
df_major_cnt = pd.DataFrame({'count':groupby_major.size()}).reset_index() 
#size()를 호출해주게 되면 각 그룹별로 갯수를 반환해줌 
df_major_cnt

Unnamed: 0,major,count
0,Computer Science,4
1,Economics,3
2,Physics,1
3,Psychology,3


In [3]:
groupby_sex = df.groupby('sex') #성별에 관련된 데이터를 변수에 담아주도록 함

In [4]:
for name, group in groupby_sex: #반복문에 의해서 데이터를 꺼내오고자 할 때, 성별이 가지는 범주군의 값이 name객체에 담겨질 것임.
    print(name + ': ' + str(len(group))) 
    print(group) #실제 데이터 출력 (각 성별로 학과별 학생들에 대한 인폼)
    print() #여백 추가

female: 6
        name             major     sex
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female

male: 5
      name             major   sex
0     John  Computer Science  male
1     Nate  Computer Science  male
2  Abraham           Physics  male
3    Brian        Psychology  male
7   Edward  Computer Science  male



In [6]:
df_sex_cnt = pd.DataFrame({'count':groupby_sex.size()}).reset_index() #사이즈별 데이터 출력하면서 reset_index함수를 호출
df_sex_cnt #각 성별이 가지는 범주의 빈도수를 결과로 확인해볼 수 있다.

Unnamed: 0,sex,count
0,female,6
1,male,5


### 중복 데이터 drop하기

In [9]:
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Sera', 'major': "Psychology", 'sex': "female"},
                {'name': 'John', 'major': "Computer Science", 'sex': "male"} #중복데이터 생성
         ] 

df = pd.DataFrame(student_list, columns=['name', 'major', 'sex'])
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [10]:
# 중복된 데이터 확인하기

df.duplicated() #데이터프레임 자료형 안에서 제공해주고 있는 기능이다_duplicated(): 중복된 여부에 따라서 boolean값을 반환해주는 메소드이다.
#즉, 기존 데이터의 중복을 체크해주는 기능으로 중복이 된 마지막 데이터를 True로 표시를 해줌으로써 중복의 인폼을 제공해주는 것이다.

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11     True
dtype: bool

In [12]:
# 중복 데이터를 삭제

df = df.drop_duplicates() #중복데이터를 제거하고 이 데이터셋에 새롭게 업데이트를 해주고 싶을 때 이 코드를 활용하면 된다.
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [13]:
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Sera', 'major': None, 'sex': "female"},
                {'name': 'John', 'major': "Computer Science", 'sex': None} #중복데이터 생성
         ] 

df = pd.DataFrame(student_list, columns=['name', 'major', 'sex'])
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [14]:
df.duplicated(['name']) #입력으로 특정 컬럼 항목을 넣어주면서 항목에 대해서만 중복 체크 검색이 가능하다.

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11     True
dtype: bool

In [18]:
# keep값을 'first' 또는 'last'라고 값을 줘서 중복된 값 중, 어느값을 유지할지 결정. default='first'임.
# 매개변수로 keep(유지하라는 것임)파라메타를 first_첫번째항목을 살려둘 것인지 last_마지막항목을 살려둘 것인지 지정하는 것임.

df.drop_duplicates(['name'], keep='last') #특정컬럼을 지정해서 중복을 체크해서 중복된 데이터를 삭제할 수 있다.
#만약 원데이터에 업데이트를 하고싶다면 기존 데이터가 담긴 변수에 수정된 데이터(중복데이터 삭제)를 다시 담아주도록 해야한다.

Unnamed: 0,name,major,sex
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female
10,Sera,,female


In [16]:
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [19]:
# None 처리하기

school_id_list = [{'name':'John', 'age':20, 'job':'student'}, 
                  {'name':'Jenny', 'age':30, 'job':'developer'}, 
                  {'name':'Nate', 'age':None, 'job':'teacher'}] 
#데이터가 None으로 지정을 하더라도 숫자형일때는 NaN 키워드로 결과를 보여주고 있음

df = pd.DataFrame(school_id_list, columns=['name', 'age', 'job'])
df

Unnamed: 0,name,age,job
0,John,20.0,student
1,Jenny,30.0,developer
2,Nate,,teacher


In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    3 non-null      object 
 1   age     2 non-null      float64
 2   job     3 non-null      object 
dtypes: float64(1), object(2)
memory usage: 200.0+ bytes


In [21]:
df.isna() #데이터의 NA여부도 확인할 수 있음.

Unnamed: 0,name,age,job
0,False,False,False
1,False,False,False
2,False,True,False


In [22]:
df.isnull() #None을 체크할 때도 null로 인식이 되어짐.

Unnamed: 0,name,age,job
0,False,False,False
1,False,False,False
2,False,True,False


### Null 또는 NaN 값 변경하기

In [24]:
# Null을 0으로 대체

tmp = df #원데이터는 그대로 유지하기 위해서 다른 변수에 df의 데이터를 담도록 함
tmp['age'] = tmp['age'].fillna(0) #fillna: na데이터가 있을 때 입력으로 넣어준 값으로 채워주도록 하는 메소드
tmp

Unnamed: 0,name,age,job
0,John,20.0,student
1,Jenny,30.0,developer
2,Nate,0.0,teacher


In [25]:
# 0으로 설정하기 보다는 선생님의 중간 나이, 학생의 중간 나이로, 각각의 직업군에 맞게 Null값을 변경.

school_id_list = [{'name': 'John', 'job':'teacher', 'age':40},
                  {'name': 'Nate', 'job':'teacher', 'age':35},
                  {'name': 'Yuna', 'job':'teacher', 'age':37},
                  {'name': 'Abraham', 'job':'student', 'age':10}, 
                  {'name': 'Brian', 'job':'student', 'age':12}, 
                  {'name': 'Janny', 'job':'student', 'age':11}, 
                  {'name': 'Nate', 'job':'teacher', 'age':None}, 
                  {'name': 'John', 'job':'student', 'age':None}, 
                 ]

df = pd.DataFrame(school_id_list, columns=['name', 'job', 'age'])
df

Unnamed: 0,name,job,age
0,John,teacher,40.0
1,Nate,teacher,35.0
2,Yuna,teacher,37.0
3,Abraham,student,10.0
4,Brian,student,12.0
5,Janny,student,11.0
6,Nate,teacher,
7,John,student,


In [26]:
df['age'].fillna(df.groupby('job')['age'].transform('median'), inplace=True) 
#job별로 나이값컬럼 값에서 중위수값을 검출해서 데이터를 채워주게끔 셋팅
#inplace속성에 True를 지정해주게 되면 반환된값을 바로 원데이터에 담아주게 된다.

In [27]:
df #그룹에서 None으로 지정된 값이 중위수값으로 대체된 것을 결과로 확인해볼 수 있다. 

Unnamed: 0,name,job,age
0,John,teacher,40.0
1,Nate,teacher,35.0
2,Yuna,teacher,37.0
3,Abraham,student,10.0
4,Brian,student,12.0
5,Janny,student,11.0
6,Nate,teacher,37.0
7,John,student,11.0


### Unique
* 컬럼에 여러 값이 있을 때, 중복없이 어떤 값들이 있는지 확인하는 방법.

In [28]:
job_list = [{'name': 'John', 'job': "teacher"},
                {'name': 'Nate', 'job': "teacher"},
                {'name': 'Fred', 'job': "teacher"},
                {'name': 'Abraham', 'job': "student"},
                {'name': 'Brian', 'job': "student"},
                {'name': 'Janny', 'job': "developer"},
                {'name': 'Nate', 'job': "teacher"},
                {'name': 'Obrian', 'job': "dentist"},
                {'name': 'Yuna', 'job': "teacher"},
                {'name': 'Rob', 'job': "lawyer"},
                {'name': 'Brian', 'job': "student"},
                {'name': 'Matt', 'job': "student"},
                {'name': 'Wendy', 'job': "banker"},
                {'name': 'Edward', 'job': "teacher"},
                {'name': 'Ian', 'job': "teacher"},
                {'name': 'Chris', 'job': "banker"},
                {'name': 'Philip', 'job': "lawyer"},
                {'name': 'Janny', 'job': "basketball player"},
                {'name': 'Gwen', 'job': "teacher"},
                {'name': 'Jessy', 'job': "student"}
            ]

df = pd.DataFrame(job_list, columns=['name', 'job'])
df

Unnamed: 0,name,job
0,John,teacher
1,Nate,teacher
2,Fred,teacher
3,Abraham,student
4,Brian,student
5,Janny,developer
6,Nate,teacher
7,Obrian,dentist
8,Yuna,teacher
9,Rob,lawyer


In [29]:
# 컬럼(Series)의 unique() 함수를 사용하여, 중복없이, 컬럼에 있는 모든 값들을 출력.

print(df.job.unique()) #unique: 범주값을 파악할 수 있게끔 제공되는 함수

['teacher' 'student' 'developer' 'dentist' 'lawyer' 'banker'
 'basketball player']


In [30]:
# 각 유니크한 값별로 몇개의 데이터가 속하는 지 value_counts() 함수로 확인.

df.job.value_counts() 
#job항목에 각 범주값뿐만 아니라 범주에 속하고 있는 데이터가 몇 개씩 있는지도 바로 카운팅의 값으로 셋팅하여 결과로 반환

teacher              8
student              5
lawyer               2
banker               2
developer            1
dentist              1
basketball player    1
Name: job, dtype: int64

### 두 개의 데이터 프레임 합치기

In [34]:
l1 = [{'name':'John', 'job':'teacher'}, 
      {'name':'Nate', 'job':'student'}, 
      {'name':'Fred', 'job':'developer'}]

l2 = [{'name':'Ed', 'job':'dentist'}, 
      {'name':'Jack', 'job':'farmer'}, 
      {'name':'Ted', 'job':'designer'}]

df1 = pd.DataFrame(l1, columns=['name', 'job'])
df2 = pd.DataFrame(l2, columns=['name', 'job'])
#동일한 형태의 데이터셋이 개별적으로 DataFrame으로 변환하여 보관시킴!

In [38]:
# 두번째 데이터프레임을 첫번째 데이터프레임의 새로운 row(행)로 합침.

frame = [df1, df2] #두 데이터셋을 리스트에 담도록 함
result = pd.concat(frame, ignore_index=True) #행단위로 데이터를 합쳐줌
#판다스에서 제공해주고 있는 concat메소드를 활용하는데 리스트의 두 개가 담긴 frame값을 넣어주도록 함
#합쳐주는 기능으로 뒤에서부터 인덱스값을 증가시켜주고 싶다면 ignore_index=True로 지정해주도록 한다.
result #두 데이터프레임을 연결

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer
3,Ed,dentist
4,Jack,farmer
5,Ted,designer


In [41]:
l1 = [{'name':'John', 'job':'teacher'}, 
      {'name':'Nate', 'job':'student'}, 
      {'name':'Fred', 'job':'developer'}]

l2 = [{'name':'Ed', 'job':'dentist'}, 
      {'name':'Jack', 'job':'farmer'}, 
      {'name':'Ted', 'job':'designer'}]

df1 = pd.DataFrame(l1, columns=['name', 'job'])
df2 = pd.DataFrame(l2, columns=['name', 'job'])

result = df1.append(df2, ignore_index=True) 
#자체적인 데이터프레임내에 제공해주는 기능 중에 append기능을 통해 마지막에 추가해주고 싶은 데이터프레임을 입력으로 넣어주면 됨
# +) ignore_index=True를 추가하여 인덱스값이 맨 뒤에서부터 증가되도록 지정해준다.

  result = df1.append(df2, ignore_index=True)


In [42]:
result

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer
3,Ed,dentist
4,Jack,farmer
5,Ted,designer


In [43]:
# 두번째 데이터프레임을 첫번째 데이터프레임의 새로운 컬럼(열)으로 합침.
l1 = [{'name':'John', 'job':'teacher'}, 
      {'name':'Nate', 'job':'student'}, 
      {'name':'Fred', 'job':'developer'}
     ]

l2 = [{'age':25, 'country':'U.S'},
      {'age':30, 'country':'U.K'},
      {'age':35, 'country':'Korea'}
     ]

df1 = pd.DataFrame(l1, columns=['name', 'job'])
df2 = pd.DataFrame(l2, columns=['age', 'country'])

In [45]:
pd.concat([df1, df2], axis=1, ignore_index=True) #축의 값을 열로 지정해주도록 한다. 
#ignore_index를 True로 지정해주게 되면 증가되어지는 개념자체에서 디폴트 이름에서 순차적으로 증가되는 것을 확인할 수 있다.

Unnamed: 0,0,1,2,3
0,John,teacher,25,U.S
1,Nate,student,30,U.K
2,Fred,developer,35,Korea


### 두 개의 리스트를 묶어서 데이터프레임으로 생성하기

In [46]:
label = [1, 2, 3, 4, 5] #정답 데이터 값
predication = [1, 2, 2, 5, 5] #모델에 의해서 예측되어진 값

comparison = pd.DataFrame({'label': label, 'predication': predication}) 
#*컬럼항목을 시리즈 자료구조로 데이터프레임에서 정의를 하고 있음
#이때, 딕셔너리형태로 시리즈들을 지정해주게 되면 하나의 독립된 시리즈로 결합시켜서 최종적으로 데이터프레임으로 생성해준다.

comparison #컬럼항목으로 결합되어 출력되는 것을 결과로 확인할 수 있음

Unnamed: 0,label,predication
0,1,1
1,2,2
2,3,2
3,4,5
4,5,5
