### 넘파이(Numpy) : 배열(ndarray, n dimension array)
#### 리스트(list): Linked List 구조(불연속), 동작 속도가 느리다, comma로 요소 구별, 서로 다른 자료형 사용가능
#### 배열(ndarray) : 연속된 메모리 구조, 동작 속도가 빠르다, comma를 사용하지 않고 공백으로 요소를 구별, 오직 한 가지 타입만 갖을 수 있다

In [2]:
import numpy as np

# list
list1 = [0,1,2,3,4,5,'Hello',10.5]
print(list1,type(list1))

# ndarray
a = np.array([0,1,2,3,4,5])   # 1차원 배열
print(a,type(a))   

[0, 1, 2, 3, 4, 5, 'Hello', 10.5] <class 'list'>
[0 1 2 3 4 5] <class 'numpy.ndarray'>


In [3]:
# 2차원 배열의 Shape : 행(row,가로,수직,axis=0)과 열(column,세로,수평,axis=1) => 필수암기 
list1 = [[0,1,2],
         [3,4,5]]
print(list1)

m = np.array(list1)
print(m)
print(m.shape)  # (2, 3)

[[0, 1, 2], [3, 4, 5]]
[[0 1 2]
 [3 4 5]]
(2, 3)


In [4]:
### 2차원 배열의 인덱싱과 슬라이싱 :  data[행,열]
print(m)

# 인덱싱
print(m[0,0])  # 0
print(m[0,1])  # 1
print(m[1,1])  # 4
print(m[1,2])  # 5
print(m[-1,-1])  # 5

# 슬라이싱
print(m[0:2,0:2])  
print(m[:,:2])   
print(m[0:2,1:]) 

[[0 1 2]
 [3 4 5]]
0
1
4
5
5
[[0 1]
 [3 4]]
[[0 1]
 [3 4]]
[[1 2]
 [4 5]]


### Pandas
#### (1) DataFrame 객체 : 2차원 배열, 서로 다른 자료형을 사용할 수 있다,  행(인스턴스), 열(컬럼,피쳐(feature))
#### (2) Series 객체  : 1차원 배열, 1차원 ndarray 와 호환

In [6]:
import pandas as pd

# 사전(dict)을 사용하여 생성
score_table = { '성명': ['홍길동','김철수','김영희','나','너'],
                '국어': [50,60,70,80,90],
                '영어': [10,np.nan,30,40,50],
                '수학': [70,80,90,30,20]}

# print(score_table,type(score_table))

df = pd.DataFrame(score_table)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,성명,국어,영어,수학
0,홍길동,50,10.0,70
1,김철수,60,,80
2,김영희,70,30.0,90
3,나,80,40.0,30
4,너,90,50.0,20


### pandas 로 csv 파일 읽고 쓰기
* df = pd.read_csv('파일명')
* df.to_csv('파일명')

In [8]:
df = pd.read_csv('WHO_first9cols.csv')
print(type(df))
df

# NaN : Not a Number , 결측치

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total
0,Afghanistan,1,1,151.0,28.0,,,,26088.0
1,Albania,2,2,27.0,98.7,6000.0,93.0,94.0,3172.0
2,Algeria,3,3,6.0,69.9,5940.0,94.0,96.0,33351.0
3,Andorra,4,2,,,,83.0,83.0,74.0
4,Angola,5,3,146.0,67.4,3890.0,49.0,51.0,16557.0
...,...,...,...,...,...,...,...,...,...
197,Vietnam,198,6,25.0,90.3,2310.0,91.0,96.0,86206.0
198,West Bank and Gaza,199,1,,,,,,
199,Yemen,200,1,83.0,54.1,2090.0,65.0,85.0,21732.0
200,Zambia,201,3,161.0,68.0,1140.0,94.0,90.0,11696.0


In [9]:
# csv 파일을 저장하기
df.to_csv('세계보건기구_9개컬럼.csv',index=False)
# index = False , 인덱스 값이 추가로 저장되지 않도록 설정

In [10]:
# DataFrame을 열(column)으로 접근 : 컬럼이름으로 접근
len(df.columns)   # 9
df['Country']     # 'Country' 컬럼을 Series 객체로 추출, 1차원 배열
df[df.columns[0]] #  0번 컬럼을 Series 객체로 추출, 1차원 배열
df[df.columns[1]] 

df[df.columns[8]]  # 마지막 컬럼을 Series 객체로 추출, 1차원 배열
df[df.columns[-1]] # 마지막 컬럼을 Series 객체로 추출, 1차원 배열
df['Population (in thousands) total']

0      26088.0
1       3172.0
2      33351.0
3         74.0
4      16557.0
        ...   
197    86206.0
198        NaN
199    21732.0
200    11696.0
201    13228.0
Name: Population (in thousands) total, Length: 202, dtype: float64

In [11]:
sr = df['Country']  # Series 객체: 1차원 배열(ndarray)과 호환
print(type(sr))

sr = df[df.columns[-1]] # Series 객체: 1차원 배열(ndarray)과 호환
print(type(sr))
sr

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


0      26088.0
1       3172.0
2      33351.0
3         74.0
4      16557.0
        ...   
197    86206.0
198        NaN
199    21732.0
200    11696.0
201    13228.0
Name: Population (in thousands) total, Length: 202, dtype: float64

In [12]:
# 1개 컬럼의 요소 접근

# 인덱싱
print(df[df.columns[0]][0])
print(df['Country'][0])
print(df[df.columns[0]][201])   # Zimbabwe
# print(df[df.columns[0]][-1])  # 주의 오류 ==> df.iloc[-1,0]
type(df[df.columns[0]][0])      # str

# 슬라이싱
df[df.columns[0]][2:6]    # 2번행 부터 5번행까지
df[df.columns[0]][:-1]    # 마지막행은 제외
df[df.columns[0]][::3]    # 3개의 step으로 슬라이싱
df[df.columns[0]][-1:]    # 마지막 행만 추출
df[df.columns[0]][::-1]   # 행을 역순으로 출력

Afghanistan
Afghanistan
Zimbabwe


201              Zimbabwe
200                Zambia
199                 Yemen
198    West Bank and Gaza
197               Vietnam
              ...        
4                  Angola
3                 Andorra
2                 Algeria
1                 Albania
0             Afghanistan
Name: Country, Length: 202, dtype: object

In [13]:
# 여러개의 컬럼을 가져오기 : 여러개의 컬럼명을 리스트로 만들어서 인덱싱에 사용
df[['Country','CountryID','Continent']]         # DataFrame 추출
df[[df.columns[0],df.columns[1],df.columns[2]]] # DataFrame 추출

# df[[df.columns[0],df.columns[1],df.columns[2]]][0] # DataFrame의 인덱싱, 오류
df[[df.columns[0],df.columns[1],df.columns[2]]][2:15:3] # 슬라이싱

Unnamed: 0,Country,CountryID,Continent
2,Algeria,3,3
5,Antigua and Barbuda,6,4
8,Australia,9,6
11,Bahamas,12,4
14,Barbados,15,4


#### DataFrame의 요소 접근하기 : 읽기와 수정
* (1) df.loc[행번호,열] : 명시적인 index
* (2) df.iloc[행번호,열] : 묵시적인 index, 파이썬 스타일, int형 0 부터 시작
* df.ix[] ; 최근 버전에서는 삭제됨

In [15]:
# df.loc[]
df.loc[3,'Country']  # 3번 행, 0번('Country') 컬럼
df.loc[:3,'Country'] # start:end,   end + 1 이 아님을 주의
df.loc[:3,['Country','CountryID','Continent']]

Unnamed: 0,Country,CountryID,Continent
0,Afghanistan,1,1
1,Albania,2,2
2,Algeria,3,3
3,Andorra,4,2


In [16]:
# df.iloc[] : index를 int형으로 사용, 자주 사용됨!
df.iloc[3,0]  # 3번 행, 0번 컬럼
df.iloc[:4,0] # start:end +1
df.iloc[:4,:3]
df.iloc[:4,[0,2,4]]

df.iloc[:,:-1]  # 마지막 컬럼만 제외,  X (독립변수) 추출
df.iloc[:,-1]   # 마지막 컬럼만 추출,  Y (종속변수) 추출

# -1 사용 가능
df.iloc[-1,0]
df.iloc[0,-1]

# 스칼라 요소 값의 변경
df.iloc[3,0] = 'Dorra'   # 'Andorra'  ---> 'Dorra'
df.iloc[3,0] = 'Andorra' # 'Dorra'    ---> 'Andorra'
df

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total
0,Afghanistan,1,1,151.0,28.0,,,,26088.0
1,Albania,2,2,27.0,98.7,6000.0,93.0,94.0,3172.0
2,Algeria,3,3,6.0,69.9,5940.0,94.0,96.0,33351.0
3,Andorra,4,2,,,,83.0,83.0,74.0
4,Angola,5,3,146.0,67.4,3890.0,49.0,51.0,16557.0
...,...,...,...,...,...,...,...,...,...
197,Vietnam,198,6,25.0,90.3,2310.0,91.0,96.0,86206.0
198,West Bank and Gaza,199,1,,,,,,
199,Yemen,200,1,83.0,54.1,2090.0,65.0,85.0,21732.0
200,Zambia,201,3,161.0,68.0,1140.0,94.0,90.0,11696.0
