# pandas

SQL Table, Excel sheet 처럼 열, 행으로 이루어진 테이블 형식의 데이터 등의 분석에 이용하는 데이터 분석 패키지


- import pandas as pd (pd는 pandas의 alias - 별칭 입니다)

In [1]:
# numpy는 np라는 이름으로
# pandas는 pd라는 이름으로 import
import pandas as pd
import numpy as np

## Series

1차원 배열을 담는 구조로 index를 통해 데이터를 구분  
데이터타입 (dtype)을 갖는다.

### Series 생성 및 조회

pd.Series()

In [3]:
# 생성 : numpy array를 통해 0~8을 갖는 시리즈 생성

array = pd.Series(np.arange(9))
array

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
dtype: int32

In [4]:
# 생성 : list를 통해 0~8을 갖는 시리즈 생성

array_list = pd.Series([0,1,2,3,4,5,6,7,8])
array_list

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
dtype: int64

In [5]:
# 생성 : list를 통해 문자와 숫자가 섞인 시리즈 생성 후 데이터타입 확인

s = pd.Series([91,2,"헬로"])
s

0    91
1     2
2    헬로
dtype: object

In [6]:
# 생성
# list를 통해 index = ['a','b','c']
# 데이터 값 [1,2,3]을 갖는 시리즈 s 생성

s = pd.Series([1,2,3], index = ["a", "b", "c"])
s

a    1
b    2
c    3
dtype: int64

In [8]:
# 시리즈 s 에서 인덱스 a을 조회
s["a"]

1

In [9]:
# 시리즈 s 에서 인덱스 0을 조회
s[0]

1

### Series 속성

_속성은 괄호를 쓰지 않는다_

- index : index 조회, 수정 가능
- values : 데이터 값만 np.array 형식으로 가져옴
- ndim : 차원 - Series는 1차원이므로 무조건 1
- shape : 데이터 모양, 개수 (튜플)

In [10]:
# 시리즈 s의 index 조회
s.index

Index(['a', 'b', 'c'], dtype='object')

In [12]:
# 시리즈 s의 데이터값 조회
s.values

array([1, 2, 3], dtype=int64)

In [13]:
# 시리즈 s의 차원 조회
s.ndim

1

In [14]:
# 시리즈의 shape 조회
s.shape

(3,)

Pandas에서 **NaN 값**은 비어있는 **결측치 데이터**를 의합니다.

임의로 비어있는 값을 대입하고자 할 때는 **numpy의 nan (np.nan)**을 입력

In [15]:
# 비어 있는 값을 포함한 시리즈 생성

s = pd.Series([1,2, np.nan,"a"])
s

0      1
1      2
2    NaN
3      a
dtype: object

isnull()과 isna()은 NaN 값을 찾는 함수

In [17]:
# NaN값 조회
s.isnull()
s.isna()

0    False
1    False
2     True
3    False
dtype: bool

### 연습

> s1 변수에 Series를 생성하세요.  
• dtype은 'float32＇로 지정

In [20]:
s1 = pd.Series([1,2,3],dtype = "float32")
s1

0    1.0
1    2.0
2    3.0
dtype: float32

>아래와 같은 시리즈를 생성하세요

가       apple  
나         NaN  
다      banana  
라   pineapple  
마      orange  
dtype: object  

In [21]:
s2 = pd.Series(["apple", np.nan, "banana", "pineapple","orange"], index = ["가","나","다","라","마"])
s2

가        apple
나          NaN
다       banana
라    pineapple
마       orange
dtype: object

## Series Indexing

In [22]:
# 실행
s = pd.Series(['손흥민', '김연아', '박세리', '박찬호', '김연경'], index=['a', 'b', 'c', 'd', 'e'])
s

a    손흥민
b    김연아
c    박세리
d    박찬호
e    김연경
dtype: object

### 팬시 인덱싱

**fancy indexing**은 특정 index list로 선택하여 indexing 하는 방법

In [23]:
# 시리즈 s의 인덱스 b,c,d 를 조회
s[["b","c","d"]]

b    김연아
c    박세리
d    박찬호
dtype: object

### boolean 인덱싱
시리즈와 같은 개수의 boolean index list(True/False)로 선택하는 방법

In [25]:
# 남, 녀를 boolean list로 직접 만들어 남자만 조회
boolean_list = [True,False,False,True,False]
s[boolean_list]

a    손흥민
d    박찬호
dtype: object

### 조건 인덱싱
조건을 통해 boolean list를 만들어 사용

In [26]:
# 실행
s = pd.Series([29, 99, np.nan, 11, 56], index=['a', 'b', 'c', 'd', 'e'])
s

a    29.0
b    99.0
c     NaN
d    11.0
e    56.0
dtype: float64

In [27]:
# s 가 50 이상인 경우 조회
s[s>=50]

b    99.0
e    56.0
dtype: float64

## Series slicing


> **주의**  

숫자형일 경우 끝 index 포함X

새롭게 만든 인덱스일 경우 끝 index도 포함O

In [30]:
# 숫자로 조회 0~2
s[:3]

a    29.0
b    99.0
c     NaN
dtype: float64

In [31]:
# 인덱스로 조회 a~c
s["a":"c"]

a    29.0
b    99.0
c     NaN
dtype: float64

## DataFrame

2차원 배열을 담는 구조로 행(row)과 열(column)으로 구성된 Data  

list, dictionary로 생성 가능

list : columns 인자로 컬럼명 지정가능  
dic : key가 column, value값이 각 칼럼의 값이 됨

In [32]:
# 리스트로 데이터프레임 생성
pd.DataFrame([
    [1,2,3],
    [4,5,6],
    [7,8,9]
], columns=['a', 'b', 'c'])

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [33]:
# 딕셔너리로 위와 똑같은 데이터 프레임 생성

pd.DataFrame({"a":[1,4,7],"b":[2,5,8],"c":[3,6,9]})

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


### 데이터프레임 속성

- **index**: index (기본 값으로 RangeIndex)
- **columns**: column 명
- **values**: numpy array형식의 데이터 값
- **dtypes**: column 별 데이터 타입
- **T**: DataFrame을 전치(Transpose)

In [44]:
# data 정보를 df 변수에 데이터프레임 형태로 저장
data = {
    'name': ['Kim', 'Lee', 'Park'], 
    'age': [24, 27, 34], 
    'children': [2, 1, 3]
}

df = pd.DataFrame(data)
df


Unnamed: 0,name,age,children
0,Kim,24,2
1,Lee,27,1
2,Park,34,3


In [48]:
# print(f'인덱스 :', df.속성) 형태로 다양한 속성 조회
print(f'인덱스 :', df.index)
print(f'칼럼명 :', df.columns)
print(f'데이터값 :', df.values)
print(f'칼럼별 데이터 타입 :', df.dtypes)

인덱스 : Index(['a', 'b', 'c'], dtype='object')
칼럼명 : Index(['name', 'age', 'children'], dtype='object')
데이터값 : [['Kim' 24 2]
 ['Lee' 27 1]
 ['Park' 34 3]]
칼럼별 데이터 타입 : name        object
age          int64
children     int64
dtype: object


In [47]:
# 인덱스를 a,b,c로 수정
df.index = ["a","b","c"]
df

Unnamed: 0,name,age,children
a,Kim,24,2
b,Lee,27,1
c,Park,34,3


### column 다루기

In [49]:
# 'name' 칼럼만 선택
df["name"]

a     Kim
b     Lee
c    Park
Name: name, dtype: object

In [51]:
# 'name', 'age' 칼럼 선택
df[["name","age"]]

Unnamed: 0,name,age
a,Kim,24
b,Lee,27
c,Park,34


DataFrame.rename(columns={기존이름:새로운이름}) 으로 칼럼명 변경가능

In [59]:
# children 칼럼을 child로 변경
df = df.rename(columns = {"children":"child"})
df


Unnamed: 0,name,age,child
a,Kim,24,2
b,Lee,27,1
c,Park,34,3


### 연습

Info)

식당 : KFC, 맥도날드, 버거킹  
가격 : 1000, 1000, 2000  
별점 : 4, 3, 4


In [65]:
# Info 정보를 갖는 데이터프레임 df를 생성하세요

data  = {
    "식당":["KFC", "맥도날드", "버거킹"],
    "가격":[1000,1000,2000],
    "별점":[4,3,4]}
data
df = pd.DataFrame(data)
df

Unnamed: 0,식당,가격,별점
0,KFC,1000,4
1,맥도날드,1000,3
2,버거킹,2000,4


In [63]:
# 식당이름과 별점을 조회하세요
df[["식당", "별점"]]


Unnamed: 0,식당,별점
0,KFC,4
1,맥도날드,3
2,버거킹,4


In [64]:
# 칼럼명 '식당'을 '브랜드'로 수정하세요

df = df.rename(columns = {"식당":"브랜드"})
df

Unnamed: 0,브랜드,가격,별점
0,KFC,1000,4
1,맥도날드,1000,3
2,버거킹,2000,4


In [122]:
data = {
    'name': ['Kim', 'Lee', 'Park'], 
    'age': [24, 27, 34], 
    'children': [2, 1, 3]
}

df = pd.DataFrame(data)
df


Unnamed: 0,name,age,children
0,Kim,24,2
1,Lee,27,1
2,Park,34,3


In [108]:
df

Unnamed: 0,name,age,children
0,Kim,24,2
1,Lee,27,1
2,Park,34,3


In [123]:
# 1.  됨
# df.rename(columns = {"name": "이름"})
# 2. 안됨
# df = df.rename(columns = {"name": "이름"}, inplace = True)
# # 3.  안됨
# df.rename(columns = {"name": "이름"}, inplace = True)
# 4.  됨
df.rename({"name": "이름"}, axis=1)

Unnamed: 0,이름,age,children
0,Kim,24,2
1,Lee,27,1
2,Park,34,3


**아래 출력값이 아닌 것을 모두 고르시오**

![image.png](attachment:fbe2b812-40f5-4c2a-97d2-eb0bd912820a.png)

In [92]:
df

Unnamed: 0,이름,age,children
0,Kim,24,2
1,Lee,27,1
2,Park,34,3


In [85]:
arr = np.array([1,2,'3']) 
arr

array(['1', '2', '3'], dtype='<U11')