### pandas

In [None]:
### 외부 라이브러리 설치
!pip install pandas

In [1]:
## 라이브러리 로드
import pandas as pd

In [2]:
## 스리즈의 형태 
## pd.Series()
pd_list = pd.Series(
    [5000,6000,6500,6500], 
    ['아메리카노', '카페라떼', '카페모카', '카푸치노']
)


In [3]:
print(pd_list)

아메리카노    5000
카페라떼     6000
카페모카     6500
카푸치노     6500
dtype: int64


In [4]:
## values값과 index값을 따로 출력
print("스리즈의 values = ", pd_list.values)
print("스리즈의 index = ", pd_list.index)

스리즈의 values =  [5000 6000 6500 6500]
스리즈의 index =  Index(['아메리카노', '카페라떼', '카페모카', '카푸치노'], dtype='object')


In [5]:
pd_list.index = [1,2,3,4]

In [6]:
print(pd_list)

1    5000
2    6000
3    6500
4    6500
dtype: int64


In [7]:
## 데이터프레임 형태의 데이터 생성
values = [[1,2,3], [4,5,6], [7,8,9]]

df = pd.DataFrame(values)

In [8]:
print(df)

   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9


In [9]:
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [10]:
## index 값을 변경 a, b, c
## column 값을 변경 A, B, C
df.index = ["a", "b", "c"]
df.columns = ["A", "B", "C"]

In [11]:
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6
c,7,8,9


In [12]:
## 딕셔너리 형태의 데이터를 데이터프레임 형태로 변경
values = {
    "name" : ["A", "B", "C"], 
    "age" : [20, 30, 40], 
    "phone" : ["01012345678", "01098765432", "01056457869"]
}

In [13]:
df_2 = pd.DataFrame(values)
df_2

Unnamed: 0,name,age,phone
0,A,20,1012345678
1,B,30,1098765432
2,C,40,1056457869


In [15]:
##상단의 행을 기준으로 출력하는 head()
## 상단부터 n번까지 출력하는 함수
df_2.head(2)

Unnamed: 0,name,age,phone
0,A,20,1012345678
1,B,30,1098765432


In [16]:
df_2.tail(2)

Unnamed: 0,name,age,phone
1,B,30,1098765432
2,C,40,1056457869


In [21]:
## 컬럼을 기준으로 출력
df_2['name']

0    A
1    B
2    C
Name: name, dtype: object

### 경로 지정
1. 절대 경로
    - 절대적인 주소
    - url주소, c:/users/administrator/a.txt
2. 상대 경로
    - 상대적인 주소
    - './' : 현재 작업중인 폴더
    - '../' : 상위 폴더로 이동
    - './폴더명/' : 하위 폴더로 이동

In [33]:
## read_csv(파일의 위치)
## 상위 폴더로 이동 -> data 하위폴더 이동 -> 파일
## 상대 경로
df = pd.read_csv("../data/example.csv")
## 절대 경로
df2 = pd.read_csv("C:\\Users\\ezen\\Documents\\GitHub\\ezen-python\\data\\example.csv")


In [34]:
df

Unnamed: 0,Name,Gender,Phone
0,A,male,010-1234-5678
1,B,female,010-1234-5679
2,C,male,010-1234-5680
3,D,female,010-1234-5681
4,E,male,010-1234-5682
5,F,female,010-1234-5683
6,G,male,010-1234-5684
7,H,female,010-1234-5685
8,I,male,010-1234-5686
9,J,female,010-1234-5687


In [35]:
## 상대 경로로 csv 폴더 안에 num_2폴더에 있는 drinks.csv 로드
df_3 = pd.read_csv("../csv/num_2/drinks.csv")

In [37]:
print(df_3)

         country  beer_servings  spirit_servings  wine_servings  \
0    Afghanistan              0                0              0   
1        Albania             89              132             54   
2        Algeria             25                0             14   
3        Andorra            245              138            312   
4         Angola            217               57             45   
..           ...            ...              ...            ...   
188    Venezuela            333              100              3   
189      Vietnam            111                2              1   
190        Yemen              6                0              0   
191       Zambia             32               19              4   
192     Zimbabwe             64               18              4   

     total_litres_of_pure_alcohol continent  
0                             0.0        AS  
1                             4.9        EU  
2                             0.7        AF  
3          

In [38]:
## 결측치
import numpy as np

In [49]:
s1 = pd.Series([1, np.nan, 3, 4, 5])
s2 = pd.Series([1, 2, np.nan, 4, 5])
s3 = pd.Series([1, 2, 3, np.nan, 5])

In [50]:
s1

0    1.0
1    NaN
2    3.0
3    4.0
4    5.0
dtype: float64

In [52]:
## Series 형태의 데이터를 데이터프레임으로 합치는 작업
df = pd.DataFrame({
    'S1' : s1, 
    'S2' : s2, 
    'S3' : s3
})

In [41]:
df

Unnamed: 0,S1,S2,S3
0,1.0,1.0,1.0
1,,2.0,2.0
2,3.0,,3.0
3,4.0,4.0,
4,5.0,5.0,5.0


In [42]:
## is() : 값이 존재하는지에 대한 bool의 형태로 출력을 해주는 함수
## 결측치를 bool의 형태로 출력을 해주는 함수 : isna()
## 결측치는 True, 결측치가 아니면 False
df.isna()

Unnamed: 0,S1,S2,S3
0,False,False,False
1,True,False,False
2,False,True,False
3,False,False,True
4,False,False,False


In [43]:
df.isna().sum()

S1    1
S2    1
S3    1
dtype: int64

In [44]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   S1      4 non-null      float64
 1   S2      4 non-null      float64
 2   S3      4 non-null      float64
dtypes: float64(3)
memory usage: 248.0 bytes


In [47]:
## 결측치 제거
## dropna(행을 기준으로 할지 열을 기준으로 할지 지정)
## 매개변수 axis에 0을 대입하면 행을 기준으로 삭제
## 1을 대입하면 열을 기준으로 삭제

df.dropna(axis=0, inplace=True)

In [53]:
df

Unnamed: 0,S1,S2,S3
0,1.0,1.0,1.0
1,,2.0,2.0
2,3.0,,3.0
3,4.0,4.0,
4,5.0,5.0,5.0


In [54]:
## 통계 요약 정보 
df.describe()

Unnamed: 0,S1,S2,S3
count,4.0,4.0,4.0
mean,3.25,3.0,2.75
std,1.707825,1.825742,1.707825
min,1.0,1.0,1.0
25%,2.5,1.75,1.75
50%,3.5,3.0,2.5
75%,4.25,4.25,3.5
max,5.0,5.0,5.0
