### pandas
1. 데이터 분석에서 필수 라이브러리 
2. 데이터의 구조는 Series, DataFrame 
3. Series - 1차원 데이터 
4. DataFrame - 2차원 데이터

In [1]:
## 외부의 라이브러리 다운 
!pip install pandas




[notice] A new release of pip is available: 23.1.2 -> 23.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [1]:
# 라이브러리 로드 
import pandas as pd

In [3]:
# 스리즈 형태의 데이터를 생성 
pd_series = pd.Series(
    [5000, 6000, 6500, 6500], 
    index = ['아메리카노', '카페라떼', '카페모카', '카푸치노']
)

In [4]:
pd_series

아메리카노    5000
카페라떼     6000
카페모카     6500
카푸치노     6500
dtype: int64

In [5]:
# Series class에는 values, index 변수가 존재
print(pd_series.index)
print(pd_series.values)

Index(['아메리카노', '카페라떼', '카페모카', '카푸치노'], dtype='object')
[5000 6000 6500 6500]


In [6]:
# DataFrame 2차원 데이터 생성 
_values = [
    [1,2,3], 
    [4,5,6], 
    [7,8,9]
]
_index = ['a', 'b', 'c']
_columns = ['A', 'B', 'C']

df = pd.DataFrame(_values, index = _index, columns=_columns)


In [7]:
print(df)

   A  B  C
a  1  2  3
b  4  5  6
c  7  8  9


In [8]:
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6
c,7,8,9


In [9]:
# DataFrame class 안에는 적어도 3개의 독립적인 변수(values, index, columns)
print(df.values)
print(df.index)
print(df.columns)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
Index(['a', 'b', 'c'], dtype='object')
Index(['A', 'B', 'C'], dtype='object')


In [11]:
df.columns = [1,2,3]

In [12]:
df

Unnamed: 0,1,2,3
a,1,2,3
b,4,5,6
c,7,8,9


In [14]:
df.columns = ['A', 'B', 'C']

In [15]:
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6
c,7,8,9


In [18]:
df = df.rename(columns={'C' : 'F'})

In [19]:
df

Unnamed: 0,A,B,F
a,1,2,3
b,4,5,6
c,7,8,9


In [20]:
# dict 형태 데이터를 이용하여 DataFrame 대입 
dict1 = {
    'name' : ['test', 'test2', 'test3'], 
    'age' : [20, 30, 40]
}

In [21]:
df2 = pd.DataFrame(dict1)
df2

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


In [22]:
dict2 = [
    {
        'name' : 'test', 
        'age' : 20
    },
    {
        'name' : 'test2', 
        'age' : 30
    }, 
    {
        'name' : 'test3', 
        'age' : 40
    }
]

In [26]:
# test2 데이터만 출력하려면
print(dict2)
print(dict2[1])
print(dict2[1]['name'])

[{'name': 'test', 'age': 20}, {'name': 'test2', 'age': 30}, {'name': 'test3', 'age': 40}]
{'name': 'test2', 'age': 30}
test2


In [27]:
df3 = pd.DataFrame(dict2)
df3

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


### pandas를 이용하여 외부의 파일을 로드 
- read_xxxx({path}) : 해당하는 path에 있는 파일을 로드 

### 경로
- 절대 경로
    - 절대적인 주소를 의미
    - 환경이 변하더라도 같은 위치를 지정 
    - ex) (c:/users/admin/document/a.txt)
    - ex) WEB (https://www.google.com)
- 상대 경로
    - 상대적인 주소를 의미
    - 환경이 변하면 환경에 따라 위치도 변경
    - 현재 작업중인 디렉토리에서 상위로 이동하거나 하위로 이동
    - ./ : 현재 작업중인 디렉토리 
    - ../ : 상위 폴더로 이동
    - 폴더명/ : 하위 폴더로 이동

In [2]:
# 절대경로로 파일을 로드 
corona = pd.read_csv('D:\\python_\\ezen_python\\csv\\corona.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'D:\\python_\\ezen_python\\csv\\corona.csv'

In [3]:
# 상대경로로 파일을 로드 
# 상위 폴더로 이동 -> csv 하위폴더 이동 -> corona.csv
corona2 = pd.read_csv("../csv/corona.csv")

In [4]:
corona2

Unnamed: 0.1,Unnamed: 0,createDt,deathCnt,decideCnt,seq,stateDt,stateTime,updateDt,accExamCnt,accDefRate
0,0,2022-06-08 09:09:05.982,24305,18188200,904,20220608,00:00,,,
1,1,2022-06-07 09:09:00.897,24299,18174842,903,20220607,00:00,2022-06-08 09:10:36.846,,
2,2,2022-06-06 09:00:06.734,24279,18168670,902,20220606,00:00,2022-06-08 09:10:50.441,,
3,3,2022-06-05 08:53:19.426,24258,18163648,901,20220605,00:00,2022-06-08 09:11:04.758,,
4,4,2022-06-04 08:56:49.219,24238,18153814,900,20220604,00:00,2022-06-08 09:11:26.303,,
...,...,...,...,...,...,...,...,...,...,...
815,815,2020-03-14 00:00:00.000,72,8086,55,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318000
816,816,2020-03-13 00:00:00.000,67,7979,54,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499
817,817,2020-03-12 00:00:00.000,66,7869,53,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744
818,818,2020-03-11 00:00:00.000,60,7755,52,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175
