# Pandas
판다스(Pandas)는 Python 프로그래밍 언어를 위한 무료, 오픈 소스 라이브러리로, 데이터 조작 및 분석을 위해 주로 사용됩니다. 특히, 수치 데이터를 다루기 위한 데이터 구조와 함수를 제공하여, 복잡한 데이터 분석 작업을 보다 쉽게 할 수 있도록 돕습니다. 판다스는 금융, 과학, 사회 과학 분야에서 데이터 분석 및 모델링에 널리 사용됩니다.

In [1]:
import pandas as pd

## 데이터 불러오기
Pandas에서 데이터를 불러오는 것은 외부 데이터 소스로부터 데이터를 읽어와 판다스의 데이터 구조인 DataFrame이나 Series로 변환하는 과정을 의미합니다. 이를 통해 데이터를 분석하고 조작할 준비를 마치게 됩니다. 판다스는 다양한 형식의 데이터를 쉽게 불러올 수 있는 함수들을 제공하며, 가장 일반적으로 사용되는 데이터 포맷은 CSV, Excel, SQL 데이터베이스, JSON 등입니다.

In [6]:
# 데이프레임과 시리즈를 다루는 도구
# csv : 데이터를 ,로 구분
# tsv : 데이터를 탭으로 구분
df = pd.read_csv("Data/concat_1.csv", sep=",")
df_gapminder = pd.read_csv("Data/gapminder.tsv", sep="\t")
df
df_gapminder

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


## 시리즈 만들기
판다스(Pandas)에서 시리즈(Series)는 1차원 배열과 유사한 데이터 구조로, 각 데이터(값)에 인덱스가 붙어 있는 형태를 말합니다. 시리즈는 다양한 데이터 타입(예: 정수, 실수, 문자열 등)을 담을 수 있으며, 판다스의 기본적인 데이터 구조 중 하나입니다.

* 리스트를 사용하여 시리즈 만들기

In [10]:
data = [1, 2, 3, 4, 5]
s = pd.Series(data, index=['가','나','다','라','마',]) # data를 시리즈로 만들어놓음.
s

가    1
나    2
다    3
라    4
마    5
dtype: int64

* 시리즈 행 이름 설정하기

* 딕셔너리를 사용하여 시리즈 만들기

In [None]:
data_dict = {'a': 1, 'b': 2, 'c': 3}
pd.Series(data_dict)

## 데이터프레임 만들기
데이터프레임(DataFrame)을 만든다는 것은 판다스(Pandas) 라이브러리를 사용하여 테이블 형태의 데이터 구조를 생성하는 과정을 말합니다. 데이터프레임은 로우와 컬럼으로 이루어져 있으며, 각 컬럼은 서로 다른 데이터 타입을 가질 수 있습니다. 이는 SQL 테이블이나 엑셀 스프레드시트와 유사한 형태로, 데이터 분석에 있어 가장 핵심적인 도구 중 하나입니다.

* 딕셔너리를 사용하여 데이터프레임 만들기

In [11]:
data = {
    'Column1': [1, 2, 3, 4],
    'Column2': ['A', 'B', 'C', 'D'],
    'Column3': [True, False, True, False]
}

pd.DataFrame(data)

Unnamed: 0,Column1,Column2,Column3
0,1,A,True
1,2,B,False
2,3,C,True
3,4,D,False


* 리스트를 사용하여 데이터프레임 만들기

In [17]:
# 2차원 리스트, 데이터 개수는 같아야함.
data = [
    [1, 'A', True],
    [2, 'B', False],
    [3, 'C', True],
    [4, 'D', False]
]

d = pd.DataFrame(data, columns=['ㄱ','ㄴ','ㄷ'])
d.columns

Index(['ㄱ', 'ㄴ', 'ㄷ'], dtype='object')

* 데이터프레임 행, 열 이름 설정하기

In [20]:
d.columns = ['A','B','C']

Unnamed: 0,A,B,C
0,1,A,True
1,2,B,False
2,3,C,True
3,4,D,False


* rename() 메서드를 사용하여 행, 열이름 수정하기

In [None]:
d.index = ['가','나','다','라']
d.rename(columns = {'B' : "BB22"})
d.rename(index= {"가":0, "나":1})

## 연습문제
1. 숫자 1부터 10까지 담긴 시리즈를 생성하세요.

In [50]:
pd.Series([1,2,3,4,5,6,7,8,9,10])
pd.Series(range(1,11))

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
dtype: int64

2. 다음 리스트를 사용하여 시리즈를 생성하고, 인덱스로 ['a', 'b', 'c', 'd', 'e']를 사용하세요.

In [29]:
data = [10, 20, 30, 40, 50]
pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e'])

Unnamed: 0,0
a,10
b,20
c,30
d,40
e,50


3. 3개의 컬럼('A', 'B', 'C')과 4개의 행을 가진 데이터프레임을 생성하세요. (데이터프레임이 가지는 값은 임의의 숫자를 넣어서 만드세요.)

In [53]:
data = [
    [1, 'A', True],
    [2, 'B', False],
    [3, 'C', True],
    [4, 'D', False]
]

d = pd.DataFrame(data, columns=['A','B','C'])
d
###
dic = {
    "A": [1,2,3,4],
    "B": [5,6,7,8],
    "C": [9,10,11,12]
    
}
pd.DataFrame(dic)

Unnamed: 0,A,B,C
0,1,5,9
1,2,6,10
2,3,7,11
3,4,8,12


4. 다음 데이터를 사용하여 2개의 컬럼을 가진 데이터프레임을 생성하세요.

In [3]:
import pandas as pd
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'], 
        'Age': [28, 34, 29, 32]}
people = pd.DataFrame(data)
people

Unnamed: 0,Name,Age
0,John,28
1,Anna,34
2,Peter,29
3,Linda,32


5. 문제 3에서 생성한 데이터프레임의 컬럼 이름을 'X', 'Y', 'Z'로 변경하세요.

In [38]:
d.columns = ['X','Y','Z']
d

Unnamed: 0,X,Y,Z
0,1,A,True
1,2,B,False
2,3,C,True
3,4,D,False


6. 문제 4에서 생성한 데이터프레임의 행 인덱스를 [100, 101, 102, 103]으로 변경하세요.

In [41]:
people.index = [100,101,102,103]
people

Unnamed: 0,Name,Age
100,John,28
101,Anna,34
102,Peter,29
103,Linda,32


7. rename() 함수를 사용해서 아래 데이터프레임의 열 이름 "A" 를 "Alpha" 로 수정하세요.

In [45]:
import numpy as np
random_data = np.random.rand(5, 5)
df = pd.DataFrame(random_data, columns=['A', 'B', 'C', 'D', 'E'])
df = df.rename(columns = {'A': "Alpha"})
df

Unnamed: 0,Alpha,B,C,D,E
0,0.932814,0.423385,0.983371,0.396505,0.813982
1,0.212086,0.674276,0.324678,0.997175,0.125919
2,0.840375,0.353655,0.300879,0.532826,0.379169
3,0.661685,0.320696,0.943965,0.389113,0.404209
4,0.918647,0.333977,0.543505,0.432356,0.226171


8. 7번 문제에서 만든 데이터프레임의 행 이름 "0" 을 "Start_0" 으로 수정하세요.

In [48]:
df = df.rename(index = {0: "Start_0"})
df

Unnamed: 0,Alpha,B,C,D,E
Start_0,0.932814,0.423385,0.983371,0.396505,0.813982
1,0.212086,0.674276,0.324678,0.997175,0.125919
2,0.840375,0.353655,0.300879,0.532826,0.379169
3,0.661685,0.320696,0.943965,0.389113,0.404209
4,0.918647,0.333977,0.543505,0.432356,0.226171
