# pandas
pandas는 python에서 데이터 조작과 분석을 위한 라이브러리로 특히 표 형태의 데이터(예:스프레드시트, SQL 테이블 등)을 처리하는데 매우 유용하며 <br> 데이터프레임(DataFrame)이라는 구조를 사용해 데이터를 효율적으로 다룰 수 있게 해준다.<br> pandas는 데이터 분석 작업에서 핵심적인 도구로 사용되며, 데이터 수집, 정리, 탐색, 변환 분석 등의 과정을 단순화한다.

- 주요 기능
    1. 데이터 구조 : <br>
    Series : 1차원 배열로, 인덱스가 지정된 배열이다. python의 리스트나 numpy의 darray와 유사하지만, 각 값에 대한 인덱스를 명시적으로 지정할 수 있다. <br>
    DataFrame : 2차원 표 형식의 데이터 구조로, 행과 열로 이루어져 있다. 엑셀의 시트나 SQL 테이블과 유사한 형식으로, 각 열은 Series 객체로 구성된다. <br>
    2. 빠른 데이터 처리 : <br>
    pandas는 대규모 데이터를 효율적으로 처리할 수 있다 <br>
    특히 데이터 정리, 필터링, 집계와 같은 작업을 빠르게 수행할 수 있다. <br>
    3. 다양한 데이터 소스와의 호환성 : <br>
    CSV, Excel, SQL, Json, HDF5, HTML 등 다양한 파일 형식에서 데이터를 쉽게 읽고 쓸 수 있다. <br>
    4. 데이터 변환 및 정리 <br>
    결측치 처리, 중복 제거, 데이터 필터링, 열/행 추가 및 삭제, 데이터 정렬, 그룹화 , 피벗 테이블 생성 등 데이터 변환 작업을 쉽게 수행할 수 있다. <br>
    5. 통계 및 시각화 지원<br>
    데이터 분석에 필요한 기본적인 통계 연산(평균, 표준 편차, 합계 등)을 손쉽게 수행할 수 있으며 Matplotlib와 같은 라이브러리와 연동해 시각화도 지원한다.

## pandas install 
```
$pip install pandas
```

In [1]:
import pandas as pd

### Series와 DataFrame
- Series : 1차원 데이터 구조
- DataFrame : 2차원 데이터 구조

In [2]:
# 시리즈 생성
s = pd.Series([1,3,4,5,6])
print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    1
1    3
2    4
3    5
4    6
dtype: int64


In [3]:
# DataFrame todtjd
data_dic = {
    "Name" : ["John", "Anna", "Peter", "Linda"],
    "Age" : [28,39,49,21],
    "City" : ["New York", "Paris", "Berlin", "London"]
}

data_df = pd.DataFrame(data_dic)
print(type(data_df))
print(data_df)


<class 'pandas.core.frame.DataFrame'>
    Name  Age      City
0   John   28  New York
1   Anna   39     Paris
2  Peter   49    Berlin
3  Linda   21    London


### Series
판다의 시리즈(Series)는 1차원 배열 형태의 데이터 구조로, 데이터와 데이터에 대한 인덱스를 함께 저장한다.
- 주요 특징
    1. 시리즈는 데이터 및 관련 지수로 구성되며 숫자 인덱스가 자동으로 생성된다.
    2. 라벨 기반 인덱싱 : 각 데이터 포인트는 인덱스(라벨)을 통해 접근할 수 있다.
    3. 결측 지원 : 시리즈는 결측츠(NaN)을 지원하며 데이터가 누락된 경우에도 유연하게 처리할 수 있다.
    4. 다양한 데이터 소스 : 리스트, 배열, 딕셔너리 등 다양한 형식의 데이터를 기반으로 시리즈를 생성할 수 있다.


In [7]:
# 시리즈 생성하기
animal_list = ["고양이", "개", "코끼리", "호랑이", "사자", "기린", "곰", "여우","토끼", "늑대"]
s = pd.Series(animal_list)
print(s)
print()

# 숫자 기반 시리즈 생성
s  = pd.Series(data=[100,200,400,500])
print(s)
print()

# 다양한 데이터 타입을 가진 시리즈 
s = pd.Series(["1", 1, 1.1, True])
print(s)

type(s)

0    고양이
1      개
2    코끼리
3    호랑이
4     사자
5     기린
6      곰
7     여우
8     토끼
9     늑대
dtype: object

0    100
1    200
2    400
3    500
dtype: int64

0       1
1       1
2     1.1
3    True
dtype: object


pandas.core.series.Series

### 시리즈 인덱스 정의하기
데이터의 구조와 의미를 명확하게 하며, 데이터 접근성과 조작의 효율성을 높이는데 중요한 역할을 한다. <br>
이는 앞으로 데이터 전처리 과정에서 매우 유용하게 사용된다.

In [12]:
# list 생성
movie_list = ["어벤져스", "파묘", "방법", "엔드게임"]
my_labels = ["영화1", "영화2", "영화3", "영화4"]

# 1차원 판다 시리즈 생성하기
custom_series = pd.Series(data=movie_list, index=my_labels)
print(custom_series)
type(custom_series)

영화1    어벤져스
영화2      파묘
영화3      방법
영화4    엔드게임
dtype: object


pandas.core.series.Series

### 딕셔너리 형태의 시리즈 생성
딕셔너리는 키 - 값 쌍의 모음으로 구성된다. <br>
각 키 - 값 쌍은 키를 해당 값에 매핑한다. <br>
목록 요소는 인덱싱을 통해 목록 내 위치 별로 액세스하고 사전 요소는 키를 통해 액세스한다. 

In [14]:
my_info = {
    "이름" : "이상우",
    "나이" : 20,
    "전화번호" : "010-3293-8180",
}
print(my_info)
type(my_info)

{'이름': '이상우', '나이': 20, '전화번호': '010-3293-8180'}


dict

In [16]:
# Dictionary를 pandas의 시리즈로 변환하기
# 이러한 경우 key가 index로  변경되며 Value가 값이된다.
series_dict = pd.Series(my_info)
print(series_dict)
type(series_dict)

이상우


pandas.core.series.Series

### 시리즈 기본속성 알아보기

In [17]:
# pandas의 시리즈 정의하기
my_movies = ["어벤져스", "국제시장","방법", "파묘"]
my_index = ["1번", "2번", "3번", "4번"]
my_series = pd.Series(data=my_movies, index=my_index)
my_series

1번    어벤져스
2번    국제시장
3번      방법
4번      파묘
dtype: object

In [20]:
# .value
# .value 속성은 Series객체에 저장된 데이터를 Numpy 형식으로 변환한다.
print(my_series.values)
type(my_series.values)


['어벤져스' '국제시장' '방법' '파묘']


numpy.ndarray

In [22]:
# .index
# 인덱스는 각 데이터 포인트에 대한 고유한 레이블을 제공하며, 데이터 접근 및 조작에 중요한 역할을 한다.
print(my_series.index)
type(my_series.index)


Index(['1번', '2번', '3번', '4번'], dtype='object')


pandas.core.indexes.base.Index

In [23]:
# .dtype
# date type의 줄임말로, pandas 시리즈에 저장된 데이터 타입을 나타낸다.
# 예를 들어 정수, 소수, 문자열, 날짜 등 다양한 데이터 타입이 있을 수 있다.
# 여기서 O가 나오는 것은 O는 Object의 약자로 데이터 타입이 Object라는 것을 의미한다.
# String = Object
my_series.dtype

dtype('O')

In [24]:
# .is_unique
# series의 인덱스 값이 고유한지 여부를 확인하는데 사용된다.
# 존재하지 않으면 false
my_series.is_unique

True

In [25]:
# .shape
# Series의 형태를 반환한다.
# (4,)은 1차원에 4개의 요소가 있다는 뜻이다.
my_series.shape

(4,)

### 시리즈의 기본 메서드

In [26]:
# 시리즈의 다양한 메서드를 활용해 본다.
my_series = pd.Series(data =[100,200,300,400,500])
my_series

0    100
1    200
2    300
3    400
4    500
dtype: int64

In [27]:
# .sum()
# 시리즈의 모든 요소의 합을 구한다.
my_series.sum()

np.int64(1500)

In [28]:
# .product()
# 시리즈의 모든 요소의 곲을 구한다.
my_series.product()

np.int64(1200000000000)

In [29]:
# .mean()
# 시리즈의 모든 요소의 평균을 구한다.
my_series.mean()

np.float64(300.0)

In [30]:
# .head()
# 시리즈를 처음부터 N개까지 출력한다.
my_series.head(2)

0    100
1    200
dtype: int64

In [31]:
# .tail()
# 시리즈를 뒤에서 n개까지 출력한다.
my_series.tail(3)

2    300
3    400
4    500
dtype: int64

In [32]:
# .isin()
# 여러 값 중에서 특정 값이 포함되어 있는지를 확인
my_series.isin(["고릴라"])

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [33]:
# .duplicated()
# 시리즈에서 중복된 값을 찾는 메서드이다.
my_series[my_series.duplicated(keep=False)]

Series([], dtype: int64)

### 시리즈 데이터 필터링 및 수정

In [35]:
my_list = ["고릴라","고릴라","다람쥐","호랑이"]
my_label = ["1번", "2번", "3번", "4번"]
my_series = pd.Series(my_list, index=my_label)
print(my_series)

1번    고릴라
2번    고릴라
3번    다람쥐
4번    호랑이
dtype: object


In [37]:
# 1번 데이터를 접근하고 수정하기
my_series["1번"] = "킹콩"
my_series

1번     킹콩
2번    고릴라
3번    다람쥐
4번    호랑이
dtype: object

In [38]:
# 여러 index를 접근하고 가져오기
filtered_date = my_series[["1번", "2번", "3번"]]
filtered_date

1번     킹콩
2번    고릴라
3번    다람쥐
dtype: object

In [41]:
bool_list = [True, False,False,True]
print(my_series[bool_list])

# 조건식을 이용한 참조
print(my_series[my_series =="고릴라"])


1번     킹콩
4번    호랑이
dtype: object
2번    고릴라
dtype: object


2번    고릴라
dtype: object

### 시리즈 정렬하기

In [60]:
# csv 가져오기
animal_csv = pd.read_csv("../00_data/series_sample.csv")

animal_series = pd.Series(data=animal_csv["Age"].values, index=animal_csv["Animal"])
print(type(animal_series))
print(animal_series)


<class 'pandas.core.series.Series'>
Animal
다람쥐    30
돼지     45
고릴라    20
원숭이    25
호랑이    35
곰      50
늑대     40
dtype: int64


In [56]:
# .sort_values()
# 시리즈 또는 데이터프레임에서 값을 기준으로 정렬하는 메서드이다.
# 해당 메서드를 사용하여 오름차순 혹은 내림차순으로 정렬이 가능하다.
# .sort_values(ascending=False) 내림차순 정렬
animal_series.sort_values(ascending=True)

Animal
고릴라    20
원숭이    25
다람쥐    30
호랑이    35
늑대     40
돼지     45
곰      50
dtype: int64

In [62]:
animal_series.sort_values(ascending=True, inplace=True)

print(animal_series)

Animal
고릴라    20
원숭이    25
다람쥐    30
호랑이    35
늑대     40
돼지     45
곰      50
dtype: int64


In [63]:
# .squeeze() 차원이 1인 축을 제거하여 차원이 축소된 객체를 반환하는데 사용된다.
# 즉 1차원으로 축소가 가능한 경우에만 차원을 줄인다.
animal_csv = pd.read_csv("../00_data/series_sample.csv", index_col="Age")
animal_sorted = animal_csv.squeeze().sort_values()
animal_sorted

Age
20    고릴라
50      곰
40     늑대
30    다람쥐
45     돼지
25    원숭이
35    호랑이
Name: Animal, dtype: object

In [64]:
# index를 기준으로 정렬하기
animal_sorted.sort_index()

Age
20    고릴라
25    원숭이
30    다람쥐
35    호랑이
40     늑대
45     돼지
50      곰
Name: Animal, dtype: object

# 시리즈에서 연산 수행

In [69]:
animal_series = pd.read_csv("../00_data/series_sample.csv", index_col="Animal").squeeze()
type(animal_series)

pandas.core.series.Series

In [67]:
# .count() 메서드를 이용하여 길이 확인
animal_series.count()

np.int64(7)

In [70]:
# 최대값 구하기
animal_series.max()

np.int64(50)

In [73]:
# 최소값
animal_series.min()

np.int64(20)

In [74]:
# 시리의 대한 모든 통계 정보를 확인하기
animal_series.describe()

count     7.000000
mean     35.000000
std      10.801234
min      20.000000
25%      27.500000
50%      35.000000
75%      42.500000
max      50.000000
Name: Age, dtype: float64

### 시리즈에서 주어진 요소 확인하기

In [75]:
# import csv파일
animal_series = pd.read_csv("../00_data/series_sample.csv", index_col="Animal").squeeze()
type(animal_series)

pandas.core.series.Series

In [76]:
# 시리즈 값에 주어진 숫자가 있는지 확인
# 결과는 참 또는 거짓으로 반환된다.
20 in animal_series.values

True

In [77]:
# 주어진 값이 인덱스에 존재하는지 확인

"고릴라" in animal_series.index

True

In [78]:
"고릴라" in animal_series

True

### 시리즈 슬라이싱

In [79]:
animal_series = pd.read_csv("../00_data/series_sample.csv", index_col="Age").squeeze()
animal_series

Age
30    다람쥐
45     돼지
20    고릴라
25    원숭이
35    호랑이
50      곰
40     늑대
Name: Animal, dtype: object

In [82]:
# 판다 시리즈의 첫 번째 요소 획득
# 첫 번째 요소의 인덱스
animal_series[0:1]


Age
30    다람쥐
Name: Animal, dtype: object

In [81]:
# 판다 시리지의 마지막 요소
animal_series[animal_series.count()-1:]

Age
40    늑대
Name: Animal, dtype: object

In [83]:
animal_series[1:]

Age
45     돼지
20    고릴라
25    원숭이
35    호랑이
50      곰
40     늑대
Name: Animal, dtype: object

In [84]:
animal_series[:3]

Age
30    다람쥐
45     돼지
20    고릴라
Name: Animal, dtype: object