# pandas
pandas는 python에서 데이터 조작과 분석을 위한 라이브러리, 특히 표 형태의 데이터를 처리하는데 매우 유용 <br>
데이터 프레임 이라는 구조를 사용해 데이터를 효율적 다룸<br>
데이터 분석 작업에서 핵심적인 도구로 사용되며, 데이터 수집, 정리, 탐색, 변환, 분석 등의 과정을 단순화

- 주요기능
  1. 데이터 구조<br>
  Series: 1차원 배열로, 인덱스가 지정된 배열<br>
  DataFrame: 2차원 표 형식의 데이터 구조
  2. 빠른 데이터 처리: <br>
  pandas는 대규모 데이터를 효율적으로 처리함<br>
  특히 데이터 정리, 필터링, 집계와 같은 작업을 빠르게 수행
  3. 다양한 데이터 소스와의 호환성<br>
  CSV, Excel, SQL, JSON, HDF5, HTML 등 다양한 파일 형식에서 데이터를 쉽게 읽고 쓸 수 있음
  4. 데이터 변환 및 정리<br>
  검측치 처리, 중복 제거,데이터필터링, 행/열 추가 및 삭제, 데이터 정렬, 그룹화, 피벗 테이블 생성 등 데이터 변환 작업을 쉽게 수행
  5. 통계 및 시각화 지원
  데이터 분석에 필요한 기본적인 통계 연산(평균, 표준편차, 합계 등)을 손쉽게 수행할 수 있으며 Mappltlib과 같은 라이브러리와 연동해 시각화도 지원

In [1]:
import pandas as pd

### Series & DataFrame
- Series: 1차원 데이터 구조
- DataFrame: 2차원 데이터 구조

In [2]:
series = pd.Series([1, 2, 3, 4, 5])
series

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
data_dic = {
  "name": ["John", "Anna", "Peter", "Linda"],
  "Age": [28, 39, 49, 21],
  "City": ["New York", "Paris", "Berlin", "London"]
}

df = pd.DataFrame(data_dic)
df

Unnamed: 0,name,Age,City
0,John,28,New York
1,Anna,39,Paris
2,Peter,49,Berlin
3,Linda,21,London


### Series
판다스의 시리즈는 1차원 배열 형태의 데이터 구조로, 데이터와 데이터에 대한 인덱스를 함께 저장
- 주요 특징
  1. 시리즈는 데이터 및 관련 지수로 구성되며 숫자 인덱스가 자동으로 생성
  2. 라벨 기반 인덱싱: 각 데이터 포인트는 인덱스(라벨)를 통해 접근할 수 있음
  3. 결측 지원: 시리즈는 결측치(NaN)을 지원하며 데이터가 누락된 경우에도 유연하게 처리
  4. 다양한 데이터소스: 리스트, 배열, 딕셔너리 등 다양한 형식의 데이터를 기반으로 시리즈를 생성

In [4]:
animal_ls = ["고양이", "강아지", "코끼리", "호랑이", "사자", "기린", "곰", "여우", "토끼", "늑대"]
s1 = pd.Series(animal_ls)
print(s1)

s2 =  pd.Series(data=[100, 200, 300, 400, 500])
print(s2)

s3 = pd.Series(["1", 1, 1.1, True])
print(s3)

0    고양이
1    강아지
2    코끼리
3    호랑이
4     사자
5     기린
6      곰
7     여우
8     토끼
9     늑대
dtype: object
0    100
1    200
2    300
3    400
4    500
dtype: int64
0       1
1       1
2     1.1
3    True
dtype: object


### Series의 인덱스 정의
데이터의 구조와 의미를 명확하게 하며, 데이터 접근성과 조작의 효율성을 높이는데 중요한 역할을 함<br>
데이터 전처리 과정에서 매우 유용하게 사용됨

In [5]:
movie_ls = ["인터스텔라", "어벤져스", "파묘", "엔드게임"]
my_label = ["영화1", "영화2", "영화3", "영화4"]

custom_series = pd.Series(data=movie_ls, index=my_label)
custom_series

영화1    인터스텔라
영화2     어벤져스
영화3       파묘
영화4     엔드게임
dtype: object

### 딕셔너리 형태의 시리즈 생성

In [6]:
my_info = {
  "Name": "Juhyeon",
  "Age": 28,
  "phone": "010-3798-1814"
}

series_dic = pd.Series(my_info)
series_dic

Name           Juhyeon
Age                 28
phone    010-3798-1814
dtype: object

### 시리지 기본속성 알아보기

In [7]:
custom_series

영화1    인터스텔라
영화2     어벤져스
영화3       파묘
영화4     엔드게임
dtype: object

In [8]:
# values -> series객체에 저장된 데이터를 numpy 형식으로 변환
print(custom_series.values, type(custom_series.values))

['인터스텔라' '어벤져스' '파묘' '엔드게임'] <class 'numpy.ndarray'>


In [9]:
# index -> 각데이터 포인트에 대한 고유한 라벨을 제공, 데이터 접근 및 조작에 중요한 역할
print(custom_series.index, type(custom_series.index))

Index(['영화1', '영화2', '영화3', '영화4'], dtype='object') <class 'pandas.core.indexes.base.Index'>


In [10]:
# dtype -> datatype의 줄임말, pandas 시리즈에 저장된 데이터 타입을 나타냄
# 'O'는 Object(객체)의 약자
# String은 Object 타입

custom_series.dtype

dtype('O')

In [11]:
# is_unique -> 인덱스의 값이 고유한지 확인

custom_series.is_unique

True

In [12]:
# shape -> Series의 형태를 반환
# (4,)은 1차원에 4개 요소가 존재한다는 뜻

custom_series.shape

(4,)

### 시리즈의 기본 메서드

In [13]:
my_series =  pd.Series(data=[100, 200, 300, 400, 500, 600])

my_series

0    100
1    200
2    300
3    400
4    500
5    600
dtype: int64

In [14]:
# sum() -> 시리즈의 모든 요소의 합

my_series.sum()

2100

In [15]:
# pruduct() -> 시리즈의 모든 요소의 곱

my_series.product()

720000000000000

In [16]:
# mean() -> 시리즈 요소의 평균

my_series.mean()

350.0

In [17]:
# head() -> 처음부터 5번째 요소까지 출력
# head(n) -> 처음부터 n번째 요소까지 출력

print(my_series.head())
print(my_series.head(2))

0    100
1    200
2    300
3    400
4    500
dtype: int64
0    100
1    200
dtype: int64


In [18]:
# tail() -> 마지막에서 5번째 요소부터 출력
# tail(n) -> 마지막에서 n번째 요소부터 출력

print(my_series.tail())
print(my_series.tail(2))

1    200
2    300
3    400
4    500
5    600
dtype: int64
4    500
5    600
dtype: int64


In [19]:
# isin() -> 특정 값이 포함되어 있는지 확인
my_series.isin(["고릴라"])

0    False
1    False
2    False
3    False
4    False
5    False
dtype: bool

In [20]:
# duplicated() -> 시리즈에서 중복된 값을 찾는 메서드이다.
my_series[my_series.duplicated(keep=False)]

Series([], dtype: int64)

### 시리즈 데이터 필터링 및 수정

In [21]:
animal_ls = ['고양이', '강아지', '코끼리', '호랑이']
label_ls = ['1번', '2번', '3번', '4번']
my_series = pd.Series(data=animal_ls, index=label_ls)

my_series

1번    고양이
2번    강아지
3번    코끼리
4번    호랑이
dtype: object

In [22]:
# 1번 데이터 접근 및 수정
my_series["1번"] = "야옹이"
my_series

1번    야옹이
2번    강아지
3번    코끼리
4번    호랑이
dtype: object

In [23]:
# 여러 인덱스 접근
filtered_data = my_series[["1번", "2번", "3번"]]
filtered_data

1번    야옹이
2번    강아지
3번    코끼리
dtype: object

In [24]:
bool_ls = [True, False, False, True]
print(my_series[bool_ls])

# 조건식을 이용한 참조
print(my_series[my_series == "강아지"])
print(my_series[my_series == "고릴라"])

1번    야옹이
4번    호랑이
dtype: object
2번    강아지
dtype: object
Series([], dtype: object)


### 시리즈 정렬

In [25]:
animal_csv = pd.read_csv("../00_data/series_sample.csv")
print(animal_csv["Age"])

animal_series = pd.Series(data=animal_csv["Age"], index=animal_csv["Animal"])
animal_series

0    30
1    45
2    20
3    25
4    35
5    50
6    40
Name: Age, dtype: int64


Animal
다람쥐   NaN
돼지    NaN
고릴라   NaN
원숭이   NaN
호랑이   NaN
곰     NaN
늑대    NaN
Name: Age, dtype: float64

In [26]:
animal_series = pd.Series(data=animal_csv["Age"].values, index=animal_csv["Animal"])
animal_series

Animal
다람쥐    30
돼지     45
고릴라    20
원숭이    25
호랑이    35
곰      50
늑대     40
dtype: int64

In [27]:
# sort_values() -> 시리즈의 값을 기준으로 정렬
# .sort_values(ascending = False) -> 내림차순으로 정렬 (defalt는 True)

print(animal_series.sort_values())
print(animal_series.sort_values(ascending=False))

Animal
고릴라    20
원숭이    25
다람쥐    30
호랑이    35
늑대     40
돼지     45
곰      50
dtype: int64
Animal
곰      50
돼지     45
늑대     40
호랑이    35
다람쥐    30
원숭이    25
고릴라    20
dtype: int64


In [28]:
print(animal_series.sort_values()) # 정렬된 값을 반환, 원본에는 영향이 없음
print(animal_series) # 정렬 안됨

animal_series.sort_values(inplace=True)
print(animal_series) # 원본이 정렬 됨


Animal
고릴라    20
원숭이    25
다람쥐    30
호랑이    35
늑대     40
돼지     45
곰      50
dtype: int64
Animal
다람쥐    30
돼지     45
고릴라    20
원숭이    25
호랑이    35
곰      50
늑대     40
dtype: int64
Animal
고릴라    20
원숭이    25
다람쥐    30
호랑이    35
늑대     40
돼지     45
곰      50
dtype: int64


In [29]:
# squeeze() -> 차원이 1인 축을 제거하여 차원이 축소된 객체를 반환
# 1차원으로 축소 가능한 경우에만 차원을 줄임

animal_csv = pd.read_csv("../00_data/series_sample.csv", index_col="Age")
print(animal_csv)
print(type(animal_csv))

print(animal_csv.squeeze())
print(type(animal_csv.squeeze()))

animal_sorted = animal_csv.squeeze().sort_values()
animal_sorted

    Animal
Age       
30     다람쥐
45      돼지
20     고릴라
25     원숭이
35     호랑이
50       곰
40      늑대
<class 'pandas.core.frame.DataFrame'>
Age
30    다람쥐
45     돼지
20    고릴라
25    원숭이
35    호랑이
50      곰
40     늑대
Name: Animal, dtype: object
<class 'pandas.core.series.Series'>


Age
20    고릴라
50      곰
40     늑대
30    다람쥐
45     돼지
25    원숭이
35    호랑이
Name: Animal, dtype: object

In [30]:
# index 기준으로 정렬
animal_sorted.sort_index()

Age
20    고릴라
25    원숭이
30    다람쥐
35    호랑이
40     늑대
45     돼지
50      곰
Name: Animal, dtype: object

### 시리즈에서 연산 수행

In [31]:
animal_series = pd.read_csv("../00_data/series_sample.csv", index_col="Age").squeeze()
animal_series


Age
30    다람쥐
45     돼지
20    고릴라
25    원숭이
35    호랑이
50      곰
40     늑대
Name: Animal, dtype: object

In [32]:
# count() -> 길이 확인

animal_series.count()

7

In [33]:
# 최대값과 최소값 구하기
print(animal_series.max())
print(animal_series.min())

animal_series = pd.read_csv("../00_data/series_sample.csv", index_col="Animal").squeeze()
print(animal_series.max())
print(animal_series.min())

호랑이
고릴라
50
20


In [34]:
# 시리즈의 대한 모든 통계 정보 확인
animal_series.describe()

count     7.000000
mean     35.000000
std      10.801234
min      20.000000
25%      27.500000
50%      35.000000
75%      42.500000
max      50.000000
Name: Age, dtype: float64

### 시리즈에서 주어진 요소 확인하기

In [35]:
animal_series

Animal
다람쥐    30
돼지     45
고릴라    20
원숭이    25
호랑이    35
곰      50
늑대     40
Name: Age, dtype: int64

In [36]:
# 시리즈 값에 주어진 숫자가 있는지 확인

20 in animal_series.values

True

In [37]:
# 주어진 값이 인덱스에 존재하는지 확인
"고릴라" in animal_series.index

True

In [38]:
"고릴라" in animal_series # defalt는 index를 가지고 확인

True

### 시리즈 슬라이싱

In [39]:
animal_series = pd.read_csv("../00_data/series_sample.csv", index_col="Age").squeeze()
animal_series

Age
30    다람쥐
45     돼지
20    고릴라
25    원숭이
35    호랑이
50      곰
40     늑대
Name: Animal, dtype: object

In [40]:
# 첫번째 요소
animal_series[0:1]

Age
30    다람쥐
Name: Animal, dtype: object

In [41]:
# 마지막 요소
animal_series[animal_series.count() - 1:]

Age
40    늑대
Name: Animal, dtype: object

In [42]:
print(animal_series[1:])
print(animal_series[:3])

Age
45     돼지
20    고릴라
25    원숭이
35    호랑이
50      곰
40     늑대
Name: Animal, dtype: object
Age
30    다람쥐
45     돼지
20    고릴라
Name: Animal, dtype: object
