Pandas란
- Numpy 위에 만들어진 open source library이다.
- data science에서 가장 유명한 라이브러리 중 하나이다.
  . data read, data cleaning, data transforming, data analysis

Pandas의 주요 구성 요소는 Series와 DataFrame이다.
- Series : 레이블이 정해진 일차원 배열
    . 문법 : pandas.Series(data, index, dtype, copy)
    . data : n차원의 배열, 리스트, 딕셔너리, 또는 스칼라 값이다.
    . index : 열의 index이다.
    . dtype : 데이터 타입이다.
    . copy : 복사된 데이터이다.

In [1]:
import numpy as np
import pandas as pd

In [7]:
# 배열을 Series 안에 넣기
data = np.array(['a', 'b', 'c', 'd'])
series = pd.Series(data, index=[100, 101, 102, 103])
print(series)
# 딕셔너리를 이용한 Sereis 만들기
data = {100 : 'a', 101 : 'b', 102 : 'c', 103 : 'd'}
series = pd.Series(data)
print(series)

100    a
101    b
102    c
103    d
dtype: object
100    a
101    b
102    c
103    d
dtype: object


In [6]:
# 그림대로 Series 하나 만들어보기
data = np.array(['A', 'B', 'C', 'D', 'E'])
series = pd.Series(data, index=[1, 2, 3, 4, 5])
print(series)

1    A
2    B
3    C
4    D
5    E
dtype: object


Pandas의 주요 구성 요소는 Series와 DataFrame이다.
- DataFrame : Series 컬렉션으로 구성된 다차원 테이블이다.
    . 문법 : pandas.DataFrame(data, index, columns, dtype, copy)
    . data : 시리즈, n차원의 배열, 리스트, 딕셔너리, 또는 스칼라 값이다.
    . index : 데이터 프레임의 index이다.
    . columns : 열의 이름이나 라벨
    . dtype : 데이터 타입이다.
    . copy : 복사된 데이터이다.

In [10]:
# list를 이용해 DataFrame을 만드는  방법
data = [['Tim', 35], ['Sonya', 30], ['Sunny', 34]]
df = pd.DataFrame(data, columns=['Name', 'Age'], dtype=float)
print(df)
# 시리즈를 이요해 DataFrame을 만든다.
data = {'one':pd.Series([1,2,3], index=['a','b','c']), 'two':pd.Series([1,2,3,4], index=['a','b','c','d'])}
df = pd.DataFrame(data)
print(df)

    Name   Age
0    Tim  35.0
1  Sonya  30.0
2  Sunny  34.0
   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


  df = pd.DataFrame(data, columns=['Name', 'Age'], dtype=float)


In [17]:
data = {'Artist':pd.Series(['Billie Holiday', 'Jimi Hendrix', 'Miles Davis', 'SIA'], index=[0,1,2,3]),
        'Genre':pd.Series(['Jazz', 'Rock', 'Jazz', 'Pop'], index=[0,1,2,3]),
        'Listeners':pd.Series(['1,300,000', '2,700,000', '1,500,000', '2,000,000'], index=[0,1,2,3]),
        'Plays':pd.Series(['27,000,000', '70,000,000', '48,000,000', '74,000,000'], index=[0,1,2,3])}
df = pd.DataFrame(data)
print(df)

           Artist Genre  Listeners       Plays
0  Billie Holiday  Jazz  1,300,000  27,000,000
1    Jimi Hendrix  Rock  2,700,000  70,000,000
2     Miles Davis  Jazz  1,500,000  48,000,000
3             SIA   Pop  2,000,000  74,000,000


pandas의 read_csv로 파일을 불러와서 데이터 프레임에 저장하기
- index_col : csv 파일에는 index가 없기 때문에 index_col로 따로 지정해줘야 한다.

In [13]:
movie_df = pd.read_csv('./csv/IMDB-Movie-Data.csv', index_col='Title')
print(movie_df)

                         Rank                     Genre  \
Title                                                     
Guardians of the Galaxy     1   Action,Adventure,Sci-Fi   
Prometheus                  2  Adventure,Mystery,Sci-Fi   
Split                       3           Horror,Thriller   
Sing                        4   Animation,Comedy,Family   
Suicide Squad               5  Action,Adventure,Fantasy   
...                       ...                       ...   
Secret in Their Eyes      996       Crime,Drama,Mystery   
Hostel: Part II           997                    Horror   
Step Up 2: The Streets    998       Drama,Music,Romance   
Search Party              999          Adventure,Comedy   
Nine Lives               1000     Comedy,Family,Fantasy   

                                                               Description  \
Title                                                                        
Guardians of the Galaxy  A group of intergalactic criminals are forced ...  

In [16]:
# 데이터 프레임의 처음 5개의 열을 보여준다.
movie_df.head()
# head(n)에 숫자를 넘겨줘서 n개의 열을 보여줄 수 있다.
movie_df.head(10)
# 데이터 프레임의 끝 5개의 열을 볼 수 있다.
movie_df.tail()
# head()처럼 숫자를 넘겨주면 원하는 만큼의 ㅣ열을 볼 수 있다.
movie_df.tail(2)

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0
Nine Lives,1000,"Comedy,Family,Fantasy",A stuffy businessman finds himself trapped ins...,Barry Sonnenfeld,"Kevin Spacey, Jennifer Garner, Robbie Amell,Ch...",2016,87,5.3,12435,19.64,11.0


info() : 데이터 셋의 필수적인 정보를 보여준다.
- 행의 갯수
- 열의 갯수
- non-null 값의 갯수
- 각 열의 데이터 타입을 알려준다.
- 데이터 프레임이 사용하고 있는 메모리의 양

In [19]:
movie_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1000 entries, Guardians of the Galaxy to Nine Lives
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Rank                1000 non-null   int64  
 1   Genre               1000 non-null   object 
 2   Description         1000 non-null   object 
 3   Director            1000 non-null   object 
 4   Actors              1000 non-null   object 
 5   Year                1000 non-null   int64  
 6   Runtime (Minutes)   1000 non-null   int64  
 7   Rating              1000 non-null   float64
 8   Votes               1000 non-null   int64  
 9   Revenue (Millions)  872 non-null    float64
 10  Metascore           936 non-null    float64
dtypes: float64(3), int64(4), object(4)
memory usage: 93.8+ KB


shape : 행과 열의 크기를 출력한다.
- shape은 괄호가 없는 단순한 튜플(행, 열) 형식이다.
- 데이터를 정리하거나 변환할 때 많이 사용한다.
    . 기준에 따라 행을 필터링한 다음 제거된 행 수를 확인할 수 있다.

In [21]:
movie_df.shape

(1000, 11)

In [25]:
# descirbe() 통계량을 요약해서 출력해준다.
movie_df.describe()
# descirbe() 메소드를 열의 제목에 대한 요약을 할 수 도 있다.
movie_df['Genre'].describe()
# 행의 갯수
# 중복되지 않는 열의 숫자
# top category
# top catoegory의 빈도

count                        1000
unique                        207
top       Action,Adventure,Sci-Fi
freq                           50
Name: Genre, dtype: object

In [29]:
# 데이터 프레임의 열의 이름을 알려준다.
# columns를 column의 이름을 바꾸려고 할 때 사용할 수 도 있다.
movie_df.columns
movie_df.rename(columns={'Runtime (Minutes)':'Runtime',
                        'Revenue (Millions)':'Revenue'},
                inplace=True)
movie_df.columns

Index(['Rank', 'Genre', 'Description', 'Director', 'Actors', 'Year', 'Runtime',
       'Rating', 'Votes', 'Revenue', 'Metascore'],
      dtype='object')

In [38]:
# 데이터 프레임 조정하기
# 데이터 프레임에서 원하는 열만 불러오기.
subset = movie_df[['Genre', 'Rating']]
subset.head()
# 특정 열에서 특정 값을 갖는 데이터 프레임만 가져오고 싶을 때
movie_df[movie_df['Year']==2012].head()
# 해당 값 이상을 갖는 값만 가져오고 싶을 때
movie_df[movie_df['Rating'] >= 8.6].head()
# A 값 또는 B 값을 갖는 값을 가져오고 싶을 때
movie_df[(movie_df['Director'] == 'Christopher Nolan') | 
        (movie_df['Director'] == 'Ridely Scott')]
# sort_value() 함수는 값에 의해서 정렬된다.
# by 인수는 무슨 값을 기준으로 정렬할 건지 알려주는 역할을 한다.
movie_df.sort_values(by='Year', ascending=False).head()        

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime,Rating,Votes,Revenue,Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Nine Lives,1000,"Comedy,Family,Fantasy",A stuffy businessman finds himself trapped ins...,Barry Sonnenfeld,"Kevin Spacey, Jennifer Garner, Robbie Amell,Ch...",2016,87,5.3,12435,19.64,11.0
Free Fire,162,"Action,Comedy,Crime","Set in Boston in 1978, a meeting in a deserted...",Ben Wheatley,"Sharlto Copley, Brie Larson, Armie Hammer, Cil...",2016,90,7.0,6946,1.8,63.0
Tall Men,648,"Fantasy,Horror,Thriller",A challenged man is stalked by tall phantoms i...,Jonathan Holbrook,"Dan Crisafulli, Kay Whitney, Richard Garcia, P...",2016,133,3.2,173,,57.0
The Huntsman: Winter's War,235,"Action,Adventure,Drama","Eric and fellow warrior Sara, raised as member...",Cedric Nicolas-Troyan,"Chris Hemsworth, Jessica Chastain, Charlize Th...",2016,114,6.1,66766,47.95,35.0
Popstar: Never Stop Never Stopping,654,"Comedy,Music",When it becomes clear that his solo album is a...,Akiva Schaffer,"Andy Samberg, Jorma Taccone,Akiva Schaffer, Sa...",2016,87,6.7,30875,9.39,68.0


In [42]:
# 놓친 값들 다루기
# 잃어버리거나 null 값 : 데이터 셋의 질을 나타낸다.
# isnull() 함수를 사용해서 어디서 missing value들을 가지고 있는 지 알아낸다.
movie_df.isnull().tail()
# missing value의 요약을 보고 싶을 떄
movie_df.isnull().sum()
# null 값 없애기 dropna() 함수를 사용해서 null 값을 가진 행을 지운다.
movie_df.dropna(inplace=True)
movie_df.isnull().sum()
# dropna()를 사용해서 null 값을 가진 열을 제거 할 수 도 있다.
# dropna()에 0이나 index를 넣어주면 행이 제거된다.
# dropna()에 1이나 columns를 넣어주면 열이 제거된다.
# 데이터 셋에 missing value가 많이 없을 때 dropna()를 사용한다.
# fillna()를 사용해서 null 값에 값을 추가해줘야 한다.
movie_df['Revenue'].fillna(movie_df['Revenue'].mean(), inplace=True)
movie_df.isnull().sum()

Rank           0
Genre          0
Description    0
Director       0
Actors         0
Year           0
Runtime        0
Rating         0
Votes          0
Revenue        0
Metascore      0
dtype: int64

In [45]:
car_df = pd.read_csv('./csv/usedcars.csv')
car_df.head()

Unnamed: 0,year,model,price,mileage,color,transmission
0,2011,SEL,21992,7413,Yellow,AUTO
1,2011,SEL,20995,10926,Gray,AUTO
2,2011,SEL,19995,7351,Silver,AUTO
3,2011,SEL,17809,11613,Gray,AUTO
4,2012,SE,17500,8367,White,AUTO


In [46]:
car_df.tail()

Unnamed: 0,year,model,price,mileage,color,transmission
145,2006,SES,6200,95000,Silver,AUTO
146,2002,SE,5995,87003,Red,AUTO
147,2000,SE,5980,96841,Red,AUTO
148,2001,SE,4899,151479,Yellow,AUTO
149,2000,SE,3800,109259,Red,AUTO


In [48]:
car_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   year          150 non-null    int64 
 1   model         150 non-null    object
 2   price         150 non-null    int64 
 3   mileage       150 non-null    int64 
 4   color         150 non-null    object
 5   transmission  150 non-null    object
dtypes: int64(3), object(3)
memory usage: 7.2+ KB


In [50]:
car_df.describe()

Unnamed: 0,year,price,mileage
count,150.0,150.0,150.0
mean,2008.726667,12961.933333,44260.646667
std,2.200966,3122.481735,26982.104322
min,2000.0,3800.0,4867.0
25%,2008.0,10995.0,27200.25
50%,2009.0,13591.5,36385.0
75%,2010.0,14904.5,55124.5
max,2012.0,21992.0,151479.0


In [55]:
car_df.columns
car_df.rename(columns={'model':'modal'}, inplace=True)
car_df.columns

Index(['year', 'modal', 'price', 'mileage', 'color', 'transmission'], dtype='object')

In [57]:
car_df.isnull().sum()

year            0
modal           0
price           0
mileage         0
color           0
transmission    0
dtype: int64