# PANDAS
Pandas adalah salah satu pustaka Python yang digunakan untuk analisis data. Pustaka ini menyediakan struktur data dan alat yang efisien untuk membaca, memanipulasi, dan menganalisis data. Pandas banyak digunakan dalam bidang ilmu data, analisis keuangan, ilmu sosial, dan berbagai bidang lainnya.

Pandas menyediakan dua struktur data utama: Series dan DataFrame. Series adalah objek satu dimensi yang mirip dengan array atau kolom tunggal dalam spreadsheet. DataFrame adalah struktur data dua dimensi yang mirip dengan tabel database, di mana setiap kolom dapat berisi tipe data yang berbeda. DataFrame mirip dengan lembar kerja Excel atau tabel dalam basis data.

Pandas juga menyediakan berbagai fungsi dan metode untuk membaca dan menulis data dari berbagai format, seperti CSV, Excel, SQL database, dan banyak lagi. Ini memungkinkan pengguna untuk memuat data dari berbagai sumber, melakukan manipulasi dan transformasi data, serta melakukan analisis statistik dengan mudah.

Dengan menggunakan Pandas, Anda dapat melakukan berbagai operasi pada data, seperti filtering, pengelompokan, agregasi, penggabungan, dan transformasi data. Pustaka ini juga berintegrasi dengan baik dengan pustaka lain seperti NumPy, Matplotlib, dan SciPy, sehingga memungkinkan Anda untuk melakukan analisis data yang komprehensif.

# Import pandas in jupyter notebook :

In [10]:
import pandas as pd

In [11]:
df = pd.read_csv("weather_data.csv")
df

Unnamed: 0,day,temperature,windspeed,event
0,1/1/2017,32,6,Rain
1,1/2/2017,35,7,Sunny
2,1/3/2017,28,2,Snow
3,1/4/2017,24,7,Snow
4,1/5/2017,32,4,Rain
5,1/6/2017,31,2,Sunny


# Create dataframeusing python dictionary :

In [12]:
weather_data = {
    'day': ['1/1/2017','1/2/2017','1/3/2017','1/4/2017','1/5/2017','1/6/2017'],
    'temperature': [32,35,28,24,32,31],
    'windspeed': [6,7,2,7,4,2],
    'event': ['Rain', 'Sunny', 'Snow','Snow','Rain', 'Sunny']
}
df = pd.DataFrame(weather_data)
df

Unnamed: 0,day,temperature,windspeed,event
0,1/1/2017,32,6,Rain
1,1/2/2017,35,7,Sunny
2,1/3/2017,28,2,Snow
3,1/4/2017,24,7,Snow
4,1/5/2017,32,4,Rain
5,1/6/2017,31,2,Sunny


Jumlah Kolom :

In [13]:
rows,columns = df.shape
#menampilkan jumlah kolom
columns


4

In [14]:
#menampilkan jumlah baris
rows

6

# Use Head Method :

In [15]:
df.head(2)

Unnamed: 0,day,temperature,windspeed,event
0,1/1/2017,32,6,Rain
1,1/2/2017,35,7,Sunny


#maka akan menampilkan 2 data

# Use Tail Method : 

In [16]:
df.tail(1)

Unnamed: 0,day,temperature,windspeed,event
5,1/6/2017,31,2,Sunny


# Use Indexing and slicing in dataframe

In [17]:
df[2:5]

Unnamed: 0,day,temperature,windspeed,event
2,1/3/2017,28,2,Snow
3,1/4/2017,24,7,Snow
4,1/5/2017,32,4,Rain


In [18]:
df.columns

Index(['day', 'temperature', 'windspeed', 'event'], dtype='object')

In [19]:
df['event']

0     Rain
1    Sunny
2     Snow
3     Snow
4     Rain
5    Sunny
Name: event, dtype: object

# What is the type of your dataframe?

In [20]:
type(df['event'])

pandas.core.series.Series

In [21]:
df[['event','day','temperature']]

Unnamed: 0,event,day,temperature
0,Rain,1/1/2017,32
1,Sunny,1/2/2017,35
2,Snow,1/3/2017,28
3,Snow,1/4/2017,24
4,Rain,1/5/2017,32
5,Sunny,1/6/2017,31


# Operations with your dataframe

In [22]:
df

Unnamed: 0,day,temperature,windspeed,event
0,1/1/2017,32,6,Rain
1,1/2/2017,35,7,Sunny
2,1/3/2017,28,2,Snow
3,1/4/2017,24,7,Snow
4,1/5/2017,32,4,Rain
5,1/6/2017,31,2,Sunny


In [23]:
df['temperature']

0    32
1    35
2    28
3    24
4    32
5    31
Name: temperature, dtype: int64

# Use max() method 

In [24]:
df[['temperature']].max()

temperature    35
dtype: int64

In [25]:
df['temperature'].max()

35

# Use min() method 

In [26]:
df['temperature'].min()

24

# Use mean() method 

In [27]:
df['temperature'].mean()

30.333333333333332

# Use describe() method

In [28]:
df.describe()

Unnamed: 0,temperature,windspeed
count,6.0,6.0
mean,30.333333,4.666667
std,3.829708,2.33809
min,24.0,2.0
25%,28.75,2.5
50%,31.5,5.0
75%,32.0,6.75
max,35.0,7.0


# Conditional select the data in your dataframe

In [29]:
df[df.temperature==df['temperature'].max()]

Unnamed: 0,day,temperature,windspeed,event
1,1/2/2017,35,7,Sunny


In [30]:
df[['day','temperature']][df.temperature==df['temperature'].max()]

Unnamed: 0,day,temperature
1,1/2/2017,35


# Pandas operations list

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

# Use set_index() method

In [31]:
df.index

RangeIndex(start=0, stop=6, step=1)

In [32]:
df.set_index('day',inplace=True)

In [33]:
df

Unnamed: 0_level_0,temperature,windspeed,event
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1/1/2017,32,6,Rain
1/2/2017,35,7,Sunny
1/3/2017,28,2,Snow
1/4/2017,24,7,Snow
1/5/2017,32,4,Rain
1/6/2017,31,2,Sunny


In [34]:
df.loc['1/3/2017']

temperature      28
windspeed         2
event          Snow
Name: 1/3/2017, dtype: object

In [41]:
#indexing(numpy)
df.iloc[:,2]

day
1/1/2017     Rain
1/2/2017    Sunny
1/3/2017     Snow
1/4/2017     Snow
1/5/2017     Rain
1/6/2017    Sunny
Name: event, dtype: object

# 