<a href="https://colab.research.google.com/github/ArkSze78/Data-Science_Bootcamp/blob/main/02_analiza_danych/01_pandas_intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

* @author: krakowiakpawel9@gmail.com  
* @site: e-smartdata.org

### Pandas
>Strona biblioteki: [https://pandas.pydata.org/](https://pandas.pydata.org/)  
>Dokumentacja: [https://pandas.pydata.org/pandas-docs/stable/](https://pandas.pydata.org/pandas-docs/stable/)
>
>Podstawowa biblioteka do analizy danych w języku Python.
>
>Aby zainstalować bibliotekę Pandas użyj polecenia poniżej:
```
pip install pandas
```
### Spis treści:
1. [Podstawowe struktury danych: pd.Series](#a1)
2. [Podstawowe struktury danych: pd.DataFrame](#a2)
3. [Selekcja kolumn](#a3)



In [1]:
import pandas as pd
pd.__version__

'2.2.2'

### <a name='a1'></a>  Podstawowe struktury danych: pd.Series

In [2]:
s = pd.Series(data=[3, 2, 4, 6])
s

Unnamed: 0,0
0,3
1,2
2,4
3,6


In [3]:
s = pd.Series(data=[3, 2, 4, 6], index=['a', 'b', 'c', 'd'], name='sample')
s

Unnamed: 0,sample
a,3
b,2
c,4
d,6


In [4]:
s = pd.Series(data=[3., 2, 4, 6], index=['a', 'b', 'c', 'd'], name='sample')
s

Unnamed: 0,sample
a,3.0
b,2.0
c,4.0
d,6.0


In [5]:
import numpy as np
s = pd.Series(data=[3., np.nan, 4, 6]
    ,index=['a', 'b', 'c', 'd'], name='sample')
s

Unnamed: 0,sample
a,3.0
b,
c,4.0
d,6.0


In [6]:
s = pd.Series(data=[True, False, False])
s

Unnamed: 0,0
0,True
1,False
2,False


In [7]:
s = pd.Series(data=np.arange(10, 20), index=pd.date_range(start='20200101', periods=10), name='sample')
s

Unnamed: 0,sample
2020-01-01,10
2020-01-02,11
2020-01-03,12
2020-01-04,13
2020-01-05,14
2020-01-06,15
2020-01-07,16
2020-01-08,17
2020-01-09,18
2020-01-10,19


In [8]:
s.index

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

In [9]:
s = pd.Series(data=['python', 'java', 'sql'], name='languages')
s

Unnamed: 0,languages
0,python
1,java
2,sql


In [10]:
type(s)

In [11]:
# atrybuty objektow typu Series
s.index

RangeIndex(start=0, stop=3, step=1)

In [12]:
s.values

array(['python', 'java', 'sql'], dtype=object)

In [13]:
s.dtypes

dtype('O')

In [14]:
s.shape

(3,)

In [15]:
price = pd.Series(data={'Apple': 200, 'CD Project': 60, 'Amazon': 1900, 'KGHM': np.nan})
price

Unnamed: 0,0
Apple,200.0
CD Project,60.0
Amazon,1900.0
KGHM,


Wycinanie danych z obietku typu Series

In [16]:
# zwracanie wartosci po kluczu
price['CD Project']

np.float64(60.0)

In [17]:
# zwracanie po indeksie
price[1]

  price[1]


np.float64(60.0)

Podstawowe funkcje w bibliotece pandas do analizy danych


In [18]:
price.count()

np.int64(3)

In [19]:
price.value_counts()
# bada ilosc wystapien poszczegolnych wartosci

Unnamed: 0,count
200.0,1
60.0,1
1900.0,1


In [20]:
price.sum()

np.float64(2160.0)

In [21]:
price.max()

1900.0

In [22]:
price.min()

60.0

In [23]:
price.std()

1024.3046421841502

In [24]:
# describe() - funkcja opisuje obiekt Series i zwracajac dane statystyczne (min, max, kwartyle, count...)
price.describe()

Unnamed: 0,0
count,3.0
mean,720.0
std,1024.304642
min,60.0
25%,130.0
50%,200.0
75%,1050.0
max,1900.0


In [25]:
# co gdy w jednym z wierszy jest wartosc nan
price.value_counts(dropna=False)

Unnamed: 0,count
200.0,1
60.0,1
1900.0,1
,1


In [26]:
# wybieranie top n ilosci obiektow
price.nlargest(n=2)

Unnamed: 0,0
Amazon,1900.0
Apple,200.0


In [27]:
price.nsmallest(n=2)

Unnamed: 0,0
CD Project,60.0
Apple,200.0


In [28]:
# zwracanie rankingu danych
price.rank()

Unnamed: 0,0
Apple,2.0
CD Project,1.0
Amazon,3.0
KGHM,


In [29]:
# sortowanie danych
price.sort_values()

Unnamed: 0,0
CD Project,60.0
Apple,200.0
Amazon,1900.0
KGHM,


In [30]:
price.sort_values(ascending=False)

Unnamed: 0,0
Amazon,1900.0
Apple,200.0
CD Project,60.0
KGHM,


In [35]:
# Metoda apply -> do customizacji np przeliczenia w/w wartosci na PLN
price_pln = price.apply(lambda x: x * 3.8)
# apply mozemy przekazac np zdefiniowana funkcje def lub proste przeliczenie
# w labda
price_pln

Unnamed: 0,0
Apple,760.0
CD Project,228.0
Amazon,7220.0
KGHM,


In [33]:
# zmiany nie zostaly zapisane w objekcie
price

Unnamed: 0,0
Apple,200.0
CD Project,60.0
Amazon,1900.0
KGHM,


### <a name='a2'></a>  Podstawowe struktury danych: pd.DataFrame


### <a name='a3'> </a> Selekcja kolumn