<a href="https://colab.research.google.com/github/MikolajKasprzyk/data_science_bootcamp/blob/main/02_analiza_danych/01_pandas_intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Spis treści:
1. [Podstawowe struktury danych: pd.Series](#a1)
2. [Podstawowe struktury danych: pd.DataFrame](#a2)
3. [Selekcja kolumn](#a3)

In [2]:
import pandas as pd
pd.__version__

'1.5.3'

### <a name='a1'></a>  Podstawowe struktury danych: pd.Series

In [5]:
s = pd.Series(data=[3, 2, 4, 6]) # domyślnie przypisuje indexy
s

0    3
1    2
2    4
3    6
dtype: int64

In [7]:
# indeksy mozemy zmieniać, np uzywac daty
s = pd.Series(data=[3, 2, 4, 6], index=['A', 'B', 'C', 'D'], name='sample')
s

A    3
B    2
C    4
D    6
Name: sample, dtype: int64

### <a name='a2'></a>  Podstawowe struktury danych: pd.DataFrame


In [8]:
# typy danych automatycznie jak w numpy
s = pd.Series(data=[3., 2, 4, 6], index=['A', 'B', 'C', 'D'], name='sample')
s

A    3.0
B    2.0
C    4.0
D    6.0
Name: sample, dtype: float64

In [10]:
# braki danych
import numpy as np

s = pd.Series(data=[3., np.nan, 4, 6], index=['A', 'B', 'C', 'D'], name='sample')

# tu przy oblicznieach wartosc NaN nie jest brana pod uwage

In [None]:
s = pd.Series([True, False, False])
s

In [23]:
s = pd.Series(data=np.arange(10, 20), 
              index=pd.date_range(start='20200101', periods=10))
s.index

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

In [25]:
s = pd.Series(data=['python', 'java', 'sql'], name='languages')
s

0    python
1      java
2       sql
Name: languages, dtype: object

In [20]:
type(s)

pandas.core.series.Series

In [27]:
# Atrybuty obiektu Series
s.index
s.values

array(['python', 'java', 'sql'], dtype=object)

In [29]:
s.dtypes # zwraca typ danych w seriii
s.shape # kształt danych (w serii ilość)

(3,)

In [31]:
price = pd.Series(data={'Apple':200, 'CD Projekt':60, 'Amazon':1900})
price

Apple          200
CD Projekt      60
Amazon        1900
dtype: int64

In [33]:
price['CD Projekt'] # wycinanie wartości po kluczu

60

In [34]:
price[1] # zawsze mozemy wpisac nr indeksu, numeracja startuje od 0

60

In [35]:
price.count() # zlicza ilość elementów

3

In [39]:
price.value_counts() # ilość wystąpień danej wartości

200     1
60      1
1900    1
dtype: int64

In [None]:
price.sum() # sumuje wartości
price.max()
price.min()
price.std()

In [40]:
price.describe() # podstawowe dane serii

count       3.000000
mean      720.000000
std      1024.304642
min        60.000000
25%       130.000000
50%       200.000000
75%      1050.000000
max      1900.000000
dtype: float64

In [41]:
# dodajemy brakującą wartość NaN
price = pd.Series(data={'Apple':200, 'CD Projekt':60, 'Amazon':1900, 'KGHM':np.nan})
price

Apple          200.0
CD Projekt      60.0
Amazon        1900.0
KGHM             NaN
dtype: float64

In [42]:
price.value_counts() # wartość NaN jest automatycznie pomijana

200.0     1
60.0      1
1900.0    1
dtype: int64

In [43]:
# mozna tez sprawdzic liczbe brakujacych wartosci
price.value_counts(dropna=False)

200.0     1
60.0      1
1900.0    1
NaN       1
dtype: int64

In [44]:
price.nlargest(2) # zadane najwyzsze pozycje

Amazon    1900.0
Apple      200.0
dtype: float64

In [45]:
price.nsmallest(2) # najniższe wartosci

CD Projekt     60.0
Apple         200.0
dtype: float64

In [46]:
price.rank() # zwraca obiekt z przypisanym miejscem od najmniejszego

Apple         2.0
CD Projekt    1.0
Amazon        3.0
KGHM          NaN
dtype: float64

In [47]:
price.sort_values() # sortuje po wartosciach

CD Projekt      60.0
Apple          200.0
Amazon        1900.0
KGHM             NaN
dtype: float64

In [51]:
# metoda apply()
price.apply(lambda x: x * 3.8) # kazda wartosc zmieniana zadana funkją

# zmiany nie są zmienione w oryginalnym obiekcie, mozna napisać lub zrobic nowy

price_pln = price.apply(lambda x: x * 3.8)
price_pln

Apple          760.0
CD Projekt     228.0
Amazon        7220.0
KGHM             NaN
dtype: float64

### <a name='a2'></a>  Podstawowe struktury danych: pd.DataFrame

In [52]:
# jak series jest serią danych tak data frame jest tabelą
df = pd.DataFrame(data=[12, 12, 32])
df

Unnamed: 0,0
0,12
1,12
2,32


In [53]:
df = pd.DataFrame(data=[12, 12, 32], index=['first', 'second', 'third'], 
                  columns=['col_1'])
df

Unnamed: 0,col_1
first,12
second,12
third,32


In [54]:
df = pd.DataFrame(data={'WIG20':['PKN ORLEN', 'PKO BP'],
                        'mWIG40':['Amica', 'Playway']})
df

Unnamed: 0,WIG20,mWIG40
0,PKN ORLEN,Amica
1,PKO BP,Playway


In [58]:
df = pd.DataFrame(data=[[12, 13, 14], [23, 34, 56]], index=['first', 'second'], 
                  columns=['col_1', 'col_2', 'col_3'])
df

Unnamed: 0,col_1,col_2,col_3
first,12,13,14
second,23,34,56


In [59]:
df.columns # nazwy kolumn

Index(['col_1', 'col_2', 'col_3'], dtype='object')

In [60]:
df.index # lista indeksów

Index(['first', 'second'], dtype='object')

In [61]:
df.values 

array([[12, 13, 14],
       [23, 34, 56]])

In [63]:
df.info() # zwraca infoemacje o obiekcie

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, first to second
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   col_1   2 non-null      int64
 1   col_2   2 non-null      int64
 2   col_3   2 non-null      int64
dtypes: int64(3)
memory usage: 172.0+ bytes


In [64]:
df.describe() # podstawowe statystyki

Unnamed: 0,col_1,col_2,col_3
count,2.0,2.0,2.0
mean,17.5,23.5,35.0
std,7.778175,14.849242,29.698485
min,12.0,13.0,14.0
25%,14.75,18.25,24.5
50%,17.5,23.5,35.0
75%,20.25,28.75,45.5
max,23.0,34.0,56.0


In [65]:
df.describe().T # transpozycja podstawowych statystyk

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
col_1,2.0,17.5,7.778175,12.0,14.75,17.5,20.25,23.0
col_2,2.0,23.5,14.849242,13.0,18.25,23.5,28.75,34.0
col_3,2.0,35.0,29.698485,14.0,24.5,35.0,45.5,56.0


### <a name='a3'> </a> Selekcja kolumn

In [66]:
df

Unnamed: 0,col_1,col_2,col_3
first,12,13,14
second,23,34,56


In [67]:
df['col_1']

first     12
second    23
Name: col_1, dtype: int64

In [69]:
type(df['col_1']) # jedna kolumna pd.DataFrame to pd.Series

pandas.core.series.Series

In [70]:
df[['col_1']] # przy takim zapisie zwraca pd.DataFrame

Unnamed: 0,col_1
first,12
second,23


In [71]:
type(df[['col_1']])

pandas.core.frame.DataFrame

In [73]:
df.columns = ['a', 'b', 'c'] # zmiana nazw kolumn
df

Unnamed: 0,a,b,c
first,12,13,14
second,23,34,56


In [74]:
df.a # nazwa kolumny jako atrybut, nie zawsze da sie tak to zapisać, np spacja w nazwie

first     12
second    23
Name: a, dtype: int64

In [77]:
df['d'] = df.a + df.c # dodawanie nowej kolumny
df

Unnamed: 0,a,b,c,d
first,12,13,14,26
second,23,34,56,79


In [78]:
df = pd.DataFrame(data=[[12, 13, 14], [23, 34, 56]], index=['first', 'second'], 
                  columns=['col_1', 'col_2', 'col_3'])

In [79]:
# metoda loc
df.loc['first'] # wycinanie zadanego wiersza po jego nazwie

col_1    12
col_2    13
col_3    14
Name: first, dtype: int64

In [81]:
df.iloc[0] # wycinanie zadanego wiersza po jego numerze (od 0)

col_1    12
col_2    13
col_3    14
Name: first, dtype: int64

In [82]:
df.loc['first', 'col_2'] # dana wartosc

13

In [83]:
df.loc[:, 'col_2'] # cala kolumna 2

first     13
second    34
Name: col_2, dtype: int64

In [84]:
df.iloc[0, 1] # jak wyżej tylko numer zamiast nazwy

13

In [86]:
df.iloc[:, 1] # jak wyżej tylko numer zamiast nazwy

first     13
second    34
Name: col_2, dtype: int64