### 3.Pandas - kluczowy pakiet do danych tabelarycznych

Pandas to popularna biblioteka programistyczna w języku Python, która jest używana do manipulacji i analizy danych. Jest to potężne narzędzie, które ułatwia wczytywanie, przekształcanie, eksplorację i analizę danych w formie tabelarycznej, takich jak arkusze kalkulacyjne lub bazy danych.

##### Główne cechy i funkcje biblioteki Pandas:

1. Struktury danych: Pandas wprowadza dwie główne struktury danych: Series i DataFrame.

- Series: To jednowymiarowa tablica danych, podobna do kolumny w arkuszu kalkulacyjnym lub kolumny w bazie danych. Series można traktować jako uporządkowany zestaw danych z indeksem.

- DataFrame: To dwuwymiarowa struktura danych, która przypomina tabelę lub arkusz kalkulacyjny. DataFrame składa się z kolumn i wierszy, a każda kolumna może zawierać różne typy danych.

2. Wczytywanie i zapisywanie danych: Pandas umożliwia wczytywanie danych z różnych źródeł, takich jak pliki CSV, Excel, SQL, JSON i wiele innych. Możesz również zapisywać dane do tych formatów.

3. Indeksowanie i selekcja danych: Pandas oferuje różnorodne mechanizmy indeksowania i selekcji danych, co pozwala na dostęp do konkretnych kolumn, wierszy lub komórek danych w bardzo elastyczny sposób.

4. Operacje na danych: Biblioteka umożliwia wykonywanie różnych operacji na danych, takich jak filtrowanie, sortowanie, grupowanie, łączenie i wiele innych. Możesz także przeprowadzać operacje matematyczne na danych w sposób efektywny.

5. Obsługa brakujących danych: Pandas oferuje narzędzia do radzenia sobie z danymi brakującymi, takie jak usuwanie lub uzupełnianie brakujących wartości.

6. Analiza i eksploracja danych: Biblioteka ułatwia eksplorację danych poprzez obliczanie statystyk opisowych, generowanie wykresów i wizualizacji danych.

7. Obsługa szeregów czasowych: Pandas posiada wsparcie dla operacji na szeregach czasowych, co jest przydatne w analizie danych związanych z czasem.

8. Integracja z innymi narzędziami: Pandas można łatwo łączyć z innymi bibliotekami do analizy danych i uczenia maszynowego, takimi jak NumPy, SciPy, Matplotlib, scikit-learn i wiele innych.

9. Wsparcie społeczności: Pandas posiada aktywną społeczność użytkowników i deweloperów, co oznacza, że istnieje wiele dostępnych źródeł, tutoriali i materiałów do nauki.



##### Strona internetowa
- https://pandas.pydata.org/

##### Dokumentacja
- https://pandas.pydata.org/pandas-docs/stable/

##### Polecana strona
- https://www.dataschool.io/easier-data-analysis-with-pandas/

In [None]:
# pip install pandas

import pandas as pd
pd.__version__

### `pd.Series()` - Tablica jednowymiarowa zawierająca dane oraz ich indeksy
Series jest jednowymiarową tablicą z etykietowanym indeksem, która może przechowywać dowolny typ danych – liczby, tekst, wartości logiczne, daty itp. Jest to fundament, na którym buduje się bardziej złożone struktury danych w Pandas.

In [None]:
s = pd.Series(data=[1, 2, 3])
s

In [None]:
s = pd.Series(data=[1, 2, 3], index=['a', 'b', 'c'], name='test')
s

In [None]:
import numpy as np

s = pd.Series(data=[1, np.nan, 3], index=['a', 'b', 'c'], name='test')
s

In [None]:
s = pd.Series(data=[True, False, True])
s

In [None]:
s = pd.Series(data=np.arange(1, 11), index=pd.date_range(start='20240521', periods=10))
s

In [None]:
s.dtypes

Atrybut z indeksami jest obiektem typu `pd.Index`:

In [None]:
s.index # często będziemy się posługiwać tą metodą

Atrybut `.values` jest tablicą NumPy

In [None]:
s.values # często będziemy się posługiwać tą metodą

## Series vs tablica NumPy

Series uogólnia jednowymiarową tablicę NumPy:
* tablica NumPy posiada wewnętrzną indeksację w stylu Pythona (*implicit index*);
* Series posiada wewnętrzną indeksację w stylu Pythona plus indeksację za pomocą etykiet.

In [None]:
s = pd.Series([3, 1, 2.71, -10], index=['a', 'b', 'c', 'd'])
s

In [None]:
s['c']

Indeks etykiet może:
* nie zachowywać kolejności,
* posiadać luki,
* posiadać powtórzenia.

In [None]:
s = pd.Series([3, 1, 2.71, -10, 50], index=[3, 2, 5, 2, 100])
s

In [None]:
s = pd.Series(data=['python', 'sas', 'r'], name='jezyki')
s

## Series jako rodzaj słownika

Klucze słownika przechodzą na etykiety podczas przekształcania słownika na obiekt Series:

In [None]:
ludność_dict = {'Polska': 38501,
                'Czechy': 10221,
                'Szwecja': 9045,
                'Niemcy': 82370,
                'Litwa': 3565}

ludność = pd.Series(ludność_dict)
ludność

Indeks etykiet w obiekcie Series ma niektóre cechy kluczy słownika, np. dostęp do elementu:

In [None]:
ludność['Polska']

Etykieta jako atrybut, tego słowniki nie potrafią:

In [None]:
ludność.Polska # jak pisać żeby używać tej notacji (z _)

## Selekcja elementów z obiektu Series

Obiekt Series ma równocześnie cechy słownika i jednowymiarowej tablicy. 

Niektóre wzorce dostępu do elementów naśladują te ze słownika, inne te z tablicy jednowymiarowej.

Series jako słownik:

In [None]:
ludność['Czechy']

In [None]:
'Polska' in ludność

In [None]:
ludność.keys()

In [None]:
list(ludność.items())

Modyfikacja w miejscu:

In [None]:
ludność['Grecja'] = 10723
ludność

Series jako tablica jednowymiarowa pozwala na dostęp do wartości poprzez:
* wycinki,
* maskowanie,
* wymyślne indeksowanie.

In [None]:
# Wycinek indeksów z poziomu etykiet
ludność['Czechy':'Niemcy'] # Prawy kraniec zaliczony!

In [None]:
# Wycinek wewnętrznych indeksów Pythona
ludność[1:3] # Prawie kraniec wykluczony!

In [None]:
# Maskowanie
ludność[(10000 < ludność) & (ludność < 40000)]

In [None]:
# Indeksowanie wymyślne (fancy indexing), indeks etykiet
ludność[['Czechy', 'Grecja', 'Litwa']]

In [None]:
# Indeksowanie wymyślne (fancy indexing), indeks wewnętrzny Pythona
ludność[[2, 4, 2]]

In [None]:
ludność.iloc[[2, 4, 2]]

## Zagadka

In [None]:
s = pd.Series(['a', 'b', 'c'], index=[1, 2, 3])
s

Jaka wartość kryje się pod `s[2]`? Co zwróci `s[1:3]`?

In [None]:
s[2] # 2 z poziomu etykiet.

In [None]:
s[1:3] # Ale wycinek po indeksach wewnętrznych.

## Indeksery `loc`, `iloc`

* Atrybut `loc` zawsze odnosi się do indeksów z poziomu etykiet.
* Atrybut `iloc` zawsze odnosi się do indeksów wewnętrznych Pythona, czyli do zwykłej numeracji całkowitoliczbowej od zera w górę.

In [None]:
s = pd.Series(['a', 'b', 'c'], index=[1, 2, 3])
s

In [None]:
s.iloc[1], s.loc[1]

In [None]:
s.iloc[1:3] # Wyklucza prawy kraniec!

In [None]:
s.loc[1:3] # Włącza prawy kraniec!

In [None]:
#Statystyki

In [None]:
ceny_akcji = pd.Series(data={'Orlen': 70, 'PZU': 30, 'KGHM': 100})
ceny_akcji

In [None]:
ceny_akcji['Orlen']

In [None]:
ceny_akcji[0]

In [None]:
ceny_akcji.iloc[0]

In [None]:
ceny_akcji.count()

In [None]:
ceny_akcji.value_counts(dropna=False)

In [None]:
ceny_akcji.sum()

In [None]:
ceny_akcji.min()

In [None]:
ceny_akcji.max()

In [None]:
ceny_akcji.std()

In [None]:
ceny_akcji.describe()

In [None]:
ceny_akcji.nlargest(2)

In [None]:
ceny_akcji.nsmallest(2)

In [None]:
ceny_akcji.rank()

In [None]:
ceny_akcji.sort_values(ascending=False)

## `pd.Series()`

Funkcja `pd.Series()` pozwala na tworzenie obiektów Series wg. schematu
```python
pd.Series(dane, index=index)
```
Parametr `index` jest opcjonalny, parametr `dane` może przyjmować rozmaitą postać.

### `pd.DataFrame()` - Dwuwymiarowa tabela, w której kolumnami są obiekty Series.
pd.DataFrame() jest jedną z najbardziej wszechstronnych i podstawowych struktur danych oferowanych przez bibliotekę Pandas. DataFrame to dwuwymiarowa tablica danych, która może przechowywać dane o różnych typach (liczby, tekst, wartości logiczne, daty itp.) w kolumnach. Struktura ta jest podobna do arkusza kalkulacyjnego lub tabeli relacyjnej bazy danych, co czyni ją niezwykle użyteczną do analizy danych.

**W analizie danych DataFrame jest często przedstawiana jako tabela, w której kolumny to zmienne a wiersze to obserwacje.**

In [None]:
ludność_dict = {'Polska': 38501,
                'Czechy': 10221,
                'Szwecja': 9045,
                'Niemcy': 82370,
                'Litwa': 3565}

ludność = pd.Series(ludność_dict)
ludność

In [None]:
powierzchnia_dict = {'Polska': 322.6,
                     'Czechy': 78.9,
                     'Szwecja': 450,
                     'Niemcy': 357,
                     'Litwa': 65.3}

powierzchnia = pd.Series(powierzchnia_dict)
powierzchnia

In [None]:
kraje = pd.DataFrame({'powierzchnia': powierzchnia,
                      'ludność': ludność})
kraje

## DataFrame uogólnia tablicę 2D NumPy

Podobnie jak Series obiekty DataFrame posiadają dwa poziomy indeksów dla wierszy: 
* wewnętrzny z numeracją liczbami całkowitymi od zera,
* zbudowany z etykiet.

In [None]:
kraje.index

Dodatkowo DataFrame posiada indeks z etykietami kolumn. Jest to również obiekt klasy `pd.Index`:

In [None]:
kraje.columns

## DataFrame jako rodzaj słownika

Odpowiednikami kluczy słownika w obiekcie DataFrame są etykiety kolumn:

In [None]:
kraje['powierzchnia']

## Sposoby konstrukcji obiektów DataFrame

Z obiektu Series:

In [None]:
pd.DataFrame(ludność, columns=['ludność'])

Z listy słowników:

In [None]:
list_dict = [{'a': 1, 'b': 2, 'c': 100},
             {'b': 10, 'c': 'Ala'},
             {'a': 0, 'b': 0, 'c': 1, 'd': 2}]
pd.DataFrame(list_dict)

Ze słownika obiektów Series:

In [None]:
pd.DataFrame({'ludność': ludność,
              'powierzchnia': powierzchnia})

Z dwuwymiarowej tablicy NumPy:

In [None]:
import numpy as np
arr = np.arange(10).reshape(5, 2)
arr

In [None]:
pd.DataFrame(arr, index=['a', 'b', 'c', 'd', 'e'],
             columns=['X', 'Y'])

## Index

Cechy obiektu typu Index:
* niezmienny (*immutable*),
* uporządkowany,
* może zawierać powtórzenia.

Index jako niezmienna tablica:

In [None]:
ind = pd.Index([2, 4, 6, 4, 4, 10, 25])
ind

In [None]:
ind[0], ind[-1]

In [None]:
ind[::2]

In [None]:
ind.ndim, ind.shape, ind.size, ind.dtype

In [None]:
# Reset do indeksu domyślnego 0,1...n
kraje.reset_index()

In [None]:
# Ustawienie nowego indeksu
#kraje.set_index('index')

## Selekcja danych z ramki DataFrame

Ramka DataFrame ma równocześnie cechy słownika i dwuwymiarowej tablicy. 

Podobnie jak dla obiektów Series niektóre wzorce dostępu do elementów naśladują te ze słownika, inne te z tablicy dwywymiarowej.

Przypomnijmy ramkę `kraje`:

In [None]:
kraje

DataFrame jako słownik obiektów Series:

In [None]:
kraje['powierzchnia']

In [None]:
kraje.powierzchnia

Dostęp do kolumny poprzez nazwę atrybutu jest możliwy, gdy:
* nazwa kolumny jest poprawną nazwą zmiennej w języku Python,
* nazwa kolumny nie jest przesłonięta przez nazwę już istniejącego atrybutu.

Modyfikacja w miejscu:

In [None]:
kraje['gęstość zaludnienia'] = kraje.ludność / kraje.powierzchnia
kraje

DataFrame jako tablica 2D:

In [None]:
kraje.values

In [None]:
kraje.iloc[:3, :2] # Pierwsze trzy rzędy, pierwsze dwie kolumny.

In [None]:
kraje.iloc[3] # Czwarty rząd.

In [None]:
# Wycinki wzgledem indeksów z poziomu etykiet.
kraje.loc['Szwecja':'Litwa', 'ludność':] 

In [None]:
# Maskowanie
kraje[(kraje.powierzchnia > 100) & (kraje['gęstość zaludnienia'] < 200)]

In [None]:
# Wymyślne indeksowanie dla kolumn.
kraje[['powierzchnia', 'gęstość zaludnienia']]

In [None]:
# Wymyślne indeksowanie dla indeksów z poziomu etykiet.
kraje.loc[['Litwa', 'Polska'], ['ludność']]

In [None]:
# Kombinacja maskowania i wymyślnej indeksacji
kraje.loc[kraje.powierzchnia > 300, ['ludność']]

Stosowanie instrukcji przypisania do podanych wyżej selekcji prowadzi do modyfikacji ramki w miejscu:

In [None]:
df = pd.DataFrame([[1, 2], [3, 4], [10, 20]],
                  columns=['a', 'b'],
                  index=['x', 'y', 'z'])
df

In [None]:
df.loc[(df.a % 2 == 1), 'b'] = 'X'
df

### Operacje na `pd.DataFrame`

In [None]:
df = pd.DataFrame({'col one':[100, 200], 'col two':[300, 400]})
df

In [None]:
df = df.rename({'col one':'col_one', 'col two':'col_two'}, axis='columns')
df

In [None]:
df.columns = ['col_one', 'col_two'] # prostsza metoda
df

In [None]:
df.columns

In [None]:
df.index

In [None]:
df.values

In [None]:
df.info()

In [None]:
df.describe()

#### Dodadnie kolumny

In [None]:
df

In [None]:
df['col_three'] = df['col_two'] * 2
df

In [None]:
df.sum()

Aby wykonać operację uniwarsalną na ramce i obiekcie Series względem kolumn należy użyć metod z parametrem `axis`:

In [None]:
df.sum(axis=1)

***Usuwanie kolumny***

In [None]:
df

In [None]:
df.drop('col_three',axis=1)

In [None]:
# Usunięcie kolumny nie jest permanentne dopóki tego nie zadeklarujemy jawnie
# Kolumna cały czas jest!
df

In [None]:
df.drop('col_three', axis=1, inplace=True)
# df = df.drop('new', axis=1)
# df = df.drop(columns=['new'])

In [None]:
# Dopiero teraz jej nie ma
df

***Usunięcie wiersza***

In [None]:
df.drop(1)

In [None]:
df

### Braki danych

In [None]:
df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

In [None]:
df

In [None]:
df.dropna()

In [None]:
df.dropna(axis=1)

In [None]:
df.dropna(thresh=2)

In [None]:
df.fillna(value='BRAK')

In [None]:
df.fillna(value=0)

In [None]:
df['A'].fillna(value=df['A'].mean())

### Grupowanie (group by)

In [None]:
# Tworzymy ramkę danych
data = {'Company':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Person':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
       'Sales':[200,120,340,124,243,350]}

In [None]:
df = pd.DataFrame(data, dtype=)
df

In [None]:
df.dtypes

In [None]:
#df.groupby('Company').mean() # w pandasie 1.x działało

In [None]:
#od pandas 2.0
df.groupby('Company').mean(numeric_only=True)

In [None]:
# Przypisujemy grupę do zmiennej
by_comp = df.groupby("Company")
by_comp

In [None]:
# Wykonujemy agregację na grupie
by_comp.mean(numeric_only=True)

In [None]:
# Inne metody agregacji na grupie
by_comp.std(numeric_only=True)

In [None]:
by_comp.min(numeric_only=True)

In [None]:
by_comp.max(numeric_only=True)

In [None]:
by_comp.count()

In [None]:
by_comp.describe()

In [None]:
by_comp.describe().transpose()

In [None]:
by_comp.describe().transpose()['GOOG'].iloc[1]

### Daty - pd.Timestamp()
https://docs.python.org/3/library/datetime.html

In [None]:
data = pd.Timestamp.today()
data

In [None]:
'2024-06-11'

In [None]:
pd.Timestamp('2024-06-11')

In [None]:
data.strftime(format='%d%m%Y')

In [None]:
type(data)

In [None]:
data.year

In [None]:
data.day

In [None]:
data_dzis = data.strftime(format='%Y%m%d')

In [None]:
# zapis do Excela dowolnych statystyk z dzisiejszą datą 

df.groupby('Company').describe().to_excel(f'statystyki_{data_dzis}.xlsx')

## Łączenie danych
- https://pandas.pydata.org/docs/user_guide/merging.html

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

In [None]:
df1

In [None]:
df2

In [None]:
df3 # np. dane miesięczne/kwartalne łączymy w roczne

**Złączanie (concatenate)**

In [None]:
pd.concat([df1,df2,df3])

**Łączenie (merge)**

In [None]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
   
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})   

In [None]:
right

In [None]:
left

In [None]:
# Łączenie po kluczu
pd.merge(left,right,how='inner',on='key')

In [None]:
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
    
right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                               'key2': ['K0', 'K0', 'K0', 'K0'],
                                  'C': ['C0', 'C1', 'C2', 'C3'],
                                  'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
right

In [None]:
left

In [None]:
# Łączenie po dwóch kluczach
pd.merge(left, right, on=['key1', 'key2'])

In [None]:
pd.merge(left, right, how='outer', on=['key1', 'key2'])

In [None]:
pd.merge(left, right, how='right', on=['key1', 'key2'])

In [None]:
pd.merge(left, right, how='left', on=['key1', 'key2'])

**Łączenie (join)**

In [None]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [None]:
left

In [None]:
right

In [None]:
left.join(right)

In [None]:
left.join(right, how='outer')

### Operacje na ramkach danych

In [None]:
df = pd.DataFrame({'col1':[1,2,3,4],'col2':[444,555,666,444],'col3':['abc','def','ghi','xyz']})
df.head()

In [None]:
# Unikalne wartości
df['col2'].unique()

In [None]:
# Liczba unikalnych wartości
df['col2'].nunique()

In [None]:
# Liczba poszczególnych wartości
df['col2'].value_counts()

***Zastosowanie funkcji***

In [None]:
def times2(x):
    return x*2

In [None]:
df['col1'].apply(times2)

In [None]:
df['col1'].map(times2)

In [None]:
df['col1'].sum()

In [None]:
df['col3'].sum()

***Usuwanie kolumny na stałe***

In [None]:
del df['col1']

In [None]:
df

***Sortowanie***

In [None]:
df.sort_values(by='col2') #inplace=False by default

### Wczytywanie danych

In [None]:
df = pd.read_excel('data.xlsx', header=None)
# df.columns = ['DATA', 'TIMESTAMP', 'WYNIK']
df

In [None]:
df = pd.read_csv('data.csv', header=None)
df

In [None]:
df = pd.read_table('data.txt', header=None)
df

In [None]:
df = pd.read_table('data.txt', header=None, delimiter=',')

In [None]:
df[1].str.split(',', expand=True)

In [None]:
df = pd.concat([df[0], df[1].str.split(',', expand=True)], axis=1)
df

In [None]:
df.columns = ['0', '1', '2']
df

In [None]:
drinks = pd.read_csv('http://bit.ly/drinksbycountry')
movies = pd.read_csv('http://bit.ly/imdbratings')
orders = pd.read_csv('http://bit.ly/chiporders', sep='\t')
orders['item_price'] = orders.item_price.str.replace('$', '').astype('float')
stocks = pd.read_csv('http://bit.ly/smallstocks', parse_dates=['Date'])
titanic = pd.read_csv('http://bit.ly/kaggletrain')
ufo = pd.read_csv('http://bit.ly/uforeports', parse_dates=['Time'])

In [None]:
drinks.sort_values(by='wine_servings', ascending=False)

In [None]:
drinks.head()

In [None]:
drinks.tail()

#### Select columns by data type

In [None]:
drinks.dtypes

In [None]:
drinks.select_dtypes(include='number').head()

In [None]:
drinks.select_dtypes(include='object').head()

### Filtrowanie danych w DataFrame

In [None]:
drinks

In [None]:
drinks['country']

In [None]:
drinks.total_litres_of_pure_alcohol

In [None]:
drinks[['country', 'continent']]

In [None]:
drinks.loc[0]

In [None]:
drinks.loc[0, 'country']

In [None]:
drinks.loc[:, 'country']

In [None]:
drinks.iloc[:,0]

In [None]:
drinks.info()

In [None]:
drinks.describe() # 2 funkcje od których mozna zacząć analizę danych

In [None]:
drinks.describe(include='object')

In [None]:
drinks.continent.value_counts() # bardzo często używamy jako analitycy

In [None]:
drinks.continent.value_counts().plot(kind='bar'); #;

#### Warunki i filtry

In [None]:
drinks_europe = drinks[drinks.continent == 'Europe']
drinks_europe.head()

In [None]:
drinks_europe[drinks_europe.beer_servings >= 300]

In [None]:
drinks_europe.sort_values(by='total_litres_of_pure_alcohol', ascending=False)

In [None]:
drinks.groupby(by='continent')['total_litres_of_pure_alcohol'].mean()

### Porównanie do SQL

Wszystkto to co możemy zrobić za pomocą poleceń DML w języku SQL, możemy zrobić też w Pandas

In [None]:
movies

In [None]:
# SELECT star_rating, title FROM movies
movies[['star_rating', 'title']]

In [None]:
# SELECT star_rating, title FROM movies
movies[['star_rating', 'title']]

In [None]:
# SELECT * FROM movies WHERE genre='Crime';
movies[movies.genre == 'Crime']

In [None]:
# SELECT * FROM movies WHERE genre='Crime' and star_rating > 8;
movies[(movies.genre == 'Crime') & (movies.star_rating > 8)]

In [None]:
# SELECT genre, count(*), avg(star_rating) FROM movies GROUP BY genre;

#movies.groupby('genre').aggregate({'star_rating': np.mean, 'genre': np.size})
movies.groupby('genre').star_rating.aggregate(['count', 'mean'])

In [None]:
# SELECT * FROM movies ORDER BY Quantity DESC LIMIT 5;
movies.nlargest(n=5, columns='duration')