### Przydatne funkcje i metody

**.set_index** - ustawienie danej kolumny jako indeksu
**.reset_index** - resetuje indeks do wartości domyślnych

**.is_unique** - sprawdza czy wartości są unikalne

**.loc** (nazwa od locate) - przeszukuje DataFrame po indeksach np koty.loc['Molek']
**.iloc** - bardzo podobna do loc, z tą różnicą, że funkcja iloc korzysta tylko i wyłącznie z wartości numerycznych indeksów. Nawet jeżeli indeks wierszy jest ustawiony na region i nawet jeżeli nasze kolumny mają nazwy, funkcją iloc przyjmie tylko numery wierszy i kolumn

**.head()** - wyświetli (domyślnie 5) pierwszych rekordów
**.tail()** - wyświetli (domyślnie 5) ostatnich rekordów
**.sample()** - wyświetli losowo wybrany rekord (domyślnie 1 rekord)

## Import pliku

Najczęściej używane:
* read_csv()
* read_excel()
* read_html()
* read_json()
* read_sql()

**UWAGA:** *Ścieżki plików działają również z adresami URL*

In [89]:
from pandas import read_csv

iris = read_csv('https://raw.githubusercontent.com/scikit-learn/scikit-learn/main/sklearn/datasets/data/iris.csv')
iris.head()

Unnamed: 0,150,4,setosa,versicolor,virginica
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


##### Przydatne atrybuty podczas tworzenia DataFrame.

**skiprow** - pominięcie podczas tworzenia DataFrame określonej ilości wierszy (np. nagłówków).
**names** - utworzenie własnych nazw nagłówków.

In [90]:
url = 'https://raw.githubusercontent.com/scikit-learn/scikit-learn/main/sklearn/datasets/data/iris.csv'
iris = read_csv(url, skiprows=1, names=['Sepal length', 'Sepal width', 'Petal length', 'Petal width', 'Species'])
iris

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


##### Zamiana wartości w kolumnie za pomocą .replace()

In [91]:
iris['Species'].replace({
    0: 'setosa',
    1: 'virginca',
    2: 'versicolor'
}, inplace=True)

iris

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,versicolor
146,6.3,2.5,5.0,1.9,versicolor
147,6.5,3.0,5.2,2.0,versicolor
148,6.2,3.4,5.4,2.3,versicolor


**UWAGA:** ***inplace = True*** wprowadza zmiany do DataFrame na stałe

In [92]:
# Tworzymy nowy DataFrame w losowej kolejności z oryginalnego DataFrame, a następnie resetujemy indeksy
chaos_iris = iris.sample(frac=1.0).reset_index(drop=True)  # parametr frac -> weź 100% danych
chaos_iris

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Species
0,6.7,2.5,5.8,1.8,versicolor
1,5.9,3.0,4.2,1.5,virginca
2,6.1,2.8,4.7,1.2,virginca
3,7.6,3.0,6.6,2.1,versicolor
4,6.2,3.4,5.4,2.3,versicolor
...,...,...,...,...,...
145,5.8,2.7,3.9,1.2,virginca
146,4.6,3.1,1.5,0.2,setosa
147,6.4,3.2,5.3,2.3,versicolor
148,6.7,3.0,5.0,1.7,virginca


In [93]:
# Spośród wszystkich danych wybieramy tylko te, które pasują do naszego zapytania
iris[iris['Species'] == 'setosa']

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [100]:
oscars = read_csv('dane/oscars.csv')
oscars.head(20)

Unnamed: 0,year,category,winner,entity
0,1927,ACTOR,False,Richard Barthelmess
1,1927,ACTOR,True,Emil Jannings
2,1927,ACTRESS,False,Louise Dresser
3,1927,ACTRESS,True,Janet Gaynor
4,1927,ACTRESS,False,Gloria Swanson
5,1927,ART DIRECTION,False,Rochus Gliese
6,1927,ART DIRECTION,True,William Cameron Menzies
7,1927,ART DIRECTION,False,Harry Oliver
8,1927,CINEMATOGRAPHY,False,George Barnes
9,1927,CINEMATOGRAPHY,True,Charles Rosher


In [101]:
where1 = oscars['entity'] == 'Brad Pitt'
oscars[where1]

Unnamed: 0,year,category,winner,entity
7979,1995,ACTOR IN A SUPPORTING ROLE,False,Brad Pitt
9689,2008,ACTOR IN A LEADING ROLE,False,Brad Pitt
10083,2011,ACTOR IN A LEADING ROLE,False,Brad Pitt
11202,2019,ACTOR IN A SUPPORTING ROLE,True,Brad Pitt
