### Przydatne funkcje i metody

**.set_index** - ustawienie danej kolumny jako indeksu
**.reset_index** - resetuje indeks do wartości domyślnych

**.is_unique** - sprawdza czy wartości są unikalne

**.loc** (nazwa od locate) - przeszukuje DataFrame po indeksach np koty.loc['Molek']
**.iloc** - bardzo podobna do loc, z tą różnicą, że funkcja iloc korzysta tylko i wyłącznie z wartości numerycznych indeksów. Nawet jeżeli indeks wierszy jest ustawiony na region i nawet jeżeli nasze kolumny mają nazwy, funkcją iloc przyjmie tylko numery wierszy i kolumn

**.head()** - wyświetli (domyślnie 5) pierwszych rekordów
**.tail()** - wyświetli (domyślnie 5) ostatnich rekordów
**.sample()** - wyświetli losowo wybrany rekord (domyślnie 1 rekord)

## Import pliku

Najczęściej używane:
* read_csv()
* read_excel()
* read_html()
* read_json()
* read_sql()

**UWAGA:** *Ścieżki plików działają również z adresami URL*

In [209]:
from pandas import read_csv, set_option

set_option('display.max_rows', None)  # wyświetlanie wszystkich wierszy w wynikach

iris = read_csv('https://raw.githubusercontent.com/scikit-learn/scikit-learn/main/sklearn/datasets/data/iris.csv')
iris.head()

Unnamed: 0,150,4,setosa,versicolor,virginica
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


##### Przydatne atrybuty podczas tworzenia DataFrame.

**skiprow** - pominięcie podczas tworzenia DataFrame określonej ilości wierszy (np. nagłówków).
**names** - utworzenie własnych nazw nagłówków.

In [210]:
url = 'https://raw.githubusercontent.com/scikit-learn/scikit-learn/main/sklearn/datasets/data/iris.csv'
iris = read_csv(url, skiprows=1, names=['Sepal length', 'Sepal width', 'Petal length', 'Petal width', 'Species'])
iris

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
5,5.4,3.9,1.7,0.4,0
6,4.6,3.4,1.4,0.3,0
7,5.0,3.4,1.5,0.2,0
8,4.4,2.9,1.4,0.2,0
9,4.9,3.1,1.5,0.1,0


##### Zamiana wartości w kolumnie za pomocą .replace()

In [211]:
iris['Species'].replace({
    0: 'setosa',
    1: 'virginca',
    2: 'versicolor'
}, inplace=True)

iris

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


**UWAGA:** ***inplace = True*** wprowadza zmiany do DataFrame na stałe

In [212]:
# Tworzymy nowy DataFrame w losowej kolejności z oryginalnego DataFrame, a następnie resetujemy indeksy
chaos_iris = iris.sample(frac=1.0).reset_index(drop=True)  # parametr frac -> weź 100% danych
chaos_iris

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Species
0,6.7,2.5,5.8,1.8,versicolor
1,5.0,3.4,1.6,0.4,setosa
2,4.8,3.1,1.6,0.2,setosa
3,4.6,3.2,1.4,0.2,setosa
4,6.3,2.5,4.9,1.5,virginca
5,5.5,2.5,4.0,1.3,virginca
6,5.8,2.8,5.1,2.4,versicolor
7,6.8,3.2,5.9,2.3,versicolor
8,6.1,3.0,4.6,1.4,virginca
9,5.0,3.4,1.5,0.2,setosa


In [213]:
# Spośród wszystkich danych wybieramy tylko te, które pasują do naszego zapytania
iris[iris['Species'] == 'setosa']

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [214]:
oscars = read_csv('dane/oscars.csv')
oscars.head(20)

Unnamed: 0,year,category,winner,entity
0,1927,ACTOR,False,Richard Barthelmess
1,1927,ACTOR,True,Emil Jannings
2,1927,ACTRESS,False,Louise Dresser
3,1927,ACTRESS,True,Janet Gaynor
4,1927,ACTRESS,False,Gloria Swanson
5,1927,ART DIRECTION,False,Rochus Gliese
6,1927,ART DIRECTION,True,William Cameron Menzies
7,1927,ART DIRECTION,False,Harry Oliver
8,1927,CINEMATOGRAPHY,False,George Barnes
9,1927,CINEMATOGRAPHY,True,Charles Rosher


In [215]:
where1 = oscars['entity'] == 'Brad Pitt'
oscars[where1]

Unnamed: 0,year,category,winner,entity
7979,1995,ACTOR IN A SUPPORTING ROLE,False,Brad Pitt
9689,2008,ACTOR IN A LEADING ROLE,False,Brad Pitt
10083,2011,ACTOR IN A LEADING ROLE,False,Brad Pitt
11202,2019,ACTOR IN A SUPPORTING ROLE,True,Brad Pitt


In [216]:
category_actors1 = oscars['category'] == 'ACTOR IN A LEADING ROLE'
category_actors2 = oscars['category'] == 'ACTOR'
winners = oscars['winner'] == True

winners_actors = oscars[winners & (category_actors1 | category_actors2)]  # filtrowanie wg przygotowanych zapytań
winners_actors = winners_actors.drop(columns=['category', 'winner'])  # wyrzucenie zbędnych kolumn
winners_actors = winners_actors.set_index('year')  # ustawienie indeksu na kolumnę year
winners_actors.index.names = ['Year']  # Zmiana nazwy indeksów na Year
winners_actors = winners_actors.rename(columns={'entity': 'Actor'})  # zmiana nazwy kolumny

winners_actors

Unnamed: 0_level_0,Actor
Year,Unnamed: 1_level_1
1927,Emil Jannings
1928,Warner Baxter
1929,George Arliss
1930,Lionel Barrymore
1931,Wallace Beery
1931,Fredric March
1932,Charles Laughton
1934,Clark Gable
1935,Victor McLaglen
1936,Paul Muni


In [217]:
winners_actors[winners_actors.duplicated(keep=False)]  # parametr keep ustawiony na false wskazuje wszystkie zduplikowane wiersze

Unnamed: 0_level_0,Actor
Year,Unnamed: 1_level_1
1931,Fredric March
1937,Spencer Tracy
1938,Spencer Tracy
1941,Gary Cooper
1946,Fredric March
1952,Gary Cooper
1954,Marlon Brando
1972,Marlon Brando
1975,Jack Nicholson
1979,Dustin Hoffman


In [218]:
winners_actors.value_counts() # zlicza identyczne wystąpienia w kolumnie

Actor                 
Gary Cooper               2
Dustin Hoffman            2
Tom Hanks                 2
Spencer Tracy             2
Marlon Brando             2
Sean Penn                 2
Jack Nicholson            2
Fredric March             2
Daniel Day-Lewis          2
Nicolas Cage              1
Peter Finch               1
Paul Scofield             1
Paul Newman               1
Paul Muni                 1
Paul Lukas                1
Adrien Brody              1
Michael Douglas           1
Maximilian Schell         1
Lionel Barrymore          1
Leonardo DiCaprio         1
Lee Marvin                1
Laurence Olivier          1
Kevin Spacey              1
Matthew McConaughey       1
Ray Milland               1
Philip Seymour Hoffman    1
Ronald Colman             1
William Hurt              1
William Holden            1
Warner Baxter             1
Wallace Beery             1
Victor McLaglen           1
Sidney Poitier            1
Russell Crowe             1
Rod Steiger              

In [230]:

renee = oscars['entity']=='Renée Zellweger'
oscars[renee]

Unnamed: 0,year,category,winner,entity
8799,2001,ACTRESS IN A LEADING ROLE,False,Renée Zellweger
8936,2002,ACTRESS IN A LEADING ROLE,False,Renée Zellweger
9068,2003,ACTRESS IN A SUPPORTING ROLE,True,Renée Zellweger
11207,2019,ACTRESS IN A LEADING ROLE,True,Renée Zellweger
