### Przydatne funkcje i metody

**.set_index** - ustawienie danej kolumny jako indeksu
**.reset_index** - resetuje indeks do wartości domyślnych

**.is_unique** - sprawdza czy wartości są unikalne

**.loc** (nazwa od locate) - przeszukuje DataFrame po indeksach np koty.loc['Molek']
**.iloc** - bardzo podobna do loc, z tą różnicą, że funkcja iloc korzysta tylko i wyłącznie z wartości numerycznych indeksów. Nawet jeżeli indeks wierszy jest ustawiony na region i nawet jeżeli nasze kolumny mają nazwy, funkcją iloc przyjmie tylko numery wierszy i kolumn

**.head()** - wyświetli (domyślnie 5) pierwszych rekordów
**.tail()** - wyświetli (domyślnie 5) ostatnich rekordów
**.sample()** - wyświetli losowo wybrany rekord (domyślnie 1 rekord)

## Import pliku

Najczęściej używane:
* read_csv()
* read_excel()
* read_html()
* read_json()
* read_sql()

**UWAGA:** *Ścieżki plików działają również z adresami URL*

In [1]:
from pandas import read_csv, set_option

set_option('display.max_rows', None)  # wyświetlanie wszystkich wierszy w wynikach

iris = read_csv('https://raw.githubusercontent.com/scikit-learn/scikit-learn/main/sklearn/datasets/data/iris.csv')
iris.head()

Unnamed: 0,150,4,setosa,versicolor,virginica
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


##### Przydatne atrybuty podczas tworzenia DataFrame.

**skiprow** - pominięcie podczas tworzenia DataFrame określonej ilości wierszy (np. nagłówków).
**names** - utworzenie własnych nazw nagłówków.

In [2]:
url = 'https://raw.githubusercontent.com/scikit-learn/scikit-learn/main/sklearn/datasets/data/iris.csv'
iris = read_csv(url, skiprows=1, names=['Sepal length', 'Sepal width', 'Petal length', 'Petal width', 'Species'])
iris

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
5,5.4,3.9,1.7,0.4,0
6,4.6,3.4,1.4,0.3,0
7,5.0,3.4,1.5,0.2,0
8,4.4,2.9,1.4,0.2,0
9,4.9,3.1,1.5,0.1,0


In [3]:
# Zamiana wartości w kolumnie za pomocą .replace()
iris['Species'].replace({
    0: 'setosa',
    1: 'virginca',
    2: 'versicolor'
}, inplace=True)

iris

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


**UWAGA:** ***inplace = True*** wprowadza zmiany do DataFrame na stałe

In [4]:
# Tworzymy nowy DataFrame w losowej kolejności z oryginalnego DataFrame, a następnie resetujemy indeksy
chaos_iris = iris.sample(frac=1.0).reset_index(drop=True)  # parametr frac -> weź 100% danych
chaos_iris

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Species
0,6.0,2.7,5.1,1.6,virginca
1,5.5,2.4,3.7,1.0,virginca
2,6.4,2.8,5.6,2.2,versicolor
3,5.7,2.5,5.0,2.0,versicolor
4,5.4,3.0,4.5,1.5,virginca
5,6.1,2.9,4.7,1.4,virginca
6,7.2,3.0,5.8,1.6,versicolor
7,5.7,2.9,4.2,1.3,virginca
8,6.4,2.9,4.3,1.3,virginca
9,5.5,2.5,4.0,1.3,virginca


In [5]:
# Spośród wszystkich danych wybieramy tylko te, które pasują do naszego zapytania
iris[iris['Species'] == 'setosa']

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [6]:
# wczytanie pliku csv
oscars = read_csv('dane/oscars.csv')
oscars.head(20)

Unnamed: 0,year,category,winner,entity
0,1927,ACTOR,False,Richard Barthelmess
1,1927,ACTOR,True,Emil Jannings
2,1927,ACTRESS,False,Louise Dresser
3,1927,ACTRESS,True,Janet Gaynor
4,1927,ACTRESS,False,Gloria Swanson
5,1927,ART DIRECTION,False,Rochus Gliese
6,1927,ART DIRECTION,True,William Cameron Menzies
7,1927,ART DIRECTION,False,Harry Oliver
8,1927,CINEMATOGRAPHY,False,George Barnes
9,1927,CINEMATOGRAPHY,True,Charles Rosher


In [7]:
# wyświetlenie wszystkich Oskarów i nominacji dla aktora
where1 = oscars['entity'] == 'Brad Pitt'
oscars[where1]

Unnamed: 0,year,category,winner,entity
7979,1995,ACTOR IN A SUPPORTING ROLE,False,Brad Pitt
9689,2008,ACTOR IN A LEADING ROLE,False,Brad Pitt
10083,2011,ACTOR IN A LEADING ROLE,False,Brad Pitt
11202,2019,ACTOR IN A SUPPORTING ROLE,True,Brad Pitt


In [8]:
# Wyświetlanie wszystkich męskich zdobywców Oskarów
category_actors1 = oscars['category'] == 'ACTOR IN A LEADING ROLE'
category_actors2 = oscars['category'] == 'ACTOR'
winners = oscars['winner'] == True

winners_actors = oscars[winners & (category_actors1 | category_actors2)]  # filtrowanie wg przygotowanych zapytań
winners_actors = winners_actors.drop(columns=['category', 'winner'])  # wyrzucenie zbędnych kolumn
winners_actors = winners_actors.set_index('year')  # ustawienie indeksu na kolumnę year
winners_actors.index.names = ['Year']  # Zmiana nazwy indeksów na Year
winners_actors = winners_actors.rename(columns={'entity': 'Actor'})  # zmiana nazwy kolumny

winners_actors.head()

Unnamed: 0_level_0,Actor
Year,Unnamed: 1_level_1
1927,Emil Jannings
1928,Warner Baxter
1929,George Arliss
1930,Lionel Barrymore
1931,Wallace Beery


In [9]:
# parametr keep ustawiony na false wskazuje wszystkie duplikaty wierszy
winners_actors[winners_actors.duplicated(keep=False)]

Unnamed: 0_level_0,Actor
Year,Unnamed: 1_level_1
1931,Fredric March
1937,Spencer Tracy
1938,Spencer Tracy
1941,Gary Cooper
1946,Fredric March
1952,Gary Cooper
1954,Marlon Brando
1972,Marlon Brando
1975,Jack Nicholson
1979,Dustin Hoffman


In [10]:
# zlicza identyczne wystąpienia w kolumnie
winners_actors.value_counts()

Actor                 
Gary Cooper               2
Dustin Hoffman            2
Tom Hanks                 2
Spencer Tracy             2
Marlon Brando             2
Sean Penn                 2
Jack Nicholson            2
Fredric March             2
Daniel Day-Lewis          2
Nicolas Cage              1
Peter Finch               1
Paul Scofield             1
Paul Newman               1
Paul Muni                 1
Paul Lukas                1
Adrien Brody              1
Michael Douglas           1
Maximilian Schell         1
Lionel Barrymore          1
Leonardo DiCaprio         1
Lee Marvin                1
Laurence Olivier          1
Kevin Spacey              1
Matthew McConaughey       1
Ray Milland               1
Philip Seymour Hoffman    1
Ronald Colman             1
William Hurt              1
William Holden            1
Warner Baxter             1
Wallace Beery             1
Victor McLaglen           1
Sidney Poitier            1
Russell Crowe             1
Rod Steiger              

In [11]:
# Zliczanie przyznanych Oskarów w danej dekadzie
oscars_awarded = oscars['winner'] == True
oscars[oscars_awarded].groupby(oscars['year'] // 10 * 10)['year'].count()

year
1920     30
1930    226
1940    343
1950    355
1960    328
1970    345
1980    381
1990    460
2000    411
2010    421
Name: year, dtype: int64

In [12]:
# Zliczanie przyznanych Oskarów w danym roku
oscars_awarded = oscars['winner'] == True
oscars[oscars_awarded].groupby(oscars['year'])['year'].count()

year
1927    15
1928     7
1929     8
1930    15
1931    16
1932    22
1934    20
1935    27
1936    29
1937    36
1938    27
1939    34
1940    26
1941    35
1942    34
1943    32
1944    38
1945    30
1946    37
1947    35
1948    36
1949    40
1950    33
1951    37
1952    41
1953    35
1954    43
1955    36
1956    36
1957    30
1958    29
1959    35
1960    33
1961    35
1962    32
1963    28
1964    36
1965    31
1966    35
1967    30
1968    37
1969    31
1970    31
1971    29
1972    34
1973    31
1974    32
1975    35
1976    31
1977    42
1978    40
1979    40
1980    36
1981    41
1982    38
1983    36
1984    38
1985    34
1986    42
1987    40
1988    42
1989    34
1990    46
1991    43
1992    40
1993    35
1994    53
1995    51
1996    42
1997    47
1998    62
1999    41
2000    46
2001    52
2002    39
2003    36
2004    41
2005    44
2006    41
2007    38
2008    31
2009    43
2010    39
2011    37
2012    39
2013    49
2014    50
2015    38
2016    46
2017    40
2018 