In [1]:
people = {
    "first_name": ["Mark", 'John', 'Jane', 'John'], 
    "last_name": ["Wayne", 'Kowalski', 'Doe', 'Doe'], 
    "email": ['MarkWayne@email.com', "JohnKowalski@email.com", 'JaneDoe@email.com', 'JohnDoe@email.com'],
    "salary":[120000, 80000, 60000, 20000]
}

import pandas as pd

df = pd.DataFrame(people)
# df = pd.read_csv('survey_results_public.csv', index_col='ResponseId')
# schema_df = pd.read_csv('survey_results_schema.csv', index_col='qid')
# df czyli data frame tworzymy z bazy danych albo wpisanych manualnie jw lub importując z plików np csv
# manualnie robimy to tworząc dictionary {} a wewnątrz wartości w postaci list []
# index_col='x' ustawia od razu daną kolumne jako index

In [2]:
pd.set_option('display.max_columns', 85)

pd.set_option('display.max_rows', 85)
# gdy jest duza liczba kolumn/wierszy pandas z default ogranicza ich wyświetlanie, tak możemy to zmienić

In [3]:
# !!! tego typu kod musi być w osobnych komórkach, albo wykonana zostanie tylko ostatnia linia kodu !!!

df.columns
# wyświetla nazwy kolumn i ich dtype

df.shape
# pozakuje liczbe kolumn i wierszy
# shape jest atribute a nie method więc bez () na końcu

df.info()
# a to jest method, więc stosujemy ()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   first_name  4 non-null      object
 1   last_name   4 non-null      object
 2   email       4 non-null      object
 3   salary      4 non-null      int64 
dtypes: int64(1), object(3)
memory usage: 256.0+ bytes


In [4]:
df.head(2)

df.tail(2)
# wyświetla pierwszych/ostatnich x wierszy. () bez podanej wartośc 5 wierszy

df[['email', 'last_name']]
# podwójne nawiasy kwadratowe, wyświetla daną kolumnę lub zakres kolumn, wtedy od'x':do'y'

Unnamed: 0,email,last_name
0,MarkWayne@email.com,Wayne
1,JohnKowalski@email.com,Kowalski
2,JaneDoe@email.com,Doe
3,JohnDoe@email.com,Doe


In [5]:
df.email
# dokładnie ten sam efekt co komenda df['email']
# wersja df['x'] lepsza, gdyż nazwa kolumny może byc taka sama jak method np df.count

0       MarkWayne@email.com
1    JohnKowalski@email.com
2         JaneDoe@email.com
3         JohnDoe@email.com
Name: email, dtype: object

In [6]:
type(df['email'])

pandas.core.series.Series

In [7]:
df.iloc[[2]]
# sposób na wydostanie wartości danego wiersza
# w [] podajemy wartość indexu, indexem może być str np mail, wtedy df.iloc[JaneDoe@email.com]

df.iloc[[1, 2], 1]
# wyświetlanie danych wierszy w danych kolumnach, najpierw wiersze, potem kolumny

df.loc[[1, 2], ['email', 'last_name']]
# działa jak df.iloc ale podaje się nazwę(str) indexu(wiersza) i kolumny

df.loc[1:2, ['email', 'last_name']]
# gdy podajemy zakres wierszy/kolumn to nie jest to dodatkowa lista, więc [] mniej

Unnamed: 0,email,last_name
1,JohnKowalski@email.com,Kowalski
2,JaneDoe@email.com,Doe


In [8]:
df['first_name'].value_counts()
# podlicza ilość tych samych wartości w kolumnie x

John    2
Mark    1
Jane    1
Name: first_name, dtype: int64

In [9]:
df.set_index(['email'], inplace=True)
# ustawianie danej kolumny jako index, pomocne przy funkcjach df.loc[[]]
# inplace=True zapisuje zmiany w dataframe
df

Unnamed: 0_level_0,first_name,last_name,salary
email,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MarkWayne@email.com,Mark,Wayne,120000
JohnKowalski@email.com,John,Kowalski,80000
JaneDoe@email.com,Jane,Doe,60000
JohnDoe@email.com,John,Doe,20000


In [10]:
df.index


Index(['MarkWayne@email.com', 'JohnKowalski@email.com', 'JaneDoe@email.com',
       'JohnDoe@email.com'],
      dtype='object', name='email')

In [11]:
df.sort_index(ascending=False)
# szereguje index alfabetycznie (), trzeba dodać inplace=True by zmiany były pernamentne 

Unnamed: 0_level_0,first_name,last_name,salary
email,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MarkWayne@email.com,Mark,Wayne,120000
JohnKowalski@email.com,John,Kowalski,80000
JohnDoe@email.com,John,Doe,20000
JaneDoe@email.com,Jane,Doe,60000


In [12]:
df.reset_index(inplace=True)
# przywraca numeryczny index
df

Unnamed: 0,email,first_name,last_name,salary
0,MarkWayne@email.com,Mark,Wayne,120000
1,JohnKowalski@email.com,John,Kowalski,80000
2,JaneDoe@email.com,Jane,Doe,60000
3,JohnDoe@email.com,John,Doe,20000


In [13]:
# metody filtrowania dataframe
filt = (df['last_name'] == 'Doe')

# komenda filt zwróci booliansy True/False danej komórki

# inna mozliwość zapisu:
# df.loc[filt]    
# df[df['last_name'] == 'Doe'] 
# df.loc[df['last_name'] == 'Doe']
# operatory and & i or | oraz <,>, >=, <=, !=
# filt = (df['last_name'] == 'Doe') & (df['first_name'] == 'John')
# filt = (df['last_name'] == 'Doe') | (df['first_name'] == 'John')
# filt = (df['salary'] > 70000)


df[~filt] 
# tylda powoduje odwrotność filtru df[filt]

last_names = ['Doe', 'Neo', 'Treo']
filt = df['last_name'].isin(last_names)

# tworzymy listę last_names by wykorzystać metodę isin co znacząco upraszcza kod, alternatywa to 
# filt = (df['last_name'] == 'Doe') | (df['last_name'] == 'Neo') | (df['last_name'] == 'Treo')

df[filt]

# gdy potrzebujemy wydobyć dany str z większej ilości w komórce
# filt = df['LanguageWorkedWith'].str.contains('Python', na=False)
# na=False to konieczny atrybut metody str.contains reagujący na puste komórki NaN 

Unnamed: 0,email,first_name,last_name,salary
2,JaneDoe@email.com,Jane,Doe,60000
3,JohnDoe@email.com,John,Doe,20000


In [14]:
# zmiany we wszystkich kolumnach

# df.columns = ['first name', 'last name', 'email', 'salary']

df.columns = [x.upper() for x in df.columns]
# nagłówki kolumn upper
df.columns = [x.lower() for x in df.columns]
# nagłówki kolumn lower
df.columns = df.columns.str.replace('_', ' ')
# wszystkie znaki '_' zamienia na spację
df.columns = df.columns.str.replace(' ', '_')
# wszystkie znaki spacji zamienia na podkreslenie
df.columns

Index(['email', 'first_name', 'last_name', 'salary'], dtype='object')

In [18]:
# zmiany w wybranych kolumnach

df.rename(columns={'first_name': 'first_Name'}, inplace=True)
# zmienia wybrane nazwy kolumn poprzez zmianę dictionary {} stara nazwa: nowa nazwa. inplace=True by zapisać zmiany
df.columns

Index(['email', 'first_Name', 'last_name', 'salary'], dtype='object')

In [21]:
# zmiany w całych wierszach

df.loc[1] = ['JohnSmith@email.com', 'John', 'Smith', 80000]

# podajemy nowe wartości kolejnych kolumn
# df.at[1] = ['JohnSmith@email.com', 'John', 'Smith', 80000]
# ten sam efekt

df

Unnamed: 0,email,first_Name,last_name,salary
0,MarkWayne@email.com,Mark,Wayne,120000
1,JohnSmith@email.com,John,Smith,80000
2,JaneDoe@email.com,Jane,Doe,60000
3,JohnDoe@email.com,John,Doe,20000


In [22]:
# zmiany poszczególnych komórek w wierszach

df.loc[1, ['last_name', 'email']] = ['Kowalski', 'JohnKowalski@email.com']

# podajemy nowe wartości wybranych kolumn
# df.at[1, ['last_name', 'email']] = ['Kowalski', 'JohnKowalski@email.com']
# ten sam efekt

df

Unnamed: 0,email,first_Name,last_name,salary
0,MarkWayne@email.com,Mark,Wayne,120000
1,JohnKowalski@email.com,John,Kowalski,80000
2,JaneDoe@email.com,Jane,Doe,60000
3,JohnDoe@email.com,John,Doe,20000
