In [3]:
import pandas as pd
import plotly.express as px

from plotly.offline import init_notebook_mode

### Wykorzystując zbiór danych zamówienia, wyświetl strukturę wartości zamówień dla sprzedawców z Polski używając jednego z wykresów z rozdziału https://plotly.com/python/funnel-charts/ w dokumentacji biblioteki plotly.

In [4]:
init_notebook_mode(connected=True)

df_zamowienia = pd.read_csv('data/zamowienia.csv', sep=';')
df_zamowienia

Unnamed: 0,Kraj,Sprzedawca,Data zamowienia,idZamowienia,Utarg
0,Polska,Kowalski,2003-07-16,10248,440.00
1,Polska,Sowiński,2003-07-10,10249,1863.40
2,Niemcy,Peacock,2003-07-12,10250,1552.60
3,Niemcy,Leverling,2003-07-15,10251,654.06
4,Niemcy,Peacock,2003-07-11,10252,3597.90
...,...,...,...,...,...
794,Polska,King,2005-04-30,11048,525.00
795,Niemcy,Leverling,2005-05-01,11052,1332.00
796,Niemcy,Fuller,2005-04-29,11053,3055.00
797,Niemcy,Callahan,2005-05-01,11056,3740.00


In [5]:
df_zamowienia_pl = df_zamowienia[df_zamowienia['Kraj']  == 'Polska']
df_zamowienia_pl

Unnamed: 0,Kraj,Sprzedawca,Data zamowienia,idZamowienia,Utarg
0,Polska,Kowalski,2003-07-16,10248,440.00
1,Polska,Sowiński,2003-07-10,10249,1863.40
6,Polska,Kowalski,2003-07-23,10254,556.62
7,Polska,Dudek,2003-07-15,10255,2490.50
15,Polska,Dudek,2003-07-31,10263,1873.80
...,...,...,...,...,...
782,Polska,King,2005-04-23,11033,3232.80
786,Polska,King,2005-04-27,11037,60.00
790,Polska,Kowalski,2005-04-29,11043,210.00
793,Polska,King,2005-05-01,11047,817.87


In [6]:
sprzedawcy = df_zamowienia_pl.groupby('Sprzedawca').agg({'Utarg': 'sum'}).sort_values(by='Utarg', ascending=False)
sprzedawcy

Unnamed: 0_level_0,Utarg
Sprzedawca,Unnamed: 1_level_1
King,116962.99
Dudek,75048.04
Sowiński,72527.63
Kowalski,68792.25


In [7]:
fig = px.funnel(sprzedawcy, x=sprzedawcy.index, y='Utarg')
fig.show()

### Bazując na przykładzie w podrozdziale 1.3, stwórz wykres konturowanej mapy ciepła z podrozdziału https://plotly.com/python/2d-histogram-contour/ z dokumentacji biblioteki plotly.

In [8]:
fig = px.density_contour(df_zamowienia, x='Utarg', y='Sprzedawca')
fig.update_traces(contours_coloring='fill', contours_showlabels = True)
fig.show()

### Wykorzystując wykres typu icycle (https://plotly.com/python/icicle-charts/) wygeneruj wykres dla datasetu Fifa22 z użyciem kolumn Name, Nationality, Club, Value. Przed wyświetleniem wykresu należy dokonać preprocessingu danych:

In [9]:
df_fifa = pd.read_csv('data/FIFA22_official_data.csv')
df_fifa = df_fifa[['Name', 'Nationality', 'Club', 'Value']]
df_fifa

Unnamed: 0,Name,Nationality,Club,Value
0,Bruno Fernandes,Portugal,Manchester United,€107.5M
1,L. Goretzka,Germany,FC Bayern München,€93M
2,L. Suárez,Uruguay,Atlético de Madrid,€44.5M
3,K. De Bruyne,Belgium,Manchester City,€125.5M
4,M. Acuña,Argentina,Sevilla FC,€37M
...,...,...,...,...
16705,18 L. Clayton,England,Cheltenham Town,€100K
16706,�. Dobre,Romania,FC Academica Clinceni,€180K
16707,21 Xue Qinghao,China PR,Shanghai Shenhua FC,€100K
16708,A. Shaikh,India,ATK Mohun Bagan FC,€110K


#### dane należy ograniczyć tylko do dwóch krajów: Polska i Hiszpania

In [10]:
df_fifa_pl_sp = df_fifa[(df_fifa['Nationality'] == 'Poland') | (df_fifa['Nationality'] == 'Spain')]
df_fifa_pl_sp

Unnamed: 0,Name,Nationality,Club,Value
11,Marcos Llorente,Spain,Atlético de Madrid,€88M
12,Sergio Ramos,Spain,Paris Saint-Germain,€24M
14,Merino,Spain,Real Sociedad,€50M
20,Koke,Spain,Atlético de Madrid,€52.5M
32,Jordi Alba,Spain,FC Barcelona,€47M
...,...,...,...,...
16665,S. Westerveld,Spain,AZ Alkmaar,€400K
16667,D. Szczepaniak,Poland,Wrexham AFC,€180K
16673,M. Pérez Hintermeier,Spain,FC Würzburger Kickers,€90K
16675,K. Trelowski,Poland,Raków Częstochowa,€350K


#### w kolumnie Value należy dokonać oczyszczenia wartości z symbolu waluty oraz konwertować na typ float a wcześnie uzupełnić brakujące wartości zerami

In [11]:
df_fifa_pl_sp['Value'] = df_fifa_pl_sp['Value'].str.replace(r'\D+', '', regex=True).astype('float')
df_fifa_pl_sp



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,Name,Nationality,Club,Value
11,Marcos Llorente,Spain,Atlético de Madrid,88.0
12,Sergio Ramos,Spain,Paris Saint-Germain,24.0
14,Merino,Spain,Real Sociedad,50.0
20,Koke,Spain,Atlético de Madrid,525.0
32,Jordi Alba,Spain,FC Barcelona,47.0
...,...,...,...,...
16665,S. Westerveld,Spain,AZ Alkmaar,400.0
16667,D. Szczepaniak,Poland,Wrexham AFC,180.0
16673,M. Pérez Hintermeier,Spain,FC Würzburger Kickers,90.0
16675,K. Trelowski,Poland,Raków Częstochowa,350.0


In [12]:
df_fifa_pl_sp.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1412 entries, 11 to 16699
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Name         1412 non-null   object 
 1   Nationality  1412 non-null   object 
 2   Club         1409 non-null   object 
 3   Value        1412 non-null   float64
dtypes: float64(1), object(3)
memory usage: 55.2+ KB


#### w kolumnie Club również mogą występować puste wartości, usuń je z dataframe użytego do wyświetlenia na wykresie (ale nie z oryginału).

In [13]:
df_fifa_pl_sp_nonull = df_fifa_pl_sp.dropna()
df_fifa_pl_sp_nonull.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1409 entries, 11 to 16699
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Name         1409 non-null   object 
 1   Nationality  1409 non-null   object 
 2   Club         1409 non-null   object 
 3   Value        1409 non-null   float64
dtypes: float64(1), object(3)
memory usage: 55.0+ KB


In [14]:
fig = px.icicle(df_fifa_pl_sp_nonull, path=['Nationality', 'Club', 'Name'], values='Value')
fig.show()


The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.


The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.


The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.

