In [None]:
# -*- coding: utf-8 -*-
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#    http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
# implied.
# See the License for the specific language governing permissions and
# limitations under the License.
#

# Pandas (again)

### References
- https://github.com/FIIT-IAU/IAU-2019-2020


In [14]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np

In [15]:
filename = 'data/sales-funnel.csv'
df = pd.read_csv(filename)
df.head()

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
0,714466,Trantow-Barrows,Craig Booker,Debra Henley,CPU,1,30000,presented
1,714466,Trantow-Barrows,Craig Booker,Debra Henley,Software,1,10000,presented
2,714466,Trantow-Barrows,Craig Booker,Debra Henley,Maintenance,2,5000,pending
3,737550,"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,CPU,1,35000,declined
4,146832,Kiehn-Spinka,Daniel Hilton,Debra Henley,CPU,2,65000,won


## Deskriptívna štatistiky

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17 entries, 0 to 16
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Account   17 non-null     int64 
 1   Name      17 non-null     object
 2   Rep       17 non-null     object
 3   Manager   17 non-null     object
 4   Product   17 non-null     object
 5   Quantity  17 non-null     int64 
 6   Price     17 non-null     int64 
 7   Status    17 non-null     object
dtypes: int64(3), object(5)
memory usage: 1.2+ KB


In [17]:
df.describe(include='all')

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
count,17.0,17,17,17,17,17.0,17.0,17
unique,,12,5,2,4,,,4
top,,Trantow-Barrows,Wendy Yule,Debra Henley,CPU,,,presented
freq,,3,4,9,9,,,6
mean,462254.235294,,,,,1.764706,30705.882353,
std,259093.442862,,,,,1.032558,28444.605609,
min,141962.0,,,,,1.0,5000.0,
25%,218895.0,,,,,1.0,7000.0,
50%,412290.0,,,,,2.0,30000.0,
75%,714466.0,,,,,2.0,40000.0,


**Koľko riadkov má cenu vyššiu ako $8,000?**

In [18]:
len(df[df.Price > 8000])

12

Keďže nás nezaujímajú samotné riadky, ale len ich počet, tak rovnaký výsledok sa dá dosiahnuť aj efektívnejšie. Spočítaním koľko krát je podmienka splnená. Vtedy netreba získavať dáta a pri veľkých datasetoch to môže učetriť veľmi veľa času a zdrojov. 

In [19]:
sum(df.Price > 8000)

12

Vykonanie podmienky vráti binárny vektor. True hodnoty sa považujú pri operácii sum za 1 a False za 0. Sumovaním teda získame počet riadkov, kde bola podmienka splnená.

**Koľko riadkov má status "pending" a cenu vyšiu ako $8,000?**

In [20]:
sum((df.Status == 'pending') & (df.Price > 8000))

1

**Koľko riadkov má status "pending" alebo cenu vyšiu ako $8,000?** 

In [21]:
sum((df.Status == 'pending') | (df.Price > 8000))

15

**Vytvorte stĺpec s názvom "amount", ktorý bude tvorený násobkom stĺpcpv "price" a "quantity".**
Aký je súčet hodnôt v tomto stĺpci pre riadky so statusom "won"?

In [22]:
df['amount'] = df.Price * df.Quantity
df.head()

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status,amount
0,714466,Trantow-Barrows,Craig Booker,Debra Henley,CPU,1,30000,presented,30000
1,714466,Trantow-Barrows,Craig Booker,Debra Henley,Software,1,10000,presented,10000
2,714466,Trantow-Barrows,Craig Booker,Debra Henley,Maintenance,2,5000,pending,10000
3,737550,"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,CPU,1,35000,declined,35000
4,146832,Kiehn-Spinka,Daniel Hilton,Debra Henley,CPU,2,65000,won,130000


In [23]:
df[df.Status == 'won'].amount.sum()

781000

**Aký je celkový súčet stĺpcu "amount" pre záznamy produktov z kategórie "CPU"?**

In [24]:
df[df.Product == 'CPU'].amount.sum()

1100000

# Zmena tvaru tabuliek

## Pivot table

**Aký je rozdiel medzi funkciami "pivot" a "pivot_table"?**

pivot_table umožňuje definovať agregačnú funkciu, ktorá spája hodnoty pri duplicitných kombináciách v indexe a poemnovaniach stĺpcov.

**V dátovej sade z predchádzajúcich úloh vytvorte tabuľku, kde v riadkoch budú záznamy pre rôzne produkty, v stĺpcoch záznamy pre rôzne statusy a hodnoty budú agregované hodnoty zo stĺpcu "amount".** Na agregáciu použite funkciu sum z balíčka numpy.

In [25]:
pd.pivot_table(df, values='amount', index='Product', columns='Status', aggfunc=np.sum)

Status,declined,pending,presented,won
Product,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CPU,200000.0,80000.0,60000.0,760000.0
Maintenance,,25000.0,,21000.0
Monitor,,,10000.0,
Software,,,30000.0,


## Groupby

In [26]:
df.groupby(['Product', 'Status']).amount.sum().unstack()

Status,declined,pending,presented,won
Product,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CPU,200000.0,80000.0,60000.0,760000.0
Maintenance,,25000.0,,21000.0
Monitor,,,10000.0,
Software,,,30000.0,


## Cross tab
**Vytvorte kontingenčnú tabuľku (crosstab), ktorá ukáže koľko záznamov je v jednotlivých stavoch (status) pre jednotlivé produkty**

In [27]:
pd.crosstab(df.Product, df.Status)

Status,declined,pending,presented,won
Product,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CPU,3,1,2,3
Maintenance,0,3,0,1
Monitor,0,0,1,0
Software,0,0,3,0


**Vytvorte tabuľku z prvej úlohy, ale nahraďte produkty za Manažérov alebo Rep alebo dvojice Manažér a Rep. Vzniknú vám teda 3 rôzne tabuľky.**

In [28]:
pd.crosstab(df.Manager, df.Status)

Status,declined,pending,presented,won
Manager,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Debra Henley,2,3,3,1
Fred Anderson,1,1,3,3


In [29]:
pd.crosstab(df.Rep, df.Status)

Status,declined,pending,presented,won
Rep,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Cedric Moss,0,1,2,1
Craig Booker,1,1,2,0
Daniel Hilton,0,1,1,1
John Smith,1,1,0,0
Wendy Yule,1,0,1,2


In [30]:
pd.crosstab([df.Manager, df.Rep], df.Status)

Unnamed: 0_level_0,Status,declined,pending,presented,won
Manager,Rep,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Debra Henley,Craig Booker,1,1,2,0
Debra Henley,Daniel Hilton,0,1,1,1
Debra Henley,John Smith,1,1,0,0
Fred Anderson,Cedric Moss,0,1,2,1
Fred Anderson,Wendy Yule,1,0,1,2


## Iný dataset
### 1. Načítajte dataset - pozor: kódovanie "latin1"

In [31]:
df2 = pd.read_csv('data/crunchbase_monthly_export.csv', encoding='latin1')
df2.head()

Unnamed: 0,permalink,name,homepage_url,category_list,market,funding_total_usd,status,country_code,state_code,region,city,funding_rounds,founded_at,founded_month,founded_quarter,founded_year,first_funding_at,last_funding_at,Unnamed: 18
0,/organization/canal-do-credito,Canal do Credito,http://www.canaldocredito.com.br,|Credit|Technology|Services|Finance|,Credit,750000,,BRA,,Rio de Janeiro,Belo Horizonte,1,,,,,1/1/10,1/1/10,
1,/organization/waywire,#waywire,http://www.waywire.com,|Entertainment|Politics|Social Media|News|,Entertainment,1750000,acquired,USA,NY,New York City,New York,1,6/1/12,2012-06,2012-Q2,2012.0,6/30/12,6/30/12,
2,/organization/tv-communications,&TV Communications,http://enjoyandtv.com,|Games|,Games,4000000,operating,USA,CA,Los Angeles,Los Angeles,2,,,,,6/4/10,9/23/10,
3,/organization/rock-your-paper,'Rock' Your Paper,http://www.rockyourpaper.org,|Publishing|Education|,Education,40000,operating,EST,,Tallinn,Tallinn,1,10/26/12,2012-10,2012-Q4,2012.0,8/9/12,8/9/12,
4,/organization/in-touch-network,(In)Touch Network,http://www.InTouchNetwork.com,|Electronics|Guides|Coffee|Restaurants|Music|i...,Apps,1500000,operating,GBR,,London,London,1,4/1/11,2011-04,2011-Q2,2011.0,4/1/11,4/1/11,


### 2. Deskriptívna štatistika

Ide o dataset informácií o firmách/projektoch, ktoré žiadali o investíciu a o tom, či boli v žiadosti úspešní

In [32]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44950 entries, 0 to 44949
Data columns (total 19 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   permalink            44950 non-null  object 
 1   name                 44949 non-null  object 
 2   homepage_url         41914 non-null  object 
 3   category_list        40997 non-null  object 
 4    market              40997 non-null  object 
 5    funding_total_usd   44950 non-null  object 
 6   status               42208 non-null  object 
 7   country_code         40805 non-null  object 
 8   state_code           27773 non-null  object 
 9   region               39615 non-null  object 
 10  city                 40109 non-null  object 
 11  funding_rounds       44950 non-null  int64  
 12  founded_at           35292 non-null  object 
 13  founded_month        35226 non-null  object 
 14  founded_quarter      35226 non-null  object 
 15  founded_year         35226 non-null 

Dataset má veľa stĺpcov obsahujúcich reťazce aj keď by sme tam logicky očakávali číslo. Obsahuje tiež celkom vela chýbajúcich hodnôt.  

In [33]:
df2.describe(include='all')

Unnamed: 0,permalink,name,homepage_url,category_list,market,funding_total_usd,status,country_code,state_code,region,city,funding_rounds,founded_at,founded_month,founded_quarter,founded_year,first_funding_at,last_funding_at,Unnamed: 18
count,44950,44949,41914,40997,40997,44950,42208,40805,27773,39615,40109,44950.0,35292,35226,35226,35226.0,44950,44950,0.0
unique,44947,44892,41781,13191,547,13558,3,127,177,1282,4829,,3146,398,207,,3757,3502,
top,/organization/simple,Spire,http://www.hc1.com,|Software|,Biotechnology,-,operating,USA,CA,SF Bay Area,San Francisco,,1/1/11,2011-01,2012-Q1,,1/1/12,1/1/13,
freq,2,3,2,3597,3868,7406,36135,26540,9164,6242,2356,,2026,2146,2632,,445,362,
mean,,,,,,,,,,,,1.681135,,,,2007.083461,,,
std,,,,,,,,,,,,1.269198,,,,7.522161,,,
min,,,,,,,,,,,,1.0,,,,1900.0,,,
25%,,,,,,,,,,,,1.0,,,,2005.0,,,
50%,,,,,,,,,,,,1.0,,,,2009.0,,,
75%,,,,,,,,,,,,2.0,,,,2011.0,,,


### 3. Aký je maximálny získaný funding? 
Pomôcka: budete musieť transformovať a upraviť hodnoty. Poriadne sa pozrite na dátový typ v stĺpci a na názov stĺpca.

In [None]:
df2.columns

niektoré stĺpce majú v názvoch medzery na začiatku a na konci

In [None]:
df2[' funding_total_usd '].head(10)

sledovaný stĺpec obsahuje reťazce a viaceré nechcené symboly, ktoré bude treba odstrániť

In [None]:
df2[' funding_total_usd '] = pd.to_numeric(df2[' funding_total_usd '].str.replace(r'\D', ''))

**Pozor**, v predchádzajúcej bunke robím nebezpečnú operáciu. Mením hodnoty toho istého stĺpca, ktorý práve spracovávam. 

**Po správnosti by som mal vytvoriť nový stĺpec s iným názvom.** Ak totiž táto transformácia spraví niečo neočakávané, tak si nezachovám pôvodnú kópiu dát a nebudem ju vedieť spustiť odznovu.  

### 4. Premenujte stĺpce tak aby boli zrozumiteľné a správne formátované.

In [None]:
df2 = df2.rename(columns=str.strip)
df2.columns

### 5. Vytvorte tabuľku hodnôt zo stĺpcu "Market" a súčtu hodnôt total funding pre záznamy s danou hodnotou v stĺpci "Market". Usporiadajte tieto hodnoty od najväčšej po menjmenšiu a zobrazte prvých 10 z nich.

In [None]:
df2.groupby('market')\
    .funding_total_usd.sum()\
    .reset_index()\
    .sort_values(by='funding_total_usd', ascending=False)\
    .head(10)

### 6. Koľko spoločností obsahuje kategóriu "Game"?

In [None]:
sum(df2.category_list.apply(lambda x: 'Game' in str(x).split('|')))

### 7. Aký je priemerný total funding pre spoločnosti z New Yorku? zo San Francisca? Porovnajte tieto hodnoty

In [None]:
df2[df2.city == 'New York'].funding_total_usd.mean()

In [None]:
df2[df2.city == 'San Francisco'].funding_total_usd.mean()