Skip to content

Pycon CZ workshop: Better data analyses and product recommendations with Instagram data

Notifications You must be signed in to change notification settings

SvetlanaM/pycon-workshop

Repository files navigation

PyCon CZ 2016 workshop

V prvom kroku si nainštalujeme virtuálne prostredie, v ktorom budeme našu aplikáciu vyvíjať a spúštať. Virtuálne prostredie slúži k oddeleniu rôznych inštalácií balíčkov, verzií Pythonu na jednom počítači. Taktiež ak sa niečo v projekte pokazí, ktorý je vytvorený v rámci daného virtuálneho prostedia, neohrozí to ďalšie projekty na počítači.

Úlohy:

  1. Otvor si príkazový riadok (terminál - Mac OS, Linux)

  2. Zvoľ si adresár, v ktorom budeš mať vytvorený projekt a následne pracovať.

  3. Naviguj sa do adresára

  4. Vytvor novú složku a vstúp do novo-vytvorej zložky

  5. Vytvor virtuálne prostredie. Príkazy pre vytvorenie virtuálneho prostredia sa líšia podľa operačného systému:

Windows:

> py 3 -m venv venv 

Linux/Mac OS:

$ python3 -m venv venv 

Po vytvorení virtuálneho prostredia je potrebné ho spustiť. . Spustenie virtuálneho prostredia sa taktiež líši podľa operačného systému:

Windows:

>\venv\Scripts\activate

Linux/Mac OS:

$ source /venv/bin/activate 

Po spustení by malo ukázať pred > alebo $ slovo (venv).

(venv) MacBook-Pro:pyconworkshop svetlanamargetova$ 

Inštalácia potrebných knižníc

Na inštaláciu budeme využívať pip.

Inštalácia cez Anacondu

Anaconda - obsahuje všetky potrebné balíčky pre prácu. Tí, čo anacondu inštalovať nechcú, pokračujte pokynmi nižšie.

Inštalácia Jupyter Notebook

Jupyter notebook je webová aplikácia, ktorá umožňuje zdielať a vytvárať dokumenty obsahujúce "živý" kód, vizualizácie, markdown system, HTML kód a mnoho iného.

$ pip install jupyter 

Inštalácia pandas

Pandas je knižnica umožňujúca prácu s dátovými štruktúrami rôznych formátov v Pythone.

$ pip install pandas

V rámci Pandas sa nám naištalovala aj potrebná knižnica numpy.

Inštalácia matplotlib

Matplotlib je knižnica vykresľujúca 2D vizualizácie v Pythone v rôznych formátoch. Umožňuje vykreslovať rôzne druhy grafov, ukladať výstupy v rôznych formátoch.

$ pip install matplotlib

Inštalácia scipy

Scipy je knižnica obsahujúca rôzne štatistické a iné funkcie.

$ pip install scipy

Spustenie Jupyter notebooku

Po nainštalovaní potrebných knižníc si môžeme spustiť na localhoste Jupyter notebook pomocou príkazu:

$ jupyter notebook

Dátové sety

Vytvor zložku "csv" v hlavnom adresári projektu. Následne stiahni dátové sety a ulož do složky "csv".

  1. Dátový set Instagramu
  2. Dátový set kníh
  3. Dátový set používatelia

Instagram skript

Skript na sťiahnutie dát z rôznych Instagram účtov - InstagramToCsv

ToDo

  1. Sťahovať vždy na začiatku práce aktuálne dáta z Instagramu
  2. Zautomatizovať spracovanie clusterov bez nutnosti zadávať hodnoty ručne používateľom
  3. Rozpoznávanie názvu kníh z obrázku, kde nie je hashtag (nice to have)
  4. Poslať výstup priamo cez API na server
  5. Zautomatizovať