![](imgs/logo.png)

# Przetwarzanie Big Data z użyciem Apache Spark

Autor notebooka: Jakub Nowacki.


## Spark SQL - statystyki z użyciem metod DataFrame 

W katalogu `data/` znajduje się plik `rollingsales_bronx.csv`.

Poniżej analizujemy dane statystyczne domów: liczność, średnie powierzchnie, lata i ceny, grupując po dzielnicy i typie.

In [None]:
import pyspark
import pyspark.sql.functions as func
import pyspark.sql.types as types
sc = pyspark.SparkContext(appName='HouseStatsDF')
sqlContext = pyspark.sql.SQLContext(sc)

In [None]:
import re

# Użycie Row to jedna z metod tworzenia DataFrame z danych; nie wymaga dodatkowego schematu
# zobacz dokumentację: http://spark.apache.org/docs/latest/api/python/pyspark.sql.html
def from_csv(line):
    # Stałe podane są tylko dla czytelności
    HOOD_COLUMN = 1
    TYPE_COLUMN = 2;
    LAND_AREA_COLUMN = 14;
    GROSS_AREA_COLUMN = 15;
    YEAR_COLUMN = 16;
    PRICE_COLUMN = 19;
    # Dzielimy linię na kolumny i przypisujemy do kluczy w słowniku
    c = line.split(',')
    row = dict()
    row['hood'] = c[HOOD_COLUMN];
    row['type'] = c[TYPE_COLUMN];
    row['landArea'] = int(re.sub(r'[^\d]', '', c[LAND_AREA_COLUMN]));
    row['grossArea'] = int(re.sub(r'[^\d]', '', c[GROSS_AREA_COLUMN]));
    row['year'] = int(re.sub(r'[^\d]', '', c[YEAR_COLUMN]));
    row['price'] = int(re.sub(r'[^\d]', '', c[PRICE_COLUMN]));
    # Zwracamy obiekt Row
    return pyspark.Row(**row)

In [None]:
# Używamy powyższą metodę generującą obiekty Row do przeczytania CSV linia po linii
# Zauważ, że tworzymy zwykłe RDD
sales_rdd = sc.textFile('data/rollingsales_bronx.csv').map(lambda line: from_csv(line))
# Z RDD złożonego z obiektów Row możemy bezpośrednio stworzyć DataFrame bez dodatkowego schematu
sales = sqlContext.createDataFrame(sales_rdd)
sales.printSchema()
sales.show()

In [None]:
a1 = sales.groupBy('hood', 'type') \
    .agg(func.count('type').alias('count'),
         func.avg('landArea').alias('avgLandArea'),
         func.avg('year').alias('avgYear'),
         func.avg('price').alias('avgPrice')) \
    .orderBy('hood', 'type')
a1.show()

## Zadania

* Popraw wyniki usuwając błędne dane.
* Zastosuj odpowiednią prezentację dany w zależności od typu.
* Policz średnie dla domów z XX w. tylko dla grup zawierających więcej niż 10 domów.
* ★ Policz średnie tylko dla 10 najbogatszych dzielnic.