#Setup

In [None]:
pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.3.tar.gz (317.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.3/317.3 MB[0m [31m4.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.3-py2.py3-none-any.whl size=317840625 sha256=913128bd895cc1133cd74080efc9d66b213ebdd9eb47f469b28aea0c5efccfcd
  Stored in directory: /root/.cache/pip/wheels/1b/3a/92/28b93e2fbfdbb07509ca4d6f50c5e407f48dce4ddbda69a4ab
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.3


In [None]:
from pyspark.sql import SparkSession, Row
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, ArrayType, MapType, DateType, TimestampType
from pyspark.sql.functions import (
    col, size, lit, explode,
    concat, concat_ws, substring,
    datediff, date_add, date_sub,
    year, month, dayofmonth, dayofweek, dayofyear, weekofyear,
    hour, minute, second,
    count, min, max, avg, sum, udf, when
)
from datetime import datetime

spark = SparkSession.builder.appName("a").getOrCreate()

In [None]:
from pyspark.sql import SparkSession, Row
# Importuje klasę SparkSession, która umożliwia tworzenie i zarządzanie sesją Spark.
# Importuje klasę Row, która umożliwia tworzenie wierszy (rekordów) dla DataFrame w PySpark.

from pyspark.sql.types import StructType, StructField, StringType, IntegerType, ArrayType, MapType, DateType, TimestampType
# Importuje typy danych (Schematy) używane do definiowania struktury kolumn w DataFrame:
# - StructType: definiuje schemat dla DataFrame.
# - StructField: definiuje kolumny w StructType.
# - StringType, IntegerType: określają typ danych (np. tekst, liczba całkowita).
# - ArrayType: typ danych dla tablicy.
# - MapType: typ danych dla mapy (klucz-wartość).
# - DateType, TimestampType: typy danych dla daty i znacznika czasu.

from pyspark.sql.functions import (
    col, size, lit, explode,
    # col: pozwala odnosić się do kolumn w DataFrame.
    # size: zwraca rozmiar (np. długość tablicy) kolumny.
    # lit: dodaje stałą wartość do DataFrame.
    # explode: rozwija kolumnę typu tablicowego (Array) na wiele wierszy.

    concat, concat_ws, substring,
    # concat: łączy kolumny w jedną.
    # concat_ws: łączy kolumny z separatorem (np. przecinek).
    # substring: wycina fragment tekstu (substring) z kolumny.

    datediff, date_add, date_sub,
    # datediff: zwraca różnicę między dwoma datami w dniach.
    # date_add: dodaje określoną liczbę dni do daty.
    # date_sub: odejmuje określoną liczbę dni od daty.

    year, month, dayofmonth, dayofweek, dayofyear, weekofyear,
    # year: zwraca rok z daty.
    # month: zwraca miesiąc z daty.
    # dayofmonth: zwraca dzień miesiąca.
    # dayofweek: zwraca dzień tygodnia (np. poniedziałek = 1).
    # dayofyear: zwraca dzień roku.
    # weekofyear: zwraca tydzień roku.

    hour, minute, second,
    # hour: zwraca godzinę z daty/czasu.
    # minute: zwraca minutę z daty/czasu.
    # second: zwraca sekundę z daty/czasu.

    count, min, max, avg, sum, udf, when
    # count: liczy ilość wierszy.
    # min: zwraca najmniejszą wartość w kolumnie.
    # max: zwraca największą wartość w kolumnie.
    # avg: oblicza średnią z wartości w kolumnie.
    # sum: sumuje wartości w kolumnie.
    # udf: pozwala na definiowanie własnych funkcji (user-defined functions).
    # when: wykonuje warunkowe operacje na kolumnach.

)
from datetime import datetime
# Importuje klasę datetime z biblioteki standardowej Pythona do operacji na datach i godzinach.

spark = SparkSession.builder.appName("a").getOrCreate()
# Tworzy lub uzyskuje istniejącą sesję Spark z nazwą aplikacji "a".
# SparkSession to główny punkt dostępu do funkcji Spark, takich jak tworzenie DataFrame.

##Metody na klasie SparkSession

In [None]:
spark.createDataFrame(...)

spark.read.format('csv').options(header=True, sep=",").load('data/best_selling_books.csv').show()
spark.read.format("csv").schema(schema).load("data/best_selling_books.csv")
spark.read.csv("data/Games.csv", header=True, quote="\"") # "Atari, Inc. (Windows)"
spark.read.csv("data/best_selling_books.csv", header=True, schema=schema) # W argumencie schema definiuje nowych schemat
df.printSchema() # Wyświetlenie schematu

df.select (col('name'), col('sales'), col('developer')).show()
df.orderBy(col("developer").asc(), col("sales").desc()).show()

df.limit(1).collect()
df.limit(1).collect()[0][1] # 42.0

df.withColumn('SalesX1000', col('sales') * 1000 ) # Dodanie nowej kolumny

df.select( col("skills")[1], col("role")["level"] ).show()
df.select( col("skills").getItem(1), col("role").getItem('level') ).show()
# size sprawdza liczbę elementów w tablicy lub słowniku
df.select( col("skills").getItem(1), col("role").getItem('level'), size(col('skills')), size(col('role')) ).show()


##Funkcje

In [None]:
df.withColumn("company", lit('Dziurex')).show() # lit: dodaje stałą wartość do kolumny
df.select(col('id'), explode(col('skills'))).show() # funkcja explode rozpakowuje elementy w kolumnie typu listy lub tablicy (tutaj skills)
df.withColumn("employee", concat(col('first'), lit(' '), col('last'))).show() # lit: dodaje stałą wartość do kolumny
df.select(concat_ws(',', col('id'), col('first'), col('last'))).show() # funkcja concat_ws łączy wartości z kilku kolumn w jeden ciąg znaków (string)
df.select(substring(col('first'), 0, 2), col('first')[0:2]).show() # substring: wycina podciąg (fragment tekstu)
df.select(datediff(col('hire_date'), lit(datetime(2023, 9, 1))) ).show()
df.select(col('hire_date'), date_add(col('hire_date'), 10), date_sub(col('hire_date'), 30)).show() # dodaje 10 dni / odejmuje 30 dni

## Klasa Row

In [None]:
# Tworzenie wiersza z polami nazwanymi
row = Row(name="John", age=30)
row

Row(name='John', age=30)

In [None]:
row = [Row(name="John", age=30)]
row = spark.createDataFrame(row)
row

DataFrame[name: string, age: bigint]

In [None]:
# Tworzenie DataFrame z wierszy
data = [Row(name="John", age=30), Row(name="Alice", age=25)]
df = spark.createDataFrame(data)
df

DataFrame[name: string, age: bigint]

In [None]:
df.show()

+-----+---+
| name|age|
+-----+---+
| John| 30|
|Alice| 25|
+-----+---+



##Metody PySpark

In [None]:
# 1. Metoda toDF() – konwersja RDD na DataFrame
# Tworzy DataFrame z istniejącego RDD.
rdd = spark.sparkContext.parallelize([("Alice", 25), ("Bob", 30)])
df = rdd.toDF(["Name", "Age"])

# 2. Metoda show() – wyświetla dane w DataFrame
# Wyświetla dane DataFrame w formie tabelarycznej.
df.show()

# 3. Metoda printSchema() – wyświetla schemat DataFrame
# Wyświetla strukturę kolumn i ich typy danych.
df.printSchema()

# 4. Metoda select() – wybór kolumn
# Wybiera określone kolumny z DataFrame.
df.select("Name").show()

# 5. Metoda filter() – filtrowanie wierszy
# Filtrowanie danych na podstawie warunków.
df.filter(df["Age"] > 25).show()

# 6. Metoda groupBy() – grupowanie danych
# Grupuje dane na podstawie określonej kolumny.
df.groupBy("Age").count().show()

# 7. Metoda agg() – agregacja
# Wykonuje różne operacje agregujące na grupach danych.
df.groupBy("Age").agg({"Age": "avg"}).show()

# 8. Metoda orderBy() – sortowanie danych
# Sortuje dane według wybranych kolumn.
df.orderBy(df["Age"].desc()).show()

# 9. Metoda withColumn() – dodawanie nowej kolumny
# Tworzy nową kolumnę w DataFrame na podstawie istniejących danych.
df.withColumn("DoubleAge", df["Age"] * 2).show()

# 10. Metoda drop() – usuwanie kolumn
# Usuwa kolumnę z DataFrame.
df.drop("DoubleAge").show()

# 11. Metoda distinct() – usuwanie duplikatów
# Zwraca unikalne wiersze w DataFrame.
df.distinct().show()

# 12. Metoda count() – liczenie wierszy
# Zwraca liczbę wierszy w DataFrame.
row_count = df.count()

# 13. Metoda union() – łączenie DataFrame
# Łączy dwa DataFrame w jeden.
df2 = spark.createDataFrame([("Charlie", 35)], ["Name", "Age"])
union_df = df.union(df2)
union_df.show()

# 14. Metoda join() – łączenie DataFrame na podstawie klucza
# Łączy dwa DataFrame na podstawie wspólnej kolumny (join na kluczu).
joined_df = df.join(df2, "Age", "inner")
joined_df.show()

# 15. Metoda describe() – statystyki opisowe
# Zwraca statystyki opisowe dla wybranych kolumn.
df.describe().show()

# 16. Metoda write() – zapis danych do formatu plikowego
# Zapisuje DataFrame do określonego formatu pliku.
df.write.csv("path/to/output.csv")

##Użycie RDD:

In [None]:
from pyspark import SparkContext

sc = SparkContext.getOrCreate()
# Wczytaj plik jako RDD
rdd = sc.textFile("gs://twoje-bucket/plik.csv")
rdd = rdd.map(lambda line: line.split(","))
# Przetwarzanie RDD...

##Użycie DataFrame:

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("MyApp").getOrCreate()
# Wczytaj plik jako DataFrame
df = spark.read.csv("gs://twoje-bucket/plik.csv", header=True, inferSchema=True)
# Przetwarzanie DataFrame...

##Różne typy danych w DataFrame

In [None]:
from pyspark.sql.types import (
    StructType, StructField, IntegerType, StringType, DoubleType,
    BinaryType, BooleanType, DateType, TimestampType, ArrayType, MapType
)

schema = StructType(
    [
        StructField("Book", StringType(), False),  # Przykład: "The Hobbit"
        StructField("First published", IntegerType(), False),  # Przykład: 1937
        StructField("Sales", DoubleType(), False),  # Przykład: 150.5 (miliony egzemplarzy)
        StructField("CoverImage", BinaryType(), True),  # Przykład: b'\x89PNG...' (binarny zapis obrazu)
        StructField("IsAvailable", BooleanType(), True),  # Przykład: True (czy dostępna)
        StructField("PublicationDate", DateType(), True),  # Przykład: 1937-09-21 (data wydania)
        StructField("LastCheckedOut", TimestampType(), True),  # Przykład: 2023-10-08 14:45:00 (ostatnie wypożyczenie)
        StructField("Tags", ArrayType(StringType()), True),  # Przykład: ["Fantasy", "Adventure"]
        StructField("ExtraInfo", MapType(StringType(), StringType()), True),  # Przykład: {"ISBN": "978-3-16-148410-0", "Publisher": "Allen & Unwin"}
    ]
)

##UDF (User Defined Functions)

In [None]:
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

# Definiowanie funkcji
def to_upper(s):
    return s.upper()

# Rejestracja funkcji jako UDF
upper_udf = udf(to_upper, StringType())
df.withColumn("UpperName", upper_udf(df["Name"])).show()

##Okna (Window Functions)

In [None]:
from pyspark.sql.window import Window
from pyspark.sql.functions import rank

window_spec = Window.orderBy("Age")
df.withColumn("Rank", rank().over(window_spec)).show()

##Przetwarzanie strumieniowe (Structured Streaming)

In [None]:
# Przykład stworzenia DataFrame ze strumienia
df_streaming = spark.readStream.format("csv").option("header", "true").load("path/to/streaming/files")

##Zapis i odczyt danych

In [None]:
# Zapis do formatu Parquet
df.write.parquet("path/to/output.parquet")

##Wbudowane funkcje analizy

In [None]:
df.stat.corr("Age", "Income")

##Integracja z MLlib

In [None]:
from pyspark.ml.classification import LogisticRegression

lr = LogisticRegression()
model = lr.fit(trainingData)