# Zadania z regresji, rekomendacji i przetwarzania języka naturalnego (NLP)

Ten notatnik zawiera praktyczne zadania wykorzystujące rzeczywiste zbiory danych.

## 1. Regresja - Przewidywanie cen nieruchomości w Kalifornii

**Zbiór danych**: California Housing Dataset

**Źródło**: scikit-learn datasets

**Opis**: Zbiór zawiera dane o cenach domów w Kalifornii z 1990 roku. Celem jest przewidzenie mediany ceny domu w danym obszarze.

**Cechy**:
- MedInc (mediana dochodów)
- HouseAge (wiek domu)
- AveRooms (średnia liczba pokoi)
- AveBedrms (średnia liczba sypialni)
- Population (populacja)
- AveOccup (średnia liczba mieszkańców)
- Latitude (szerokość geograficzna)
- Longitude (długość geograficzna)

In [None]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import GradientBoostingRegressor
import xgboost as xgb

def predict_house_prices():
    """
    Przewidywanie cen domów z wykorzystaniem Gradient Boosting i XGBoost
    
    1. Wczytaj i przygotuj dane
    2. Przeprowadź eksploracyjną analizę danych (EDA)
    3. Wybierz i przetestuj różne modele regresji
    4. Dokonaj optymalizacji hiperparametrów
    5. Przeprowadź analizę błędów
    """
    pass

## 2. Rekomendacje - System rekomendacji filmów

**Zbiór danych**: MovieLens 100K Dataset

**Źródło**: GroupLens Research

**Opis**: Zbiór zawiera 100,000 ocen od 943 użytkowników dla 1,682 filmów. 

**Cechy**:
- UserID
- MovieID
- Rating (1-5)
- Timestamp
- Informacje o filmach (tytuł, gatunek)
- Informacje o użytkownikach (wiek, płeć, zawód)

In [None]:
import pandas as pd
import numpy as np
from scipy.sparse.linalg import svds
from sklearn.metrics.pairwise import cosine_similarity

def build_movie_recommender():
    """
    System rekomendacji filmów wykorzystujący collaborative filtering
    
    1. Zaimplementuj collaborative filtering (user-based i item-based)
    2. Wykorzystaj SVD do redukcji wymiarowości
    3. Dodaj content-based filtering używając gatunków filmów
    4. Stwórz system hybrydowy
    5. Oceń jakość rekomendacji
    """
    pass

## 3. NLP - Analiza sentymentu recenzji produktów

**Zbiór danych**: Amazon Product Reviews

**Źródło**: Kaggle

**Opis**: Zbiór zawiera recenzje produktów z Amazon wraz z oceną gwiazdkową. 

**Cechy**:
- ReviewText
- Rating (1-5 gwiazdek)
- ProductID
- UserID
- Summary
- Time

In [None]:
from transformers import pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
import nltk
from nltk.corpus import stopwords

def analyze_product_sentiment():
    """
    Analiza sentymentu recenzji z wykorzystaniem różnych technik
    
    1. Preprocesssing tekstu (tokenizacja, usuwanie stop words)
    2. Ekstrakcja cech (TF-IDF, word embeddings)
    3. Implementacja klasycznego podejścia (RandomForest z TF-IDF)
    4. Wykorzystanie modeli transformerowych (BERT)
    5. Porównanie wyników różnych podejść
    """
    pass

## 4. Regresja - Prognozowanie sprzedaży

**Zbiór danych**: Rossmann Store Sales

**Źródło**: Kaggle

**Opis**: Zbiór zawiera historyczne dane sprzedażowe z sieci sklepów Rossmann. 

**Cechy**:
- Store
- DayOfWeek
- Date
- Sales
- Customers
- Open
- Promo
- StateHoliday
- SchoolHoliday

In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from lightgbm import LGBMRegressor
from sklearn.metrics import mean_squared_error

def forecast_sales():
    """
    Prognozowanie sprzedaży z wykorzystaniem szeregów czasowych
    
    1. Przygotowanie cech czasowych (lag features, rolling statistics)
    2. Obsługa sezonowości i trendów
    3. Implementacja modelu LightGBM
    4. Dodanie modelu SARIMA do porównania
    5. Analiza ważności cech
    """
    pass

## 5. Rekomendacje - System rekomendacji artykułów

**Zbiór danych**: Medium Articles Dataset

**Źródło**: Kaggle

**Opis**: Zbiór zawiera artykuły z Medium wraz z informacjami o interakcjach użytkowników.

**Cechy**:
- ArticleId
- Title
- Text
- Author
- Tags
- Claps
- Responses

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel
import gensim.models.doc2vec as doc2vec

def recommend_articles():
    """
    System rekomendacji artykułów wykorzystujący content-based filtering
    
    1. Przetwarzanie tekstu i tagów
    2. Implementacja TF-IDF dla podobieństwa tekstowego
    3. Wykorzystanie Doc2Vec do wektoryzacji artykułów
    4. Dodanie popularności jako czynnika rankingowego
    5. Ewaluacja rekomendacji
    """
    pass

## 6. NLP - Klasyfikacja tematyczna artykułów

**Zbiór danych**: BBC News Dataset

**Źródło**: Kaggle

**Opis**: Zbiór zawiera artykuły BBC News podzielone na 5 kategorii tematycznych.

**Cechy**:
- Text (pełny tekst artykułu)
- Category (business, entertainment, politics, sport, tech)

In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
from sklearn.feature_extraction.text import CountVectorizer

def classify_news_articles():
    """
    Klasyfikacja tematyczna artykułów
    
    1. Preprocesssing tekstu
    2. Implementacja klasycznego podejścia (BoW + klasyfikator)
    3. Wykorzystanie BERT do klasyfikacji
    4. Analiza błędnie sklasyfikowanych przypadków
    5. Wizualizacja wyników (confusion matrix, raporty)
    """
    pass