 # INTRO

Na potrzeby tego projektu zostanie utworzona nowa baza danych w oparciu o PostgreSQL. Baza ta posłuży jako fundament do dalszych operacji zgodnych z zadanymi wymaganiami.

W poniższym notatniku przeanalizujemy surowe dane, a następnie dokonamy niezbędnych modyfikacji, aby były one gotowe do załadowania do bazy danych. Wykonamy odpowiednie przekształcenia, aby dane były poprawnie przygotowane pod kątem struktury, typów oraz integralności, co umożliwi ich sprawną integrację i przetwarzanie w systemie.

 # Konfiguracja notatnika

##### Importujemy wymagane biblioteki

In [4]:
import pandas as pd

### PLIK TEST_BAZA2.csv

##### Wczytujemy plik `TEST_BAZA2.csv`.

In [7]:
# Wczytujemy plik CSV do DataFrame o nazwie 'TEST_BAZA2'
file_path = '../data/raw/TEST_BAZA2.csv'
baza2 = pd.read_csv(file_path, delimiter=';')
baza2.head()

Unnamed: 0,ID,NUMBER,PLAN
0,10886857,531778955,S
1,10886857,500830441,S
2,10886857,599709277,S
3,10886857,580058812,S
4,10886857,542422081,S


In [8]:
# Sprawdzenie rozmiarów df-a
baza2.shape

(9968, 3)

In [9]:
# Sprawdzenie ilości wartości NULL (NaN) w kolumnie ID
null_count = baza2['ID'].isna().sum()
print(f"Liczba wartości NULL (NaN) w kolumnie 'ID': {null_count}")

# Sprawdzenie ilości wartości NULL (NaN) w kolumnie NUMBER
null_count = baza2['NUMBER'].isna().sum()
print(f"Liczba wartości NULL (NaN) w kolumnie 'NUMBER': {null_count}")

# Sprawdzenie ilości wartości NULL (NaN) w kolumnie PLAN
null_count = baza2['PLAN'].isna().sum()
print(f"Liczba wartości NULL (NaN) w kolumnie 'PLAN': {null_count}")

Liczba wartości NULL (NaN) w kolumnie 'ID': 0
Liczba wartości NULL (NaN) w kolumnie 'NUMBER': 0
Liczba wartości NULL (NaN) w kolumnie 'PLAN': 98


In [10]:
# Sprawdzenie duplikatów na podstawie kolumn 'ID' i 'NUMBER' w celu wykrycia, czy nie generują one wierszy z brakującymi danymi w kolumnie 'PLAN'
duplicated2 = baza2[baza2.duplicated(subset=['ID', 'NUMBER'], keep=False)]

# Wyświetlenie duplikatów
duplicated2

Unnamed: 0,ID,NUMBER,PLAN


In [11]:
# Sprawdzenie duplikatów na podstawie wszystkich kolumn
duplicated2_all = baza2[baza2.duplicated(keep=False)]

# Wyświetlenie duplikatów
duplicated2_all

Unnamed: 0,ID,NUMBER,PLAN


In [12]:
# Sprawdzenie typów danych we wszystkich kolumnach DataFrame
print(baza2.dtypes)

ID         int64
NUMBER     int64
PLAN      object
dtype: object


In [13]:
# Sprawdzenie, czy wszystkie numery w kolumnie NUMBER mają 9 cyfr
test_9_digits = baza2['NUMBER'].astype(str).str.len() == 9

# Wyświetlenie wierszy, które nie mają 9 cyfr
baza2[~test_9_digits]

Unnamed: 0,ID,NUMBER,PLAN


### UWAGA !

Po zapoznaniu się z otrzymanymi danymi widzę, że w pliku BAZA2 nie występują duplikaty. W tej sytuacji należy wyjaśnić, skąd wynikają braki w kolumnie PLAN, i zdecydować, czy wprowadzić do bazy danych wartości NaN, czy uzupełnić je wartością BP (brak planu). Pozostawienie NaN pozwala monitorować brakujące dane, natomiast wartość BP może być użyteczna, jeśli brak planu to rzeczywista informacja, a nie brak danych.

Na potrzeby tego zadania zdecydowałem, że brakujące plany pozostaną pustą wartością.

##### Zapisujemy ramkę `baza2` do pliku `TEST_BAZA2_CLEANED.csv` w katalogu `data/processed`.

In [16]:
# Ścieżka do zapisu pliku CSV
file_path = '../data/processed/TEST_BAZA2_CLEANED.csv'

# Zapisujemy ramkę danych do pliku CSV
baza2.to_csv(file_path, index=False)

### PLIK TEST_BAZA1.csv

##### Wczytujemy plik `TEST_BAZA1.csv`.

In [19]:
# Wczytujemy plik CSV do DataFrame o nazwie 'TEST_BAZA1'
file_path = '../data/raw/TEST_BAZA1.csv'
baza1 = pd.read_csv(file_path, delimiter=';')
baza1.head()

Unnamed: 0,ID,NUMBER,END_DT,SEGMENT
0,12373110,,14.03.2024 10:46:02,Soho
1,12373110,,13.03.2024 19:48:21,Soho
2,12370190,,25.06.2017 11:58:41,Soho
3,12370190,,29.10.2022 01:20:34,Soho
4,12370190,,29.10.2022 02:20:33,Soho


In [20]:
# Sprawdzenie rozmiarów df-a
baza1.shape

(10000, 4)

In [21]:
# Sprawdzenie ilości wartości NULL (NaN) w kolumnie ID
null_count = baza1['ID'].isna().sum()
print(f"Liczba wartości NULL (NaN) w kolumnie 'ID': {null_count}")

# Sprawdzenie ilości wartości NULL (NaN) w kolumnie NUMBER
null_count = baza1['NUMBER'].isna().sum()
print(f"Liczba wartości NULL (NaN) w kolumnie 'NUMBER': {null_count}")

# Sprawdzenie ilości wartości NULL (NaN) w kolumnie END_DT
null_count = baza1['END_DT'].isna().sum()
print(f"Liczba wartości NULL (NaN) w kolumnie 'END_DT': {null_count}")

# Sprawdzenie ilości wartości NULL (NaN) w kolumnie SEGMENT
null_count = baza1['SEGMENT'].isna().sum()
print(f"Liczba wartości NULL (NaN) w kolumnie 'SEGMENT': {null_count}")

Liczba wartości NULL (NaN) w kolumnie 'ID': 0
Liczba wartości NULL (NaN) w kolumnie 'NUMBER': 32
Liczba wartości NULL (NaN) w kolumnie 'END_DT': 0
Liczba wartości NULL (NaN) w kolumnie 'SEGMENT': 0


In [22]:
# Sprawdzenie duplikatów na podstawie kolumn 'ID', 'END_DT' i 'SEGMENT' w celu wykrycia, czy nie generują one wierszy z brakującymi danymi w kolumnie 'NUMBER'
duplicated1 = baza1[baza1.duplicated(subset=['ID', 'END_DT', 'SEGMENT'], keep=False)]

# Wyświetlenie duplikatów
duplicated1

Unnamed: 0,ID,NUMBER,END_DT,SEGMENT
846,12371844,574 279 954,22.11.2024 02:28:56,Medium
908,12371844,534 307 493,22.11.2024 02:28:56,Medium


In [23]:
# Sprawdzenie duplikatów na podstawie wszystkich kolumn
duplicated1_all = baza1[baza1.duplicated(keep=False)]

# Wyświetlenie duplikatów
duplicated1_all

Unnamed: 0,ID,NUMBER,END_DT,SEGMENT


In [24]:
# Sprawdzenie typów danych we wszystkich kolumnach DataFrame
print(baza1.dtypes)

ID          int64
NUMBER     object
END_DT     object
SEGMENT    object
dtype: object


In [25]:
# Sprawdzenie 10 pierwszych unikalnych wartości w kolumnie 'NUMBER'
unique_numbers_limit_10 = baza1['NUMBER'].unique()[:10]

# Wyświetlenie wyników
print(unique_numbers_limit_10)

[nan '531 778 955' '500 830 441' '599 709 277' '580 058 812' '542 422 081'
 '504 667 542' '570 338 661' '542 560 650' '562 345 617']


In [26]:
# Usunięcie wszystkich spacji z kolumny 'NUMBER'
baza1['NUMBER'] = baza1['NUMBER'].str.replace(' ', '', regex=False)

unique_numbers_limit_10 = baza1['NUMBER'].unique()[:10]

# Sprawdzenie wyników
print(unique_numbers_limit_10)

[nan '531778955' '500830441' '599709277' '580058812' '542422081'
 '504667542' '570338661' '542560650' '562345617']


In [27]:
# Sprawdzenie typów danych we wszystkich kolumnach DataFrame
print(baza1.dtypes)

ID          int64
NUMBER     object
END_DT     object
SEGMENT    object
dtype: object


In [28]:
# Sprawdzenie, czy wszystkie numery w kolumnie NUMBER mają 9 cyfr
test_9_digits = baza1['NUMBER'].astype(str).str.len() == 9

# Wyświetlenie wierszy, które nie mają 9 cyfr
baza1[~test_9_digits]

Unnamed: 0,ID,NUMBER,END_DT,SEGMENT
0,12373110,,14.03.2024 10:46:02,Soho
1,12373110,,13.03.2024 19:48:21,Soho
2,12370190,,25.06.2017 11:58:41,Soho
3,12370190,,29.10.2022 01:20:34,Soho
4,12370190,,29.10.2022 02:20:33,Soho
5,12370190,,29.10.2022 05:50:57,Soho
6,12370190,,29.10.2022 16:15:39,Soho
7,12370190,,29.10.2022 04:00:13,Soho
8,12370190,,29.10.2022 01:06:15,Soho
9,12370190,,29.10.2022 06:36:43,Soho


### UWAGA !

Po zapoznaniu się z otrzymanymi danymi widzę, że w pliku BAZA1 nie występują duplikaty. W tej sytuacji należy wyjaśnić, skąd wynikają braki w kolumnie NUMBER, i zdecydować, czy wprowadzić do bazy danych wartości NaN, czy uzupełnić je "na sztywno" pewną wartością.

Na potrzeby tego zadania zdecydowałem, że pozostawię te pola puste, ponieważ brak numeru może być spowodowany np. umową, która nie zawiera numeru telefonu.

##### Zapisujemy ramkę `baza1` do pliku `TEST_BAZA1_CLEANED.csv` w katalogu `data/processed`.

In [31]:
# Ścieżka do zapisu pliku CSV
file_path = '../data/processed/TEST_BAZA1_CLEANED.csv'

# Zapisujemy ramkę danych do pliku CSV
baza1.to_csv(file_path, index=False)

 # Podsumowanie
W tym notatniku wykonaliśmy pierwszy krok w analizie danych - pozyskaliśmy je i odpowiednio przetworzyliśmy. Dane są gotowe do dalszej pracy, czyli możemy załadować je na bazę danych, a następnie zapoznać się z tym, jakie informacje ze sobą niosą.

In [33]:
msg = "Wszystko wygląda OK :) Przechodzimy do kolejnego kroku."
print(msg)

Wszystko wygląda OK :) Przechodzimy do kolejnego kroku.
