In [None]:
import pandas as pd
import matplotlib.pyplot as plt

def analyze_days_difference(file_path, start_date_col, end_date_col, date_format=None):
    # Wczytanie danych
    df = pd.read_csv(file_path)

    # Konwersja kolumn na typ datetime z uwzględnieniem formatu dat
    if date_format:
        df[start_date_col] = pd.to_datetime(df[start_date_col], format=date_format, errors='coerce')
        df[end_date_col] = pd.to_datetime(df[end_date_col], format=date_format, errors='coerce')
    else:
        df[start_date_col] = pd.to_datetime(df[start_date_col], errors='coerce')
        df[end_date_col] = pd.to_datetime(df[end_date_col], errors='coerce')

    # Usunięcie wierszy z wartościami null w kolumnach dat
    df = df.dropna(subset=[start_date_col, end_date_col])

    # Obliczenie różnicy dni
    df['days_difference'] = (df[end_date_col] - df[start_date_col]).dt.days

    # Zliczenie liczby dni
    days_count = df['days_difference'].value_counts().sort_index()

    # Tworzenie histogramu
    plt.figure(figsize=(10, 6))
    days_count.plot(kind='bar')
    plt.xlabel('Liczba dni')
    plt.ylabel('Liczba wystąpień')
    plt.title('Histogram liczby dni między datami')
    plt.show()

# Przykład użycia funkcji
analyze_days_difference('nazwa_pliku.csv', 'data_start', 'data_end', date_format='%d-%m-%Y')


In [None]:
import pandas as pd
import matplotlib.pyplot as plt

def analyze_days_difference(file_path, start_date_col, end_date_col, date_format=None):
    # Wczytanie danych
    df = pd.read_csv(file_path)

    # Konwersja kolumn na typ datetime z uwzględnieniem formatu dat
    if date_format:
        df[start_date_col] = pd.to_datetime(df[start_date_col], format=date_format, errors='coerce')
        df[end_date_col] = pd.to_datetime(df[end_date_col], format=date_format, errors='coerce')
    else:
        df[start_date_col] = pd.to_datetime(df[start_date_col], errors='coerce')
        df[end_date_col] = pd.to_datetime(df[end_date_col], errors='coerce')

    # Usunięcie wierszy z wartościami null w kolumnach dat
    df = df.dropna(subset=[start_date_col, end_date_col])

    # Obliczenie różnicy dni
    df['days_difference'] = (df[end_date_col] - df[start_date_col]).dt.days

    # Zliczenie liczby dni
    days_count = df['days_difference'].value_counts().sort_index()

    # Obliczenie statystyk
    mean_days = df['days_difference'].mean()
    std_dev_days = df['days_difference'].std()
    median_days = df['days_difference'].median()

    # Wyświetlenie statystyk
    print(f"Średnia liczba dni: {mean_days}")
    print(f"Odchylenie standardowe liczby dni: {std_dev_days}")
    print(f"Mediana liczby dni: {median_days}")

    # Tworzenie histogramu
    plt.figure(figsize=(10, 6))
    days_count.plot(kind='bar')
    plt.xlabel('Liczba dni')
    plt.ylabel('Liczba wystąpień')
    plt.title('Histogram liczby dni między datami')
    plt.show()

# Przykład użycia funkcji
analyze_days_difference('nazwa_pliku.csv', 'data_start', 'data_end', date_format='%d-%m-%Y')


In [None]:
def calculate_statistics(days_difference_series):
    """
    Oblicza statystyki dla podanej serii różnicy dni.

    Parametry:
    days_difference_series (pd.Series): Seria Pandas zawierająca różnice dni.

    Zwraca:
    dict: Słownik zawierający średnią, odchylenie standardowe oraz medianę.
    """
    mean_days = days_difference_series.mean()
    std_dev_days = days_difference_series.std()
    median_days = days_difference_series.median()

    statistics = {
        'mean': mean_days,
        'std_dev': std_dev_days,
        'median': median_days
    }

    return statistics

# Przykład użycia
# Załóżmy, że df['days_difference'] zawiera już obliczone różnice dni
statistics = calculate_statistics(df['days_difference'])
print(f"Średnia liczba dni: {statistics['mean']}")
print(f"Odchylenie standardowe liczby dni: {statistics['std_dev']}")
print(f"Mediana liczby dni: {statistics['median']}")


In [None]:
import pandas as pd

def calculate_statistics_with_describe(days_difference_series):
    """
    Oblicza podstawowe statystyki opisowe dla podanej serii różnicy dni za pomocą funkcji describe().

    Parametry:
    days_difference_series (pd.Series): Seria Pandas zawierająca różnice dni.

    Zwraca:
    pd.Series: Seria zawierająca podstawowe statystyki opisowe.
    """
    statistics = days_difference_series.describe()
    return statistics

# Przykład użycia
# Zakładamy, że df['days_difference'] zawiera już obliczone różnice dni
statistics = calculate_statistics_with_describe(df['days_difference'])

# Wyświetlenie wyników
print(statistics)


In [None]:
import pandas as pd

def calculate_statistics_with_describe(days_difference_series):
    """
    Oblicza podstawowe statystyki opisowe dla podanej serii różnicy dni za pomocą funkcji describe().

    Parametry:
    days_difference_series (pd.Series): Seria Pandas zawierająca różnice dni.

    Zwraca:
    pd.DataFrame: Tabela zawierająca podstawowe statystyki opisowe.
    """
    statistics = days_difference_series.describe()
    statistics_df = pd.DataFrame(statistics).T
    return statistics_df

# Przykład użycia
# Zakładamy, że df['days_difference'] zawiera już obliczone różnice dni
statistics_df = calculate_statistics_with_describe(df['days_difference'])

# Wyświetlenie tabeli
import ace_tools as tools; tools.display_dataframe_to_user(name="Statystyki opisowe", dataframe=statistics_df)
