In [None]:
import pandas as pd

def column_min_max(csv_file):
    # Wczytanie pliku CSV
    df = pd.read_csv(csv_file)

    # Inicjalizacja pustego słownika
    result = {}

    # Iteracja po kolumnach
    for col in df.columns:
        if pd.api.types.is_numeric_dtype(df[col]):  # Jeśli typ jest liczbowy (int, float)
            result[col] = {
                'min': df[col].min(),
                'max': df[col].max()
            }
        elif pd.api.types.is_string_dtype(df[col]):  # Jeśli typ jest tekstowy (string)
            result[col] = {
                'min_length': df[col].str.len().min(),
                'max_length': df[col].str.len().max()
            }

    return result

# Przykład użycia:
# result = column_min_max('twoj_plik.csv')
# print(result)


In [None]:
import pandas as pd

def unique_values_from_columns(csv_file, columns):
    # Wczytanie pliku CSV
    df = pd.read_csv(csv_file)

    # Inicjalizacja pustego słownika na unikatowe wartości
    unique_values = {}

    # Iteracja po wybranych kolumnach
    for col in columns:
        if col in df.columns:  # Sprawdzamy, czy kolumna istnieje w DataFrame
            unique_values[col] = df[col].unique().tolist()  # Unikalne wartości jako lista

    return unique_values

# Przykład użycia:
# columns_to_check = ['col1', 'col2']
# unique_values = unique_values_from_columns('twoj_plik.csv', columns_to_check)
# print(unique_values)


In [None]:
def missing_values_summary(csv_file):
    # Wczytanie pliku CSV
    df = pd.read_csv(csv_file)

    # Tworzenie słownika z ilością brakujących wartości dla każdej kolumny
    missing_values = df.isnull().sum().to_dict()

    return missing_values

# Przykład użycia:
# missing_values = missing_values_summary('twoj_plik.csv')
# print(missing_values)


In [None]:
def column_types(csv_file):
    # Wczytanie pliku CSV
    df = pd.read_csv(csv_file)

    # Zwraca typy danych w kolumnach
    return df.dtypes.to_dict()

# Przykład użycia:
# column_data_types = column_types('twoj_plik.csv')
# print(column_data_types)


In [None]:
def detect_outliers(csv_file):
    df = pd.read_csv(csv_file)

    outliers = {}

    for col in df.select_dtypes(include=['float64', 'int64']).columns:
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR

        # Filtrujemy wartości odstające
        outliers[col] = df[(df[col] < lower_bound) | (df[col] > upper_bound)][col].tolist()

    return outliers

# Przykład użycia:
# outliers = detect_outliers('twoj_plik.csv')
# print(outliers)


In [None]:
def check_uniqueness(csv_file, column):
    df = pd.read_csv(csv_file)

    unique_values = df[column].is_unique
    return unique_values

# Przykład użycia:
# is_unique = check_uniqueness('twoj_plik.csv', 'id')
# print(is_unique)  # True lub False


In [None]:
def category_distribution(csv_file, column):
    df = pd.read_csv(csv_file)

    if column in df.columns and pd.api.types.is_categorical_dtype(df[column]) or pd.api.types.is_object_dtype(df[column]):
        return df[column].value_counts(normalize=True).to_dict()  # Zwracamy proporcje
    else:
        return f"Kolumna {column} nie jest kategoryczna."

# Przykład użycia:
# distribution = category_distribution('twoj_plik.csv', 'kolumna_kategoryczna')
# print(distribution)


In [None]:
def correlation_matrix(csv_file):
    df = pd.read_csv(csv_file)

    # Zwracamy macierz korelacji dla kolumn liczbowych
    return df.corr()

# Przykład użycia:
# corr_matrix = correlation_matrix('twoj_plik.csv')
# print(corr_matrix)
