# Prognozowanie cukrzycy

Celem projektu jest zbudowanie modelu uczenia maszynowego, 
który będzie w stanie przewidzieć ryzyko wystąpienia cukrzycy na podstawie danych demograficznych i medycznych pacjenta.

**Zbiór danych**
1. gender (object) - Płeć pacjenta.
    - Możliwe wartości: np. "Male", "Female".
    - Zmienna Kategoryczna
2. age (float64) - Wiek pacjenta wyrażony w latach.
3. hypertension (int64) Czy pacjent cierpi na nadciśnienie tętnicze.
    - Możliwe wartości: 0 – brak nadciśnienia, 1 – nadciśnienie występuje
4. heart_disease (int64) - Czy pacjent cierpi na chorobę serca.
    - Możliwe wartości: 0 – brak choroby serca, 1 – choroba serca występuje
    smoking_history (object)
5. Historia palenia papierosów przez pacjenta.
    - Możliwe wartości: np. "never", "former", "current", "No Info".
    - bmi (float64)
6. Wskaźnik masy ciała (Body Mass Index - BMI).
7. HbA1c_level (float64) - Średni poziom hemoglobiny glikowanej (HbA1c) we krwi.
9. blood_glucose_level (int64) - Poziom glukozy we krwi pacjenta.

10. diabetes (int64) - Zmienna docelowa. Czy pacjent cierpi na cukrzycę.
    - Możliwe wartości: 0 – brak cukrzycy, 1 – cukrzyca występuje


1. Import i sprawdzenia danych wejściowych

In [None]:
import pandas as pd

# Wczytanie danych
df = pd.read_csv('/mnt/data/diabetes_prediction_dataset.csv')

# Wyświetlenie podstawowych informacji o danych
df.info()
df.head()

2. Eksploracyjna Analiza Danych (EDA)
    - Analiza rozkładu zmiennej docelowej ("diabetes")
    - Rozkład zmiennych kategorycznych ('gender', 'smoking_history')
    - Analiza statystyczna zmiennych numerycznych ('age', 'bmi', 'HbA1c_level', 'blood_glucose_level').
    - Macierz korelacji dla zmiennych numerycznych.
    - Wizualizacje wykresów

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Sprawdzenie brakujących wartości
print(df.isnull().sum())

# Rozkład zmiennej docelowej (diabetes)
df['diabetes'].value_counts().plot(kind='bar', title='Rozkład zmiennej docelowej (diabetes)')
plt.xlabel('Diabetes (0 - brak, 1 - obecność)')
plt.ylabel('Liczba próbek')
plt.show()

# Analiza zmiennych kategorycznych
for col in ['gender', 'smoking_history']:
    df[col].value_counts().plot(kind='bar', title=f'Rozkład zmiennej: {col}')
    plt.xlabel(col)
    plt.ylabel('Liczba próbek')
    plt.show()

# Statystyki opisowe dla zmiennych numerycznych
print(df.describe())

# Macierz korelacji
plt.figure(figsize=(10, 8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Macierz korelacji')
plt.show()
