# Analiza datasetu Gender, Mental Illness, and Crime in the United States, 2004 (ICPSR 27521)

Szymon Zalas 147493

Na podstawie https://put-jug.github.io/lab-ead/Lab%2010%20-%20Projekt%20blok2_2024.html

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## 0) Omówienie Projektu

### a) Opis próby

Celem projetku jest znalezienie czynników odpowiedzialnych za depresję, tak żeby po ich określeniu można było dokonać oceny ryzyka depresji w danej grupie wiekowej na podstawie datasetu Gender, Mental Illness, and Crime in the United States, 2004 (ICPSR 27521). Próba obejmowała 67 760 osób, z czego plik zawiera 55 602 rekordów ze względu na resampling stosowany w procesie anonimizacji. Stratyfikacja próby jest wielopoziomowa, zaczynając od stanów, gdzie 8 jest uważanych za stany o dużej próbie i wnoszą ok. 3600 respondentów na stan. Reszta stanów obejmuje ok 900 respondentów. 

 Próbkowanie obejmowało pięć grup wiekowych: 
- 12–17 lat,
- 18–25 lat,
- 26–34 lata,
- 35–49 lat,
- 50 lat i więcej.

Projekt próby obejmował mniej więcej równą liczbę osób w grupach wiekowych:
- 12–17 lat,
- 18–25 lat,
- 26 lat i starszych.

In [2]:
base_df=pd.read_csv('27521-0001-Data.tsv', sep='\t',header=0)

### b) Opis zmiennych

In [3]:
extracted_variables=[]

#### Wskaźniki depresji

- DEPRESSIONINDEX - wskaźnik natężenia depresji w skali 0-9 dla grupy dorosłych i w wieku młodzieńczym (brak odpowiedzi = -9)
- DEPEPISODE - doświadczenie epizodu depresji w okresie całego zycia
- MDELASTYR - epizod depresji w ostatnim roku
- ANYTXRXMDE - jakiklolwiek zdarzenie zawiązane z leczeniem depresji lub receptą na leki antydepresyjne w minionym roku

In [4]:
extracted_variables.extend(['DEPRESSIONINDEX','DEPEPISODE','MDELASTYR','ANYTXRXMDE'])

#### Wskaźniki wieku

- CATAG2 - 3 grupy wiekowe: 12-17, 18-25, >25
- CATAG3 - równoliczne 5 kategorii wiekowych
- CATAG7 - równoliczne 7 kategorii wiekowych

Grupa wiekowa (12-17 (youth)) ma w pewnych obszarach inne zestawy pytań niż grupy starsze (rozróżnienie jest kodowane w nazwach kolumn YOxxx lub ADxx)

In [5]:
extracted_variables.extend(['CATAG2','CATAG3','CATAG7'])

#### Wskaźnik płci

- IRSEX - rozróżnia płeć biologiczną

In [6]:
extracted_variables.extend(['IRSEX'])

#### Wskaźnik rasy

- NEWRACE2 (1-7)
    1) NonHisp White
    2) NonHisp Black/Afr
    3) NonHisp Native Am/AK Native
    4) NonHisp Native HI/Other Pac Isl
    5) NonHisp Asian
    6) NonHisp more than one race
    7) Hispanic


In [7]:
extracted_variables.extend(['NEWRACE2'])

#### Wskaźnik uzależnienia od narkotyków i alkoholu

- ANYINDEX - wskaźnik uzależnienia od dowolnego rodzaju narkotyków (boolean)
- MJANDCOKE - marihuana lub kokaina (kiedykolwiek)
- ILLICITDRUGUSE - nielegalny narkotyk (kiedykolwiek)
- LSYRILLICIT - nielegalny narkotyk (ostatni rok)
- COKECRACK - kokaina lub crack 
- OTHERILLICIT - inne nielegalne poza kokaina lub marihuaną (kiedykolwiek)
- MARJLTYR - marihuana (ostatni rok)
- MJCOKELY - marihuana, kokaina, crack (ostatni rok)
- COCCRKLY - kokaina (ostatni rok)
- MJGT12MO - marihuana (upłynęło więcej niż 12msc)
- COCGT12MO - kokaina (upłynęło więcej niż 12msc)
- ANYGT12MO - jakikolwiek narkotyck (upłynęło więcej niż 12msc)
- ALCFMFPB - alkohol powodował problemy wśród rodziny/przyjaciół (ostatni rok)


In [8]:
extracted_variables.extend(['ANYINDEX','MJANDCOKE', 'ILLICITDRUGUSE', 'LSYRILLICIT', 'COKECRACK', 'OTHERILLICIT','MARJLTYR', 'MJCOKELY', 'COCCRKLY','MJGT12MO', 'COCGT12MO', 'ANYGT12MO','ALCFMFPB'])

#### Wskaźnik edukacji

- IREDUC2 - wykształcenie
- EDU_DUMMY - wykształcenie (średnie/niższe od średniego lub wyższe)

In [9]:
extracted_variables.extend(['IREDUC2','EDU_DUMMY'])

#### Wskaźniki ekonomiczne

- INCOME - dochód rodziny
- INCOME_R - dochód własny
- POVERTY - dochód rodziny odniesiony do wskaźnika biedy
- IRPRVHLT - prywatne ubezpieczenie zdrowotne
- WORKFORCE - informacja czy osoba pracuje/pracowała
- EMPSTAT4 - status zatrudnienia

In [10]:
extracted_variables.extend(['INCOME','INCOME_R','POVERTY','IRPRVHLT','WORKFORCE','EMPSTAT4'])

#### Wskaźniki warunków zamieszkania

- REVERSEPOP - charakterystyka miejsca zamieszkania (gęstość zaludnienia)
- MOVESPY2 - liczba przeprowadzek w okresie ostatnich 12 miesięcy
- CACHAR, CATYPE - typ mieszkania

In [11]:
extracted_variables.extend(['REVERSEPOP','MOVESPY2','CACHAR','CATYPE'])

#### Wskaźnik konfliktów z prawem

- CRIMEHIST - kiedykolwiek aresztowany
- ANYSDRUG - sprzedarz narkotyków (ostatnie 12 msc)
- ANYATTACK - atak na inną osobę (ostatnie 12 msc)
- ANYTHEFT - kradzież przedmiotu o wartości min 50$ (ostatnie 12 msc)
- NUMARREST - liczba aresztowań (ostatnie 12 msc)

In [12]:
extracted_variables.extend(['CRIMEHIST','ANYSDRUG','ANYATTACK','ANYTHEFT','NUMARREST'])

#### Stan zdrowia

- HEALTH2 - stan zdrowia
- SCHDSICK - liczba dni opuszczonych w szkole z uwagi choroby (dla uczniów)
- SCHDSKIP - liczba dni opuszczony z powodu wagarów
- TXLCAD - informacja o terapii uzależnień od narkotyków lub alkoholu
- DSTNCALM - jak często nie mógł się uspokoić w najgorszych miesiącach
- DSTTIRE - jak często był wycięczony w najgorszych miesiącach
- DSTSITST - jak często nie mógł usiedzieć na miejscu w najgorszych miesiącach
- DSTDEPRS - jak często miał poczucie depresji w najgorszych miesiącach
- DSTCHEER - jak często nie mógł być pocieszony w najgorszych miesiącach
- DSTNRVOS - jak często czuł stany nerwowe w najgorszych miesiącach
- ADWRELES - mniejszy apetyt w najgorszych miesiącach
- ADWRSMOR - problemy ze snem
- ADWRSTHK - myśli samobójcze
- YOWRSATP - próba samobójcza

In [13]:
extracted_variables.extend(['HEALTH2', 'SCHDSICK', 'SCHDSKIP', 'TXLCAD', 'DSTNCALM', 'DSTTIRE', 'DSTSITST', 'DSTDEPRS', 'DSTCHEER', 'DSTNRVOS', 'ADWRELES', 'ADWRSMOR', 'ADWRSTHK', 'YOWRSATP'])

#### Rodzina

- IRMARIT - stan cywilny
- NOMARR2 - liczba razy kiedy osoba wchodziła w związek małżeński
- RKIDSHH - liczba dzieci respondent
- MARRIED - aktualny stan cywilny
- CHILDRENINHOME - czy ma dzieci (min 1)

In [14]:
extracted_variables.extend(['IRMARIT','NOMARR2','RKIDSHH','MARRIED','CHILDRENINHOME'])

In [15]:
main_df=base_df[extracted_variables] # extract the variables of interest
main_df

Unnamed: 0,DEPRESSIONINDEX,DEPEPISODE,MDELASTYR,ANYTXRXMDE,CATAG2,CATAG3,CATAG7,IRSEX,NEWRACE2,ANYINDEX,...,DSTNRVOS,ADWRELES,ADWRSMOR,ADWRSTHK,YOWRSATP,IRMARIT,NOMARR2,RKIDSHH,MARRIED,CHILDRENINHOME
0,0,0,0,0,2,2,5,1,7,0.142857,...,4,99,99,99,99,4,99,0,0,0
1,0,0,0,0,2,2,4,1,1,0.142857,...,4,99,99,99,99,4,99,0,0,0
2,0,0,0,0,3,5,7,1,1,0.142857,...,5,99,99,99,99,1,1,0,1,0
3,0,0,0,0,2,2,5,1,1,0.500000,...,4,99,99,99,99,4,99,0,0,0
4,0,0,0,0,3,4,7,2,1,0.142857,...,3,99,99,99,99,1,1,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
55597,-9,-1,-1,-9,2,2,5,1,1,0.142857,...,5,99,99,99,99,4,99,0,0,0
55598,0,0,0,0,2,2,5,1,1,0.142857,...,4,99,99,99,99,1,1,1,1,1
55599,-9,-1,-1,-9,2,2,5,2,1,0.142857,...,5,99,99,99,99,1,1,1,1,1
55600,0,0,0,0,3,3,6,1,1,0.142857,...,3,99,99,99,99,1,1,0,1,0


## 1) FAZA 1 - Czyszczenie danych i analiza czynnikowa 

### a) Czyszczenie danych

In [16]:
main_df.isna().sum().max()

np.int64(0)

Dane zawarte w datasecie zostały już częściowo oczyszczone a w dokumencie opisującym, możemy znaleść dokładne oznaczenia powodów brakujących danych. Typowo, brakujące dane są oznaczane albo wartością ujemną albo bardzo wysoką (powyżej 90), przy czym wartość 99 oznacza uzasadnione pominięcie pytania.

In [17]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
print(invalid_counts)

DEPRESSIONINDEX    18630
DEPEPISODE         19019
MDELASTYR          19070
ANYTXRXMDE         18963
ANYINDEX              35
COKECRACK           1705
MJGT12MO            1930
COCGT12MO            781
ANYGT12MO           2410
ALCFMFPB           28140
WORKFORCE             21
CACHAR                 7
CATYPE               121
CRIMEHIST            159
ANYSDRUG             167
ANYATTACK            116
ANYTHEFT             123
NUMARREST            853
HEALTH2               12
SCHDSICK            3447
SCHDSKIP              72
TXLCAD             54622
DSTNCALM             221
DSTTIRE              163
DSTSITST             174
DSTDEPRS             143
DSTCHEER             283
DSTNRVOS             350
ADWRELES             147
ADWRSMOR             135
ADWRSTHK             136
YOWRSATP             227
NOMARR2               13
RKIDSHH               45
dtype: int64


In [18]:
len_0=main_df.shape[0]
print(f'Aktualna liczba danych: {len_0}')
print(f'Najwyższa liczba nieprawidłowych wartości: {invalid_counts.max()} dla zmiennej {invalid_counts.idxmax()}')
print(f'Najniższa liczba nieprawidłowych wartości: {invalid_counts.min()} dla zmiennej {invalid_counts.idxmin()}')

Aktualna liczba danych: 55602
Najwyższa liczba nieprawidłowych wartości: 54622 dla zmiennej TXLCAD
Najniższa liczba nieprawidłowych wartości: 7 dla zmiennej CACHAR


#### Czyszczenie analityczne

Początkowo pozbędziemy się wierszy w których wszystkie informacje dotyczące wystąpienia depresji są mniejsze od 0 - nie jesteśmy w stanie przewidzieć jaka jest tam prawdziwa odpowiedź

In [19]:
columns_to_check = ['DEPRESSIONINDEX', 'DEPEPISODE', 'MDELASTYR', 'ANYTXRXMDE']
mask = (main_df[columns_to_check] >= 0).all(axis=1)
main_df = main_df[mask]

In [20]:
len_1=main_df.shape[0]
print(f'Aktualna liczba danych: {len_1}')
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
print(f'Najwyższa liczba nieprawidłowych wartości: {invalid_counts.max()} dla zmiennej {invalid_counts.idxmax()}')
print(f'Najniższa liczba nieprawidłowych wartości: {invalid_counts.min()} dla zmiennej {invalid_counts.idxmin()}')

Aktualna liczba danych: 36505
Najwyższa liczba nieprawidłowych wartości: 35899 dla zmiennej TXLCAD
Najniższa liczba nieprawidłowych wartości: 4 dla zmiennej WORKFORCE


Sprawdźmy rezultat

In [21]:
pivot_dfs = []

for col in columns_to_check:
    df_temp = pd.crosstab(index=main_df[col][main_df[col] >= 0], columns=col)
    df_temp.loc['Total'] = df_temp.sum()
    pivot_dfs.append(df_temp)

result = pd.concat(pivot_dfs, axis=1)
print(result)

col_0  DEPRESSIONINDEX  DEPEPISODE  MDELASTYR  ANYTXRXMDE
0                30076     30773.0    32999.0     34108.0
1                  112      5732.0     3506.0      2397.0
2                   71         NaN        NaN         NaN
3                  170         NaN        NaN         NaN
4                  344         NaN        NaN         NaN
5                  599         NaN        NaN         NaN
6                  954         NaN        NaN         NaN
7                 1313         NaN        NaN         NaN
8                 1543         NaN        NaN         NaN
9                 1323         NaN        NaN         NaN
Total            36505     36505.0    36505.0     36505.0


Poszukajmy kolumn w których ponad 90% wartości jest nieprawidłowa...

In [22]:
th_len=int(len_1*0.9)
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > th_len]
print(invalid_counts)

TXLCAD    35899
dtype: int64


... a następnie je wyrzućmy.

In [23]:
main_df = main_df.drop(columns=invalid_counts.index)

In [24]:
len_2=main_df.shape[0]
print(f'Aktualna liczba danych: {len_2}')
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
print(f'Najwyższa liczba nieprawidłowych wartości: {invalid_counts.max()} dla zmiennej {invalid_counts.idxmax()}')
print(f'Najniższa liczba nieprawidłowych wartości: {invalid_counts.min()} dla zmiennej {invalid_counts.idxmin()}')

Aktualna liczba danych: 36505
Najwyższa liczba nieprawidłowych wartości: 21012 dla zmiennej ALCFMFPB
Najniższa liczba nieprawidłowych wartości: 4 dla zmiennej WORKFORCE


In [25]:
print(invalid_counts)

ANYINDEX        24
COKECRACK      924
MJGT12MO      1606
COCGT12MO      515
ANYGT12MO     2010
ALCFMFPB     21012
WORKFORCE        4
CACHAR           7
CATYPE          79
CRIMEHIST       74
ANYSDRUG        76
ANYATTACK       39
ANYTHEFT        49
NUMARREST      588
HEALTH2         10
SCHDSICK      2973
SCHDSKIP        42
DSTCHEER        66
DSTNRVOS        96
ADWRELES        16
ADWRSMOR         4
ADWRSTHK         8
YOWRSATP        31
NOMARR2         10
RKIDSHH         15
dtype: int64


Brakujące wartości w ALCMFPB odnoszą się do problemów związanych z piciem alkoholu, i na podstawie [icpsr](https://www.icpsr.umich.edu/web/NACJD/studies/27521/datasets/0001/variables/ALCFMFPB?archive=nacjd) możemy założyć że:
- wartości 83, 91, 93 raczej odnoszą się do braku problemów
- wartości 94, 97, 98 mogą być próbą uniknięcia udzielenie odpowiedzi ze wstydu, zostaną uznane jako wystąpienie problemów

In [26]:
value_map = {
    93: 0,
    91: 0,
    83: 0,
    94: 1,
    97: 1,
    98: 1
}
main_df['ALCFMFPB'] = main_df['ALCFMFPB'].replace(value_map)

In [27]:
len_3=main_df.shape[0]
print(f'Aktualna liczba danych: {len_3}')
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
print(f'Najwyższa liczba nieprawidłowych wartości: {invalid_counts.max()} dla zmiennej {invalid_counts.idxmax()}')
print(f'Najniższa liczba nieprawidłowych wartości: {invalid_counts.min()} dla zmiennej {invalid_counts.idxmin()}')

Aktualna liczba danych: 36505
Najwyższa liczba nieprawidłowych wartości: 2973 dla zmiennej SCHDSICK
Najniższa liczba nieprawidłowych wartości: 4 dla zmiennej WORKFORCE


In [28]:
print(invalid_counts)

ANYINDEX       24
COKECRACK     924
MJGT12MO     1606
COCGT12MO     515
ANYGT12MO    2010
WORKFORCE       4
CACHAR          7
CATYPE         79
CRIMEHIST      74
ANYSDRUG       76
ANYATTACK      39
ANYTHEFT       49
NUMARREST     588
HEALTH2        10
SCHDSICK     2973
SCHDSKIP       42
DSTCHEER       66
DSTNRVOS       96
ADWRELES       16
ADWRSMOR        4
ADWRSTHK        8
YOWRSATP       31
NOMARR2        10
RKIDSHH        15
dtype: int64


Przeanalizujmy jeszcze i wyczyśćmy kolumny dla których brakuje min. 500 pozycji

In [29]:
print(invalid_counts[invalid_counts > 500])


COKECRACK     924
MJGT12MO     1606
COCGT12MO     515
ANYGT12MO    2010
NUMARREST     588
SCHDSICK     2973
dtype: int64


In [30]:
remaining_columns = invalid_counts[invalid_counts > 500].index
remaining_columns

Index(['COKECRACK', 'MJGT12MO', 'COCGT12MO', 'ANYGT12MO', 'NUMARREST',
       'SCHDSICK'],
      dtype='object')

W przypadku zmiennych określających użycie narkotyków możemy założyć, że brak odpowiedzi oznacza, iż dana osoba brała dany narkotyk. Możemy to ustalić zakładając odwrotnie, że osoby które nie brały narkotyków chętniej zaznaczą że tego nie zrobiły.

In [31]:
value_map = {
    -1:1
}
main_df['COKECRACK'] = main_df['COKECRACK'].replace(value_map)
main_df['COKECRACK'].value_counts()

COKECRACK
0    32871
1     3634
Name: count, dtype: int64

Zamieniamy wartości MJGT12MO na 1 tam gdzie wcześniej wystąpił brak odpowiedzi (-9), a w kolumnie MJANDCOKE jest 1.

In [32]:
mask = (main_df['MJANDCOKE'] == 1) & (main_df['MJGT12MO'] == -9)
filtered_rows = main_df[mask]
print(f'MJANDCOKE==1 i MJGT12MO==-9: {mask.sum()}')
print("\nRzędy:")
print(filtered_rows[['MJANDCOKE', 'MJGT12MO']])

MJANDCOKE==1 i MJGT12MO==-9: 1606

Rzędy:
       MJANDCOKE  MJGT12MO
7              1        -9
32             1        -9
102            1        -9
124            1        -9
149            1        -9
...          ...       ...
55382          1        -9
55519          1        -9
55528          1        -9
55535          1        -9
55560          1        -9

[1606 rows x 2 columns]


In [33]:
main_df.loc[mask, 'MJGT12MO'] = 1
mask = (main_df['MJANDCOKE'] == 1) & (main_df['MJGT12MO'] == -9)
filtered_rows = main_df[mask]
print(f'MJANDCOKE==1 i MJGT12MO==-9: {mask.sum()}')
print("\nRzędy:")
print(filtered_rows[['MJANDCOKE', 'MJGT12MO']])

MJANDCOKE==1 i MJGT12MO==-9: 0

Rzędy:
Empty DataFrame
Columns: [MJANDCOKE, MJGT12MO]
Index: []


To samo zrobimy dla COCGT12MO.

In [34]:
mask = (main_df['MJANDCOKE'] == 1) & (main_df['COCGT12MO'] == -9)
filtered_rows = main_df[mask]
print(f'MJANDCOKE==1 i COCGT12MO==-9: {mask.sum()}')
print("\nRzędy:")
print(filtered_rows[['MJANDCOKE', 'COCGT12MO']])

MJANDCOKE==1 i COCGT12MO==-9: 515

Rzędy:
       MJANDCOKE  COCGT12MO
107            1         -9
125            1         -9
179            1         -9
281            1         -9
305            1         -9
...          ...        ...
55011          1         -9
55038          1         -9
55090          1         -9
55133          1         -9
55587          1         -9

[515 rows x 2 columns]


In [35]:
main_df.loc[mask, 'COCGT12MO'] = 1
mask = (main_df['MJANDCOKE'] == 1) & (main_df['COCGT12MO'] == -9)
filtered_rows = main_df[mask]
print(f'MJANDCOKE==1 i COCGT12MO==-9: {mask.sum()}')
print("\nRzędy:")
print(filtered_rows[['MJANDCOKE', 'COCGT12MO']])

MJANDCOKE==1 i COCGT12MO==-9: 0

Rzędy:
Empty DataFrame
Columns: [MJANDCOKE, COCGT12MO]
Index: []


Oraz dla ANYGT12MO z tym że porównujemy z OTHERILLICIT.

In [36]:
mask = (main_df['OTHERILLICIT'] == 1) & (main_df['ANYGT12MO'] == -9)
filtered_rows = main_df[mask]
print(f'OTHERILLICIT==1 i ANYGT12MO==-9: {mask.sum()}')
print("\nRzędy:")
print(filtered_rows[['OTHERILLICIT', 'ANYGT12MO']])

OTHERILLICIT==1 i ANYGT12MO==-9: 1093

Rzędy:
       OTHERILLICIT  ANYGT12MO
21                1         -9
86                1         -9
116               1         -9
192               1         -9
203               1         -9
...             ...        ...
55198             1         -9
55307             1         -9
55327             1         -9
55420             1         -9
55560             1         -9

[1093 rows x 2 columns]


In [37]:
main_df.loc[mask, 'ANYGT12MO'] = 1
mask = (main_df['OTHERILLICIT'] == 1) & (main_df['ANYGT12MO'] == -9)
filtered_rows = main_df[mask]
print(f'OTHERILLICIT==1 i ANYGT12MO==-9: {mask.sum()}')
print("\nRzędy:")
print(filtered_rows[['OTHERILLICIT', 'ANYGT12MO']])

OTHERILLICIT==1 i ANYGT12MO==-9: 0

Rzędy:
Empty DataFrame
Columns: [OTHERILLICIT, ANYGT12MO]
Index: []


W przypadku NUMARREST ciężko jest określić ile razy dana osoba mogła być aresztowana, dlatego wyrzucimy rzędy z brakującymi wartościami.

In [38]:
len_4 = len(main_df)
main_df = main_df[main_df['NUMARREST'] != -9]
len_5 = len(main_df)
print(f'Usunięto {len_4 - len_5} wierszy')
print(f'Pozostało {len_5} wierszy')


Usunięto 588 wierszy
Pozostało 35917 wierszy


SCHDSICK dotyczy jedynie młodzieży i nie jesteśmy w stanie dodać tej wartości dla dorosłych dlatego usuwamy kolumnę.

In [39]:
main_df = main_df.drop(columns='SCHDSICK')

In [40]:
len_6=main_df.shape[0]
print(f'Aktualna liczba danych: {len_6}')
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
print(f'Najwyższa liczba nieprawidłowych wartości: {invalid_counts.max()} dla zmiennej {invalid_counts.idxmax()}')
print(f'Najniższa liczba nieprawidłowych wartości: {invalid_counts.min()} dla zmiennej {invalid_counts.idxmin()}')

Aktualna liczba danych: 35917


Najwyższa liczba nieprawidłowych wartości: 895 dla zmiennej ANYGT12MO
Najniższa liczba nieprawidłowych wartości: 4 dla zmiennej WORKFORCE


In [41]:
print(invalid_counts)

ANYINDEX      23
ANYGT12MO    895
WORKFORCE      4
CACHAR         7
CATYPE        79
ANYSDRUG      69
ANYATTACK     36
ANYTHEFT      44
HEALTH2       10
SCHDSKIP      41
DSTCHEER      63
DSTNRVOS      91
ADWRELES      16
ADWRSMOR       4
ADWRSTHK       8
YOWRSATP      30
NOMARR2        9
RKIDSHH       13
dtype: int64


#### Masowe czyszczenie

Usuwamy rzędy lub kolumny danych gdzie pozostały dodatkowe brakujące wartości.

In [42]:
len_7=main_df.shape[0]
print(f'Aktualna liczba danych: {len_7}')
main_df = main_df[main_df['ANYGT12MO'] != -9]
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Aktualna liczba danych: 35917
Najwyższa liczba nieprawidłowych wartości: 91 dla zmiennej DSTNRVOS


In [43]:
print(main_df['DSTNRVOS'].value_counts().sort_index())

DSTNRVOS
1       763
2      1872
3      4508
4      6375
5      4468
85        1
94       57
97       33
99    16945
Name: count, dtype: int64


In [44]:
main_df = main_df.drop(columns='DSTNRVOS')

In [45]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 77 dla zmiennej CATYPE


In [46]:
print(main_df['CATYPE'].value_counts().sort_index())

CATYPE
-9       77
 1    30440
 2      795
 3      499
 4     1103
 5     1974
 6      134
Name: count, dtype: int64


In [47]:
main_df = main_df[main_df['CATYPE'] != -9]
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 68 dla zmiennej ANYSDRUG


In [48]:
print(main_df['ANYSDRUG'].value_counts().sort_index())

ANYSDRUG
-1       68
 0    33638
 1     1239
Name: count, dtype: int64


In [49]:
main_df = main_df[main_df['ANYSDRUG'] != -1]
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 57 dla zmiennej DSTCHEER


In [50]:
print(main_df['DSTCHEER'].value_counts().sort_index())

DSTCHEER
1       722
2      1503
3      2801
4      4167
5      8740
94       37
97       20
99    16887
Name: count, dtype: int64


In [51]:
value_map = {
    94:5,
    97:5,
    99:5
}
main_df['DSTCHEER'] = main_df['DSTCHEER'].replace(value_map)
main_df['DSTCHEER'].value_counts()

DSTCHEER
5    25684
4     4167
3     2801
2     1503
1      722
Name: count, dtype: int64

In [52]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 40 dla zmiennej SCHDSKIP


In [53]:
print(main_df['SCHDSKIP'].value_counts().sort_index())

SCHDSKIP
0     14511
1      1116
2       683
3       300
4       164
5       156
6        48
7        31
8        22
9         6
10       42
12        7
13        3
14        3
15       11
17        1
20        9
21        1
25        3
26        1
29        1
30        4
94       20
97        2
98       18
99    17714
Name: count, dtype: int64


In [54]:
main_df = main_df.drop(columns='SCHDSKIP')

In [55]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 26 dla zmiennej YOWRSATP


In [56]:
print(main_df['YOWRSATP'].value_counts().sort_index())

YOWRSATP
1       502
2       799
94        1
97        6
98       19
99    33550
Name: count, dtype: int64


In [57]:
value_map = {
    94:1,
    97:1,
    98:1,
    99:2
}
main_df['YOWRSATP'] = main_df['YOWRSATP'].replace(value_map)
main_df['YOWRSATP'].value_counts()

YOWRSATP
2    34349
1      528
Name: count, dtype: int64

In [58]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 21 dla zmiennej ANYINDEX


In [59]:
print(main_df['ANYINDEX'].value_counts().sort_index())

ANYINDEX
-1.000000       21
 0.142857    31752
 0.166667     1010
 0.285714      187
 0.333333      753
 0.428571      106
 0.500000      392
 0.571429      100
 0.666667      224
 0.714286       82
 0.833333      119
 0.857143       68
 1.000000       63
Name: count, dtype: int64


In [60]:
main_df = main_df[main_df['ANYINDEX'] != -1.000000]
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 16 dla zmiennej ANYATTACK


In [61]:
print(main_df['ANYATTACK'].value_counts().sort_index())

ANYATTACK
-1       16
 0    32946
 1     1894
Name: count, dtype: int64


In [62]:
main_df = main_df[main_df['ANYATTACK'] != -1]
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 15 dla zmiennej ADWRELES


In [63]:
print(main_df['ADWRELES'].value_counts().sort_index())

ADWRELES
1      2070
2      1307
94       15
99    31448
Name: count, dtype: int64


In [64]:
main_df = main_df[main_df['ADWRELES'] != 94]
value_map = {
    99:2
}
main_df['ADWRELES'] = main_df['ADWRELES'].replace(value_map)
main_df['ADWRELES'].value_counts()

ADWRELES
2    32755
1     2070
Name: count, dtype: int64

In [65]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 13 dla zmiennej RKIDSHH


In [66]:
print(main_df['RKIDSHH'].value_counts().sort_index())

RKIDSHH
-1       13
 0    28752
 1     6060
Name: count, dtype: int64


In [67]:
main_df = main_df[main_df['RKIDSHH'] != -1]

In [68]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 12 dla zmiennej ANYTHEFT


In [69]:
print(main_df['ANYTHEFT'].value_counts().sort_index())

ANYTHEFT
-1       12
 0    33794
 1     1006
Name: count, dtype: int64


In [70]:
main_df = main_df[main_df['ANYTHEFT'] != -1]

In [71]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 10 dla zmiennej HEALTH2


In [72]:
print(main_df['HEALTH2'].value_counts().sort_index())

HEALTH2
-9       10
 1    10746
 2    13937
 3     7962
 4     2145
Name: count, dtype: int64


In [73]:
main_df = main_df[main_df['HEALTH2'] != -9]

In [74]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 8 dla zmiennej NOMARR2


In [75]:
print(main_df['NOMARR2'].value_counts().sort_index())

NOMARR2
1      7269
2      1843
94        1
97        7
99    25670
Name: count, dtype: int64


In [76]:
main_df = main_df[main_df['NOMARR2'] != 94]
main_df = main_df[main_df['NOMARR2'] != 97]

In [77]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 7 dla zmiennej CACHAR


In [78]:
print(main_df['CACHAR'].value_counts().sort_index())

CACHAR
-9        7
 1       55
 2      612
 3       93
 4       88
 5       54
 6    26673
 7     3725
 8     1949
 9     1526
Name: count, dtype: int64


In [79]:
main_df = main_df[main_df['CACHAR'] != -9]

In [80]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 7 dla zmiennej ADWRSTHK


In [81]:
print(main_df['ADWRSTHK'].value_counts().sort_index())

ADWRSTHK
1      1300
2      2065
94        5
97        2
99    31403
Name: count, dtype: int64


In [82]:
value_map = {
    94:1,
    97:1,
    99:2
}
main_df['ADWRSTHK'] = main_df['ADWRSTHK'].replace(value_map)
main_df['ADWRSTHK'].value_counts()

ADWRSTHK
2    33468
1     1307
Name: count, dtype: int64

In [83]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 2 dla zmiennej WORKFORCE


In [84]:
print(main_df['WORKFORCE'].value_counts().sort_index())

WORKFORCE
-1        2
 0    19074
 1    15699
Name: count, dtype: int64


In [85]:
main_df = main_df[main_df['WORKFORCE'] != -1]

In [86]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
max_invalid = invalid_counts.max()
max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')

Najwyższa liczba nieprawidłowych wartości: 2 dla zmiennej ADWRSMOR


In [87]:
print(main_df['ADWRSMOR'].value_counts().sort_index())

ADWRSMOR
1       375
2       238
94        2
99    34158
Name: count, dtype: int64


In [88]:
main_df = main_df[main_df['ADWRSMOR'] != 94]

In [90]:
try:
    invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
    max_invalid = invalid_counts.max()
    max_invalid_column = invalid_counts[invalid_counts == max_invalid].index[0]
    print(f'Najwyższa liczba nieprawidłowych wartości: {max_invalid} dla zmiennej {max_invalid_column}')
except:
    print('Brak nieprawidłowych wartości')

Brak nieprawidłowych wartości


#### Analiza wartości 99