# Analiza datasetu Gender, Mental Illness, and Crime in the United States, 2004 (ICPSR 27521)

Szymon Zalas 147493

Na podstawie https://put-jug.github.io/lab-ead/Lab%2010%20-%20Projekt%20blok2_2024.html

In [38]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## 0) Omówienie Projektu

### a) Opis próby

Celem projetku jest znalezienie czynników odpowiedzialnych za depresję, tak żeby po ich określeniu można było dokonać oceny ryzyka depresji w danej grupie wiekowej na podstawie datasetu Gender, Mental Illness, and Crime in the United States, 2004 (ICPSR 27521). Próba obejmowała 67 760 osób, z czego plik zawiera 55 602 rekordów ze względu na resampling stosowany w procesie anonimizacji. Stratyfikacja próby jest wielopoziomowa, zaczynając od stanów, gdzie 8 jest uważanych za stany o dużej próbie i wnoszą ok. 3600 respondentów na stan. Reszta stanów obejmuje ok 900 respondentów. 

 Próbkowanie obejmowało pięć grup wiekowych: 
- 12–17 lat,
- 18–25 lat,
- 26–34 lata,
- 35–49 lat,
- 50 lat i więcej.

Projekt próby obejmował mniej więcej równą liczbę osób w grupach wiekowych:
- 12–17 lat,
- 18–25 lat,
- 26 lat i starszych.

In [39]:
base_df=pd.read_csv('27521-0001-Data.tsv', sep='\t',header=0)

### b) Opis zmiennych

In [40]:
extracted_variables=[]

#### Wskaźniki depresji

- DEPRESSIONINDEX - wskaźnik natężenia depresji w skali 0-9 dla grupy dorosłych i w wieku młodzieńczym (brak odpowiedzi = -9)
- DEPEPISODE - doświadczenie epizodu depresji w okresie całego zycia
- MDELASTYR - epizod depresji w ostatnim roku
- ANYTXRXMDE - jakiklolwiek zdarzenie zawiązane z leczeniem depresji lub receptą na leki antydepresyjne w minionym roku

In [41]:
extracted_variables.extend(['DEPRESSIONINDEX','DEPEPISODE','MDELASTYR','ANYTXRXMDE'])

#### Wskaźniki wieku

- CATAG2 - 3 grupy wiekowe: 12-17, 18-25, >25
- CATAG3 - równoliczne 5 kategorii wiekowych
- CATAG7 - równoliczne 7 kategorii wiekowych

Grupa wiekowa (12-17 (youth)) ma w pewnych obszarach inne zestawy pytań niż grupy starsze (rozróżnienie jest kodowane w nazwach kolumn YOxxx lub ADxx)

In [42]:
extracted_variables.extend(['CATAG2','CATAG3','CATAG7'])

#### Wskaźnik płci

- IRSEX - rozróżnia płeć biologiczną

In [43]:
extracted_variables.extend(['IRSEX'])

#### Wskaźnik rasy

- NEWRACE2 (1-7)
    1) NonHisp White
    2) NonHisp Black/Afr
    3) NonHisp Native Am/AK Native
    4) NonHisp Native HI/Other Pac Isl
    5) NonHisp Asian
    6) NonHisp more than one race
    7) Hispanic


In [44]:
extracted_variables.extend(['NEWRACE2'])

#### Wskaźnik uzależnienia od narkotyków i alkoholu

- ANYINDEX - wskaźnik uzależnienia od dowolnego rodzaju narkotyków (boolean)
- MJANDCOKE - marihuana lub kokaina (kiedykolwiek)
- ILLICITDRUGUSE - nielegalny narkotyk (kiedykolwiek)
- LSYRILLICIT - nielegalny narkotyk (ostatni rok)
- COKECRACK - kokaina lub crack 
- OTHERILLICIT - inne nielegalne poza kokaina lub marihuaną (kiedykolwiek)
- MARJLTYR - marihuana (ostatni rok)
- MJCOKELY - marihuana, kokaina, crack (ostatni rok)
- COCCRKLY - kokaina (ostatni rok)
- MJGT12MO - marihuana (upłynęło więcej niż 12msc)
- COCGT12MO - kokaina (upłynęło więcej niż 12msc)
- ANYGT12MO - jakikolwiek narkotyck (upłynęło więcej niż 12msc)
- ALCFMFPB - alkohol powodował problemy wśród rodziny/przyjaciół (ostatni rok)


In [45]:
extracted_variables.extend(['ANYINDEX','MJANDCOKE', 'ILLICITDRUGUSE', 'LSYRILLICIT', 'COKECRACK', 'OTHERILLICIT','MARJLTYR', 'MJCOKELY', 'COCCRKLY','MJGT12MO', 'COCGT12MO', 'ANYGT12MO','ALCFMFPB'])

#### Wskaźnik edukacji

- IREDUC2 - wykształcenie
- EDU_DUMMY - wykształcenie (średnie/niższe od średniego lub wyższe)

In [46]:
extracted_variables.extend(['IREDUC2','EDU_DUMMY'])

#### Wskaźniki ekonomiczne

- INCOME - dochód rodziny
- INCOME_R - dochód własny
- POVERTY - dochód rodziny odniesiony do wskaźnika biedy
- IRPRVHLT - prywatne ubezpieczenie zdrowotne
- WORKFORCE - informacja czy osoba pracuje/pracowała
- EMPSTAT4 - status zatrudnienia

In [47]:
extracted_variables.extend(['INCOME','INCOME_R','POVERTY','IRPRVHLT','WORKFORCE','EMPSTAT4'])

#### Wskaźniki warunków zamieszkania

- REVERSEPOP - charakterystyka miejsca zamieszkania (gęstość zaludnienia)
- MOVESPY2 - liczba przeprowadzek w okresie ostatnich 12 miesięcy
- CACHAR, CATYPE - typ mieszkania

In [48]:
extracted_variables.extend(['REVERSEPOP','MOVESPY2','CACHAR','CATYPE'])

#### Wskaźnik konfliktów z prawem

- CRIMEHIST - kiedykolwiek aresztowany
- ANYSDRUG - sprzedarz narkotyków (ostatnie 12 msc)
- ANYATTACK - atak na inną osobę (ostatnie 12 msc)
- ANYTHEFT - kradzież przedmiotu o wartości min 50$ (ostatnie 12 msc)
- NUMARREST - liczba aresztowań (ostatnie 12 msc)

In [49]:
extracted_variables.extend(['CRIMEHIST','ANYSDRUG','ANYATTACK','ANYTHEFT','NUMARREST'])

#### Stan zdrowia

- HEALTH2 - stan zdrowia
- SCHDSICK - liczba dni opuszczonych w szkole z uwagi choroby (dla uczniów)
- SCHDSKIP - liczba dni opuszczony z powodu wagarów
- TXLCAD - informacja o terapii uzależnień od narkotyków lub alkoholu
- DSTNCALM - jak często nie mógł się uspokoić w najgorszych miesiącach
- DSTTIRE - jak często był wycięczony w najgorszych miesiącach
- DSTSITST - jak często nie mógł usiedzieć na miejscu w najgorszych miesiącach
- DSTDEPRS - jak często miał poczucie depresji w najgorszych miesiącach
- DSTCHEER - jak często nie mógł być pocieszony w najgorszych miesiącach
- DSTNRVOS - jak często czuł stany nerwowe w najgorszych miesiącach
- ADWRELES - mniejszy apetyt w najgorszych miesiącach
- ADWRSMOR - problemy ze snem
- ADWRSTHK - myśli samobójcze
- YOWRSATP - próba samobójcza

In [50]:
extracted_variables.extend(['HEALTH2', 'SCHDSICK', 'SCHDSKIP', 'TXLCAD', 'DSTNCALM', 'DSTTIRE', 'DSTSITST', 'DSTDEPRS', 'DSTCHEER', 'DSTNRVOS', 'ADWRELES', 'ADWRSMOR', 'ADWRSTHK', 'YOWRSATP'])

#### Rodzina

- IRMARIT - stan cywilny
- NOMARR2 - liczba razy kiedy osoba wchodziła w związek małżeński
- RKIDSHH - liczba dzieci respondent
- MARRIED - aktualny stan cywilny
- CHILDRENINHOME - czy ma dzieci (min 1)

In [51]:
extracted_variables.extend(['IRMARIT','NOMARR2','RKIDSHH','MARRIED','CHILDRENINHOME'])

In [52]:
main_df=base_df[extracted_variables] # extract the variables of interest
main_df

Unnamed: 0,DEPRESSIONINDEX,DEPEPISODE,MDELASTYR,ANYTXRXMDE,CATAG2,CATAG3,CATAG7,IRSEX,NEWRACE2,ANYINDEX,...,DSTNRVOS,ADWRELES,ADWRSMOR,ADWRSTHK,YOWRSATP,IRMARIT,NOMARR2,RKIDSHH,MARRIED,CHILDRENINHOME
0,0,0,0,0,2,2,5,1,7,0.142857,...,4,99,99,99,99,4,99,0,0,0
1,0,0,0,0,2,2,4,1,1,0.142857,...,4,99,99,99,99,4,99,0,0,0
2,0,0,0,0,3,5,7,1,1,0.142857,...,5,99,99,99,99,1,1,0,1,0
3,0,0,0,0,2,2,5,1,1,0.500000,...,4,99,99,99,99,4,99,0,0,0
4,0,0,0,0,3,4,7,2,1,0.142857,...,3,99,99,99,99,1,1,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
55597,-9,-1,-1,-9,2,2,5,1,1,0.142857,...,5,99,99,99,99,4,99,0,0,0
55598,0,0,0,0,2,2,5,1,1,0.142857,...,4,99,99,99,99,1,1,1,1,1
55599,-9,-1,-1,-9,2,2,5,2,1,0.142857,...,5,99,99,99,99,1,1,1,1,1
55600,0,0,0,0,3,3,6,1,1,0.142857,...,3,99,99,99,99,1,1,0,1,0


## 1) FAZA 1 - Czyszczenie danych i analiza czynnikowa 

### a) Czyszczenie danych

In [53]:
main_df.isna().sum().max()

np.int64(0)

Dane zawarte w datasecie zostały już częściowo oczyszczone a w dokumencie opisującym, możemy znaleść dokładne oznaczenia powodów brakujących danych. Typowo, brakujące dane są oznaczane albo wartością ujemną albo bardzo wysoką (powyżej 90), przy czym wartość 99 oznacza uzasadnione pominięcie pytania.

In [54]:
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
print(invalid_counts)

DEPRESSIONINDEX    18630
DEPEPISODE         19019
MDELASTYR          19070
ANYTXRXMDE         18963
ANYINDEX              35
COKECRACK           1705
MJGT12MO            1930
COCGT12MO            781
ANYGT12MO           2410
ALCFMFPB           28140
WORKFORCE             21
CACHAR                 7
CATYPE               121
CRIMEHIST            159
ANYSDRUG             167
ANYATTACK            116
ANYTHEFT             123
NUMARREST            853
HEALTH2               12
SCHDSICK            3447
SCHDSKIP              72
TXLCAD             54622
DSTNCALM             221
DSTTIRE              163
DSTSITST             174
DSTDEPRS             143
DSTCHEER             283
DSTNRVOS             350
ADWRELES             147
ADWRSMOR             135
ADWRSTHK             136
YOWRSATP             227
NOMARR2               13
RKIDSHH               45
dtype: int64


In [55]:
len_0=main_df.shape[0]
print(f'Aktualna liczba danych: {len_0}')
print(f'Najwyższa liczba nieprawidłowych wartości: {invalid_counts.max()} dla zmiennej {invalid_counts.idxmax()}')
print(f'Najniższa liczba nieprawidłowych wartości: {invalid_counts.min()} dla zmiennej {invalid_counts.idxmin()}')

Aktualna liczba danych: 55602
Najwyższa liczba nieprawidłowych wartości: 54622 dla zmiennej TXLCAD
Najniższa liczba nieprawidłowych wartości: 7 dla zmiennej CACHAR


Początkowo pozbędziemy się wierszy w których wszystkie informacje dotyczące wystąpienia depresji są mniejsze od 0 - nie jesteśmy w stanie przewidzieć jaka jest tam prawdziwa odpowiedź

In [56]:
columns_to_check = ['DEPRESSIONINDEX', 'DEPEPISODE', 'MDELASTYR', 'ANYTXRXMDE']
mask = (main_df[columns_to_check] >= 0).all(axis=1)
main_df = main_df[mask]

In [57]:
len_1=main_df.shape[0]
print(f'Aktualna liczba danych: {len_1}')
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
print(f'Najwyższa liczba nieprawidłowych wartości: {invalid_counts.max()} dla zmiennej {invalid_counts.idxmax()}')
print(f'Najniższa liczba nieprawidłowych wartości: {invalid_counts.min()} dla zmiennej {invalid_counts.idxmin()}')

Aktualna liczba danych: 36505
Najwyższa liczba nieprawidłowych wartości: 35899 dla zmiennej TXLCAD
Najniższa liczba nieprawidłowych wartości: 4 dla zmiennej WORKFORCE


Sprawdźmy rezultat

In [58]:
pivot_dfs = []

for col in columns_to_check:
    df_temp = pd.crosstab(index=main_df[col][main_df[col] >= 0], columns=col)
    df_temp.loc['Total'] = df_temp.sum()
    pivot_dfs.append(df_temp)

result = pd.concat(pivot_dfs, axis=1)
print(result)

col_0  DEPRESSIONINDEX  DEPEPISODE  MDELASTYR  ANYTXRXMDE
0                30076     30773.0    32999.0     34108.0
1                  112      5732.0     3506.0      2397.0
2                   71         NaN        NaN         NaN
3                  170         NaN        NaN         NaN
4                  344         NaN        NaN         NaN
5                  599         NaN        NaN         NaN
6                  954         NaN        NaN         NaN
7                 1313         NaN        NaN         NaN
8                 1543         NaN        NaN         NaN
9                 1323         NaN        NaN         NaN
Total            36505     36505.0    36505.0     36505.0


Poszukajmy kolumn w których ponad 90% wartości jest nieprawidłowa...

In [60]:
th_len=int(len_1*0.9)
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > th_len]
print(invalid_counts)

TXLCAD    35899
dtype: int64


... a następnie je wyrzućmy.

In [None]:
main_df = main_df.drop(columns=invalid_counts.index)

In [63]:
len_2=main_df.shape[0]
print(f'Aktualna liczba danych: {len_2}')
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
print(f'Najwyższa liczba nieprawidłowych wartości: {invalid_counts.max()} dla zmiennej {invalid_counts.idxmax()}')
print(f'Najniższa liczba nieprawidłowych wartości: {invalid_counts.min()} dla zmiennej {invalid_counts.idxmin()}')

Aktualna liczba danych: 36505
Najwyższa liczba nieprawidłowych wartości: 21012 dla zmiennej ALCFMFPB
Najniższa liczba nieprawidłowych wartości: 4 dla zmiennej WORKFORCE


In [64]:
print(invalid_counts)

ANYINDEX        24
COKECRACK      924
MJGT12MO      1606
COCGT12MO      515
ANYGT12MO     2010
ALCFMFPB     21012
WORKFORCE        4
CACHAR           7
CATYPE          79
CRIMEHIST       74
ANYSDRUG        76
ANYATTACK       39
ANYTHEFT        49
NUMARREST      588
HEALTH2         10
SCHDSICK      2973
SCHDSKIP        42
DSTCHEER        66
DSTNRVOS        96
ADWRELES        16
ADWRSMOR         4
ADWRSTHK         8
YOWRSATP        31
NOMARR2         10
RKIDSHH         15
dtype: int64


Brakujące wartości w ALCMFPB odnoszą się do problemów związanych z piciem alkoholu, i na podstawie [icpsr](https://www.icpsr.umich.edu/web/NACJD/studies/27521/datasets/0001/variables/ALCFMFPB?archive=nacjd) możemy założyć że:
- wartości 83, 91, 93 raczej odnoszą się do braku problemów
- wartości 94, 97, 98 mogą być próbą uniknięcia udzielenie odpowiedzi ze wstydu, zostaną uznane jako wystąpienie problemów

In [65]:
value_map = {
    93: 0,
    91: 0,
    83: 0,
    94: 1,
    97: 1,
    98: 1
}
main_df['ALCFMFPB'] = main_df['ALCFMFPB'].replace(value_map)

In [66]:
len_3=main_df.shape[0]
print(f'Aktualna liczba danych: {len_3}')
invalid_counts = main_df[(main_df < 0) | ((main_df > 80) & (main_df < 99))].count()[lambda x: x > 0]
print(f'Najwyższa liczba nieprawidłowych wartości: {invalid_counts.max()} dla zmiennej {invalid_counts.idxmax()}')
print(f'Najniższa liczba nieprawidłowych wartości: {invalid_counts.min()} dla zmiennej {invalid_counts.idxmin()}')

Aktualna liczba danych: 36505
Najwyższa liczba nieprawidłowych wartości: 2973 dla zmiennej SCHDSICK
Najniższa liczba nieprawidłowych wartości: 4 dla zmiennej WORKFORCE


In [67]:
print(invalid_counts)

ANYINDEX       24
COKECRACK     924
MJGT12MO     1606
COCGT12MO     515
ANYGT12MO    2010
WORKFORCE       4
CACHAR          7
CATYPE         79
CRIMEHIST      74
ANYSDRUG       76
ANYATTACK      39
ANYTHEFT       49
NUMARREST     588
HEALTH2        10
SCHDSICK     2973
SCHDSKIP       42
DSTCHEER       66
DSTNRVOS       96
ADWRELES       16
ADWRSMOR        4
ADWRSTHK        8
YOWRSATP       31
NOMARR2        10
RKIDSHH        15
dtype: int64


Przeanalizujmy jeszcze i wyczyśćmy kolumny dla których brakuje min. 500 pozycji

In [70]:
print(invalid_counts[invalid_counts > 500])


COKECRACK     924
MJGT12MO     1606
COCGT12MO     515
ANYGT12MO    2010
NUMARREST     588
SCHDSICK     2973
dtype: int64


In [71]:
remaining_columns = invalid_counts[invalid_counts <= 500].index
remaining_columns

Index(['ANYINDEX', 'WORKFORCE', 'CACHAR', 'CATYPE', 'CRIMEHIST', 'ANYSDRUG',
       'ANYATTACK', 'ANYTHEFT', 'HEALTH2', 'SCHDSKIP', 'DSTCHEER', 'DSTNRVOS',
       'ADWRELES', 'ADWRSMOR', 'ADWRSTHK', 'YOWRSATP', 'NOMARR2', 'RKIDSHH'],
      dtype='object')