# Analiza datasetu Gender, Mental Illness, and Crime in the United States, 2004 (ICPSR 27521)

Szymon Zalas 147493

Na podstawie https://put-jug.github.io/lab-ead/Lab%2010%20-%20Projekt%20blok2_2024.html

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## 0) Omówienie Projektu

### a) Opis próby

Celem projetku jest znalezienie czynników odpowiedzialnych za depresję, tak żeby po ich określeniu można było dokonać oceny ryzyka depresji w danej grupie wiekowej na podstawie datasetu Gender, Mental Illness, and Crime in the United States, 2004 (ICPSR 27521). Próba obejmowała 67 760 osób, z czego plik zawiera 55 602 rekordów ze względu na resampling stosowany w procesie anonimizacji. Stratyfikacja próby jest wielopoziomowa, zaczynając od stanów, gdzie 8 jest uważanych za stany o dużej próbie i wnoszą ok. 3600 respondentów na stan. Reszta stanów obejmuje ok 900 respondentów. 

 Próbkowanie obejmowało pięć grup wiekowych: 
- 12–17 lat,
- 18–25 lat,
- 26–34 lata,
- 35–49 lat,
- 50 lat i więcej.

Projekt próby obejmował mniej więcej równą liczbę osób w grupach wiekowych:
- 12–17 lat,
- 18–25 lat,
- 26 lat i starszych.

In [2]:
base_df=pd.read_csv('27521-0001-Data.tsv', sep='\t',header=0)

### b) Opis zmiennych

In [3]:
extracted_variables=[]

#### Wskaźniki depresji

- DEPRESSIONINDEX - wskaźnik natężenia depresji w skali 0-9 dla grupy dorosłych i w wieku młodzieńczym (brak odpowiedzi = -9)
- DEP_EPISODE - doświadczenie epizodu depresji w okresie całego zycia
- MDELastYr - epizod depresji w ostatnim roku
- ANYTXRXMDE - jakiklolwiek zdarzenie zawiązane z leczeniem depresji lub receptą na leki antydepresyjne w minionym roku

In [4]:
extracted_variables.extend(['DEPRESSIONINDEX','DEP_EPISODE','MDELastYr','ANYTXRXMDE'])

#### Wskaźniki wieku

- CATAG2 - 3 grupy wiekowe: 12-17, 18-25, >25
- CATAG3 - równoliczne 5 kategorii wiekowych
- CATAG7 - równoliczne 7 kategorii wiekowych

Grupa wiekowa (12-17 (youth)) ma w pewnych obszarach inne zestawy pytań niż grupy starsze (rozróżnienie jest kodowane w nazwach kolumn YOxxx lub ADxx)

In [5]:
extracted_variables.extend(['CATAG2','CATAG3','CATAG7'])

#### Wskaźnik płci

- IRSEX - rozróżnia płeć biologiczną

In [6]:
extracted_variables.extend('IRSEX')

#### Wskaźnik rasy

- NEWRACE2 (1-7)
    1) NonHisp White
    2) NonHisp Black/Afr
    3) NonHisp Native Am/AK Native
    4) NonHisp Native HI/Other Pac Isl
    5) NonHisp Asian
    6) NonHisp more than one race
    7) Hispanic


In [7]:
extracted_variables.extend('NEWRACE2')

#### Wskaźnik uzależnienia od narkotyków i alkoholu

- ANYINDEX - wskaźnik uzależnienia od dowolnego rodzaju narkotyków (boolean)
- MJANDCOKE - marihuana lub kokaina (kiedykolwiek)
- ILLICITDRUGUSE - nielegalny narkotyk (kiedykolwiek)
- LSYRILLICIT - nielegalny narkotyk (ostatni rok)
- COKECRACK - kokaina lub crack 
- OTHERILLICIT - inne nielegalne poza kokaina lub marihuaną (kiedykolwiek)
- MARJLTYR - marihuana (ostatni rok)
- MJCOKELY - marihuana, kokaina, crack (ostatni rok)
- COCCRKLY - kokaina (ostatni rok)
- MJGT12MO - marihuana (upłynęło więcej niż 12msc)
- COCGT12MO - kokaina (upłynęło więcej niż 12msc)
- ANYGT12MO - jakikolwiek narkotyck (upłynęło więcej niż 12msc)
- ALCFMFPB - alkohol powodował problemy wśród rodziny/przyjaciół (ostatni rok)


In [8]:
extracted_variables.extend(['ANYINDEX','MJANDCOKE', 'ILLICITDRUGUSE', 'LSYRILLICIT', 'COKECRACK', 'OTHERILLICIT','MARJLTYR', 'MJCOKELY', 'COCCRKLY','MJGT12MO', 'COCGT12MO', 'ANYGT12MO','ALCFMFPB'])

#### Wskaźnik edukacji

- IREDUC2 - wykształcenie
- EDU_DUMMY - wykształcenie (średnie/niższe od średniego lub wyższe)

In [9]:
extracted_variables.extend(['IREDUC2','EDU_DUMMY'])

#### Wskaźniki ekonomiczne

- INCOME - dochód rodziny
- INCOME_R - dochód własny
- POVERTY - dochód rodziny odniesiony do wskaźnika biedy
- IRPRVHLT - prywatne ubezpieczenie zdrowotne
- WORKFORCE - informacja czy osoba pracuje/pracowała
- EMPSTAT4 - status zatrudnienia

In [10]:
extracted_variables.extend(['INCOME','INCOME_R','POVERTY','IRPRVHLT','WORKFORCE','EMPSTAT4'])

#### Wskaźniki warunków zamieszkania

- REVERSEPOP - charakterystyka miejsca zamieszkania (gęstość zaludnienia)
- MOVESPY2 - liczba przeprowadzek w okresie ostatnich 12 miesięcy
- CACHAR, CATYPE - typ mieszkania

In [11]:
extracted_variables.extend(['REVERSEPOP','MOVESPY2','CACHAR','CATYPE'])

#### Wskaźnik konfliktów z prawem

- CRIMEHIST - kiedykolwiek aresztowany
- ANYSDRUG - sprzedarz narkotyków (ostatnie 12 msc)
- ANYATTACK - atak na inną osobę (ostatnie 12 msc)
- ANYTHEFT - kradzież przedmiotu o wartości min 50$ (ostatnie 12 msc)
- NUMARREST - liczba aresztowań (ostatnie 12 msc)

In [12]:
extracted_variables.extend(['CRIMEHIST','ANYSDRUG','ANYATTACK','ANYTHEFT','NUMARREST'])

#### Stan zdrowia

- HEALTH2 - stan zdrowia
- SCHDSICK - liczba dni opuszczonych w szkole z uwagi choroby (dla uczniów)
- SCHDSKIP - liczba dni opuszczony z powodu wagarów
- TXLCAD - informacja o terapii uzależnień od narkotyków lub alkoholu
- DSTNCALM - jak często nie mógł się uspokoić w najgorszych miesiącach
- DSTTIRE - jak często był wycięczony w najgorszych miesiącach
- DSTSITST - jak często nie mógł usiedzieć na miejscu w najgorszych miesiącach
- DSTDEPRS - jak często miał poczucie depresji w najgorszych miesiącach
- DSTCHEER - jak często nie mógł być pocieszony w najgorszych miesiącach
- DSTNRVOS - jak często czuł stany nerwowe w najgorszych miesiącach
- ADWRELES - mniejszy apetyt w najgorszych miesiącach
- ADWRSMOR - problemy ze snem
- ADWRSTHK - myśli samobójcze
- YOWRSATP - próba samobójcza

In [13]:
extracted_variables.extend(['HEALTH2', 'SCHDSICK', 'SCHDSKIP', 'TXLCAD', 'DSTNCALM', 'DSTTIRE', 'DSTSITST', 'DSTDEPRS', 'DSTCHEER', 'DSTNRVOS', 'ADWRELES', 'ADWRSMOR', 'ADWRSTHK', 'YOWRSATP'])

#### Rodzina

- IRMARIT - stan cywilny
- NOMARR2 - liczba razy kiedy osoba wchodziła w związek małżeński
- RKIDSHH - liczba dzieci respondent
- MARRIED - aktualny stan cywilny
- CHILDRENINHOME - czy ma dzieci (min 1)

In [14]:
extracted_variables.extend(['IRMARIT','NOMARR2','RKIDSHH','MARRIED','CHILDRENINHOME'])

## 1) FAZA 1 - Analiza czynnikowa 