# Análisis de data de eventos con arma de fuego en USA

Para analizar este archivo, lo que hice fue:

1. Abrirlo y leerlo en una lista de listas
2. Remover encabezados
3. Calcular frecuencia de eventos por año (no cambia significativamente)
4. Transformar meses y año a datetime objects
5. Calcular frecuencia de eventos por cada mes de cada año (tampoco)}
6. Calcular frecuencia de eventos por sexo (significativamente mayor para hombres)
7. Calcular frecuencia de eventos por etnia (significativamente mayor para Black)

Lo que faltaría ver es la proporción de etnias en USA y comparar con la proporción de las frecuencias de eventos.

## Abro el archivo, lo leo en un str y lo transformo en lista

In [1]:
import csv

f = open('guns.csv', 'r')
readable = csv.reader(f)
gunsdata = list(readable)

print(gunsdata[0:5])

[['', 'year', 'month', 'intent', 'police', 'sex', 'age', 'race', 'hispanic', 'place', 'education'], ['1', '2012', '01', 'Suicide', '0', 'M', '34', 'Asian/Pacific Islander', '100', 'Home', '4'], ['2', '2012', '01', 'Suicide', '0', 'F', '21', 'White', '100', 'Street', '3'], ['3', '2012', '01', 'Suicide', '0', 'M', '60', 'White', '100', 'Other specified', '4'], ['4', '2012', '02', 'Suicide', '0', 'M', '64', 'White', '100', 'Home', '4']]


## Remuevo los encabezados

In [2]:
headers = gunsdata[0]
data = gunsdata[1:]
print(data[0:5])

[['1', '2012', '01', 'Suicide', '0', 'M', '34', 'Asian/Pacific Islander', '100', 'Home', '4'], ['2', '2012', '01', 'Suicide', '0', 'F', '21', 'White', '100', 'Street', '3'], ['3', '2012', '01', 'Suicide', '0', 'M', '60', 'White', '100', 'Other specified', '4'], ['4', '2012', '02', 'Suicide', '0', 'M', '64', 'White', '100', 'Home', '4'], ['5', '2012', '02', 'Suicide', '0', 'M', '31', 'White', '100', 'Other specified', '2']]


## Frecuencia de eventos por año

In [3]:
year_counts = {}

# Esto se puede hacer mejor con list comprehension, así:
# years = [row[1] for row in data]
years = []

for row in data:
    year = row[1]
    years.append(year)
    

for year in years:
    if year in year_counts:
        # Esto puede abreviarse como year_counts[year] += 1
        year_counts[year] = year_counts[year] + 1
    else:
        year_counts[year] = 1
    
print(year_counts)

{'2014': 33599, '2012': 33563, '2013': 33636}


## Frecuencia de eventos por mes y año

In [4]:
import datetime

# De nuevo, usando list comprehension se puede simplificar así:
# dates = [datetime.datetime(year=int(row[1]), month=int(row[2], day=1) for row in data]

dates = []

for row in data:
    row[1] = int(row[1])
    row[2] = int(row[2])
    date = datetime.datetime(year=row[1], month=row[2], day=1)
    dates.append(date)

# Esto puede simplificarse como print(dates[:5])
print(dates[0:5])

[datetime.datetime(2012, 1, 1, 0, 0), datetime.datetime(2012, 1, 1, 0, 0), datetime.datetime(2012, 1, 1, 0, 0), datetime.datetime(2012, 2, 1, 0, 0), datetime.datetime(2012, 2, 1, 0, 0)]


In [5]:
date_counts = {}

for date in dates:
    if date in date_counts:
        date_counts[date] = date_counts[date] + 1
    else:
        # Lo puse como 1 y debería ser 0 según la solución
        date_counts[date] = 1

# Si llamo el objeto directamente se ve mejor que con print...
date_counts

{datetime.datetime(2012, 1, 1, 0, 0): 2758,
 datetime.datetime(2012, 2, 1, 0, 0): 2357,
 datetime.datetime(2012, 3, 1, 0, 0): 2743,
 datetime.datetime(2012, 4, 1, 0, 0): 2795,
 datetime.datetime(2012, 5, 1, 0, 0): 2999,
 datetime.datetime(2012, 6, 1, 0, 0): 2826,
 datetime.datetime(2012, 7, 1, 0, 0): 3026,
 datetime.datetime(2012, 8, 1, 0, 0): 2954,
 datetime.datetime(2012, 9, 1, 0, 0): 2852,
 datetime.datetime(2012, 10, 1, 0, 0): 2733,
 datetime.datetime(2012, 11, 1, 0, 0): 2729,
 datetime.datetime(2012, 12, 1, 0, 0): 2791,
 datetime.datetime(2013, 1, 1, 0, 0): 2864,
 datetime.datetime(2013, 2, 1, 0, 0): 2375,
 datetime.datetime(2013, 3, 1, 0, 0): 2862,
 datetime.datetime(2013, 4, 1, 0, 0): 2798,
 datetime.datetime(2013, 5, 1, 0, 0): 2806,
 datetime.datetime(2013, 6, 1, 0, 0): 2920,
 datetime.datetime(2013, 7, 1, 0, 0): 3079,
 datetime.datetime(2013, 8, 1, 0, 0): 2859,
 datetime.datetime(2013, 9, 1, 0, 0): 2742,
 datetime.datetime(2013, 10, 1, 0, 0): 2808,
 datetime.datetime(2013, 11,

## Frecuencia de eventos por sexo y etnia

In [6]:
sex_counts = {}

# Usando list comprehension podemos simplicar esto a sexes = [row[5] for row in data]

for row in data:
    sex = row[5]
    if sex in sex_counts:
        sex_counts[sex] = sex_counts[sex] + 1
    else:
        sex_counts[sex] = 1

print('Events by sex:')
print(sex_counts)

Events by sex:
{'M': 86349, 'F': 14449}


In [7]:
race_counts = {}

# Usando list comprehension podemos simplicar esto a races = [row[7] for row in data]

for row in data:
    race = row[7]
    if race in race_counts:
        race_counts[race] = race_counts[race] + 1
    else:
        race_counts[race] = 1
        
print('Events by race:')
print(race_counts)

Events by race:
{'White': 66237, 'Hispanic': 9022, 'Native American/Native Alaskan': 917, 'Black': 23296, 'Asian/Pacific Islander': 1326}


## Hallazgos hasta ahora

- Desproporción entre sexos, siendo mayoría de afectados de sexo masculino
- Desproporción entre etnias, conviene tener datos poblacionales para saber valores relativos
- Sería útil filtrar por tipo de evento (homicidio, suicidio, etc)

## Sumando información censal

In [8]:
file = open('census.csv', 'r')
census = list(csv.reader(file))

census

[['Id',
  'Year',
  'Id',
  'Sex',
  'Id',
  'Hispanic Origin',
  'Id',
  'Id2',
  'Geography',
  'Total',
  'Race Alone - White',
  'Race Alone - Hispanic',
  'Race Alone - Black or African American',
  'Race Alone - American Indian and Alaska Native',
  'Race Alone - Asian',
  'Race Alone - Native Hawaiian and Other Pacific Islander',
  'Two or More Races'],
 ['cen42010',
  'April 1, 2010 Census',
  'totsex',
  'Both Sexes',
  'tothisp',
  'Total',
  '0100000US',
  '',
  'United States',
  '308745538',
  '197318956',
  '44618105',
  '40250635',
  '3739506',
  '15159516',
  '674625',
  '6984195']]

## Calculando eventos por etnia con base poblacional

**Ingreso a mi diccionario las categorías étnicas que me interesan, con valor 0**

In [9]:
mapping ={}

for race, count in race_counts.items():
    if race not in mapping:
        mapping[race] = 0

print(mapping)

{'White': 0, 'Hispanic': 0, 'Asian/Pacific Islander': 0, 'Black': 0, 'Native American/Native Alaskan': 0}


**Asigno variables a los encabezados y a la fila de datos del censo**

In [10]:
tags = census[0]
numbers = census[1]

print(tags)
print(numbers)

['Id', 'Year', 'Id', 'Sex', 'Id', 'Hispanic Origin', 'Id', 'Id2', 'Geography', 'Total', 'Race Alone - White', 'Race Alone - Hispanic', 'Race Alone - Black or African American', 'Race Alone - American Indian and Alaska Native', 'Race Alone - Asian', 'Race Alone - Native Hawaiian and Other Pacific Islander', 'Two or More Races']
['cen42010', 'April 1, 2010 Census', 'totsex', 'Both Sexes', 'tothisp', 'Total', '0100000US', '', 'United States', '308745538', '197318956', '44618105', '40250635', '3739506', '15159516', '674625', '6984195']


**Trato de matchear tags con los que me interesan, eliminando str como 'Race alone' o caracteres especiales**

In [11]:
import re

tags = str(tags)
tags = re.sub("Race Alone -", "", tags)
tags = re.sub("\'|\]|\[", "", tags)

**Convierto los tags en lista y dejo los que necesito**

In [12]:
tags_lista = tags.split(',')
print(tags_lista)

['Id', ' Year', ' Id', ' Sex', ' Id', ' Hispanic Origin', ' Id', ' Id2', ' Geography', ' Total', '  White', '  Hispanic', '  Black or African American', '  American Indian and Alaska Native', '  Asian', '  Native Hawaiian and Other Pacific Islander', ' Two or More Races']


In [13]:
tags_lista = tags_lista[10:16]
numbers = numbers[10:16]

print(tags_lista)
print(numbers)

['  White', '  Hispanic', '  Black or African American', '  American Indian and Alaska Native', '  Asian', '  Native Hawaiian and Other Pacific Islander']
['197318956', '44618105', '40250635', '3739506', '15159516', '674625']


**Armo un diccionario a partir del censo, con los tags como keys y los datos como value**

In [14]:
datocensal = {}

print('Index y tags')
print()

for i, tag in enumerate(tags_lista):
        datocensal[tag] = numbers[i]
        print(i, tag)

print()
print('Datos del censo, con categorías étnicas distintas a lo que necesito')        
datocensal

Index y tags

0   White
1   Hispanic
2   Black or African American
3   American Indian and Alaska Native
4   Asian
5   Native Hawaiian and Other Pacific Islander

Datos del censo, con categorías étnicas distintas a lo que necesito


{'  American Indian and Alaska Native': '3739506',
 '  Asian': '15159516',
 '  Black or African American': '40250635',
 '  Hispanic': '44618105',
 '  Native Hawaiian and Other Pacific Islander': '674625',
 '  White': '197318956'}

In [15]:
print('Categorías que necesito')
print()
mapping

Categorías que necesito



{'Asian/Pacific Islander': 0,
 'Black': 0,
 'Hispanic': 0,
 'Native American/Native Alaskan': 0,
 'White': 0}

**Asigno a cada etnia en mapping los datos poblacionales, combinando ambos diccionarios**


In [23]:
# El cálculo daba mal porque me había olvidado de pasar str a int...

mapping = {
    'White': int(numbers[0]), 
    'Hispanic': int(numbers[1]), 
    'Asian/Pacific Islander': int(numbers[4]) + int(numbers[5]), 
    'Black': int(numbers[2]), 
    'Native American/Native Alaskan': int(numbers[3])
}

print('Población USA por etnias')
print()
print(mapping)
print()
print('Eventos armas de fuego por etnias')
race_counts

Población USA por etnias

{'White': 197318956, 'Hispanic': 44618105, 'Black': 40250635, 'Native American/Native Alaskan': 3739506, 'Asian/Pacific Islander': 15834141}

Eventos armas de fuego por etnias


{'Asian/Pacific Islander': 1326,
 'Black': 23296,
 'Hispanic': 9022,
 'Native American/Native Alaskan': 917,
 'White': 66237}

**Saco el cálculo en base a la población (por 100k)**

In [24]:
race_per_hundredk = {}

# Esto se puede simplificar así:
# for k,v in race_counts.items():
#     race_per_hundredk[race] = (v / mapping[k]) * 100000

for race, counts in race_counts.items():
    for etnia, population in mapping.items():
        population = int(population)
        if race == etnia:
            race_per_hundredk[race] = (counts / population)*100000
            
race_per_hundredk


{'Asian/Pacific Islander': 8.374309664161762,
 'Black': 57.8773477735196,
 'Hispanic': 20.220491210910907,
 'Native American/Native Alaskan': 24.521955573811088,
 'White': 33.56849303419181}

### Filtrando por homicidios

In [18]:
# Uso list comprehension para aislar data de columnas

intents = [row[3] for row in data]
races = [row[7] for row in data]

In [25]:
homicide_rate_counts = {}

for i, race in enumerate(races):
    if intents[i] == 'Homicide':
        if race in homicide_rate_counts:
            homicide_rate_counts[race] = homicide_rate_counts[race] + 1
        else:
            homicide_rate_counts[race] = 1

print(homicide_rate_counts)

{'White': 9147, 'Hispanic': 5634, 'Black': 19510, 'Native American/Native Alaskan': 326, 'Asian/Pacific Islander': 559}


In [26]:
# From raw numbers to rates per 100000:

# Esto se puede simplificar:
# for k,v in homicide_rate_counts.items():
#      race_per_hundredk[k] = (v / mapping[k]) * 100000

for race, counts in homicide_rate_counts.items():
    for etnia, population in mapping.items():
        population = int(population)
        if race == etnia:
            race_per_hundredk[race] = (counts / population) * 100000
            
race_per_hundredk

{'Asian/Pacific Islander': 3.530346230970155,
 'Black': 48.471284987180944,
 'Hispanic': 12.627161104219914,
 'Native American/Native Alaskan': 8.717729026240365,
 'White': 4.6356417981453335}

## Hallazgos

Cuando se toma la base poblacional y se filtra por homicidios, la desproporción de cómo los eventos afectan a las minorías negras e hispánicas es significativa.

Para seguir:
- Homicidios por sexos, locación y nivel educativo
- Otros tipos de eventos por sexo, locación y nivel educativo
- Variaciones estacionales y homicidios
