# Primer avance del PIA

**Equipo:** 9

**Grupo:** 003, Lunes

**Integrantes:** 
- 1808039, Gómez, Karen
- 1937881, Duarte, Cecilia  
- 1741418, Galván, Emmanuel 

### Base de datos:

[US Police Shootings](https://www.kaggle.com/ahsen1330/us-police-shootings)

In [1]:
import pandas as pd

In [2]:
df_PS = pd.read_csv("shootings.csv")

### Descripción de los datos

In [3]:
df_PS.shape

(4895, 15)

Esto, nos indica que tenemos un total de 15 columnas que describen las características de las personas, los eventos y las condiciones en las cuales se llevó a cabo los arrestos por parte de la policía de Estados de Unidos. Asimismo, nos describe que hay 4894 registros de personas que fueron arrestadas.

**Tipo de datos**  

La base de datos es una tabla, que tiene valores numéricos enteros para el identificador y flotantes para la edad. En su mayoría son de tipo texto ya que describen una característica según la columna, a excepción de la fecha que tiene ese formato y la columna signs of mental illness donde los datos son verdadero y falso.

In [6]:
df_PS.dtypes

id                           int64
name                        object
date                        object
manner_of_death             object
armed                       object
age                        float64
gender                      object
race                        object
city                        object
state                       object
signs_of_mental_illness       bool
threat_level                object
flee                        object
body_camera                   bool
arms_category               object
dtype: object

**NOTA:** Es probable que más adelante modifiquemos los valores de algunas columnas con datos tipo texto, asignándoles un valor numérico para poder hacer comparaciones entre ellos y facilitar su manipulación.

In [7]:
df_PS.head()

Unnamed: 0,id,name,date,manner_of_death,armed,age,gender,race,city,state,signs_of_mental_illness,threat_level,flee,body_camera,arms_category
0,3,Tim Elliot,2015-01-02,shot,gun,53.0,M,Asian,Shelton,WA,True,attack,Not fleeing,False,Guns
1,4,Lewis Lee Lembke,2015-01-02,shot,gun,47.0,M,White,Aloha,OR,False,attack,Not fleeing,False,Guns
2,5,John Paul Quintero,2015-01-03,shot and Tasered,unarmed,23.0,M,Hispanic,Wichita,KS,False,other,Not fleeing,False,Unarmed
3,8,Matthew Hoffman,2015-01-04,shot,toy weapon,32.0,M,White,San Francisco,CA,True,attack,Not fleeing,False,Other unusual objects
4,9,Michael Rodriguez,2015-01-04,shot,nail gun,39.0,M,Hispanic,Evans,CO,False,attack,Not fleeing,False,Piercing objects


**NOTA:** Las columnas de nuestro interés principal son: armed, race, manner of death, flee y treat_level. Esto, porque son las que nos describen la raza de las personas detenidas, así como la posible razón de su detención y el carácter de esta.

### Justificación del uso de datos

Se tiene catalogado a Estados Unidos como un país con un gran porcentaje de discriminación racial, en especial al momento de hacer cumplir sus leyes. Por lo que, la policía de Estados Unidos ha sido catalogada como injusta y con cierta inclinación a detener de forma injustificada o con mayor severidad aquellos ciudadanos de un cierto tipo de raza, en especial aquellos de un tono de piel oscura.
Es por ello, que buscamos conocer si lo que se piensa de la policía de Estados Unidos es cierto.

### Objetivo final

* Determinar si es mayor la proporción de arrestos de personas de color que la proporción de personas blancas.

* Comparar y analizar la proporción de arrestos por razas.

* Evaluar la susceptibilidad de los policías a actuar de forma violenta en los arrestos, según distintos criterios. 

### Preguntas de interés 

* ¿Hay mayor proporción de personas de color arrestadas que personas blancas por la policía de Estados Unidos?

* ¿Existe una desigualdad racial en cuánto arrestos en Estados Unidos?

* ¿Qué tan susceptibles a la violencia son los policías de Estados Unidos?

### Programación

**Eliminar columnas no deseadas**

In [8]:
df_PS.columns

Index(['id', 'name', 'date', 'manner_of_death', 'armed', 'age', 'gender',
       'race', 'city', 'state', 'signs_of_mental_illness', 'threat_level',
       'flee', 'body_camera', 'arms_category'],
      dtype='object')

* name: Se eliminó, debido a que el nombre de las personas no es relevante para el análisis.
* body_camera: se eliminó porque no nos interesa saber si traían una cámara en el cuerpo.

In [9]:
df_PS = df_PS.drop(['name','body_camera'], axis=1)

**NOTA:** Hay columnas que no son esenciales pero que no eliminamos porque consideramos que se les podría encontrar un uso específico conforme se avance en el análisis.

**Manipulación de los datos tipo null**

No hay datos tipo null

In [10]:
df_PS.isnull().sum()

id                         0
date                       0
manner_of_death            0
armed                      0
age                        0
gender                     0
race                       0
city                       0
state                      0
signs_of_mental_illness    0
threat_level               0
flee                       0
arms_category              0
dtype: int64

**NOTA:** Esto es algo bueno para nosotros porque no tendremos que ver cómo manejar estos datos.

**Renombra columnas**

In [10]:
df_PS = df_PS.rename(columns={'date': 'Dia', 
                              'manner_of_death':'Manera_de_la_muerte',
                              'armed':'Arma',
                              'age': 'Edad',
                              'gender':'Genero',
                              'race':'Raza', 
                              'city':'Ciudad',
                              'state':'Estado',
                              'signs_of_mental_illness':'Signos_de_enfermedades_mentales',
                              'flee':'Escapo',
                              'threat_level':'Nivel_de_amenaza',
                              'arms_category': 'Categoria_de_armas' })

**NOTA:** Las cambiamos para identificarlos con facilidad en nuestro idioma nativo.

**Visualización después de limpieza y exportación de los datos**

In [11]:
df_PS.head()

Unnamed: 0,id,date,manner_of_death,armed,age,gender,race,city,state,signs_of_mental_illness,threat_level,flee,arms_category
0,3,2015-01-02,shot,gun,53.0,M,Asian,Shelton,WA,True,attack,Not fleeing,Guns
1,4,2015-01-02,shot,gun,47.0,M,White,Aloha,OR,False,attack,Not fleeing,Guns
2,5,2015-01-03,shot and Tasered,unarmed,23.0,M,Hispanic,Wichita,KS,False,other,Not fleeing,Unarmed
3,8,2015-01-04,shot,toy weapon,32.0,M,White,San Francisco,CA,True,attack,Not fleeing,Other unusual objects
4,9,2015-01-04,shot,nail gun,39.0,M,Hispanic,Evans,CO,False,attack,Not fleeing,Piercing objects


In [12]:
df_PS.shape

(4895, 13)

In [13]:
df_PS.to_csv('DF_USPS.csv', index = False, header = True)

**NOTA:** Aquí le cambiamos el nombre al archivo con una nomenclatura que nos facilite su búsqueda y reconocimiento.

**NOTA:** Más adelante se tendrán que filtrar los datos para determinar la proporción de arrestos por razas, dado que no podemos considerar los datos desconocidos (Unknown).
    No eliminamos estos datos, por la utilidad que nos pudiesen representar para analizar otra información, y porque no sabemos cómo pudiese afectar la muestra.