# Limpieza y merge de datasets

In [9]:
import pandas as pd
import numpy as np
import warnings
warnings.simplefilter("ignore")

In [10]:
df_acoso=pd.read_csv('carpetas-de-investigacion-pgj-de-la-ciudad-de-mexico-acoso-3-marzo-2020.csv',sep=',')
df_abuso = pd.read_csv('carpetas-de-investigacion-pgj-de-la-ciudad-de-mexico-abuso-3-marzo-2020.csv',sep=',')

---

### Acoso

In [11]:
df_acoso.columns

Index(['ao_hechos', 'mes_hechos', 'fecha_hechos', 'delito', 'categoria_delito',
       'fiscalia', 'agencia', 'unidad_investigacion', 'alcaldia_hechos',
       'colonia_hechos', 'ao_inicio', 'mes_inicio', 'fecha_inicio',
       'calle_hechos', 'calle_hechos2', 'longitud', 'latitud', 'geopoint'],
      dtype='object')

Columnas necesarias para el dashboard: Fecha, Tipo de delito, Alcaldía, Latitud y Longitud

In [12]:
df_acoso_v2 = df_acoso[["fecha_hechos","delito","alcaldia_hechos","latitud", "longitud"]]

#### NA's

In [13]:
df_acoso_v2.isnull().sum()

fecha_hechos         0
delito               0
alcaldia_hechos      2
latitud            326
longitud           326
dtype: int64

La información principal para el dashboard son la latitud y longitud. Si en 326 registros no tenemos estos datos, no nos sirve de nada tener los rows. Así que se dropean.

In [14]:
df_acoso_v3 = df_acoso_v2.dropna()

In [15]:
df_acoso_v3.isnull().sum()

fecha_hechos       0
delito             0
alcaldia_hechos    0
latitud            0
longitud           0
dtype: int64

#### Fecha
Revisar consistencia de datos y el tipo de ellos. Tiene que ser 'datetime'

In [16]:
df_acoso_v3.dtypes

fecha_hechos        object
delito              object
alcaldia_hechos     object
latitud            float64
longitud           float64
dtype: object

In [17]:
df_acoso_v3.fecha_hechos.value_counts()
#Al parecer se ven bien los datos: no veo NA's ni otros valores extraños.

18/05/2019 10:00:00    2
14/12/2019 17:00       2
2018-08-16 12:00       2
10/12/2019 23:00:00    2
04/05/2019 13:00:00    2
                      ..
2018-04-21 20:00       1
2017-05-06 12:00:00    1
24/03/2019 09:00       1
26/11/2019 18:00:00    1
26/07/2019 11:00:00    1
Name: fecha_hechos, Length: 1558, dtype: int64

In [18]:
df_acoso_v3.fecha_hechos=pd.to_datetime(df_acoso_v3.fecha_hechos)
df_acoso_v3.dtypes

fecha_hechos       datetime64[ns]
delito                     object
alcaldia_hechos            object
latitud                   float64
longitud                  float64
dtype: object

In [19]:
df_acoso_v3.fecha_hechos.value_counts()

2019-10-12 23:00:00    2
2017-05-30 15:30:00    2
2016-07-04 08:30:00    2
2019-11-29 12:00:00    2
2019-02-15 13:00:00    2
                      ..
2017-07-21 14:30:00    1
2017-03-06 12:00:00    1
2018-11-30 13:40:00    1
2018-04-20 22:00:00    1
2019-05-26 09:00:00    1
Name: fecha_hechos, Length: 1553, dtype: int64

#### Delito

In [20]:
df_acoso_v3.delito.value_counts()

ACOSO SEXUAL    1576
Name: delito, dtype: int64

Cambiare este valor a 'ACS'. Este será el diferenciador de los acosos en los puntos del dashboard.

In [21]:
df_acoso_v3.delito = 'ACS'

In [22]:
df_acoso_v3.delito.value_counts()

ACS    1576
Name: delito, dtype: int64

#### Alcaldías

In [23]:
df_acoso_v3.alcaldia_hechos.value_counts()
#Bien

CUAUHTEMOC                287
IZTAPALAPA                210
GUSTAVO A MADERO          173
MIGUEL HIDALGO            128
BENITO JUAREZ             123
COYOACAN                  114
ALVARO OBREGON             98
VENUSTIANO CARRANZA        95
TLALPAN                    87
AZCAPOTZALCO               71
IZTACALCO                  61
TLAHUAC                    42
XOCHIMILCO                 38
LA MAGDALENA CONTRERAS     24
CUAJIMALPA DE MORELOS      19
MILPA ALTA                  6
Name: alcaldia_hechos, dtype: int64

#### Latitud y Longitud

In [24]:
df_acoso_v3.latitud.value_counts()

19.431370    3
19.382933    3
19.331730    2
19.392170    2
19.273200    2
            ..
19.410350    1
19.375050    1
19.300370    1
19.492492    1
19.337020    1
Name: latitud, Length: 1550, dtype: int64

In [25]:
df_acoso_v3.latitud.head(50)

0     19.470577
1     19.433087
2     19.446122
3     19.287759
5     19.467060
8     19.427291
9     19.359315
10    19.428828
11    19.310011
12    19.335225
13    19.300948
14    19.273114
15    19.454288
16    19.487458
17    19.353137
18    19.356224
19    19.455225
20    19.357829
21    19.283154
22    19.258998
23    19.392953
24    19.422198
25    19.425315
26    19.345962
28    19.477857
29    19.416752
31    19.437979
32    19.306197
33    19.493693
35    19.385202
36    19.374512
37    19.327563
38    19.399376
40    19.391707
41    19.391646
42    19.250989
43    19.414934
44    19.421227
45    19.329865
46    19.366200
47    19.303167
48    19.455300
49    19.423692
50    19.361641
51    19.404668
52    19.222496
53    19.246229
54    19.353011
55    19.406562
56    19.322219
Name: latitud, dtype: float64

In [26]:
df_acoso_v3.longitud.value_counts()

-99.052963    3
-99.147150    2
-98.997700    2
-99.191390    2
-99.137310    2
             ..
-99.123080    1
-99.144869    1
-99.127600    1
-99.096579    1
-99.185330    1
Name: longitud, Length: 1553, dtype: int64

In [27]:
df_acoso_v3.longitud.head(50)

0    -99.160223
1    -99.118629
2    -99.177162
3    -98.999858
5    -99.132584
8    -99.142928
9    -99.091768
10   -99.150510
11   -99.235377
12   -99.052446
13   -99.106814
14   -99.004859
15   -99.146400
16   -99.133195
17   -99.000455
18   -99.168721
19   -99.140361
20   -99.120513
21   -99.192737
22   -99.173593
23   -99.162586
24   -99.133657
25   -99.164338
26   -99.144869
28   -99.084071
29   -99.167032
31   -99.135597
32   -99.240375
33   -99.164989
35   -99.152317
36   -99.187900
37   -99.121750
38   -99.176309
40   -99.114126
41   -99.047943
42   -99.077342
43   -99.152581
44   -99.125805
45   -99.021047
46   -99.178954
47   -99.121937
48   -99.160333
49   -99.072072
50   -99.225901
51   -99.122222
52   -99.111390
53   -99.087011
54   -99.092346
55   -99.066419
56   -99.105499
Name: longitud, dtype: float64

Los datos se ven bien en primera instancia. Si en el dashboard empiezan a dar problemas, regresaré para hacer un análisis más detallado.

---

### Abuso

In [28]:
df_abuso_v2 = df_abuso[["fecha_hechos","delito","alcaldia_hechos","latitud", "longitud"]]

#### NA's

In [29]:
df_abuso_v2.isnull().sum()

fecha_hechos          1
delito                0
alcaldia_hechos      67
latitud            1462
longitud           1462
dtype: int64

In [30]:
df_abuso_v3 = df_abuso_v2.dropna()

In [31]:
df_abuso_v3.isnull().sum()

fecha_hechos       0
delito             0
alcaldia_hechos    0
latitud            0
longitud           0
dtype: int64

#### Fecha

In [32]:
df_abuso_v3.dtypes

fecha_hechos        object
delito              object
alcaldia_hechos     object
latitud            float64
longitud           float64
dtype: object

In [33]:
df_abuso_v3.fecha_hechos.value_counts()
#Hay unos valores "NA NA", habrá que quitarlos

NA NA                  4
2018-06-01 18:00       3
22/02/2019 10:00:00    3
28/06/2019 12:00:00    3
12/02/2019 12:00:00    3
                      ..
2017-11-01 13:00       1
13/02/2019 18:35:00    1
23/04/2019 02:00:00    1
07/11/2019 14:10:00    1
2017-12-28 20:30:00    1
Name: fecha_hechos, Length: 8803, dtype: int64

In [34]:
df_abuso_v3.fecha_hechos[df_abuso_v3.fecha_hechos == "NA NA"] = None
df_abuso_v4 = df_abuso_v3.dropna()

In [35]:
df_abuso_v4.fecha_hechos=pd.to_datetime(df_abuso_v4.fecha_hechos)
df_abuso_v4.dtypes

fecha_hechos       datetime64[ns]
delito                     object
alcaldia_hechos            object
latitud                   float64
longitud                  float64
dtype: object

In [36]:
df_abuso_v4.fecha_hechos.value_counts()

2017-01-01 12:00:00    7
2017-03-10 12:00:00    4
2019-02-22 10:00:00    4
2016-06-06 12:00:00    4
2018-11-20 12:00:00    4
                      ..
2017-08-03 12:00:00    1
2019-01-06 18:00:00    1
2019-07-20 03:15:00    1
2015-11-12 12:30:00    1
2016-04-15 10:00:00    1
Name: fecha_hechos, Length: 8719, dtype: int64

#### Delito

In [37]:
df_abuso_v4.delito.value_counts()

ABUSO SEXUAL          9215
ABUSO DE AUTORIDAD       3
Name: delito, dtype: int64

Cambiare este valor a 'ABS'. Este será el diferenciador de los acosos en los puntos del dashboard.

In [38]:
df_abuso_v4.delito = 'ABS'

In [39]:
df_abuso_v4.delito.value_counts()

ABS    9218
Name: delito, dtype: int64

#### Alcaldías

In [40]:
df_abuso_v4.alcaldia_hechos.value_counts()
#Bien

IZTAPALAPA                1526
CUAUHTEMOC                1400
GUSTAVO A MADERO          1112
VENUSTIANO CARRANZA        609
ALVARO OBREGON             580
TLALPAN                    571
COYOACAN                   529
BENITO JUAREZ              515
MIGUEL HIDALGO             484
IZTACALCO                  397
AZCAPOTZALCO               378
XOCHIMILCO                 375
TLAHUAC                    266
CUAJIMALPA DE MORELOS      192
LA MAGDALENA CONTRERAS     167
MILPA ALTA                 117
Name: alcaldia_hechos, dtype: int64

#### Latitud y Longitud

In [41]:
df_abuso_v4.latitud.value_counts()

19.425930    7
19.425920    5
19.446310    5
19.414885    5
19.415400    4
            ..
19.391140    1
19.398710    1
19.192930    1
19.420060    1
19.344241    1
Name: latitud, Length: 8816, dtype: int64

In [42]:
df_abuso_v4.latitud.head(50)

0     19.420231
1     19.367128
2     19.424738
3     19.510535
4     19.283632
5     19.253902
6     19.284619
7     19.429392
8     19.425719
9     19.282951
10    19.451266
11    19.376599
12    19.433305
14    19.345133
15    19.383941
16    19.444806
17    19.428012
18    19.477095
19    19.468633
20    19.475701
21    19.429221
22    19.418823
23    19.407720
24    19.418544
25    19.329275
26    19.345064
27    19.270371
28    19.420132
29    19.418272
30    19.439388
31    19.328308
32    19.450406
33    19.444574
34    19.238270
35    19.334771
36    19.303448
37    19.465583
38    19.388776
39    19.403482
40    19.423084
41    19.391527
42    19.389831
44    19.229899
46    19.346588
47    19.259262
48    19.353590
50    19.487483
51    19.435383
53    19.371350
54    19.262230
Name: latitud, dtype: float64

In [43]:
df_abuso_v4.longitud.value_counts()

-99.133060    11
-99.145140     6
-99.072516     5
-99.153160     5
-99.086140     5
              ..
-99.118883     1
-99.133250     1
-99.283580     1
-99.210874     1
-99.146184     1
Name: longitud, Length: 8784, dtype: int64

In [44]:
df_abuso_v4.longitud.head(50)

0    -99.123842
1    -99.071310
2    -99.095112
3    -99.152675
4    -99.054474
5    -99.099967
6    -99.226275
7    -99.153830
8    -99.192168
9    -99.193101
10   -99.201990
11   -99.186469
12   -99.132959
14   -99.309216
15   -99.062984
16   -99.145191
17   -99.122840
18   -99.155583
19   -99.140030
20   -99.194518
21   -99.119535
22   -99.167467
23   -99.134679
24   -99.144574
25   -99.031727
26   -99.188320
27   -99.187581
28   -99.146491
29   -99.160404
30   -99.131255
31   -99.159274
32   -99.202626
33   -99.145241
34   -99.117674
35   -99.274759
36   -99.081170
37   -99.102344
38   -99.138061
39   -99.133967
40   -99.087192
41   -99.118902
42   -99.044551
44   -99.120333
46   -99.082336
47   -99.107290
48   -99.014063
50   -99.116783
51   -99.137010
53   -99.130468
54   -99.111075
Name: longitud, dtype: float64

---

## Uniendo los datasets

In [45]:
df_abuso_v4.shape, df_acoso_v3.shape

((9218, 5), (1576, 5))

In [80]:
df_final=pd.concat([df_acoso_v3, df_abuso_v4], ignore_index=True)
df_final.head(10)

Unnamed: 0,fecha_hechos,delito,alcaldia_hechos,latitud,longitud
0,2016-11-03 04:35:00,ACS,AZCAPOTZALCO,19.470577,-99.160223
1,2016-11-08 23:30:00,ACS,VENUSTIANO CARRANZA,19.433087,-99.118629
2,2016-09-17 10:00:00,ACS,MIGUEL HIDALGO,19.446122,-99.177162
3,2016-07-30 01:00:00,ACS,TLAHUAC,19.287759,-98.999858
4,2016-06-06 06:00:00,ACS,GUSTAVO A MADERO,19.46706,-99.132584
5,2016-12-06 20:00:00,ACS,CUAUHTEMOC,19.427291,-99.142928
6,2016-09-29 09:30:00,ACS,IZTAPALAPA,19.359315,-99.091768
7,2016-12-09 14:40:00,ACS,CUAUHTEMOC,19.428828,-99.15051
8,2016-12-12 04:30:00,ACS,LA MAGDALENA CONTRERAS,19.310011,-99.235377
9,2016-12-06 07:45:00,ACS,IZTAPALAPA,19.335225,-99.052446


In [103]:
df_final['text'] = df_final.delito.str.cat(df_final.fecha_hechos.astype(str), sep= ", ")

In [104]:
df_final.text=df_final.text.str.replace('ACS','Acoso')
df_final.text=df_final.text.str.replace('ABS','Abuso')

In [105]:
df_final.head()

Unnamed: 0,fecha_hechos,delito,alcaldia_hechos,latitud,longitud,text
0,2016-11-03 04:35:00,ACS,AZCAPOTZALCO,19.470577,-99.160223,"Acoso, 2016-11-03 04:35:00"
1,2016-11-08 23:30:00,ACS,VENUSTIANO CARRANZA,19.433087,-99.118629,"Acoso, 2016-11-08 23:30:00"
2,2016-09-17 10:00:00,ACS,MIGUEL HIDALGO,19.446122,-99.177162,"Acoso, 2016-09-17 10:00:00"
3,2016-07-30 01:00:00,ACS,TLAHUAC,19.287759,-98.999858,"Acoso, 2016-07-30 01:00:00"
4,2016-06-06 06:00:00,ACS,GUSTAVO A MADERO,19.46706,-99.132584,"Acoso, 2016-06-06 06:00:00"


In [106]:
df_final.dtypes

fecha_hechos       datetime64[ns]
delito                     object
alcaldia_hechos            object
latitud                   float64
longitud                  float64
text                       object
dtype: object

In [107]:
df_final.to_csv("df_dashing.csv")