## Índice<a name="indice"></a>
* [1 Prepocesado de datos](#1)
    * [1.1 Importación de librerías](#1_1)
    * [1.2 Carga del Dataset](#1_2)
* [2 Análisis Exploratorio de datos](#2)
    * [2.1 Tratamiento de datos nulos o prescindibles](#2_1)
    * [2.2 Estadísitcas descriptivas](#2_2)
    * [2.3 Detección de Outliers](#2_3)
    * [2.4 Detección de correlaciones](#2_4)
* [3 Diseño de características](#3)
    * [3.1 Transformación de características](#3_1)
    * [3.2 Selección de características relevante](#3_2)
    * [3.3 Tratamiento de outliers](#3_3)
    * [3.4 Tratamiento de correlación](#3_4)
    * [3.5 Normalización](#3_5)


# 1 Prepocesado de datos<a name="1"></a>
[Índice](#indice)

## Descripción del dataset:
Datos de terrorismo a nivel global.

**Contexto:**<br/>
Información sobre más de 180.000 atentados terroristas

La Base de Datos Global de Terrorismo (GTD, por sus siglas en inglés) es una base de datos de código abierto que incluye información sobre ataques terroristas en todo el mundo desde 1970 hasta 2017. El GTD incluye datos sistemáticos sobre incidentes terroristas nacionales e internacionales que han ocurrido durante este período de tiempo y ahora incluye más de 180.000 ataques. La base de datos es mantenida por investigadores del Consorcio Nacional para el Estudio del Terrorismo y las Respuestas al Terrorismo (START), con sede en la Universidad de Maryland.<br/>

**Información**
<ul>
<li>Geografía: En todo el mundo</li>
<li>Período: 1970-2017, excepto 1993</li>
<li>Unidad de análisis: Ataque</li>
<li>Variables: >100 variables sobre ubicación, tácticas, perpetradores, objetivos y resultados</li>
<li>Fuentes: Artículos de medios no clasificados (Nota: Por favor, interprete los cambios a lo largo del tiempo con precaución. Los patrones globales están impulsados por diversas tendencias en regiones particulares, y la recopilación de datos está influenciada por las fluctuaciones en el acceso a la cobertura de los medios de comunicación tanto en el tiempo como en el lugar).</li>

Definición de terrorismo:

"El uso amenazante o real de fuerza y violencia ilegales por parte de un actor no estatal para lograr un objetivo político, económico, religioso o social a través del miedo, la coerción o la intimidación".

Consulte el Libro de códigos de GTD para obtener detalles importantes sobre la metodología de recopilación de datos, las definiciones y el esquema de codificación.
</ul>


**Enlaces a los sitios de descarga del dataset (incluida la información sobre los campos):**</br>
https://www.kaggle.com/datasets/START-UMD/gtd/data</br>

## 1.1 Importación de librerías<a name="1_1"></a>
[Índice](#indice)

In [43]:
# Análisis
import pandas as pd
import numpy as np

# Gráficos
import seaborn as sns
import matplotlib.pyplot as plt

#mapas
import geopandas as gpd
import plotly.express as px

#Librerías para el envio y respuesta de peticiones http
import requests 
import json
from urllib.request import urlopen

#formato
import textwrap

#otros
import random

## 1.2 Carga del dataset<a name="1_2"></a>
[Índice](#indice)

In [2]:
# Cargar el csv (Algunas columnas no tienen tipo definido)
df = pd.read_csv('C:/Users/Usuario/Desktop/cosas/cosas BD/datasets/datos terrorismo/globalterrorismdb_0718dist.csv', encoding='latin-1')

  df = pd.read_csv('C:/Users/Usuario/Desktop/cosas/cosas BD/datasets/datos terrorismo/globalterrorismdb_0718dist.csv', encoding='latin-1')


In [3]:
#Mostramos el dataset
df.head(10)

Unnamed: 0,eventid,iyear,imonth,iday,approxdate,extended,resolution,country,country_txt,region,...,addnotes,scite1,scite2,scite3,dbsource,INT_LOG,INT_IDEO,INT_MISC,INT_ANY,related
0,197000000001,1970,7,2,,0,,58,Dominican Republic,2,...,,,,,PGIS,0,0,0,0,
1,197000000002,1970,0,0,,0,,130,Mexico,1,...,,,,,PGIS,0,1,1,1,
2,197001000001,1970,1,0,,0,,160,Philippines,5,...,,,,,PGIS,-9,-9,1,1,
3,197001000002,1970,1,0,,0,,78,Greece,8,...,,,,,PGIS,-9,-9,1,1,
4,197001000003,1970,1,0,,0,,101,Japan,4,...,,,,,PGIS,-9,-9,1,1,
5,197001010002,1970,1,1,,0,,217,United States,1,...,"The Cairo Chief of Police, William Petersen, r...","""Police Chief Quits,"" Washington Post, January...","""Cairo Police Chief Quits; Decries Local 'Mili...","Christopher Hewitt, ""Political Violence and Te...",Hewitt Project,-9,-9,0,-9,
6,197001020001,1970,1,2,,0,,218,Uruguay,3,...,,,,,PGIS,0,0,0,0,
7,197001020002,1970,1,2,,0,,217,United States,1,...,"Damages were estimated to be between $20,000-$...",Committee on Government Operations United Stat...,"Christopher Hewitt, ""Political Violence and Te...",,Hewitt Project,-9,-9,0,-9,
8,197001020003,1970,1,2,,0,,217,United States,1,...,The New Years Gang issue a communiqué to a loc...,"Tom Bates, ""Rads: The 1970 Bombing of the Army...","David Newman, Sandra Sutherland, and Jon Stewa...","The Wisconsin Cartographers' Guild, ""Wisconsin...",Hewitt Project,0,0,0,0,
9,197001030001,1970,1,3,,0,,217,United States,1,...,"Karl Armstrong's girlfriend, Lynn Schultz, dro...",Committee on Government Operations United Stat...,"Tom Bates, ""Rads: The 1970 Bombing of the Army...","David Newman, Sandra Sutherland, and Jon Stewa...",Hewitt Project,0,0,0,0,


# 2 Análisis Exploratorio de datos<a name="2"></a>
[Índice](#indice)

In [4]:
#Dimensionalidad
print(f"Nº Filas:{df.shape[0]}\nNº Columnas:{df.shape[1]}")

Nº Filas:181691
Nº Columnas:135


In [5]:
#Ponemos las siguiente líneas para asegurarse de que salgan todas las columnas al mostrar los datos debido al tamaño de estos
pd.options.display.max_columns = None
pd.options.display.max_rows = None

In [6]:
#tipos de las columnas (verbose cuando quieres que salgan todas las columnas cuando son muchas, show_counts para mostrar
# si son nulos o no)
df.info(verbose=True, show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 181691 entries, 0 to 181690
Data columns (total 135 columns):
 #    Column              Non-Null Count   Dtype  
---   ------              --------------   -----  
 0    eventid             181691 non-null  int64  
 1    iyear               181691 non-null  int64  
 2    imonth              181691 non-null  int64  
 3    iday                181691 non-null  int64  
 4    approxdate          9239 non-null    object 
 5    extended            181691 non-null  int64  
 6    resolution          2220 non-null    object 
 7    country             181691 non-null  int64  
 8    country_txt         181691 non-null  object 
 9    region              181691 non-null  int64  
 10   region_txt          181691 non-null  object 
 11   provstate           181270 non-null  object 
 12   city                181257 non-null  object 
 13   latitude            177135 non-null  float64
 14   longitude           177134 non-null  float64
 15   specificity    

## 2.1 Tratamiento de datos nulos o prescindibles<a name="2_1"></a>
[Índice](#indice)

In [7]:
#mostramos las columnas que tienen datos nulos o erroneos
df.isnull().sum()

eventid                    0
iyear                      0
imonth                     0
iday                       0
approxdate            172452
extended                   0
resolution            179471
country                    0
country_txt                0
region                     0
region_txt                 0
provstate                421
city                     434
latitude                4556
longitude               4557
specificity                6
vicinity                   0
location              126196
summary                66129
crit1                      0
crit2                      0
crit3                      0
doubtterr                  1
alternative           152680
alternative_txt       152680
multiple                   1
success                    0
suicide                    0
attacktype1                0
attacktype1_txt            0
attacktype2           175377
attacktype2_txt       175377
attacktype3           181263
attacktype3_txt       181263
targtype1     

In [8]:
#Ver si hay caracteres extraños
df.isin(['?','-','0','n/a',' ','null']).sum()

eventid                0
iyear                  0
imonth                 0
iday                   0
approxdate             0
extended               0
resolution             0
country                0
country_txt            0
region                 0
region_txt             0
provstate              0
city                   0
latitude               0
longitude              0
specificity            0
vicinity               0
location               0
summary                0
crit1                  0
crit2                  0
crit3                  0
doubtterr              0
alternative            0
alternative_txt        0
multiple               0
success                0
suicide                0
attacktype1            0
attacktype1_txt        0
attacktype2            0
attacktype2_txt        0
attacktype3            0
attacktype3_txt        0
targtype1              0
targtype1_txt          0
targsubtype1           0
targsubtype1_txt       0
corp1                  9
target1                1


In [9]:
#Vemos las columnas con el 80% de sus datos nulos para eliminarlas posteriormente

#Calculamos el porcentaje de valores nulos en cada columna
porcentajes_nulos = (df.isnull().sum() / len(df)) * 100

#Filtramos las columnas con más del 80% de valores nulos
columnas_con_altos_nulos = porcentajes_nulos[porcentajes_nulos > 80]

#Imprimimos las columnas y la cantidad de valores nulos en cada una
for columna, porcentaje in columnas_con_altos_nulos.items():
    print(f"Columna: {columna}, Porcentaje de nulos: {porcentaje:.2f}%, Cantidad de nulos: {df[columna].isnull().sum()}")

Columna: approxdate, Porcentaje de nulos: 94.91%, Cantidad de nulos: 172452
Columna: resolution, Porcentaje de nulos: 98.78%, Cantidad de nulos: 179471
Columna: alternative, Porcentaje de nulos: 84.03%, Cantidad de nulos: 152680
Columna: alternative_txt, Porcentaje de nulos: 84.03%, Cantidad de nulos: 152680
Columna: attacktype2, Porcentaje de nulos: 96.52%, Cantidad de nulos: 175377
Columna: attacktype2_txt, Porcentaje de nulos: 96.52%, Cantidad de nulos: 175377
Columna: attacktype3, Porcentaje de nulos: 99.76%, Cantidad de nulos: 181263
Columna: attacktype3_txt, Porcentaje de nulos: 99.76%, Cantidad de nulos: 181263
Columna: targtype2, Porcentaje de nulos: 93.87%, Cantidad de nulos: 170547
Columna: targtype2_txt, Porcentaje de nulos: 93.87%, Cantidad de nulos: 170547
Columna: targsubtype2, Porcentaje de nulos: 94.12%, Cantidad de nulos: 171006
Columna: targsubtype2_txt, Porcentaje de nulos: 94.12%, Cantidad de nulos: 171006
Columna: corp2, Porcentaje de nulos: 94.43%, Cantidad de nul

In [10]:
#Borramos las columnas con dichos porcentajes
df = df.drop(columns=porcentajes_nulos[porcentajes_nulos > 80].index)
df.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 181691 entries, 0 to 181690
Data columns (total 67 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   eventid           181691 non-null  int64  
 1   iyear             181691 non-null  int64  
 2   imonth            181691 non-null  int64  
 3   iday              181691 non-null  int64  
 4   extended          181691 non-null  int64  
 5   country           181691 non-null  int64  
 6   country_txt       181691 non-null  object 
 7   region            181691 non-null  int64  
 8   region_txt        181691 non-null  object 
 9   provstate         181270 non-null  object 
 10  city              181257 non-null  object 
 11  latitude          177135 non-null  float64
 12  longitude         177134 non-null  float64
 13  specificity       181685 non-null  float64
 14  vicinity          181691 non-null  int64  
 15  location          55495 non-null   object 
 16  summary           11

In [11]:
#Mostramos otra vez cuantos nulos hay
df.isnull().sum()

eventid                  0
iyear                    0
imonth                   0
iday                     0
extended                 0
country                  0
country_txt              0
region                   0
region_txt               0
provstate              421
city                   434
latitude              4556
longitude             4557
specificity              6
vicinity                 0
location            126196
summary              66129
crit1                    0
crit2                    0
crit3                    0
doubtterr                1
multiple                 1
success                  0
suicide                  0
attacktype1              0
attacktype1_txt          0
targtype1                0
targtype1_txt            0
targsubtype1         10373
targsubtype1_txt     10373
corp1                42550
target1                636
natlty1               1559
natlty1_txt           1559
gname                    0
motive              131130
guncertain1            380
i

In [12]:
#Borramos también otras columnas que no aportan datos que nos interesen
col_eliminar = ['specificity','vicinity','crit1','crit2','crit3','multiple','attacktype1','targtype1',
 'targsubtype1','natlty1','individual','guncertain1','nperpcap','nperps','weaptype1',
 'weapsubtype1','nkillus','nwoundus','property','propextent','propextent_txt','propvalue',
 'propcomment','ishostkid','ransom','scite1','scite2','scite3','dbsource', 'INT_LOG', 'INT_IDEO',
 'INT_MISC', 'INT_ANY','country','region']

#Eliminamos las columnas de la lista del DataFrame
df = df.drop(col_eliminar, axis=1)

In [13]:
#Sustituimos las columnas que indican dia, mes y año por una columna que indique la fecha de manera unitaria

# Reemplaza los valores inválidos con 1
df['imonth'].replace(0, 1, inplace=True)
df['iday'].replace(0, 1, inplace=True)

# Ahora puedes crear la columna 'date'
df['date'] = pd.to_datetime(df[['iyear', 'imonth', 'iday']].astype(str).agg('-'.join, axis=1), errors='coerce')

# Elimina las columnas 'iyear', 'imonth' e 'iday'
df = df.drop(['iyear', 'imonth', 'iday'], axis=1)

#colocamos la nueva columna 'Date' en la segunda posicion
cols = df.columns.tolist()
cols.insert(1, cols.pop(cols.index('date')))
df = df[cols]


In [14]:
#Mostramos todas las columnas a ver como ha quedado
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 181691 entries, 0 to 181690
Data columns (total 30 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   eventid           181691 non-null  int64         
 1   date              181691 non-null  datetime64[ns]
 2   extended          181691 non-null  int64         
 3   country_txt       181691 non-null  object        
 4   region_txt        181691 non-null  object        
 5   provstate         181270 non-null  object        
 6   city              181257 non-null  object        
 7   latitude          177135 non-null  float64       
 8   longitude         177134 non-null  float64       
 9   location          55495 non-null   object        
 10  summary           115562 non-null  object        
 11  doubtterr         181690 non-null  float64       
 12  success           181691 non-null  int64         
 13  suicide           181691 non-null  int64         
 14  atta

## 2.2 Estadísticas descriptivas<a name="2_2"></a>
[Índice](#indice)

In [15]:
#Cantidad de atentados terroristas cometidos en españa
len(df[df['country_txt'] == 'Spain'])

3249

In [102]:
#cantidad de atentados agrupados por provincia (provstate)
grouped_df = df[df['country_txt'] == 'Spain'].groupby('provstate').size().sort_values(ascending=False)
grouped_df = grouped_df.to_frame()
grouped_df = grouped_df.reset_index()
grouped_df.columns = ['provstate','cantidad']
grouped_df

#Los nombres de las regiones deben coincidir con los del GEOJSON que se cargará más adelante
l_codigos = [
    ('Caceres', 'Cáceres'),
    ('Balearic Islands','Illes Balears'),
    ('Madrid', 'Madrid'),
    ('Seville', 'Sevilla'),
    ('A Coruna', 'La Coruña'),
    ('Albacete', 'Albacete'),
    ('Alava','Araba/Álava'),
    ('Alicante', 'Alicante'),
    ('Almeria', 'Almería'),
    ('Asturias', 'Asturias'),
    ('Avila', 'Ávila'),
    ('Badajoz', 'Badajoz'),
    ('Barcelona', 'Barcelona'),
    ('Burgos', 'Burgos'),
    ('Caceres', 'Cáceres'),
    ('Cadiz', 'Cádiz'),
    ('Cantabria', 'Cantabria'),
    ('Castellon', 'Castellón'),
    ('Ciudad Real', 'Ciudad Real'),
    ('Cordoba', 'Córdoba'),
    ('Cuenca', 'Cuenca'),
    ('Girona', 'Gerona'),
    ('Granada', 'Granada'),
    ('Guadalajara', 'Guadalajara'),
    ('Guipuzcoa', 'Gipuzkoa/Guipúzcoa'),
    ('Huelva', 'Huelva'),
    ('Huesca', 'Huesca'),
    ('Jaen', 'Jaén'),
    ('La Rioja', 'La Rioja'),
    ('Las Palmas', 'Las Palmas'),
    ('Leon', 'León'),
    ('Lerida', 'Lleida'),
    ('Lugo', 'Lugo'),
    ('Malaga', 'Málaga'),
    ('Murcia', 'Murcia'),
    ('Navarre', 'Navarra'),
    ('Ourense', 'Orense'),
    ('Palencia', 'Palencia'),
    ('Pontevedra', 'Pontevedra'),
    ('Salamanca', 'Salamanca'),
    ('Santa Cruz de Tenerife', 'Santa Cruz de Tenerife'),
    ('Segovia', 'Segovia'),
    ('Soria', 'Soria'),
    ('Tarragona', 'Tarragona'),
    ('Teruel', 'Teruel'),
    ('Toledo', 'Toledo'),
    ('Valencia', 'Valencia'),
    ('Valladolid', 'Valladolid'),
    ('Biscay', 'Bizkaia/Vizcaya'),
    ('Zamora', 'Zamora'),
    ('Zaragoza', 'Zaragoza')
]

reemplazos = dict(l_codigos)

# Aplicar el reemplazo en la columna 'provincia'
grouped_df['provstate'].replace(reemplazos, inplace=True)
grouped_df

# Geojson
with urlopen('https://raw.githubusercontent.com/codeforgermany/click_that_hood/main/public/data/spain-provinces.geojson') as response:
    mapa = json.load(response)

fig = px.choropleth_mapbox(
    data_frame = grouped_df,               # Data frame con valores
    geojson = mapa,                      # Geojson con geometrías
    featureidkey = 'properties.name',    # clave del geojson que relaciona el archivo con los datos del dataframe
    locations = 'provstate',             # Nombre de la columna del data frame que se relaciona con featureidkey del geojson
    color = 'cantidad',        # Nombre de la columna del dataframe con los datos a ser representados
    mapbox_style = 'white-bg',           #Estilo del mapa
    center = dict(lat = 40.0, lon = -3.72),
    zoom = 4)

fig.update_layout(
                title={
                        'text': f'<b>Atentados por provincia</b>',
                        'x': 0.5,  # Centrar el título horizontalmente
                        'y': 0.95,  # Posicionar el título en la parte superior
                        'xanchor': 'center',  # Centrar el título horizontalmente (alternativamente: left o right)
                        'yanchor': 'top',  # Posicionar el título en la parte superior (alternativamente: middle o bottom)
                        'font': {'size': 15, 'family': 'Arial', 'color': 'black'}  # Estilo del título
                },
                legend_title=f"<b>Cantidad atentados</b>"
                )

fig.show()

In [17]:
#atentados en españa por fecha
grouped_df = df[df['country_txt'] == 'Spain'].groupby(df['date'].dt.year).size()

fig = px.bar(grouped_df, x=grouped_df.index, y=grouped_df.values, labels={'x':'Año', 'y':'Número de Atentados'}, title='Atentados en España por Año')
fig.show()

In [20]:
#atentados desde 2010 hasta 2017
grouped_df = df[(df['country_txt'] == 'Spain') & (df['date'].dt.year >= 2010)].groupby(df['date'].dt.year).size()

fig = px.bar(grouped_df, x=grouped_df.index, y=grouped_df.values, labels={'x':'Año', 'y':'Número de Atentados'}, title='Atentados desde 2010 hasta 2017')
fig.show()


In [21]:
#dato curioso
#https://www.theguardian.com/world/2013/apr/19/spanish-anarchists-catholics-explosive-vibrators
pd.set_option('display.max_colwidth', None)
df[df['eventid']==201304200031]['weapdetail']

116255    A mini bomb concealed in a sex toy was used in the attack.
Name: weapdetail, dtype: object

In [22]:
#Nombre de todos los grupos terroristas en la historia de españa
df[df['country_txt'] == 'Spain']['gname'].unique()

array(['1st of May Group', 'GAC', 'Basque Fatherland and Freedom (ETA)',
       'Catalan Liberation Front (FAC)',
       'Revolutionary Communist League (LCR) (Spain)', 'Unknown',
       'Black September', 'Iberian Liberation Movement (MIL)',
       'Revolutionary Patriotic Anti-Fascist Front (FRAP)',
       'National Front for the Liberation of Cuba (FLNC)',
       'First of October Antifascist Resistance Group (GRAPO)',
       'Canary Islands Independence Movement',
       'Argentine Anticommunist Alliance (AAA)',
       'Anti-Terrorism ETA (ATE)', 'Palestinians', 'Polisario Front',
       'Coordination of the United Revolutionary Organization (CORU)',
       'Organization of Anti-Fascist Students', 'AGEL', 'Red Guerrilla',
       'Armed Groups for Communism', 'Commando Adolph Hitler',
       'Young Brigade of Navarro', 'Red Army Faction (RAF)',
       'Guerrillas of Christ the King', 'PORE', 'Christ Chaos',
       '28th of December Group', 'Iberian Anarchist Federation',
       'Cat

In [31]:
#cantidad de atentados por grupo en españa
grouped_df = df[df['country_txt'] == 'Spain'].groupby('gname').size().sort_values(ascending=False)

fig = px.pie(grouped_df, values=grouped_df.values, names=grouped_df.index, title='Atentados en España por Grupo Terrorista')
fig.update_layout(width=1000, height=900)
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()


In [32]:
#Atentados de eta a lo largo de su historia
grouped_df = df[(df['country_txt'] == 'Spain') & (df['gname'] == 'Basque Fatherland and Freedom (ETA)')].groupby(df['date'].dt.year).size()

fig = px.bar(grouped_df, x=grouped_df.index, y=grouped_df.values, labels={'x':'Año', 'y':'Número de Atentados'}, title='Atentados ETA por años')
fig.show()

In [150]:
#creamos una dataframe para hacer un mapa con los datos de atentados en españa
mapa_esp = df[df['country_txt'] == 'Spain'].copy()


In [151]:
#Realizamos cambios en el dataframe

# Función para dividir el texto agregando <br>, tambien comprueba que no hay NaN para que no de error
def dividir_texto(texto):
    if pd.notna(texto):
        texto_dividido = ''
        for i in range(0, len(texto), 40):
            texto_dividido += texto[i:i+40] + '</br>'
        return texto_dividido
    else:
        return texto
    

# Aplicar la función de divir texto a las columnas correspondientes
mapa_esp['location'] = mapa_esp['location'].apply(dividir_texto)
mapa_esp['summary'] = mapa_esp['summary'].apply(dividir_texto)
mapa_esp['motive'] = mapa_esp['motive'].apply(dividir_texto)


#Ya que en los datos hay registros con coordenadas identicas a otros registros, vamos a cambiarlos levemente
#para que no se solapen al representarlos como puntos en el mapa

#Identifica los registros duplicados
duplicates = mapa_esp.duplicated(subset=['latitude', 'longitude'], keep=False)

#Asegúrate de que 'lat' y 'lon' no son NaN
not_nan = ~mapa_esp[['latitude', 'longitude']].isna().any(axis=1)

#Aplica una dispersion solo a los registros duplicados que no son NaN
mask = duplicates & not_nan
mapa_esp.loc[mask, 'latitude'] = mapa_esp.loc[mask, 'latitude'] + np.random.normal(0, 0.009, size=mask.sum())
mapa_esp.loc[mask, 'longitude'] = mapa_esp.loc[mask, 'longitude'] + np.random.normal(0, 0.009, size=mask.sum())

#Ahora sustituimos por 'Unknow' los NaN del dataframe que hemos creado
col_a_cambiar = ['gname',
    'date',
    'location',
    'summary',
    'attacktype1_txt',
    'targsubtype1_txt',
    'corp1',
    'target1',
    'motive',
    'weapsubtype1_txt',
    'weapdetail',
    'nkill']
mapa_esp[col_a_cambiar] = mapa_esp[col_a_cambiar].fillna('Unknown')

#mostramos el mapa a ver que tal queda
mapa_esp

In [157]:

#Mostrar mapa con puntos

#creamos un diccionaio con las columnas a mostrar
col_a_mostrar = {
    'date':True,
    'gname':True,
    'latitude':False,
    'longitude':False,
    'location':True,
    'summary':True,
    'attacktype1_txt':True,
    'targsubtype1_txt':True,
    'corp1':True,
    'target1':True,
    'motive':True,
    'weapsubtype1_txt':True,
    'weapdetail':True,
    'nkill':True
    
}

#mostrar solo año mes y dia (CAMBIAR A MODELO HISPANO?)
mapa_esp['date'] = pd.to_datetime(mapa_esp['date']).dt.date

# Crear un mapa con marcadores en Plotly usando el estilo OpenStreetMap
fig = px.scatter_mapbox(mapa_esp, 
                     lat='latitude',
                     lon='longitude',
                     hover_name='gname',
                     title='Data of terrorism in Spain',
                     hover_data=col_a_mostrar #aqui enchufamos las columnas
                     )  

#Personalizar el estilo del mapa
fig.update_layout(mapbox_style="open-street-map")
#Personalizar los marcadores
fig.update_traces(
    marker=dict(size=10, opacity=0.7, color='blue'),
    hovertemplate="<br>".join([
        "<b>Date:</b> %{customdata[0]}</br>"
        "<b>Terrorist group:</b> %{customdata[1]}</br>"
        "<b>Location:</b> %{customdata[4]}",
        "<b>Summary:</b> %{customdata[5]}",
        "<b>Attack type:</b> %{customdata[6]}",
        "<b>Objective type:</b> %{customdata[7]}",
        "<b>Entity:</b> %{customdata[8]}",
        "<b>Objective:</b> %{customdata[9]}",
        "<b>Motive:</b> %{customdata[10]}",
        "<b>Weapon:</b> %{customdata[11]}",
        "<b>Weapon detail:</b> %{customdata[12]}",
        "<b>Victims:</b> %{customdata[13]}",
    ])
)

fig.show()

# Guardar el mapa interactivo como un archivo HTML
fig.write_html('mapa_plotly_osm.html')


## 2.3 Detección de outliers<a name="2_3"></a>
[Índice](#indice)

## 2.4 Detección de correlaciones<a name="2_4"></a>
[Índice](#indice)

# 3 Diseño de características<a name="3"></a>
[Índice](#indice)

## 3.1 Transformación de características<a name="3_1"></a>
[Índice](#indice)

## 3.2 Selección de características relevante<a name="3_2"></a>
[Índice](#indice)

## 3.3 Tratamiento de outliers<a name="3_3"></a>
[Índice](#indice)

## 3.4 Tratamiento de correlación<a name="3_4"></a>
[Índice](#indice)

## 3.5 Normalización<a name="3_5"></a>
[Índice](#indice)