# Actividad 2 
### Grupo 8
* Pablo Fernández Rufino
* Sergio Sánchez Espinosa
* Martín Sánchez Revuelta

## 1 Carga de datos
En primer lugar, descargamos los datos y los guardamos en un csv para poder modificarlos y tratarlos como DataFrame sin perder la información original.

In [1]:
import pandas as pd

# URL base de la página con los datos
url_base = "https://www.start.umd.edu/gtd/search/Results.aspx?expanded=no&casualties_type=b&casualties_max=&dtp2=all&success=yes&country=185&ob=GTDID&od=desc&page={}&count=100#results-table"

# Número total de páginas a obtener
num_paginas = 33

# Lista para almacenar los DataFrames de cada página
dataframes = []

# Realizar solicitudes para cada página y guardar los datos en la lista
for page in range(1, num_paginas + 1):
    url = url_base.format(page)
    tables = pd.read_html(url)
    table = tables[0]
    table = table.iloc[:-1]
    dataframes.append(table)

# Concatenar todos los DataFrames en uno solo
merged_df = pd.concat(dataframes, ignore_index=True)

# Guardar los datos en un archivo CSV
merged_df.to_csv("terrorismSpain.csv", index=False)


## 2 Analizamos las variables:

* GTD ID: Esta variable parece ser un identificador único asignado a cada incidente registrado. Dado que es un identificador, se puede considerar una variable categórica.

* DATE: Esta variable representa la fecha del incidente. Se trata de una variable temporal y se puede considerar una variable categórica o, si se transforma en un formato de fecha y hora, una variable ordinal.

* COUNTRY: Esta variable indica el país en el que ocurrió el incidente. Es una variable categórica, ya que representa una clasificación nominal de países.

* CITY: Esta variable indica la ciudad donde ocurrió el incidente. Al igual que la variable "COUNTRY", es una variable categórica que representa una clasificación nominal de ciudades.

* PERPETRATOR GROUP: Esta variable representa el grupo perpetrador del incidente. Al tratarse de un grupo identificado, se puede considerar una variable categórica.

* FATALITIES: Esta variable indica el número de víctimas mortales en el incidente. Es una variable numérica discreta, ya que cuenta la cantidad de víctimas.

* INJURED: Esta variable indica el número de personas heridas en el incidente. Al igual que la variable "FATALITIES", es una variable numérica discreta.

* TARGET TYPE: Esta variable representa el tipo de objetivo del incidente. Es una variable categórica que clasifica los diferentes tipos de objetivos.

En resumen:

Variables categóricas: GTD ID, COUNTRY, CITY, PERPETRATOR GROUP, TARGET TYPE.
Variables numéricas: FATALITIES, INJURED.
Variables temporales: DATE (puede ser tratada como categórica o transformada a ordinal).

In [2]:
# Importamos los datos del csv creado como dataframe:

import pandas as pd

# Cargamos los datos desde el archivo CSV
df = pd.read_csv("terrorismSpain.csv")

# Consultamos los tipos de variables de cada columna en el DataFrame
tipos_variables = df.dtypes

print(tipos_variables)

GTD ID                int64
DATE                 object
COUNTRY              object
CITY                 object
PERPETRATOR GROUP    object
FATALITIES           object
INJURED              object
TARGET TYPE          object
dtype: object


## 3 Preparamos y filtramos los datos

Vemos como los tipos de variables, para posteriormente trabajar con ellas, deberían ser:
* GTD ID int64
* DATE                 ordinal
* COUNTRY              string
* CITY                 string
* PERPETRATOR GROUP    string
* FATALITIES           int64
* INJURED              int64
* TARGET TYPE          string

Además, los datos de la columna GTD ID no aportan información, por lo que podemos eliminarlos.
Estableceremos los límites máximos para las variables "FATALITIES" e "INJURIED", para no tomar valores superiores a 100.

In [5]:
import pandas as pd

# Convertimos la columna "DATE" a formato de fecha y manejar fechas incorrectas
df["DATE"] = pd.to_datetime(df["DATE"], errors='coerce')

# Eliminamos filas con fechas nulas
df = df.dropna(subset=["DATE"])

# Convertimos las columnas a los tipos de variables especificados
df["COUNTRY"] = df["COUNTRY"].astype(str)
df["CITY"] = df["CITY"].astype(str)
df["PERPETRATOR GROUP"] = df["PERPETRATOR GROUP"].astype(str)
df["FATALITIES"] = pd.to_numeric(df["FATALITIES"], errors='coerce').astype('Int64')
df["INJURED"] = pd.to_numeric(df["INJURED"], errors='coerce').astype('Int64')
df["TARGET TYPE"] = df["TARGET TYPE"].astype(str)
tipos_variables = df.dtypes

print(tipos_variables)

GTD ID                        int64
DATE                 datetime64[ns]
COUNTRY                      object
CITY                         object
PERPETRATOR GROUP            object
FATALITIES                    Int64
INJURED                       Int64
TARGET TYPE                  object
dtype: object


In [6]:
# Guardamos el DataFrame modificado en un archivo CSV
df.to_csv("terrorismSpain_formated.csv", index=False)
