# ***Global Terrosism Dataset - Analyzing the API***
---

## **Dependencies**
Se importa la libreria pandas para el analisis.

In [1]:
import pandas as pd

Esta celda de código carga un archivo CSV llamado globalterrorismdb_0718dist.csv desde la ruta especificada en el directorio local. Utiliza la librería pandas y asigna los datos al DataFrame df_terrorism.

## **Dataset Transformations**

In [2]:
df_terrorism = pd.read_csv('/Users/LENOVO/OneDrive/Escritorio/UNIVERSIDAD/ETL/pruebaAPI/globalterrorismdb_0718dist.csv', encoding='iso-8859-1', low_memory=False)

Esta celda define una lista llamada columns_choice que contiene los nombres de las columnas seleccionadas del DataFrame. Estas columnas estan relacionadas con datos sobre ataques terroristas.

In [3]:
columns_choice = [
    "eventid",
    "iyear",
    "imonth",
    "iday",
    "extended",
    "country_txt",
    "country",
    "region_txt",
    "region",
    "city",
    "latitude",
    "longitude",
    "vicinity",
    "crit1",
    "crit2",
    "crit3",
    "doubtterr",
    "multiple",
    "success",
    "suicide",
    "attacktype1_txt",
    "attacktype1",
    "targtype1_txt",
    "targtype1",
    "natlty1_txt",
    "natlty1",
    "gname",
    "guncertain1",
    "individual",
    "nperps",
    "nperpcap",
    "claimed",
    "weaptype1_txt",
    "weaptype1",
    "nkill",
    "property",
    "ishostkid",
    "nwound",
    "INT_ANY"
]

Esta celda define un diccionario llamado defect_values que asigna valores predeterminados o de "defecto" para ciertas columnas del DataFrame. El propósito es  reemplazar valores faltantes o problemáticos en esas columnas con los valores especificados.

In [4]:
defect_values = {
    'nperpcap':0,
    'claimed': 999,
    'nkill':0
}

Esta celda utiliza el método fillna de pandas para rellenar los valores nulos (NaN) en el DataFrame df_terrorism con los valores definidos en el diccionario defect_values.

In [5]:
df_terrorism = df_terrorism.fillna(value=defect_values)

Estas tres líneas filtran el DataFrame df_terrorism eliminando filas que contienen ciertos valores indeseados en las columnas doubtterr y iday.

In [6]:
df_terrorism = df_terrorism[df_terrorism['doubtterr'] != 1]
df_terrorism = df_terrorism[df_terrorism['doubtterr'] != -9]
df_terrorism = df_terrorism[df_terrorism['iday'] != 0]

Estas dos líneas realizan las siguientes operaciones en el DataFrame df_terrorism:

df_terrorism columns choice: Filtra el DataFrame, manteniendo solo las columnas que están incluidas en la lista columns_choice (definida anteriormente). Esto selecciona únicamente las columnas relevantes para el análisis.

df_terrorism.dropna(): Elimina todas las filas que contienen valores nulos en cualquiera de las columnas seleccionadas. Esto asegura que el DataFrame final no tenga datos faltantes, lo que podría mejorar la calidad del análisis posterior.

In [7]:
df_terrorism = df_terrorism[columns_choice]
df_terrorism = df_terrorism.dropna()

Este código primero asegura que las columnas iyear, imonth y iday no contengan valores nulos, eliminando cualquier fila con datos faltantes en esas columnas. Luego, crea una nueva columna date convirtiendo estas tres columnas de año, mes y día en un formato de fecha con pd.to_datetime. A continuación, se genera una nueva columna llamada date_country_actor, que concatena la fecha convertida, el nombre del país (country_txt), y el nombre del grupo responsable del evento (gname). Finalmente, imprime las primeras filas del DataFrame modificado.

In [8]:
# Asegurarse de que las columnas 'iyear', 'imonth' y 'iday' no tengan valores nulos
df_terrorism = df_terrorism.dropna(subset=['iyear', 'imonth', 'iday'])

df_terrorism['date'] = pd.to_datetime(df_terrorism[['iyear', 'imonth', 'iday']].rename(columns={'iyear': 'year', 'imonth': 'month', 'iday': 'day'}))

# Crear la columna 'date_country'
df_terrorism['date_country_actor'] = df_terrorism['date'].astype(str) + df_terrorism['country_txt'] + df_terrorism['gname']

print(df_terrorism.head())

         eventid  iyear  imonth  iday  extended    country_txt  country  \
5   197001010002   1970       1     1         0  United States      217   
6   197001020001   1970       1     2         0        Uruguay      218   
8   197001020003   1970       1     2         0  United States      217   
9   197001030001   1970       1     3         0  United States      217   
13  197001090001   1970       1     9         0  United States      217   

       region_txt  region        city  ...  claimed  weaptype1_txt  weaptype1  \
5   North America       1       Cairo  ...      0.0       Firearms          5   
6   South America       3  Montevideo  ...    999.0       Firearms          5   
8   North America       1     Madison  ...      1.0     Incendiary          8   
9   North America       1     Madison  ...      0.0     Incendiary          8   
13  North America       1     Detroit  ...      0.0     Incendiary          8   

    nkill  property  ishostkid  nwound  INT_ANY       date  \


Este código df_terrorism.info() imprime un resumen informativo del DataFrame df_terrorism. 

In [9]:
df_terrorism.info()

<class 'pandas.core.frame.DataFrame'>
Index: 82969 entries, 5 to 181690
Data columns (total 41 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   eventid             82969 non-null  int64         
 1   iyear               82969 non-null  int64         
 2   imonth              82969 non-null  int64         
 3   iday                82969 non-null  int64         
 4   extended            82969 non-null  int64         
 5   country_txt         82969 non-null  object        
 6   country             82969 non-null  int64         
 7   region_txt          82969 non-null  object        
 8   region              82969 non-null  int64         
 9   city                82969 non-null  object        
 10  latitude            82969 non-null  float64       
 11  longitude           82969 non-null  float64       
 12  vicinity            82969 non-null  int64         
 13  crit1               82969 non-null  int64         

## **API Transformations**

Este código carga un archivo CSV llamado combined_data.csv desde la ruta especificada en el directorio local utilizando la librería pandas y lo asigna a un DataFrame llamado api_terrorism.

In [10]:
api_terrorism = pd.read_csv('/Users/LENOVO/OneDrive/Escritorio/UNIVERSIDAD/ETL/pruebaAPI/combined_data.csv')

In [11]:
api_terrorism = api_terrorism.dropna()

Este código elimina todas las filas del DataFrame api_terrorism que contienen valores nulos en cualquier columna utilizando el método dropna(). Como resultado, solo se conservarán las filas con datos completos en todas las columnas, asegurando que no haya valores faltantes en el DataFrame. 

In [12]:
api_terrorism['date_country_actor'] = api_terrorism['event_date'].astype(str) + api_terrorism['country'] + api_terrorism['actor1']

Este código crea una nueva columna en el DataFrame api_terrorism llamada date_country_actor. La columna es el resultado de concatenar tres columnas existentes: event_date (convertido a cadena de texto), country y actor1. Esta nueva columna combina la fecha del evento, el país y el actor principal en un único valor.

In [13]:
api_terrorism.head(2)

Unnamed: 0,event_date,country,actor1,date_country_actor
0,2000-12-31,Egypt,Unidentified Armed Group (Egypt),2000-12-31EgyptUnidentified Armed Group (Egypt)
1,2000-12-31,Sierra Leone,CDF: Civil Defence Forces,2000-12-31Sierra LeoneCDF: Civil Defence Forces


Este código api_terrorism.head(2) muestra las primeras dos filas del DataFrame api_terrorism. Es útil para obtener una vista rápida de cómo se ven los datos después de haber realizado modificaciones o cargado el CSV.


El código api_terrorism.info() imprime un resumen del DataFrame api_terrorism. 

In [14]:
api_terrorism.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 377332 entries, 0 to 377331
Data columns (total 4 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   event_date          377332 non-null  object
 1   country             377332 non-null  object
 2   actor1              377332 non-null  object
 3   date_country_actor  377332 non-null  object
dtypes: object(4)
memory usage: 11.5+ MB


## **Merge transformations**


Este código realiza una operación de fusión (merge) entre los DataFrames df_terrorism y api_terrorism, utilizando la columna date_country_actor como clave común para combinar los datos. La fusión se realiza con la opción how='left', lo que significa que se mantendrán todas las filas del DataFrame df_terrorism, y se agregarán las columnas correspondientes de api_terrorism cuando coincidan los valores en la columna date_country_actor. Si no hay coincidencia, se insertarán valores nulos (NaN) en las columnas del DataFrame derecho (api_terrorism). 

In [15]:
data = pd.merge(df_terrorism, api_terrorism, how='left', on='date_country_actor')


El código data.info() imprimirá un resumen del DataFrame data, que es el resultado de la fusión de df_terrorism y api_terrorism.

In [16]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96268 entries, 0 to 96267
Data columns (total 44 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   eventid             96268 non-null  int64         
 1   iyear               96268 non-null  int64         
 2   imonth              96268 non-null  int64         
 3   iday                96268 non-null  int64         
 4   extended            96268 non-null  int64         
 5   country_txt         96268 non-null  object        
 6   country_x           96268 non-null  int64         
 7   region_txt          96268 non-null  object        
 8   region              96268 non-null  int64         
 9   city                96268 non-null  object        
 10  latitude            96268 non-null  float64       
 11  longitude           96268 non-null  float64       
 12  vicinity            96268 non-null  int64         
 13  crit1               96268 non-null  int64     


El código data.head(5) muestra las primeras cinco filas del DataFrame data. Es útil para revisar los datos resultantes después de la fusión y verificar que los datos de ambas tablas (df_terrorism y api_terrorism) se hayan combinado (Merge) correctamente. 

In [17]:
data.head(5)

Unnamed: 0,eventid,iyear,imonth,iday,extended,country_txt,country_x,region_txt,region,city,...,nkill,property,ishostkid,nwound,INT_ANY,date,date_country_actor,event_date,country_y,actor1
0,197001010002,1970,1,1,0,United States,217,North America,1,Cairo,...,0.0,1,0.0,0.0,-9,1970-01-01,1970-01-01United StatesBlack Nationalists,,,
1,197001020001,1970,1,2,0,Uruguay,218,South America,3,Montevideo,...,0.0,0,0.0,0.0,0,1970-01-02,1970-01-02UruguayTupamaros (Uruguay),,,
2,197001020003,1970,1,2,0,United States,217,North America,1,Madison,...,0.0,1,0.0,0.0,0,1970-01-02,1970-01-02United StatesNew Year's Gang,,,
3,197001030001,1970,1,3,0,United States,217,North America,1,Madison,...,0.0,1,0.0,0.0,0,1970-01-03,1970-01-03United StatesNew Year's Gang,,,
4,197001090001,1970,1,9,0,United States,217,North America,1,Detroit,...,0.0,1,0.0,0.0,-9,1970-01-09,1970-01-09United StatesLeft-Wing Militants,,,


Este código elimina todas las filas del DataFrame data que contienen valores nulos en cualquier columna utilizando el método dropna(). Esto asegura que el DataFrame resultante solo contenga filas con datos completos, eliminando cualquier fila que tenga valores faltantes en alguna de sus columnas.

In [18]:
data = data.dropna()

El comando data.info() imprimirá un resumen del DataFrame data después de haber eliminado las filas con valores nulos.

In [19]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 13966 entries, 18097 to 96262
Data columns (total 44 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   eventid             13966 non-null  int64         
 1   iyear               13966 non-null  int64         
 2   imonth              13966 non-null  int64         
 3   iday                13966 non-null  int64         
 4   extended            13966 non-null  int64         
 5   country_txt         13966 non-null  object        
 6   country_x           13966 non-null  int64         
 7   region_txt          13966 non-null  object        
 8   region              13966 non-null  int64         
 9   city                13966 non-null  object        
 10  latitude            13966 non-null  float64       
 11  longitude           13966 non-null  float64       
 12  vicinity            13966 non-null  int64         
 13  crit1               13966 non-null  int64      

Este código realiza dos acciones:

non_null_row = data.dropna(): Crea una nueva variable non_null_row que contiene una copia del DataFrame data, pero eliminando todas las filas que tengan algún valor nulo. Es similar a lo que hiciste antes con data.dropna(), pero esta vez el DataFrame limpio se almacena en una nueva variable.

print(non_null_row.head(1)): Imprime la primera fila del DataFrame non_null_row para proporcionar una vista rápida de los datos que quedaron después de eliminar las filas con valores nulos.

In [20]:
non_null_row = data.dropna()
print(non_null_row.head(1))

            eventid  iyear  imonth  iday  extended country_txt  country_x  \
18097  201003120016   2010       3    12         1    Cameroon         37   

               region_txt  region              city  ...  nkill  property  \
18097  Sub-Saharan Africa      11  Bakassi district  ...    0.0        -9   

       ishostkid  nwound  INT_ANY       date  \
18097        1.0     2.0        1 2010-03-12   

                             date_country_actor  event_date  country_y  \
18097  2010-03-12CameroonAfrica Marine Commando  2010-03-12   Cameroon   

                       actor1  
18097  Africa Marine Commando  

[1 rows x 44 columns]


El comando data.head(5) mostrará las primeras cinco filas del DataFrame data. Esto es útil para visualizar rápidamente cómo se ven las primeras filas del DataFrame, permitiendo verificar las columnas, los valores en cada una, y confirmar que los datos están en el formato esperado tras las transformaciones anteriores, como la fusión y la eliminación de filas con valores nulos.








In [21]:
data.head(5)

Unnamed: 0,eventid,iyear,imonth,iday,extended,country_txt,country_x,region_txt,region,city,...,nkill,property,ishostkid,nwound,INT_ANY,date,date_country_actor,event_date,country_y,actor1
18097,201003120016,2010,3,12,1,Cameroon,37,Sub-Saharan Africa,11,Bakassi district,...,0.0,-9,1.0,2.0,1,2010-03-12,2010-03-12CameroonAfrica Marine Commando,2010-03-12,Cameroon,Africa Marine Commando
21310,201011160013,2010,11,16,1,Cameroon,37,Sub-Saharan Africa,11,Bakassi district,...,5.0,0,0.0,0.0,-9,2010-11-16,2010-11-16CameroonAfrica Marine Commando,2010-11-16,Cameroon,Africa Marine Commando
21311,201011160013,2010,11,16,1,Cameroon,37,Sub-Saharan Africa,11,Bakassi district,...,5.0,0,0.0,0.0,-9,2010-11-16,2010-11-16CameroonAfrica Marine Commando,2010-11-16,Cameroon,Africa Marine Commando
22303,201102060013,2011,2,6,1,Cameroon,37,Sub-Saharan Africa,11,Bakassi district,...,0.0,0,1.0,0.0,-9,2011-02-06,2011-02-06CameroonAfrica Marine Commando,2011-02-06,Cameroon,Africa Marine Commando
45896,201404110037,2014,4,11,0,Egypt,60,Middle East & North Africa,10,Al-Mahalla Al-Kubra,...,2.0,0,0.0,0.0,1,2014-04-11,2014-04-11EgyptMuslim Brotherhood,2014-04-11,Egypt,Muslim Brotherhood
