# Tarea 2

En esta tarea se muestra el proceso de preparación
y visualización de datos para su posterior análisis.

1. [Seleccion y carga de datos](#0)
1. [Limpieza de datos](#1)
1. [Estandarizar datos de entrada](#2)
1. [Visualización de gráficos](#3)

- Se instalan en caso de ser necesario las librerías a continuación

In [None]:
!pip install openpyxl

Importan bibliotecas necesarias para el procesamiento de la base de datos y la posterior visualización de los datos.

In [None]:
# importa las bibliotecas Pandas, Numpy
import pandas as pd
import matplotlib as mpl
import numpy as np
import matplotlib.pyplot as plt
import re

# 1. Seleccion y carga de datos <a id="0"></a>
Para esta tarea se ha seleccionado la base de datos "Chile earthquakes" que contiene datos de terremotos ocurridos en Chile entre los años 1520 y 2020.

Descripcion de las columnas:

- "Year": año del terremoto
- "Mo": mes del terremoto
- "Dy": dia del terremoto
- "Hr": hora del terremoto
- "Mn": minuto del terremoto
- "Tsu": id del tsunami asociado al terremoto en caso de que ocurriese 
- "Country": Chile
- "Location Name": region de Chile
- "Latitude": latitud del epicentro del terremoto
- "Longitude": longitud del epicentro del terremoto
- "Focal Depth (km)": profundidad del epicentro del terremoto
- "Mag": magnitud en escala de Richter del terremoto
- "Deaths": numero de personas fallecidas asociadas al terremoto
- "Missing" numero de personas perdidas asociadas con el terremoto
- "Injuries": numero de personas lesionadas asociadas con el terremoto
- "Damage ($Mil)": costo total del terremoto
- "Houses Destroyed": numero total de casas destruidas
- "Houses Damaged": numero total de casas dañadas

#### A continuacion se lee la base de datos y se guarda para su manipulación en una variable llamada "df". 

In [None]:
ubicacion = "./datos/chile_earthquakes_1520-2024.tsv"

directorio_salida = "./salida/"

- Como la base de datos trae las etiquetas de cada columna, se crea una lista de encabezados para la base de datos y se asigna a la variable "encabezado", de esta forma es posible identificar el encabezado de cada columna y posteriormente identificar una columna mediante este mismo.

In [None]:
# Crea una lista con el encabezado
encabezado = ["Search Parameters",	"Year",	"Mo",	"Dy",	"Hr",	"Mn",	"Tsu",	"Country",	"Location Name",	"Latitude",	"Longitude",	"Focal Depth (km)",	"Mag",	"Deaths",	"Missing",	"Injuries",	"Damage ($Mil)",	"Houses Destroyed",	"Houses Damaged"]
df = pd.read_csv(ubicacion, sep='\t', names=encabezado)

(OPCIONAL) Comprobar que los encabezados se guardaron correctamente

In [None]:
print("headers\n", encabezado)


(OPCIONAL) Comprobar que los datos se cargaron correctamente mediante la visualización de las primeras 10 filas 

In [None]:
df.head(20)

# 2. Limpieza de datos <a id="1"></a>
Para su posterior visualización y análisis, se procede a limpiar la base de datos de datos innecesarios o nulos mediante diferentes metodos.

- Eliminacion de fila innecesaria para el analisis de datos: en este caso se identifican columnas que no entregan información relevante la fila 0 y 1 y la columna con el encabezado "Search Parameters".

In [None]:
# Elimina las filas 0 y 1
df = df.drop([0, 1])

# Reinicia los índices
df = df.reset_index(drop=True)

# Elimina la columna "Search Parameters"
df = df.drop("Search Parameters", axis=1)

df.head(10)

Se realiza un analisis basico de los datos de entrada

In [None]:
#Información y análisis estadístico
df.info()
df.describe()

In [None]:
# Dimensión del dataframe (rows, columns)
df.shape

In [None]:
datos_faltantes = df.isnull()
datos_faltantes.head(10)

In [None]:
for columna in datos_faltantes.columns.values.tolist():
    print('columna:',columna)
    print (datos_faltantes[columna].value_counts())
    print("")

In [None]:
#Cantidad de valores faltantes en cada columna
df.isnull().sum()

- Manipulación de valores faltantes: Reemplazando por su frecuencia las columnas "Mo", "Dy", "Hr" y "Mn".

In [None]:
# Calcula el promedio de la columna "Mo"
Mo_prom = df["Mo"].astype("float").mean(axis=0)

# Redondea el promedio al entero más cercano
Mo_prom_entero = int(round(Mo_prom))

# Reemplaza los valores faltantes en la columna "Mo" por su promedio entero
df["Mo"].fillna(Mo_prom_entero, inplace=True)

# Cantidad actualizada de valores faltantes en cada columna
print(df.isnull().sum())

In [None]:
df

In [None]:
# Calcula el promedio de la columna "Dy"
Dy_prom = df["Dy"].astype("float").mean(axis=0)

# Redondea el promedio al entero más cercano
Dy_prom_entero = int(round(Dy_prom))

# Reemplaza los valores faltantes en la columna "Dy" por su promedio entero
df["Dy"].fillna(Dy_prom_entero, inplace=True)

# Cantidad actualizada de valores faltantes en cada columna
print(df.isnull().sum())

In [None]:
df

In [None]:
# Calcula el promedio de la columna "Hr"
Hr_prom = df["Hr"].astype("float").mean(axis=0)

# Redondea el promedio al entero más cercano
Hr_prom_entero = int(round(Hr_prom))

# Reemplaza los valores faltantes en la columna "Hr" por su promedio entero
df["Hr"].fillna(Hr_prom_entero, inplace=True)

# Cantidad actualizada de valores faltantes en cada columna
print(df.isnull().sum())


- Manipulación de valores faltantes: Reemplazando por su promedio los valores faltantes de la columna "Mn".

In [None]:
# Calcula el promedio de la columna "Mn"
Mn_prom = df["Mn"].astype("float").mean(axis=0)

# Redondea el promedio al entero más cercano
Mn_prom_entero = int(round(Mn_prom))

# Reemplaza los valores faltantes en la columna "Mn" por su promedio entero
df["Mn"].fillna(Mn_prom_entero, inplace=True)

# Cantidad actualizada de valores faltantes en cada columna
print(df.isnull().sum())


In [None]:
df

- Manipulación de valores faltantes: Reemplazando por 0 los datos faltantes en las columnas "Tsu", "Deaths" y "Missing" de forma de no falsear datos sensibles como lo son estas columnas.

In [None]:
# Reemplaza los valores faltantes en la columna "Tsu", "Deaths" y "Missing" por 0
df["Tsu"].fillna(0, inplace=True)
df["Deaths"].fillna(0, inplace=True)
df["Missing"].fillna(0, inplace=True)

# Cantidad actualizada de valores faltantes en cada columna
print(df.isnull().sum())
df

- Manipulación de valores faltantes: Reemplazando por el promedio las columnas "Focal Depth (km)", "Mag", "Injuries" y "Damage ($Mil)" de forma de que no afecte al analisis posterior en los gráficos. 

In [None]:
# Calcula el promedio de la columna "Focal Depth (km)"
Focal_depth_prom = df["Focal Depth (km)"].astype("float").mean(axis=0)

# Redondea el promedio al entero más cercano
Focal_depth_prom_entero = int(round(Focal_depth_prom))

# Reemplaza los valores faltantes en la columna "Focal Depth (km)" por su promedio entero
df["Focal Depth (km)"].fillna(Focal_depth_prom_entero, inplace=True)

# Cantidad actualizada de valores faltantes en cada columna
print(df.isnull().sum())
df

In [None]:
# Calcula el promedio de la columna "Mag"
Mag_prom = df["Mag"].astype("float").mean(axis=0)

# Reemplaza los valores faltantes en la columna "Mag" por el promedio con un decimal
df["Mag"].fillna(round(Mag_prom, 1), inplace=True)

# Cantidad actualizada de valores faltantes en cada columna
print(df.isnull().sum())
df

In [None]:
# Calcula el promedio de la columna "Injuries"
Injuries_prom = df["Injuries"].astype("float").mean(axis=0)

# Redondea el promedio al entero más cercano
Injuries_prom_entero = int(round(Injuries_prom))

# Reemplaza los valores faltantes en la columna "Injuries" por el promedio entero
df["Injuries"].fillna(Injuries_prom_entero, inplace=True)

# Cantidad actualizada de valores faltantes en cada columna
print(df.isnull().sum())
df

In [None]:
# Calcula el promedio para "Damage ($Mil)"
damage_prom = df["Damage ($Mil)"].astype("float").mean(axis=0)
# Redondea el promedio al entero más cercano
damage_prom_entero = int(round(damage_prom))
# Reemplaza los valores faltantes en "Damage ($Mil)" por el promedio entero
df["Damage ($Mil)"].fillna(damage_prom_entero, inplace=True)

# Calcula el promedio para "Houses Destroyed"
destroyed_prom = df["Houses Destroyed"].astype("float").mean(axis=0)
# Redondea el promedio al entero más cercano
destroyed_prom_entero = int(round(destroyed_prom))
# Reemplaza los valores faltantes en "Houses Destroyed" por el promedio entero
df["Houses Destroyed"].fillna(destroyed_prom_entero, inplace=True)

# Calcula el promedio para "Houses Damaged"
damaged_prom = df["Houses Damaged"].astype("float").mean(axis=0)
# Redondea el promedio al entero más cercano
damaged_prom_entero = int(round(damaged_prom))
# Reemplaza los valores faltantes en "Houses Damaged" por el promedio entero
df["Houses Damaged"].fillna(damaged_prom_entero, inplace=True)

# Cantidad actualizada de valores faltantes en cada columna
print(df.isnull().sum())
df

# 3. Estandarizar datos de entrada. <a id="2"></a>

- Se estandarizan los datos de entrada de las columnas que contienen datos numericos de forma que se reconozcan de tipo numerico.

In [None]:
columnas_numericas = ['Year', 'Mo', 'Dy', 'Hr', 'Mn', 'Tsu', 'Latitude', 'Longitude', 'Focal Depth (km)', 'Mag', 'Deaths', 'Missing', 'Injuries', 'Damage ($Mil)', 'Houses Destroyed', 'Houses Damaged']
print(df[columnas_numericas].dtypes)

In [None]:
# Convertir columnas a tipo numérico
df[columnas_numericas] = df[columnas_numericas].apply(pd.to_numeric, errors='coerce')

# Verificar los tipos de datos después de la conversión
print(df[columnas_numericas].dtypes)

Agrupar datos de entrada.

In [None]:
# Agrupar por año y calcular el promedio de la magnitud de los terremotos
promedio_magnitud_por_año = df.groupby('Year')['Mag'].mean()

# Imprimir los resultados
print(promedio_magnitud_por_año)
df

In [None]:
!pip install tables
# Guardar como archivo CSV en el directorio de salida
df.to_csv(directorio_salida + 'datos_procesados.csv', index=False)

# Guardar como archivo Excel en el directorio de salida
df.to_excel(directorio_salida + 'datos_procesados.xlsx', index=False)

# Guardar como archivo HDF5 en el directorio de salida
df.to_hdf(directorio_salida + 'datos_procesados.h5', key='df', mode='w')

# Guardar como archivo pickle de Python en el directorio de salida
df.to_pickle(directorio_salida + 'datos_procesados.pkl')

# Guardar como archivo TSV en el directorio de salida
df.to_csv(directorio_salida + 'datos_procesados.tsv', sep='\t', index=False)


# 4. Visualización de datos <a id="3"></a>

- Para el analisis de los datos preparados anteriormente se procede a visualizar los datos mediante gráficos de barras y de dispersión, de esta forma se ve más claramente la distribución de los datos al contrastarlo.

(Nota: graficos agrupados en una sola celda debido a que no logramos imprimirlos de forma separada)

In [None]:
import matplotlib.backends.backend_pdf

# Creamos un objeto para el PDF
pdf = matplotlib.backends.backend_pdf.PdfPages("salida/graficos_chile_earthquakes.pdf")

# Gráfico 1: Histograma de Magnitudes
plt.hist(df['Mag'], bins=20, color='skyblue', edgecolor='black')
plt.xlabel('Magnitud (Escala Richter)')
plt.ylabel('Frecuencia')
plt.title('Distribución de las Magnitudes de los Terremotos en Chile')
pdf.savefig()  # Guardamos este gráfico en el PDF

# Gráfico 2: Dispersión de Latitud y Longitud
plt.figure(figsize=(8,6))  # Creamos una nueva figura para el siguiente gráfico
plt.scatter(df['Longitude'], df['Latitude'], color='green', label='Epicentro del Terremoto')
plt.title('Distribución Espacial (Ubicación) de Terremotos en Chile', fontsize=16)
plt.xlabel('Longitud', fontsize=14)
plt.ylabel('Latitud', fontsize=14)
plt.legend(fontsize=12)
pdf.savefig()  # Guardamos este gráfico en el PDF

# Gráfico 3: Barras de Tsunamis por Año
tsunami_events = df[df['Tsu'] != 0]  # Filtrar los eventos de tsunami
tsunami_count_by_year = tsunami_events.groupby('Year')['Tsu'].count()
plt.figure()  # Creamos una nueva figura para el siguiente gráfico
plt.bar(tsunami_count_by_year.index, tsunami_count_by_year.values, color='blue')
plt.title('Número de Terremotos con Tsunamis Asociados por Año en Chile', fontsize=16)
plt.xlabel('Año', fontsize=14)
plt.ylabel('Número de Tsunamis', fontsize=14)
plt.xticks(rotation=45)
plt.grid(True)
pdf.savefig()  # Guardamos este gráfico en el PDF

# Gráfico 4: Línea de Magnitud vs. Año
plt.figure(figsize=(20, 10))  # Creamos una nueva figura para el siguiente gráfico
plt.plot(df['Year'], df['Mag'], marker='o', linestyle='-')
plt.title('Magnitud de los Terremotos en Chile a lo largo del Tiempo')
plt.xlabel('Año')
plt.ylabel('Magnitud')
plt.grid(True)
pdf.savefig()  # Guardamos este gráfico en el PDF

# Gráfico 5: Dispersión de Magnitud vs. Profundidad Focal
plt.figure()  # Creamos una nueva figura para el siguiente gráfico
plt.scatter(df['Focal Depth (km)'], df['Mag'], color='blue', alpha=0.5)
plt.title('Magnitud vs. Profundidad Focal de los Terremotos en Chile', fontsize=16)
plt.xlabel('Profundidad Focal (km)', fontsize=14)
plt.ylabel('Magnitud (Escala Richter)', fontsize=14)
plt.grid(True)
pdf.savefig()  # Guardamos este gráfico en el PDF

# Gráfico 6: Subgráfico de Daños Económicos vs. Año y Personas Afectadas vs. Año
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(10, 8))
ax1.scatter(df['Year'], df['Damage ($Mil)'], color='orange', label='Daños Económicos')
ax1.set_title('Daños Económicos vs. Año')
ax1.set_xlabel('Año')
ax1.set_ylabel('Daños Económicos ($Mil)')
ax1.legend()
ax2.plot(df['Year'], df['Deaths'], color='red', label='Muertes')
ax2.plot(df['Year'], df['Missing'], color='blue', label='Desaparecidos')
ax2.plot(df['Year'], df['Injuries'], color='green', label='Heridos')
ax2.set_title('Número de Personas Afectadas vs. Año')
ax2.set_xlabel('Año')
ax2.set_ylabel('Cantidad de Personas')
ax2.legend()
plt.tight_layout()
pdf.savefig()  # Guardamos este gráfico en el PDF

# Cerramos el PDF
pdf.close()
