# Dataset Volcanes

## Objetivo:

Trabajando con el dataset descargado del siguiente [link](https://public.opendatasoft.com/explore/dataset/significant-volcanic-eruption-database/table/), armar un nuevo archivo modificando los datos y tomando algunas de las columnas en un orden determinado.

Primero importo los módulos con los que voy a trabajar:
- El múdulo `pandas` para trabajar con el archivo de origen de datos y crear el nuevo.
- El módulo `os` para definir las rutas de los archivos.
- El módulo `sys` para cortar la ejecución en caso de error.

In [1]:
import pandas as pd
import os
import sys


### 1. Obtención de datos de los archivos

Uilizo una función para obtener los datos del dataset original 
- La ruta para acceder al archivo la armo de acuerdo a la posición en la que se encuentra el archivo en el que estoy trabajando.
- Ultilizo `read_csv` de pandas para convertir el contenido del archivo csv en un DataFrame.
 - El parámetro `dtype` me permite indicar cómo qué tipo de dato deben interpretarse determinadas columnas, en este caso la columna *Volcanic Explosivity Index* para que no interprete los valores como *float*.
 - En el parámetro `na_values` indico qué valores de la columna deben interpretarse como NaN (*not a number*, indicador de datos faltantes).
- En caso de que no se encuentre el archivo original el controlador de excepciones termina la ejecución con un mensaje de error.

In [2]:
def contenido_archivo_csv():
    """Devolver el contenido de un archivo de tipo csv."""
    nombre_archivo = "significant-volcanic-eruption-database.csv"
    ruta_archivo_erupciones = os.path.join(os.path.abspath('.'), "..", 'csv_originales', nombre_archivo)
    try:
        contenido = pd.read_csv(ruta_archivo_erupciones, encoding='utf-8', 
                                delimiter=';', dtype={'Volcanic Explosivity Index': str},
                               na_values={'Volcanic Explosivity Index': ''})
    except FileNotFoundError:
        print(f"Error: No se encontró el archivo '{nombre_archivo}'")
        sys.exit(1)
    else:
        return contenido

volcanes_original = contenido_archivo_csv()



In [3]:
pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', None)
volcanes_original.head(10)

Unnamed: 0,Year,Month,Day,Flag Tsunami,Flag Earthquake,Volcano Name,Location,Country,Elevation,Volcano Type,Status,Volcanic Explosivity Index,Volcano : Deaths,Volcano : Deaths Description,Volcano : Missing,Volcano : Missing Description,Volcano : Injuries,Volcano : Injuries Description,Volcano : Damage (in M$),Volcano : Damage Description,Volcano : Houses destroyed,Volcano : Houses destroyed Description,Total Effects : Deaths,Total Effects : Deaths Description,Total Effects : Missing,Total Effects : Missing Description,Total Effects : Injuries,Total Effects : Injuries Description,Total Effects : Damages in million Dollars,Total Effects : Damage Description,Total Effects : Houses Destroyed,Total Effects : Houses Destroyed Description,Coordinates,Earthquakes : Houses damaged Description,Total Effects : Houses Damaged Description
0,-141,,,,,Etna,Italy,Italy,3350,Stratovolcano,Historical,,40.0,Few (~1 to 50 deaths),,,,,,,,,40.0,Few (~1 to 50 deaths),,,,,,,,,"37.734,15.004",,
1,1262,,,,,Katla,Iceland-S,Iceland,1512,Subglacial volcano,Historical,3.0,,Few (~1 to 50 deaths),,,,,,,,,,Few (~1 to 50 deaths),,,,,,,,,"63.63,-19.05",,
2,1300,7.0,11.0,,,Hekla,Iceland-S,Iceland,1491,Stratovolcano,Historical,4.0,,,,,,,,,,,600.0,Many (~101 to 1000 deaths),,,,,,,,,"63.98,-19.7",,
3,1331,12.0,,,,Aso,Kyushu-Japan,Japan,1592,Caldera,Historical,2.0,,Few (~1 to 50 deaths),,,,,,,,,,Few (~1 to 50 deaths),,,,,,,,,"32.88,131.1",,
4,1714,6.0,30.0,Tsunami,,Vesuvius,Italy,Italy,1281,Complex volcano,Historical,,,,,,,,,,,,,,,,,,,,,,"40.821,14.426",,
5,1907,10.0,6.0,Tsunami,,Savai'i,Samoa-SW Pacific,Samoa,1858,Shield volcano,Historical,,,,,,,,,SEVERE (~>$5 to $24 million),,Many (~101 to 1000 houses),,,,,,,,SEVERE (~>$5 to $24 million),,Many (~101 to 1000 houses),"-13.612,-172.525",,
6,1911,8.0,15.0,,,Asama,Honshu-Japan,Japan,2560,Complex volcano,Historical,2.0,,Many (~101 to 1000 deaths),,,,,,,,,,Many (~101 to 1000 deaths),,,,,,,,,"36.4,138.53",,
7,1913,1.0,20.0,,,Colima,Mexico,Mexico,3850,Stratovolcano,Historical,4.0,13.0,Few (~1 to 50 deaths),,,,,,,,,13.0,Few (~1 to 50 deaths),,,,,,,,,"19.514,-103.62",,
8,1944,6.0,10.0,,,Cleveland,Aleutian Is,United States,1730,Stratovolcano,Historical,3.0,1.0,Few (~1 to 50 deaths),,,,,,,,,1.0,Few (~1 to 50 deaths),,,,,,,,,"52.82,-169.95",,
9,1952,9.0,16.0,Tsunami,,Myojun Knoll,Izu Is-Japan,Japan,360,Submarine volcano,Holocene,2.0,,,,,,,,,,,,,,,,,,,,,"32.1,139.85",,


In [4]:
volcanes_original.columns

Index(['Year', 'Month', 'Day', 'Flag Tsunami', 'Flag Earthquake',
       'Volcano Name', 'Location', 'Country', 'Elevation', 'Volcano Type',
       'Status', 'Volcanic Explosivity Index', 'Volcano : Deaths',
       'Volcano : Deaths Description', 'Volcano : Missing',
       'Volcano : Missing Description', 'Volcano : Injuries',
       'Volcano : Injuries Description', 'Volcano : Damage (in M$)',
       'Volcano : Damage Description', 'Volcano : Houses destroyed',
       'Volcano : Houses destroyed Description', 'Total Effects : Deaths',
       'Total Effects : Deaths Description', 'Total Effects : Missing',
       'Total Effects : Missing Description', 'Total Effects : Injuries',
       'Total Effects : Injuries Description',
       'Total Effects : Damages in million Dollars',
       'Total Effects : Damage Description',
       'Total Effects : Houses Destroyed',
       'Total Effects : Houses Destroyed Description', 'Coordinates',
       'Earthquakes : Houses damaged Description',
  

En otra función obtengo los datos del archivo de traducciones para realizar una de las modificaciones del dataset:
- Utilizando read_json de pandas convierto el texto del archivo en formato json a un objeto de pandas, en este caso de tipo Series, con un índice que son los tipos de volcán en inglés y una columna de datos que son las traducciones al español.
- Al igual que antes armo la ruta a partir de la posición del archivo actual.


In [5]:
def contenido_archivo_json():
    """Devolver el contenido de un archivo de tipo json."""
    nombre_archivo = "tipo_volcan_ENG_ESP.json"
    ruta_archivo_traduccion = os.path.join(os.path.abspath('.'), "..", "csv_originales", nombre_archivo)
    try:
        contenido = pd.read_json(ruta_archivo_traduccion, encoding="UTF-8", typ='series')
    except FileNotFoundError:
        print(f"Error: No se encontró el archivo '{nombre_archivo}'")
        sys.exit(1)
    else:
        return contenido

traducciones = contenido_archivo_json()
traducciones


Stratovolcano                 Estratovolcán
Subglacial volcano        Volcán subglacial
Caldera                             Caldera
Complex volcano             Volcán complejo
Shield volcano             Volcán en escudo
Submarine volcano          Volcán submarino
Pyroclastic cone          Cono piroclástico
Lava cone                      Cono de lava
Tuff cone                      Cono de toba
Maar                                   Maar
Mud volcano                  Volcán de lodo
Lava dome                    Cúpula de lava
Volcanic field              Campo volcánico
Fissure vent               Fisura volcánica
Crater rows               Hileras de cráter
Pyroclastic shield      Escudo piroclástico
Submarine volcanoes     Volcanes submarinos
Cinder cone                  Cono de ceniza
Pumice cone            Cono de piedra pómez
Compound volcano           Volcán compuesto
dtype: object

### 2. Procesamiento de los datos

Empleando las herramientas de la librería pandas modifico el DataFrame según las especificaciones de la guía:

- Cambios a los datos: en todos los casos son modificaciones a columnas enteras por lo que tomo esa columna del DataFrame y la reemplazo por la versión modificada
  - _Traducir el tipo de volcán al español_: aplico una función lambda en la que utilizo cada valor de la columna a modificar como índice para acceder al Series de traducciones, obteniendo como resultado el tipo en español.
  - _Convertir “Flag Tsunami” y “Flag Earthquake” a booleanos_: en esas columnas los datos son las palabras 'Tsunami'/ 'Earthquake' o '' que es interpretado por pandas como NaN, entonces aplico el método notna a ambas columnas con lo cual obtengo True por cada valor si es distinto de NaN y False si es NaN.
  - _Transformar la columna “Name” en una nueva columna “Name and country” para que tenga una combinación del nombre del volcán con el país entre paréntesis_: creo la nueva columna generando el índice en el DataFrame y concateno las columnas de origen dato a dato y los paréntesis con el operador "+".
  - Por último me quedo las columnas del DataFrame pedidas en el orden especificado: _“Year”, “Volcanic Explosivity Index”, “Volcano Type”, “Flag Tsunami”, “Flag Earthquake” y “Name and country”_

In [6]:
def procesar_datos(datos, traducciones):
    """Aplicar modificaciones al DataFrame recibido para obtener
    un DataFrame con sólo algunas de las columnas en un orden determinado
    """
    datos['Volcano Type'] = datos['Volcano Type'].apply(lambda x: traducciones[x])
    datos[['Flag Tsunami', 'Flag Earthquake']] = datos[['Flag Tsunami', 'Flag Earthquake']].notna()
    datos['Name and Country'] = datos['Volcano Name'] + ' ' + '(' + datos['Country'] + ')'
    datos = datos[['Year', 'Volcanic Explosivity Index', 'Volcano Type', 'Flag Tsunami', 'Flag Earthquake', 'Name and Country']]
    return datos

volcanes_procesado = procesar_datos(volcanes_original.copy(), traducciones)
volcanes_procesado.head(10)


Unnamed: 0,Year,Volcanic Explosivity Index,Volcano Type,Flag Tsunami,Flag Earthquake,Name and Country
0,-141,,Estratovolcán,False,False,Etna (Italy)
1,1262,3.0,Volcán subglacial,False,False,Katla (Iceland)
2,1300,4.0,Estratovolcán,False,False,Hekla (Iceland)
3,1331,2.0,Caldera,False,False,Aso (Japan)
4,1714,,Volcán complejo,True,False,Vesuvius (Italy)
5,1907,,Volcán en escudo,True,False,Savai'i (Samoa)
6,1911,2.0,Volcán complejo,False,False,Asama (Japan)
7,1913,4.0,Estratovolcán,False,False,Colima (Mexico)
8,1944,3.0,Estratovolcán,False,False,Cleveland (United States)
9,1952,2.0,Volcán submarino,True,False,Myojun Knoll (Japan)


### 3. Armado del dataset con las modificaciones

Para finalizar genero el archivo csv a partir de la variable con las modificaciones.
- Armo la ruta a partir de la posición del archivo actual con el nombre del nuevo archivo y agregando los pasos hasta la carpeta donde quiero guardarlo.
- Utilizo el método to_csv aplicado al DataFrame para armar el archivo a partir de sus datos.

In [7]:
nombre_archivo = "dataset_volcanes.csv"
ruta_archivo_nuevo = os.path.join(os.path.abspath('.'), "..", nombre_archivo)
volcanes_procesado.to_csv(ruta_archivo_nuevo, encoding='utf-8', index=False)
