# AVIATION SAFETY NETWORK - DATA TRANSFORM

En este notebook transformamos el dataset y lo adaptamos para la realizacion de analisis.

## IMPORTAMOS DATOS

In [3]:
import pandas as pd
import numpy as np

In [4]:
asn = pd.read_json('../../data/raw_data/aviation_safety_network.json')
modify = asn.copy()

In [5]:
modify.head()

## TRANSFORMACION [ ETL ]

Adaptemos nuestro external data al dataset provisto por el cliente.

1. Eliminamos columnas con menor o igual a 20.000 datos.
2. Eliminamos filas que contengan todos datos nulos.

In [6]:
modify.shape

In [7]:
modify = modify.dropna(how='all')
modify.shape

In [8]:
indice = modify.isnull().sum() > 0
modify.columns[indice]

Cambiemos el formato de cierta valores en las columnas para re-ajustarla a nuestro caso de uso.

In [9]:
modify.columns

###  DATE

In [10]:
modify.date[20000]

In [11]:
modify['fecha'] = pd.to_datetime(modify['date'], format='%A %d %B %Y', errors='coerce')

A aquellas fechas a las cuales les falte el mes o el dia, le remplazaremos, respectivamente, por el mes de enero o el primer dia del mes.

In [12]:
from datetime import datetime

def obtener_numero_mes(nombre_mes):
    fecha_dummy = datetime.strptime(nombre_mes, '%b')
    numero_mes = str(fecha_dummy.month)
    if len(numero_mes) == 2:
        return numero_mes
    return '0' + numero_mes

def correct_date(v):
    v = v.strip()
    try:
        y = int(v)
        return f'{y}-01-01'
    except:
        m, y = [x.strip() for x in v.split(' ')]
        m = obtener_numero_mes(m)
        return f'{y}-{m}-01'

In [13]:
indice = modify.fecha.isnull()
modify.loc[indice, 'fecha'] = modify.loc[indice, 'date'].str.replace('x', '').apply(correct_date)

### CREW

In [14]:
import re

In [15]:
modify.crew.sample(3)

In [16]:
def extract_fatalities(columna):
    fallecidos = []
    ocupantes = []
    for record in columna:

        # Extraer número de fatalities utilizando expresión regular
        match_fatalities = re.search(r"fatalities: (\d+)", record)
        if match_fatalities:
            fallecidos.append(int(match_fatalities.group(1)))
        else:
            fallecidos.append(np.nan)

        # Extraer número de occupants utilizando expresión regular
        match_occupants = re.search(r"occupants: (\d+)", record)
        if match_occupants:
            ocupantes.append(int(match_occupants.group(1)))
        else:
            ocupantes.append(np.nan)
            
    return fallecidos, ocupantes

In [17]:
tripulantes_fallecidos, cant_tripulantes = extract_fatalities(modify.crew)

In [18]:
len(tripulantes_fallecidos), len(cant_tripulantes)

In [19]:
modify['cant_tripulantes'] = cant_tripulantes
modify['tripulantes_fallecidos'] = tripulantes_fallecidos

### PASSENGERS

In [20]:
modify.passengers.sample(3)

In [21]:
pasajeros_fallecidos, cant_pasajeros = extract_fatalities(modify.passengers)

print(len(pasajeros_fallecidos), len(cant_pasajeros))

modify['cant_pasajeros'] = cant_pasajeros
modify['pasajeros_fallecidos'] = pasajeros_fallecidos

### TOTAL

In [22]:
modify.total.sample(3)

In [23]:
total_fallecidos, total_personas = extract_fatalities(modify.total)

print(len(total_fallecidos), len(total_personas))

modify['total_personas'] = total_personas
modify['total_fallecidos'] = total_fallecidos

### LOCATION

In [24]:
modify.location.head()

In [25]:
modify = modify.reset_index(drop=True)

In [26]:
texto = modify.loc[np.random.randint(0, modify.shape[0]), 'location']
texto

In [27]:
def extraer_pais_ciudad(columna):
    paises = []
    estados = []
    for string in columna:
        parentesis_1 = string.rfind('(')
        parentesis_2 = string.rfind(')')

        pais = string[parentesis_1 + 1:parentesis_2].strip()
        estado = string[:parentesis_1].strip()
        
        paises.append(pais)
        estados.append(estado)
        
    return paises, estados

In [28]:
paises, estados = extraer_pais_ciudad(modify.location)
len(paises), len(estados)

In [29]:
print(paises[:5])
print(estados[:5])

In [30]:
modify['pais_accidente'] = paises
modify['estado_accidente'] = estados

### DEPARTURE AIRPORT

In [31]:
modify['departure airport']

In [32]:
def extraer_salida_destino(columna):
    paises = []
    estados = []
    for string in columna:
        sep = string.rfind(',')

        pais = string[sep + 1:].strip()
        estado = string[:sep].strip()
        
        paises.append(pais)
        estados.append(estado)
        
    return paises, estados

In [33]:
paises, estados = extraer_salida_destino(modify['departure airport'])

print(len(paises), len(estados))

print(paises[:5])
print(estados[:5])

In [34]:
modify['pais_salida'] = paises
modify['estado_salida'] = estados

### DESTINATION AIRPORT

In [35]:
modify['destination airport'].head(5)

In [36]:
paises, estados = extraer_salida_destino(modify['destination airport'])

print(len(paises), len(estados))

print(paises[:5])
print(estados[:5])

In [37]:
modify['pais_destino'] = paises
modify['estado_destino'] = estados

### CORRECT DEPARTURE / DESTINATION UNKNOWN VALUES

In [38]:
def correct_unknown(v):
    v = v.strip()
    if v == '?':
        return np.nan
    elif v == '':
        return np.nan
    elif v.count('unknown') > 0:
        return np.nan
    return v

In [39]:
columnas = ['pais_accidente', 'pais_salida', 'pais_destino',
            'estado_accidente', 'estado_salida', 'estado_destino']

In [40]:
print('Numero de datos faltantes\n')
for c in columnas:
    x = modify[c].apply(correct_unknown)
    modify[c] = x
    
    num =  x.isnull().sum()
    print(f'{c}: {num} ({num / modify.shape[0] * 100:.2f})%')
    print()

### FIRST FLIGHT

In [41]:
modify['first flight'].sample(5)

In [42]:
def extract_year(v):
    try:
        y = int(v)
        return y
    except:
        x = v.split('-')
        try:
            y = int(x[0])
            return y
        except:
            return np.nan

In [43]:
modify['primer_vuelo'] = modify['first flight'].apply(extract_year)

### TIME

In [44]:
def format_time(v):
    try:
        hh, mm = v.split(':')
        if len(hh) == 2 and len(mm) == 2:
            return v
    except:
        return np.nan

In [45]:
modify['hora'] = modify.time.apply(format_time)

### AIRCRAFT DAMAGE

In [46]:
modify['aircraft damage'].unique()

In [47]:
def edit_error_data(columna, missing):
    
    def auxiliar(v, k):
        try:
            if k == v.strip():
                return np.nan
            else:
                return v
        except:
            return np.nan

    for k in missing:
        columna = columna.apply(lambda v: auxiliar(v, k))
    return columna

In [48]:
output = edit_error_data(modify['aircraft damage'], ['none', '', 'unknown'])
output.unique()

In [49]:
modify['aircraft_damage'] = output

### NATURE

In [50]:
modify.nature.unique()

In [51]:
output = edit_error_data(modify['nature'], ['-', '', 'unknown'])
output.unique()

In [52]:
modify['razon'] = output

### PHASE

In [53]:
modify.phase.unique()

In [54]:
def extraer_phase_complete(v):
    parentesis = v.rfind('(')
    output = v[:parentesis].strip()
    if len(output) == 0:
        return np.nan
    return v[:parentesis].strip()

In [55]:
modify['fase'] = modify.phase.apply(extraer_phase_complete)

In [56]:
modify.fase.isnull().sum()

## SELECCION DE LAS COLUMNAS

In [57]:
modify.shape

In [58]:
modify.columns

**Conservamos toda columna con un numero de datos no nulos mayor a 60% de los datos exceptuando la columna "hora".**

In [59]:
umbral = modify.shape[0] * 0.6
cols_to_work = []
for c in modify.columns:
    if modify[c].notna().sum() > umbral:
        cols_to_work.append(c)

cols_to_work.append('hora')
final_df = modify[cols_to_work]

final_df.shape

In [60]:
final_df.columns

**Eliminamos toda columna con su contenido ya previamente contenido en otra.**

De otro modo, nos quedamos con aquellas que continen la informacion ya procesada.

In [61]:
cols = ['fecha', 'hora', 'operator', 'total_personas', 'cant_pasajeros', 'cant_tripulantes', 
        'total_fallecidos', 'pasajeros_fallecidos', 'tripulantes_fallecidos', 
        'pais_accidente', 'estado_accidente', 'pais_salida', 'estado_salida', 'pais_destino', 'estado_destino',
        'primer_vuelo', 'aircraft_damage', 'razon', 'fase', 'narrative']

final_df = final_df[cols]

final_df.shape

**Conservamos toda columna con un numero de valores unicos menor al 75% de los datos.**

Exceptuando narrative.

In [62]:
umbral = modify.shape[0] * 0.75
cols_to_work = []
for c in final_df.columns:
    if final_df[c].unique().size < umbral:
        cols_to_work.append(c)

cols_to_work.append('narrative')
final_df = final_df[cols_to_work]
final_df.shape

In [63]:
final_df.columns

## ALMACENAMOS EL DATASET

In [64]:
final_df.to_csv('../../data/transform/asn_final_v1.csv', header=True, index=False, sep=',', mode='w')