In [1]:
# Leer ficheros de datos
import codecs
import pandas as pd
import pyarrow.parquet as pq
# Extraer información
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests
# Auxiliares
import numpy as np
import logging
from typing import Union
import pyarrow as pa
import seaborn as sns
import matplotlib.pyplot as plt

### Cargamos el parquet

In [2]:
df = pd.read_parquet('Datasets/PHA/PHA_Data.parquet', engine='pyarrow')

### Convertimos cualquier tipo de registro faltante a NaN

In [3]:
def clean_data(value): 
    # Si se trata de un valor en blanco sustituir a NaN 
    try: 
        if value in [None, 'nan']: 
            return np.nan 
         
        return value 
 
    except Exception as e: 
        return value 
     
# Iterar sobre todas las columnas y comprobar sus valores 
columns = len(df.columns) 
 
for column in df.columns: 
    # Utilizar compresion de listas y aplicar el filtrado de valores 
    values = [clean_data(value) for value in df[column]] 
    df[column] = values 
    columns -= 1 
    print(f'[+] REMAINING_COLUMNS\t{columns}\t', end='\r') 
     
df

[+] REMAINING_COLUMNS	0			

Unnamed: 0,c1,c6,c7,c8,c10,c132,c134,c136,c138,c141,...,c150,c154,c156,c158,c161,c163,c183,c191,c229,c230
0,A,1975,1,1,,,,,,,...,POWERED,,,,,,,,,
1,A,1975,1,1,,,,,,,...,POWERED,,,Wheeled-Tricycle,,,,,,
2,A,1975,1,1,,,,,,,...,POWERED,,,Wheeled-Tricycle,,,,,,
3,A,1975,1,1,,,,,,,...,POWERED,,,Wheeled-Tricycle,,,,,,
4,A,1975,1,1,,,,,,,...,POWERED,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
214882,I,2022,2,6,0930,,,,,,...,,,,Wheeled-Tricycle,,,,,19470720.0,
214883,I,2022,2,6,1710,,,,,,...,,,,Wheeled-Tricycle,,,,,19700731.0,
214884,I,2022,1,31,0832,,,,,,...,,,,Wheeled-Tricycle,,,,,19810601.0,19980409.0
214885,I,2022,1,7,0407,,,,,,...,,,,Wheeled-Tricycle,,,,,19520606.0,


### Cargamos cabecera  y convertimos a dataframe

In [4]:
url_legend = 'https://av-info.faa.gov/data/AID/Afilelayout.txt'
# Leemos el contenido de la leyenda
with urlopen(url_legend) as content:
    soup = BeautifulSoup(content, "html.parser")
    soup_lines = str(soup).split('\r\n')

# Transformamos la respuesta en un diccionario con el nombre de la columna y la descripción
legend_df = {"Column_name": [], "Description": []}
# Recorrer las lineas con datos de lineas. Se salta las dos primeras y las tres ultimas
# filas por no tener datos relevantes de la leyenda
for line in soup_lines[2:-3]:
    # Se extrae los 5 primeros caracteres para conocer el nombre de la columna
    legend_df["Column_name"].append(line[0:5].strip())
    # Se extrae la descripcion, esta comienza en la posicion 53
    legend_df["Description"].append(line[53:].strip())
    
# Convertir el diccionario en pandas.Dataframe
legend_df = pd.DataFrame.from_dict(data=legend_df)
legend_df

Unnamed: 0,Column_name,Description
0,c5,Unique control number used to relate to AID_MA...
1,c1,Type of Event
2,c2,FAR part number
3,c3,Form on which the latest data was received.
4,c4,Agency conducting investigation.
...,...,...
174,c163,2nd Additional cause factor text
175,c183,Supporting Factor Text ...
176,c191,Supporting cause factor B text. O...
177,c229,Date of Birth of PIC


### Enumeramos las cabecera con la descripción para poder verlas mejor

In [5]:
cabeceras = list(df.columns)
#unused_columns = [5, 3, 2, 4, 9, 75, 140, 139, 203, 204, 214, 790, 26, 37, 15, 16, 17,18, 19, 143, 205, 206, 207, 208, 210, 43, 129, 124, 125, 77]
#unused_columns = [f'c{idx}' for idx in unused_columns]

for col in cabeceras:
    description = legend_df[legend_df["Column_name"] == col]["Description"].values[0]
    print(f'[+] Descripción columnas\t{col}\t{description}')

[+] Descripción columnas	c1	Type of Event
[+] Descripción columnas	c6	Year the accident/incident happened.
[+] Descripción columnas	c7	Month the accident/incident happened.
[+] Descripción columnas	c8	Day the accident/incident happened.
[+] Descripción columnas	c10	Local time of the accident/incident.
[+] Descripción columnas	c132	First remedial action area code
[+] Descripción columnas	c134	First remedial action taken code
[+] Descripción columnas	c136	Second remedial action area code
[+] Descripción columnas	c138	Second remedial action taken code
[+] Descripción columnas	c141	Method of notification
[+] Descripción columnas	c144	Code for Aircraft Design
[+] Descripción columnas	c145	Code for Weight  Class
[+] Descripción columnas	c147	Wing information of the aircraft involved in the investigation.
[+] Descripción columnas	c149	Powered, Nonpowered, Optional
[+] Descripción columnas	c151	Number of engines on aircraft
[+] Descripción columnas	c152	Code representing typical engine design 

### filtramos los nombres de caracteristicas que pueden interesarnos usando un fichero independiente y la almacenamos en una lista

# Se puede mejorar para que no necesite el fichero****


In [6]:
# Abrir el archivo en modo de lectura
with open("cabeceras_a_usar.txt", "r") as archivo:
    # Leer las líneas del archivo
    lineas = archivo.readlines()

# Crear una lista vacía para almacenar los resultados
resultado = []

# Recorrer cada línea del archivo
for linea in lineas:
    # Buscar la posición de la letra "c" en la línea
    posicion_c = linea.find("c")
    
    # Si se encontró la letra "c"
    if posicion_c != -1:
        # Obtener los tres caracteres siguientes a la letra "c" y agregarlos a la lista
        resultado.append("c"+linea[posicion_c+1:posicion_c+4])
        
# Imprimir la lista de resultados

resultado = [elemento.strip() for elemento in resultado]
print(resultado)

['c1', 'c6', 'c7', 'c8', 'c10', 'c132', 'c134', 'c136', 'c138', 'c141', 'c160', 'c162', 'c23', 'c24', 'c11', 'c14', 'c20', 'c21', 'c102', 'c104', 'c106', 'c108', 'c110', 'c114', 'c115', 'c117', 'c118', 'c61', 'c62', 'c65', 'c67', 'c68', 'c41', 'c45', 'c47', 'c49', 'c50', 'c52', 'c53', 'c54', 'c55', 'c56', 'c59', 'c119', 'c120', 'c121', 'c122', 'c126', 'c127', 'c128', 'c130', 'c78', 'c80', 'c82', 'c84', 'c86', 'c88', 'c90', 'c92', 'c94', 'c96', 'c44', 'c46', 'c48', 'c51', 'c229', 'c230']


### Creamos dataframe a partir del primario usando solamente las columnas de la lista anteriormente  generada

In [7]:
data= df.loc[:, resultado]
data

Unnamed: 0,c1,c6,c7,c8,c10,c132,c134,c136,c138,c141,...,c90,c92,c94,c96,c44,c46,c48,c51,c229,c230
0,A,1975,1,1,,,,,,,...,A,,KX,IB,ASMEL,INSTRUMENT,FLT INST QUALIFIED I,PROFESSIONAL PILOT,,
1,A,1975,1,1,,,,,,,...,,,JJ,DD,ASEL,INSTRUMENT,QUAL IN OPER NOT FLI,STUDENT,,
2,A,1975,1,1,,,,,,,...,,,JA,DD,ASEL,RATINGS SHOWN BY 1ST,QUAL IN OPER NOT FLI,OTHER,,
3,A,1975,1,1,,,,,,,...,,,AA,HB,ASEL,RATINGS SHOWN BY 1ST,QUAL IN OPER NOT FLI,ENGINEER,,
4,A,1975,1,1,,,,,,,...,,,AA,IA,ASEL,RATINGS SHOWN BY 1ST,QUAL IN OPER NOT FLI,OTHER,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
214882,I,2022,2,6,0930,,,,,,...,,,,CR,,,,,19470720.0,
214883,I,2022,2,6,1710,,,,,,...,,,,TC,,,,,19700731.0,
214884,I,2022,1,31,0832,,,,,,...,,,,TD,,,,,19810601.0,19980409.0
214885,I,2022,1,7,0407,,,,,,...,,,,LT,,,,,19520606.0,


### Realizamos un conteo de los datos faltantes NaN de las columnas que pueden ser potenciales

In [8]:
# Contar el número de valores NaN en cada columna
print(data.isna().sum())

c1           8
c6           0
c7          33
c8          33
c10      21286
         ...  
c46      51213
c48      58745
c51      49902
c229    202962
c230    213480
Length: 67, dtype: int64


### Procedemos a borrar las columnas con demasiados datos faltantes (más de 100.000 unidades) y las filas que tengan más de 3 valores faltantes

In [9]:
#Borramos columnas que tengan más de 100.000 datos faltantes  
data = data.dropna(thresh=len(data) - 100000, axis=1)
df = df.dropna(thresh=3)

### Volvemos a contar despues del borrado para ver que columnas son aprovechables

In [10]:
# Contar el número de valores NaN en cada columna
print(data.isna().sum())



c1          8
c6          0
c7         33
c8         33
c10     21286
c132    59855
c134    56536
c141    78874
c23      1967
c24      1839
c11       508
c14      1847
c102    41436
c104    41518
c106    42958
c108    43218
c110    46444
c61        33
c62      5967
c65      5967
c67      5967
c68      5967
c41     13801
c45     57794
c47     51213
c49     58745
c50     48583
c52     49902
c53     36021
c54     91362
c55     40299
c56     37095
c59     58919
c119     5427
c130    64166
c78     39275
c94     44033
c96      7062
c44     57794
c46     51213
c48     58745
c51     49902
dtype: int64


In [13]:
columnas = list(data.columns)
#unused_columns = [5, 3, 2, 4, 9, 75, 140, 139, 203, 204, 214, 790, 26, 37, 15, 16, 17,18, 19, 143, 205, 206, 207, 208, 210, 43, 129, 124, 125, 77]
#unused_columns = [f'c{idx}' for idx in unused_columns]

for col in columnas:
    description = legend_df[legend_df["Column_name"] == col]["Description"].values[0]
    print(f'[+] Descripción columnas\t{col}\t{description}')

[+] Descripción columnas	c1	Type of Event
[+] Descripción columnas	c6	Year the accident/incident happened.
[+] Descripción columnas	c7	Month the accident/incident happened.
[+] Descripción columnas	c8	Day the accident/incident happened.
[+] Descripción columnas	c10	Local time of the accident/incident.
[+] Descripción columnas	c132	First remedial action area code
[+] Descripción columnas	c134	First remedial action taken code
[+] Descripción columnas	c141	Method of notification
[+] Descripción columnas	c23	Make of the aircraft
[+] Descripción columnas	c24	Model of the aircraft
[+] Descripción columnas	c11	Region of the accident/incident location.
[+] Descripción columnas	c14	City of the accident/incident location.
[+] Descripción columnas	c102	Primary type of flying code
[+] Descripción columnas	c104	Secondary type of flying code
[+] Descripción columnas	c106	Primary flying condition code
[+] Descripción columnas	c108	Secondary flying condition code
[+] Descripción columnas	c110	Light co

### Imputación