## Aviation Accidents and Incidents (NTSB, FAA, WAAS)

En el dataset que se encuentra [aquí](https://www.kaggle.com/datasets/prathamsharma123/aviation-accidents-and-incidents-ntsb-faa-waas) se puede encontrar la información registrada sobre distintos accidentes e incidentes ocurridos desde 1985 en aviones. La idea es describir los datos registrados y analizar cada una de las variables.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

In [2]:
#la primera linea genera un path absoluto de la carpeta en la que estoy
PROJ_DIR = os.path.abspath(os.path.join(os.pardir))
print(PROJ_DIR)

/home/katherine/Documentos/Machine_Learning_Cristian_2022/Data_cleaning/repositorio/machine_learning_course/aviation_accidents


In [12]:
#la segunda linea une al path absoluto anterior, aldireccion data, raw, +el nombre del archivo
#que estamos asumiento ya está en la dirección data/raw
file_name = 'airline_accidents.csv'
#aquí entonces tenemos un nuevo path absoluto que va a funcionar
#sin importar si la persona lo usa en windows, en ubuntu, lo que facilita la migración
data_name = os.path.join(PROJ_DIR, 'data', 'raw', file_name)
#Hicimos una investigación con valores únicos para poder ver cómo aparecían los nulos. (na_values)
#Luego, podemos ver la columna que tiene fechas y decirle que lo guarde en formato fecha, (parse_dates)
#tambien podemos elegir cuantas filas tomar (nrows) sin embargo esto no es tan bueno porque los datos podrían estar ordenados
#nrows toma siempre los primeros valores seleccionads ( 25000, 30000)
#en ese caso lo mejor es cargar todos los datos y luego tomar una submuestra para el análisis
#cuando sabemos que hay una variable única sobre la cual podemos indexar ( que no sea como en excel) usando, index = 'Event ID'
df = pd.read_csv(data_name, na_values= ['  '], parse_dates = ['Event Date'])
#la submuestra se puede hacer como
#df= df.sample[25000]
# lo mejor sería volver a correr esta celda para que cambie aleatoriamente la submuestra y ver si la gráfica cambia

Nos sale un error: /tmp/ipykernel_8198/4275079040.py:7: DtypeWarning: Columns (0,23,24,25,26) have mixed types. Specify dtype option on import or set low_memory=False.
  df = pd.read_csv(data_name)
Este error nos está diciendo que el va a asumir que todas las entradas son de tipo objeto porque no sé como clasificarlas, pero eso consume mucha memoria. Entonces si queremos resolver el problema de fondo hay que entender porqué está volviendo todos de tipo objeto y consumiendo memoria. La cosa es que el me dice que para resolverlo debo poner low_memory = False, y esto nunca es lo mejor. Porque le estamos diciendo que consuma toda la memoria que quiera y pues no mi ciela. 

In [13]:
df.head()

Unnamed: 0,Event Id,Investigation Type,Accident Number,Event Date,Location,Country,Latitude,Longitude,Airport Code,Airport Name,...,Purpose of Flight,Air Carrier,Total Fatal Injuries,Total Serious Injuries,Total Minor Injuries,Total Uninjured,Weather Condition,Broad Phase of Flight,Report Publication Date,Unnamed: 30
0,20080125X00106,Accident,SEA08CA056,2007-12-31,"Santa Ana, CA",United States,33.675556,-117.868056,SNA,John Wayne - Orange County,...,Instructional,,,,,2.0,VMC,LANDING,02/28/2008,
1,20080206X00141,Accident,CHI08WA075,2007-12-31,"Guernsey, United Kingdom",United Kingdom,49.435,-2.600278,,,...,Unknown,,,,,1.0,,,02/06/2008,
2,20080129X00122,Accident,CHI08CA057,2007-12-30,"Alexandria, MN",United States,45.866111,-95.394444,AXN,Chandler Field Airport,...,Personal,,,,,1.0,VMC,TAKEOFF,02/28/2008,
3,20080114X00045,Accident,LAX08FA043,2007-12-30,"Paso Robles, CA",United States,35.542222,-120.522778,PRB,Paso Robles Airport,...,Personal,,1.0,,,,VMC,MANEUVERING,06/20/2014,
4,20080109X00032,Accident,NYC08FA071,2007-12-30,"Cherokee, AL",United States,34.688611,-87.92,,,...,Other Work Use,,3.0,0.0,0.0,0.0,VMC,MANEUVERING,01/15/2009,


In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25000 entries, 0 to 24999
Data columns (total 31 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   Event Id                 25000 non-null  object        
 1   Investigation Type       25000 non-null  object        
 2   Accident Number          25000 non-null  object        
 3   Event Date               25000 non-null  datetime64[ns]
 4   Location                 24963 non-null  object        
 5   Country                  24874 non-null  object        
 6   Latitude                 11964 non-null  float64       
 7   Longitude                11954 non-null  float64       
 8   Airport Code             14505 non-null  object        
 9   Airport Name             15022 non-null  object        
 10  Injury Severity          25000 non-null  object        
 11  Aircraft Damage          24225 non-null  object        
 12  Aircraft Category        4038 no

In [6]:
#hacemos esta investigación para identificar cómo se expresan los valores nulos
#lo mejor es tomar una columna que tengamos muchos nulos o que pueda tomar pocos valores
df['Investigation Type'].unique()

array([' Accident ', ' Incident ', nan], dtype=object)

In [7]:
df['Investigation Type'].unique()

array([' Accident ', ' Incident ', nan], dtype=object)

### Análisis estadístico numérico

En esta parte del proyecto, se busca entender más las características asociadas a las variables, como las medidas de tendencia central y de dispersión, los valores atípicos y los tipos de las variables (categóricas nominales u ordinales, numéricas continuas o discretas). Además se recomienda hacer un análisis temporal de los datos.

In [15]:
df['Location'].nunique()

11876

In [16]:
df['Country'].nunique()

142

In [20]:
df['Total Fatal Injuries'].describe()

count    13786.000000
mean         1.312636
std          9.389189
min          0.000000
25%          0.000000
50%          0.000000
75%          1.000000
max        349.000000
Name: Total Fatal Injuries, dtype: float64

In [21]:
df['Total Serious Injuries'].describe()

count    12739.000000
mean         0.432059
std          1.638224
min          0.000000
25%          0.000000
50%          0.000000
75%          1.000000
max         59.000000
Name: Total Serious Injuries, dtype: float64

In [23]:
#vemos que tienen espacios al principio y al final
df['Investigation Type'].unique()

array([' Accident ', ' Incident '], dtype=object)

In [25]:
#lo que estabamos haciendo arriba a mano, lo podemos hacer con la función df.describe 
df.describe(datetime_is_numeric=True)

Unnamed: 0,Event Date,Latitude,Longitude,Number of Engines,Total Fatal Injuries,Total Serious Injuries,Total Minor Injuries,Total Uninjured
count,25000,11964.0,11954.0,23005.0,13786.0,12739.0,13318.0,19256.0
mean,2001-11-09 02:48:52.992000,38.123677,-97.430118,1.151706,1.312636,0.432059,0.702208,6.979435
min,1996-01-04 00:00:00,-78.016945,-174.296666,0.0,0.0,0.0,0.0,0.0
25%,1998-10-26 00:00:00,33.439305,-116.226945,1.0,0.0,0.0,0.0,1.0
50%,2001-08-31 00:00:00,38.149445,-95.518194,1.0,0.0,0.0,0.0,1.0
75%,2004-10-15 00:00:00,42.548889,-82.028958,1.0,1.0,1.0,1.0,2.0
max,2007-12-31 00:00:00,89.218056,177.557778,4.0,349.0,59.0,380.0,699.0
std,,11.239502,31.905452,0.434881,9.389189,1.638224,4.519612,32.486646


In [30]:
df.describe(datetime_is_numeric=False, exclude = np.number)

  df.describe(datetime_is_numeric=False, exclude = np.number)


Unnamed: 0,Event Id,Investigation Type,Accident Number,Event Date,Location,Country,Airport Code,Airport Name,Injury Severity,Aircraft Damage,...,Amateur Built,Engine Type,FAR Description,Schedule,Purpose of Flight,Air Carrier,Weather Condition,Broad Phase of Flight,Report Publication Date,Unnamed: 30
count,25000,25000,25000,25000,24963,24874,14505,15022.0,25000,24225,...,24899,23552,4044,3591,23340,993,24495,23326,24714,25000.0
unique,24655,2,25000,4336,11876,142,4957,9452.0,82,3,...,2,7,14,3,22,823,3,12,1411,1.0
top,20001212X19172,Accident,SEA08CA056,2000-07-08 00:00:00,"ANCHORAGE, AK",United States,NONE,,Non-Fatal,Substantial,...,No,Reciprocating,Part 91: General Aviation,NSCH,Personal,(DBA: AMERICAN AIRLINES),VMC,LANDING,11/25/2003,
freq,3,24088,1,25,100,23189,439,65.0,18911,18256,...,22162,19349,3350,1343,13983,8,22445,6290,396,25000.0
first,,,,1996-01-04 00:00:00,,,,,,,...,,,,,,,,,,
last,,,,2007-12-31 00:00:00,,,,,,,...,,,,,,,,,,


In [32]:
#esto es lo mismo que la primera gráfica de 
df.describe(datetime_is_numeric=False, exclude = 'object')

  df.describe(datetime_is_numeric=False, exclude = 'object')


Unnamed: 0,Event Date,Latitude,Longitude,Number of Engines,Total Fatal Injuries,Total Serious Injuries,Total Minor Injuries,Total Uninjured
count,25000,11964.0,11954.0,23005.0,13786.0,12739.0,13318.0,19256.0
unique,4336,,,,,,,
top,2000-07-08 00:00:00,,,,,,,
freq,25,,,,,,,
first,1996-01-04 00:00:00,,,,,,,
last,2007-12-31 00:00:00,,,,,,,
mean,,38.123677,-97.430118,1.151706,1.312636,0.432059,0.702208,6.979435
std,,11.239502,31.905452,0.434881,9.389189,1.638224,4.519612,32.486646
min,,-78.016945,-174.296666,0.0,0.0,0.0,0.0,0.0
25%,,33.439305,-116.226945,1.0,0.0,0.0,0.0,1.0


In [33]:
df.describe(include ='O')

Unnamed: 0,Event Id,Investigation Type,Accident Number,Location,Country,Airport Code,Airport Name,Injury Severity,Aircraft Damage,Aircraft Category,...,Amateur Built,Engine Type,FAR Description,Schedule,Purpose of Flight,Air Carrier,Weather Condition,Broad Phase of Flight,Report Publication Date,Unnamed: 30
count,25000,25000,25000,24963,24874,14505,15022.0,25000,24225,4038,...,24899,23552,4044,3591,23340,993,24495,23326,24714,25000.0
unique,24655,2,25000,11876,142,4957,9452.0,82,3,8,...,2,7,14,3,22,823,3,12,1411,1.0
top,20001212X19172,Accident,SEA08CA056,"ANCHORAGE, AK",United States,NONE,,Non-Fatal,Substantial,Airplane,...,No,Reciprocating,Part 91: General Aviation,NSCH,Personal,(DBA: AMERICAN AIRLINES),VMC,LANDING,11/25/2003,
freq,3,24088,1,100,23189,439,65.0,18911,18256,3419,...,22162,19349,3350,1343,13983,8,22445,6290,396,25000.0


In [34]:
df['Aircraft Damage'].unique()

array([' Substantial ', ' Minor ', ' Destroyed ', nan], dtype=object)

In [35]:
df['Aircraft Category'].unique()

array([' Airplane ', nan, ' Helicopter ', ' Gyrocraft ', ' Ultralight ',
       ' Powered-Lift ', ' Glider ', ' Balloon ', ' Blimp '], dtype=object)

In [37]:
#aquí lo podemos poner como un true / false
df['Amateur Built'].unique()

array([' No ', ' Yes ', nan], dtype=object)

In [39]:
df['Engine Type'].unique()

array([' Reciprocating ', nan, ' Turbo Shaft ', ' Turbo Fan ',
       ' Turbo Jet ', ' Turbo Prop ', ' Unknown ', ' REC, TJ, TJ '],
      dtype=object)

In [40]:
#al modelo no le podemos pasar una lista de tipos de variable, porque al modelo se le deben pasar números
#por eso planteamos hacer un OneHotEncoder, pero se crecen un montón las columnas, entoncs podemos ver si vale la pena
#para eso veamos la cantidad de valores
df['Purpose of Flight'].unique()

array([' Instructional ', ' Unknown ', ' Personal ', ' Other Work Use ',
       nan, ' Public Aircraft - Federal ', ' Business ', ' Ferry ',
       ' Aerial Application ', ' Public Aircraft - State ',
       ' Positioning ', ' Executive/Corporate ', ' Aerial Observation ',
       ' Banner Tow ', ' External Load ', ' Flight Test ',
       ' Public Aircraft - Local ', ' Air Race/Show ', ' Glider Tow ',
       ' Public Aircraft ', ' Skydiving ', ' Firefighting ', ' Air Drop '],
      dtype=object)

In [41]:
df['Purpose of Flight'].value_counts()

 Personal                      13983
 Instructional                  3113
 Unknown                        1791
 Aerial Application             1218
 Business                        879
 Positioning                     683
 Other Work Use                  435
 Public Aircraft                 344
 Aerial Observation              188
 Ferry                           186
 Flight Test                     151
 Executive/Corporate             139
 Air Race/Show                    59
 Skydiving                        52
 Public Aircraft - Federal        28
 Banner Tow                       25
 External Load                    19
 Public Aircraft - State          15
 Glider Tow                       11
 Public Aircraft - Local          10
 Firefighting                      7
 Air Drop                          4
Name: Purpose of Flight, dtype: int64

In [43]:
#Podemos normalizarla para entender las relaciones
df['Purpose of Flight'].value_counts(normalize = True, dropna =False)*100

 Personal                      55.932
 Instructional                 12.452
 Unknown                        7.164
NaN                             6.640
 Aerial Application             4.872
 Business                       3.516
 Positioning                    2.732
 Other Work Use                 1.740
 Public Aircraft                1.376
 Aerial Observation             0.752
 Ferry                          0.744
 Flight Test                    0.604
 Executive/Corporate            0.556
 Air Race/Show                  0.236
 Skydiving                      0.208
 Public Aircraft - Federal      0.112
 Banner Tow                     0.100
 External Load                  0.076
 Public Aircraft - State        0.060
 Glider Tow                     0.044
 Public Aircraft - Local        0.040
 Firefighting                   0.028
 Air Drop                       0.016
Name: Purpose of Flight, dtype: float64

## Tareala tarea es revisar una forma para tener menos categorías en la ultima categoría. 
Para el análisis univariado debemos hacer los gráficos, histogramas, boxplot, violinplot. 
No tiene que ser para todas. 
esto se llama exploratory data analysis. EDA (entendimiento de los datos)
resolver el error de sección individual

### Análisis univariado

En esta sección, se busca encontrar relaciones de las variables a nivel univariado, teniendo en cuenta tendencias de acuerdo al comportamiento de las variables separadas por categorías.

### Análisis multivariado

En esta sección, se busca entender un poco más la correlación entre las variables, y la distribución entre las variables para conocer si existen relaciones entre ellas. Se puede hacer análisis de tipo bivariado o de más variables, de acuerdo al tipo de variables y de los objetivos que se persiguen (comparativos, de composición, de distribución).

## Sección de trabajo individual

En esta parte, se propone revisar alguna otra de las bases para realizar el respectivo análisis y limpieza. La idea es comprender muy bien los datos para dar un pequeño informe oral sobre los resultados obtenidos.

In [44]:
file_name = 'ntsb_aviation_data.csv'
data_name = os.path.join(PROJ_DIR, 'data', 'raw', file_name)
df = pd.read_csv(data_name)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 108582: invalid continuation byte

In [None]:
df.head()