<a href="https://colab.research.google.com/github/c-e-leiva/Analisis-Interactivo-Aeronautico-Argentina/blob/main/An%C3%A1lisis_de_Incidentes_Aeron%C3%A1uticos_en_Argentina.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Análisis de Incidentes Aeronáuticos en Argentina (1947-2023) ✴✈💥**

## **Descripción del Proyecto:**

Este proyecto tiene como objetivo descubrir patrones y tendencias en los incidentes aeronáuticos ocurridos en Argentina desde 1947 hasta 2023. A través de un análisis detallado de los datos, se identifican características clave y distribuciones que permiten comprender mejor las causas y circunstancias de estos incidentes. El análisis cubre un periodo de 76 años, proporcionando una visión histórica amplia sobre la evolución de los incidentes aeronáuticos en el país.

Se emplearon técnicas de estadística descriptiva y se crearon visualizaciones interactivas como gráficos de barras, mapas y líneas temporales para facilitar la comprensión de los patrones, así como identificar tendencias y anomalías a lo largo del tiempo. Los factores analizados incluyen la distribución geográfica de los incidentes por provincias, el tipo de daño registrado y la fase del vuelo en la que ocurrieron los incidentes. Estos aspectos son fundamentales para entender las circunstancias en las que se producen los eventos y las áreas más vulnerables del país.

En esta fase exploratoria, se han identificado tendencias en la frecuencia de incidentes en ciertas regiones y en fases específicas del vuelo, lo que proporciona una base para futuros análisis más detallados y medidas preventivas. En una fase posterior, se evaluará la posibilidad de aplicar modelos de aprendizaje automático (machine learning) para predecir incidentes futuros. Basándose en los patrones históricos descubiertos, se podrán entrenar modelos que analicen las variables más significativas y generen predicciones, lo que permitirá mejorar la gestión del riesgo y la prevención de incidentes aéreos en Argentina.

El dataset utilizado para este análisis fue obtenido de Kaggle y se puede acceder a él a través de [click aquí](https://www.kaggle.com/datasets/maifernandarios/sucesos-en-aviacin-argentina).


## **Preguntas de Investigación/Hipótesis:**

**1) ¿Cuál es la década/año con más incidentes aeronáuticos en Argentina?**

- **Hipótesis:** Se espera que las décadas más  recientes, con mayor tráfico aéreo, presenten un mayor número de incidentes.


**2) ¿Cómo han variado los incidentes aeronáuticos en Argentina a lo largo del tiempo?**

- **Hipótesis:** Se espera que haya una tendencia creciente en los incidentes debido al incremento en vuelos comerciales en las últimas décadas, aunque puede haber caídas en algunos años por factores externos como crisis económicas o pandemias.


**3) ¿Cuáles son las provincias con más incidentes y qué factores pueden influir en su frecuencia?**

- **Hipótesis:** Las provincias con más actividad aeronáutica deberían mostrar mayor cantidad de incidentes debido a su tráfico elevado.


**4) ¿Existe alguna relación entre el tipo de fase del vuelo y el tipo de lesiones o daños?**

- **Hipótesis:** Los incidentes más graves, con mayores daños y lesiones, podrían estar más relacionados con las fases de aterrizaje y despegue, que suelen ser las más críticas en el vuelo.




---



---



---


### **Conexión de Google Colab con Google Drive**

In [2]:
# Montar Google Drive correctamente
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## **Instalación de Librerias**

In [7]:
# Instalación de librerías necesarias en caso de estar en Google Colab
!pip install plotly
!pip install bokeh
!pip install altair
!pip install pydeck

Collecting pydeck
  Downloading pydeck-0.9.1-py2.py3-none-any.whl.metadata (4.1 kB)
Downloading pydeck-0.9.1-py2.py3-none-any.whl (6.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.9/6.9 MB[0m [31m40.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pydeck
Successfully installed pydeck-0.9.1


## **Importación de librerias**

In [8]:
# Importar librerías necesarias para el análisis
import pandas as pd
import plotly.express as px
import altair as alt
import pydeck as pdk

## **Carga y Descripción del Dataset**



In [9]:
# Cargar el dataset desde la ruta especificada en Google Drive
ruta_archivo = '/content/drive/My Drive/PP1/ProyectoFinal/sucesos-aeronauticos-argentina.csv'
df = pd.read_csv(ruta_archivo)

# Mostrar información general del DataFrame
print("\nINFORMACIÓN GENERAL DEL DATAFRAME:\n")
df.info()

# Mostrar las primeras filas del DataFrame
print("\nPRIMERAS 5 FILAS DEL DATAFRAME:\n")
df.head(5)


INFORMACIÓN GENERAL DEL DATAFRAME:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2069 entries, 0 to 2068
Data columns (total 19 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   N° Exp.                        2069 non-null   object
 1   Fecha                          2069 non-null   object
 2   Estado                         2069 non-null   object
 3   Modelo                         2069 non-null   object
 4   Matrícula                      2069 non-null   object
 5   Daños                          2069 non-null   object
 6   Fase                           2069 non-null   object
 7   Lat - Lon                      2069 non-null   object
 8   Lesiones                       2069 non-null   object
 9   Fecha y hora de notificiacion  2069 non-null   object
 10  fecha y hora de arribo         2069 non-null   object
 11  fecha y hora de finalizacion   2069 non-null   object
 12  Provincia                

Unnamed: 0,N° Exp.,Fecha,Estado,Modelo,Matrícula,Daños,Fase,Lat - Lon,Lesiones,Fecha y hora de notificiacion,fecha y hora de arribo,fecha y hora de finalizacion,Provincia,Lugar,tipo Lugar,altura,Oficina,Canal,Fabricante
0,67901159/23,10/6/2023,en curso,AB-115 (Aero Boero),LV-LPI,De importancia,Aterrizaje,"(-34.18222222222222, -58.249722222222225)",Ninguno,S/D,S/D,S/D,BUENOS AIRES (BUE),Isla Martin Garcia,AD,S/D,S/D,S/D,Aero Boero
1,67900259/23,7/6/2023,en curso,B-23 (Beechcraft),LV-BPE,De importancia,Rodaje salida,"(-34.67916666666667, -58.64277777777778)",Ninguno,S/D,S/D,S/D,BUENOS AIRES (BUE),Morón,AD,S/D,S/D,S/D,Beechcraft
2,59831371/23,24/5/2023,en curso,B-737-800 (Boeing),LV-GGK,Leves,Crucero,"(-24.392777777777777, -65.09777777777778)",Desconocido,S/D,S/D,S/D,JUJUY (JUJ),Gobernador Guzman,AP,S/D,S/D,S/D,Boeing
3,59832202/23,24/5/2023,en curso,B-737-700 (Boeing),LV-CAD,Ninguno,Crucero,"(-24.392777777777777, -65.09777777777778)",Desconocido,S/D,S/D,S/D,JUJUY (JUJ),Gobernador Guzman,AP,S/D,S/D,S/D,Boeing
4,58147231/23,22/5/2023,en curso,B-777 (Boeing),N78008,Ninguno,Aterrizaje,"(-34.81722222222223, -58.53861111111111)",Ninguno,S/D,S/D,S/D,BUENOS AIRES (BUE),Ministro Pistarini -Ezeiza (SAEZ),AP,S/D,S/D,S/D,Boeing


## **Verificación de Nulos en el Dataset**

In [10]:
# Verificar valores nulos
print("\nVALORES NULOS EN EL DATASET:\n")
print(df.isnull().sum())


VALORES NULOS EN EL DATASET:

N° Exp.                          0
Fecha                            0
Estado                           0
Modelo                           0
Matrícula                        0
Daños                            0
Fase                             0
Lat - Lon                        0
Lesiones                         0
Fecha y hora de notificiacion    0
fecha y hora de arribo           0
fecha y hora de finalizacion     0
Provincia                        0
Lugar                            0
tipo Lugar                       0
altura                           0
Oficina                          0
Canal                            0
Fabricante                       0
dtype: int64



---

# **GRÁFICOS INTERACTIVOS:**

---


# **1) Distribución Temporal de Incidentes (por Década):**

En este punto se busca entender cómo los incidentes aéreos en Argentina han variado a lo largo del tiempo, agrupando los datos por décadas y años para visualizar posibles patrones o tendencias significativas con un gráfico interactivo con plotly.

In [11]:
# Convertir la columna de fechas, indicando que el día viene primero
df['Fecha'] = pd.to_datetime(df['Fecha'], dayfirst=True, errors='raise')

# Extraer el año para análisis por década
df['Año'] = df['Fecha'].dt.year

# Crear la columna 'Década' agrupando por decenas
df['Década'] = (df['Año'] // 10) * 10

# Conteo de incidentes por década
incidentes_por_decada = df['Década'].value_counts().sort_index()

# Crear gráfico interactivo con Plotly: Incidentes por década
fig = px.bar(incidentes_por_decada,
             x=incidentes_por_decada.index,
             y=incidentes_por_decada.values,
             labels={'x': 'Década', 'y': 'Número de Incidentes'},
             title='Incidentes Aéreos en Argentina por Década',
             text=incidentes_por_decada.values, # Mostrar etiquetas con los valores
             color=incidentes_por_decada.values, # Aplicar un gradiente de color
             color_continuous_scale='Blues' # Escala de colores
            )

# Configurar ejes en escala logarítmica para una mejor visualización de diferencias
fig.update_yaxes(type="log", title_text="Número de Incidentes (Escala Logarítmica)")

# Actualizar el tamaño de las etiquetas y layout
fig.update_layout(
    title_font_size=20,
    xaxis_title="Década",
    yaxis_title="Número de Incidentes",
    uniformtext_minsize=8,
    uniformtext_mode='hide',
    coloraxis_showscale=False
)

# Mostrar gráfico interactivo
print("incidentes por decada:", incidentes_por_decada)
fig.show()

incidentes por decada: Década
1940      1
1990    139
2000    676
2010    906
2020    347
Name: count, dtype: int64


- La década de 2000-2010 mostró un notable aumento en incidentes, lo cual podría estar relacionado con el crecimiento del tráfico aéreo durante esa época

## **Distribución Temporal de Incidentes (por Año):**
En este punto se busca entender cómo los incidentes aéreos en Argentina han variado a lo largo del tiempo, agrupando los datos por años para visualizar posibles patrones o tendencias significativas con un gráfico interactivo con plotly.

In [12]:
# Importar librerías necesarias
import pandas as pd
import plotly.express as px

# Convertir la columna de fechas a datetime
df['Fecha'] = pd.to_datetime(df['Fecha'], dayfirst=True, errors='coerce')

# Filtrar filas con fechas válidas
df = df[df['Fecha'].notnull()]

# Extraer el año y contar incidentes únicos por año
incidentes_por_año = df['Fecha'].dt.year.value_counts().reset_index()
incidentes_por_año.columns = ['Año', 'Total Incidentes']

# Ordenar por año
incidentes_por_año = incidentes_por_año.sort_values(by='Año')

# Asegurarse de que el 'Año' sea categórico para evitar agrupaciones
incidentes_por_año['Año'] = incidentes_por_año['Año'].astype(str)

# Crear gráfico interactivo con Plotly: Incidentes por año (solo años con registros)
fig = px.bar(incidentes_por_año,
             x='Año',
             y='Total Incidentes',
             labels={'Año': 'Año', 'Total Incidentes': 'Número de Incidentes'},
             title='Incidentes Aéreos en Argentina por Año',
             text='Total Incidentes',  # Mostrar etiquetas con los valores
             color='Total Incidentes',  # Aplicar un gradiente de color
             color_continuous_scale='Blues'  # Escala de colores
            )

# Ajustar el layout para asegurarnos de que solo se muestren los años presentes en el DataFrame
fig.update_layout(
    title_font_size=20,
    xaxis_title="Año",
    yaxis_title="Número de Incidentes",
)

# Mostrar gráfico interactivo
print("incidentes por año:", incidentes_por_año)

incidentes por año:      Año  Total Incidentes
30  1947                 1
29  1994                 1
27  1995                 2
28  1996                 1
26  1997                20
21  1998                60
24  1999                55
11  2000                77
14  2001                74
19  2002                64
16  2003                71
23  2004                55
12  2005                76
17  2006                70
22  2007                59
20  2008                62
18  2009                68
6   2010                91
7   2011                82
10  2012                78
4   2013               106
15  2014                72
13  2015                74
5   2016                96
8   2017                80
2   2018               113
1   2019               114
9   2020                80
3   2021               109
0   2022               118
25  2023                40


In [13]:
#Mostrar Gráfico
fig.show()

- A partir del Gráfico el año 2022 es el que mayor número de incidentes tuvo con 118.


---



## **Estadística Descriptiva: Total, Máximo y Media de Incidentes**

Este análisis resume la cantidad total de incidentes aéreos, el año con más incidentes y la media anual, proporcionando una visión general del comportamiento de los incidentes registrados.


In [14]:
# Cálculo del total de incidentes de los años registrados
total_incidentes = incidentes_por_año['Total Incidentes'].sum()

# Cálculo del máximo número de incidentes en un año
max_incidentes = incidentes_por_año['Total Incidentes'].max()

# Obtener el año correspondiente al máximo número de incidentes
año_max_incidentes = incidentes_por_año.loc[incidentes_por_año['Total Incidentes'].idxmax(), 'Año']

# Cálculo de la media del número de incidentes por año
media_incidentes = incidentes_por_año['Total Incidentes'].mean()

# Mostrar resultados
print(f"El total de incidentes registrados es: [{total_incidentes}].")
print(f"El máximo número de incidentes en un año es: [{max_incidentes}] en el año [{año_max_incidentes}].")
print(f"La media del número de incidentes por año es: [{media_incidentes:.2f}].")

El total de incidentes registrados es: [2069].
El máximo número de incidentes en un año es: [118] en el año [2022].
La media del número de incidentes por año es: [66.74].



---

## **Top 10 Años con Mayor Cantidad de Incidentes Aéreos**
Este gráfico con plotly muestra los 10 años con el mayor número de incidentes aéreos registrados en Argentina.


In [15]:
# Obtener el top 10 de años con mayor número de incidentes
top_10_incidentes = incidentes_por_año.nlargest(10, 'Total Incidentes')

# Gráfico de barras para el top 10
fig = px.bar(top_10_incidentes,
             x='Año',
             y='Total Incidentes',
             title='Top 10 Años con Mayor Número de Incidentes',
             labels={'Total Incidentes': 'Número de Incidentes', 'Año': 'Año'},
             color='Total Incidentes',
             color_continuous_scale='Reds',
             text='Total Incidentes')  # Agregar texto sobre las barras

# Ajustar la apariencia del gráfico
fig.update_traces(texttemplate='%{text}', textposition='outside')  # Posicionar el texto afuera de las barras

# Mostrar el gráfico
print("Top 10 incidentes por año:\n\n", top_10_incidentes)
fig.show()

Top 10 incidentes por año:

     Año  Total Incidentes
0  2022               118
1  2019               114
2  2018               113
3  2021               109
4  2013               106
5  2016                96
6  2010                91
7  2011                82
8  2017                80
9  2020                80


El gráfico revela un incremento significativo en los incidentes aéreos en los últimos años, especialmente entre 2018 y 2022, lo que sugiere un posible patrón ascendente. Este aumento podría estar relacionado con factores como mayor tráfico aéreo.

---

## **2) Gráfico de Tendencia de Incidentes Aéreos (1947 - 2023)**
Este gráfico interactivo de Plotly muestra la evolución del número de incidentes aéreos en Argentina desde 1947 hasta 2023.

In [16]:
# Gráfico de tendencia de incidentes a lo largo del tiempo
fig = px.line(incidentes_por_año, x='Año', y='Total Incidentes',
              title='Tendencia de Incidentes Aeronáuticos en Argentina (1947-2023)',
              markers=True)

fig.update_layout(xaxis_title='Año', yaxis_title='Total de Incidentes',
                  xaxis=dict(tickmode='linear'))
fig.show()

La tendencia revela fluctuaciones en los incidentes a lo largo del tiempo, con un aumento considerable en los últimos años, alcanzando su pico en 2022. Esto permite observar patrones históricos y posibles periodos de aumento en los incidentes.


---



## **3) Top 10 Provincias con Mayor Número de Incidentes Aéreos**

Este gráfico interactivo de Plotly muestra las 10 provincias de Argentina con el mayor número de incidentes aéreos registrados.


In [17]:
# Contar el número total de incidentes por provincia
incidentes_por_provincia = df['Provincia'].value_counts().reset_index()
incidentes_por_provincia.columns = ['Provincia', 'Total Incidentes']

# Obtener el top 10 de provincias con más incidentes y ordenarlas de mayor a menor
top_10_provincias = incidentes_por_provincia.nlargest(10, 'Total Incidentes').sort_values(by='Total Incidentes', ascending=True)

# Crear el gráfico de barras horizontal
fig = px.bar(top_10_provincias,
             x='Total Incidentes',
             y='Provincia',
             title='Top 10 Provincias con Mayor Número de Incidentes',
             text='Total Incidentes',
             orientation='h')  # Aquí se cambia a horizontal

# Actualizar el diseño
fig.update_traces(texttemplate='%{text}', textposition='outside')
fig.update_layout(xaxis_title='Total de Incidentes', yaxis_title='Provincia')


print("Top 10 de provincias con mayor numero de incidentes:\n\n", top_10_provincias.iloc[::-1])
# Mostrar el gráfico
fig.show()

Top 10 de provincias con mayor numero de incidentes:

             Provincia  Total Incidentes
0  BUENOS AIRES (BUE)               891
1       CORDOBA (CBA)               243
2      SANTA FE (SFE)               163
3       MENDOZA (DOZ)                90
4    ENTRE RIOS (ERS)                83
5         CHACO (CHA)                67
6         SALTA (SAL)                64
7     RIO NEGRO (RNG)                55
8    CORRIENTES (CRR)                52
9       NEUQUEN (NEU)                46


La provincia de Buenos Aires presenta un número significativamente mayor de incidentes en comparación con las demás, lo cual podría estar relacionado con su densidad poblacional y mayor actividad aérea. Las provincias de Córdoba y Santa Fe también destacan, aunque a menor escala, posiblemente debido a su tráfico aéreo frecuente.



---



# **Distribución de Incidentes por Tipo de Daño**

Este gráfico de **Bokeh** representa la cantidad de incidentes aéreos en Argentina distribuidos según el tipo de daño ocasionado. Las categorías incluyen "De importancia," "Leves," "Ninguno," "Destruida," y "Se desconoce."


In [18]:
# Importar funciones para la salida en el notebook y mostrar gráficos
from bokeh.plotting import figure, show
from bokeh.io import output_notebook
from bokeh.models import ColumnDataSource
# Importar la función para calcular sumas acumuladas
from math import pi

# Importar una paleta de colores
from bokeh.palettes import Set1
from bokeh.palettes import Magma
from bokeh.palettes import Dark2
from bokeh.palettes import Spectral
from bokeh.palettes import Inferno
from bokeh.palettes import Plasma
from bokeh.palettes import Category10
# Habilitar la salida de Bokeh en el notebook
output_notebook()

# Agrupar datos por tipo de daño
daños_counts = df['Daños'].value_counts().reset_index()
daños_counts.columns = ['Tipo de Daño', 'Cantidad']

# Preparar los datos para el gráfico de torta
daños_counts['angle'] = daños_counts['Cantidad'] / daños_counts['Cantidad'].sum() * 2 * pi
daños_counts['start_angle'] = daños_counts['angle'].cumsum() - daños_counts['angle']
daños_counts['end_angle'] = daños_counts['angle'].cumsum()
daños_counts['color'] = Category10[len(daños_counts)]

# Configurar el DataSource de Bokeh
source = ColumnDataSource(daños_counts)

# Crear el gráfico de torta
p = figure(height=600, width=700, title="Distribución de Tipos de Daños en Incidentes",
           toolbar_location=None, tools="hover", tooltips="Cantidad Incidentes: @Cantidad")

p.wedge(x=0, y=1, radius=0.6, start_angle='start_angle', end_angle='end_angle',
        line_color="skyblue", fill_color='color', legend_field='Tipo de Daño', source=source,
        hover_fill_color='color', hover_line_color='black')

# Ajustar el título
p.title.text_font_size = '15pt'  # Tamaño de fuente del título
p.title.align = 'center'  # Alinear el título al centro

# Ajustar el diseño
p.axis.axis_label = None
p.axis.visible = False
p.grid.grid_line_color = None

print(daños_counts)

# Mostrar el gráfico
show(p)

     Tipo de Daño  Cantidad     angle  start_angle  end_angle    color
0  De importancia       860  2.611667     0.000000   2.611667  #1f77b4
1           Leves       518  1.573074     2.611667   4.184741  #ff7f0e
2         Ninguno       333  1.011262     4.184741   5.196003  #2ca02c
3       Destruida       317  0.962673     5.196003   6.158676  #d62728
4    Se desconoce        41  0.124510     6.158676   6.283185  #9467bd


La mayoría de los incidentes reportaron daños "De importancia" (860), seguidos por daños "Leves" (518) y "Ninguno" (333). Los casos con destrucción total sumaron 317, y en (41) no se especificó el daño.


---



## **Conteo de Lesiones, Daños y Fases de Incidentes Aéreos**

Se presentan las estadísticas de incidentes aéreos: lesiones ,daños y fases de vuelo. Estos datos ayudan a identificar patrones en la gravedad y la operación de los incidentes.


In [19]:
# Contar la cantidad de cada tipo único en las columnas 'Lesiones', 'Daños' y 'Fase'
lesiones_count = df['Lesiones'].value_counts()
danos_count = df['Daños'].value_counts()
Fase_count =df['Fase'].value_counts()

# Imprimir los resultados
print("Conteo de Lesiones: \n")
print(lesiones_count)

print("\nConteo de Daños:\n")
print(danos_count)

print("\nConteo de Fase: \n")
print(Fase_count)

Conteo de Lesiones: 

Lesiones
Ninguno        1494
Fatales         241
Leves           140
Graves           99
Desconocido      95
Name: count, dtype: int64

Conteo de Daños:

Daños
De importancia    860
Leves             518
Ninguno           333
Destruida         317
Se desconoce       41
Name: count, dtype: int64

Conteo de Fase: 

Fase
Aterrizaje             604
Crucero                449
Despegue               245
Maniobras              184
Ascenso                155
Aproximación           147
Rodaje salida           98
Rodaje a plataforma     88
Estacionado             58
Descenso                26
Se desconoce            15
Name: count, dtype: int64



---
## **Conteo de Lesiones y Daños por Fase de Vuelo**


In [20]:
# Contar las lesiones por fase
lesiones_por_fase = df.groupby(['Fase', 'Lesiones']).size().reset_index(name='Conteo')

# Contar los daños por fase
danos_por_fase = df.groupby(['Fase', 'Daños']).size().reset_index(name='Conteo')

print("\n", lesiones_por_fase,"\n")
print(danos_por_fase)


                    Fase     Lesiones  Conteo
0          Aproximación  Desconocido       6
1          Aproximación      Fatales      31
2          Aproximación       Graves      16
3          Aproximación        Leves      17
4          Aproximación      Ninguno      77
5               Ascenso  Desconocido       7
6               Ascenso      Fatales      29
7               Ascenso       Graves      15
8               Ascenso        Leves      14
9               Ascenso      Ninguno      90
10           Aterrizaje  Desconocido      26
11           Aterrizaje      Fatales       8
12           Aterrizaje       Graves      11
13           Aterrizaje        Leves      22
14           Aterrizaje      Ninguno     537
15              Crucero  Desconocido      24
16              Crucero      Fatales      84
17              Crucero       Graves      20
18              Crucero        Leves      31
19              Crucero      Ninguno     290
20             Descenso  Desconocido       1
21      


---

## **4) Daños por Fase de Vuelo**

Este gráfico con **Altair** muestra la distribución de daños según diferentes fases de vuelo. Se representan las cantidades de daños categorizados en cada fase, lo que permite identificar en qué etapas se registran más incidentes y su gravedad.

In [21]:
# Gráfico de daños por fase de vuelo (columnas individuales)
grafico_danos = alt.Chart(danos_por_fase).mark_bar().encode(
    x=alt.X('Daños:N', title='Tipo de Daño'),  # Eje X para el tipo de daño
    y=alt.Y('Conteo:Q', title='Conteo de Daños'),  # Eje Y para el conteo de daños
    column=alt.Column('Fase:N', title='Fase de Vuelo'),  # Columnas separadas por fase
    color='Daños:N',  # Color por tipo de daño
    tooltip=['Fase', 'Daños', 'Conteo']  # Tooltip para información adicional
).properties(
    title='Conteo de Daños por Tipo y Fase de Vuelo',
    width=70,  # Ancho de cada barra
    height=300  # Altura del gráfico
).configure_axis(
    labelAngle=45  # Ángulo de las etiquetas del eje
)

grafico_danos


the convert_dtype parameter is deprecated and will be removed in a future version.  Do ``ser.astype(object).apply()`` instead if you want ``convert_dtype=False``.


the convert_dtype parameter is deprecated and will be removed in a future version.  Do ``ser.astype(object).apply()`` instead if you want ``convert_dtype=False``.



En el gráfico, se observa que durante la fase de aterrizaje se registran la mayor cantidad de incidentes clasificados como "de importancia", seguidos por aquellos catalogados como "leves". Esto sugiere que la fase de aterrizaje es la que presenta un mayor predominio de incidentes.

---


## **Lesiones por Fase de Vuelo**

Este gráfico con **Altair**, muestra la distribución de lesiones en las distintas fases de vuelo. Se presentan las cantidades de lesiones categorizadas en cada fase, lo que permite identificar en qué etapas se registran más incidentes y su gravedad.

In [22]:
# Gráfico de lesiones por fase de vuelo (columnas individuales)
grafico_lesiones = alt.Chart(lesiones_por_fase).mark_bar().encode(
    x=alt.X('Lesiones:N', title='Tipo de Lesión'),  # Eje X para el tipo de lesión
    y=alt.Y('Conteo:Q', title='Conteo de Lesiones'),  # Eje Y para el conteo de lesiones
    column=alt.Column('Fase:N', title='Fase de Vuelo'),  # Columnas separadas por fase
    color='Lesiones:N',  # Color por tipo de lesión
    tooltip=['Fase', 'Lesiones', 'Conteo']  # Tooltip para información adicional
).properties(
    title='Conteo de Lesiones por Tipo y Fase de Vuelo',
    width=70,  # Ancho de cada barra
    height=300  # Altura del gráfico
).configure_axis(
    labelAngle=45  # Ángulo de las etiquetas del eje
)

grafico_lesiones


the convert_dtype parameter is deprecated and will be removed in a future version.  Do ``ser.astype(object).apply()`` instead if you want ``convert_dtype=False``.


the convert_dtype parameter is deprecated and will be removed in a future version.  Do ``ser.astype(object).apply()`` instead if you want ``convert_dtype=False``.



En el gráfico, se observa que la fase de aterrizaje presenta la mayor cantidad de incidentes, principalmente con el tipo de lesión categorizada como "ninguno". Le sigue la fase de crucero, que también registra incidentes con lesiones "ninguno", al igual que en la fase de despegue. Sin embargo, en la fase de crucero se destaca un número significativo de incidentes con lesiones "fatales", un patrón similar al que se observa en la fase de "maniobras".

---

## **Mapa de Calor de Incidentes en Provincias**

Este mapa de calor, creado **Pydeck**, visualiza la distribución de incidentes aéreos en distintas provincias de Argentina. El objetivo es identificar las áreas con mayor concentración de incidentes, lo que permite analizar patrones geográficos y tomar decisiones informadas para mejorar la seguridad en la aviación.

In [23]:
# Función para extraer latitud y longitud
def extract_lat_lon(coord):
    if isinstance(coord, str):
        coord = coord.strip('()').split(',')
        return pd.Series([float(part.strip()) if part.strip() not in ['None', ''] else None for part in coord])
    return pd.Series([None, None])

# Aplicar la función y crear nuevas columnas
df[['Lat', 'Lon']] = df['Lat - Lon'].apply(extract_lat_lon)

print(df[['Lat', 'Lon']].head(10))  # Muestra las primeras filas de las nuevas columnas

         Lat        Lon
0 -34.182222 -58.249722
1 -34.679167 -58.642778
2 -24.392778 -65.097778
3 -24.392778 -65.097778
4 -34.817222 -58.538611
5        NaN        NaN
6 -34.455000 -58.591389
7 -37.606111 -62.381944
8 -38.957500 -67.806111
9 -31.952222 -65.381389


###Eliminar NaN y Mostrar Mapa

In [24]:
# Eliminar filas con valores NaN en Lat o Lon
df_cleaned = df.dropna(subset=['Lat', 'Lon'])

# Crear una capa de mapa de calor
layer = pdk.Layer(
    'HeatmapLayer',
    data=df_cleaned,
    get_position='[Lon, Lat]',
    get_weight=1,
    radius_pixels=50,
    intensity=1,
    threshold=0.3,
)

# Configurar el mapa
view_state = pdk.ViewState(
    latitude=df_cleaned['Lat'].mean(),
    longitude=df_cleaned['Lon'].mean(),
    zoom=3.5,
    pitch=30,
)

# Crear el gráfico
mapa = pdk.Deck(layers=[layer], initial_view_state=view_state)

# Mostrar el gráfico
mapa.show()

<IPython.core.display.Javascript object>

Como se observa en el mapa, la mayor concentración de incidentes aéreos se registra en la provincia de Buenos Aires, seguida de Córdoba y Santa Fe. Esta tendencia ya fue confirmada en gráficos anteriores sobre la distribución por provincias y ahora se valida mediante las coordenadas de los incidentes. Al ampliar el mapa en la zona de Buenos Aires, se puede notar que la mayor densidad de incidentes se localiza cerca del Aeropuerto de Ezeiza, lo que respalda otros análisis previos que indican que la fase de aterrizaje es crítica en esta área.


---



## **Modelo de Machine Learning para la Predicción de Incidentes Aéreos 🦾**

En este proyecto, se contempla la posibilidad de implementar un modelo de machine learning para predecir incidentes aéreos. Utilizando datos recopilados, que incluirán variables como la provincia, la fase del vuelo, tipo de daño, modelo del avión, entre otros, se evaluarán algoritmos como la regresión logística y los árboles de decisión. Además, se aplicarán técnicas de validación cruzada para optimizar el rendimiento del modelo, lo que permitirá facilitar la anticipación y gestión de incidentes aéreos de manera más efectiva.


### **CONCLUSIÓN:** ✈ ⚠

El análisis de los incidentes aéreos en Argentina desde 1947 ha revelado un aumento en la frecuencia y gravedad de estos eventos en los últimos años, especialmente entre 2018 y 2022. Este incremento puede atribuirse a factores como el aumento de la actividad aérea y deficiencias en las medidas de seguridad actuales. Las provincias con mayor actividad aérea registran más incidentes y las fases críticas del vuelo, como el despegue y el aterrizaje, se han identificado como momentos de mayor riesgo.

En base en estos hallazgos, se recomienda implementar medidas de seguridad adicionales durante las fases críticas del vuelo para mitigar riesgos y mejorar la gestión del tráfico aéreo. Asimismo, la aplicación de técnicas de **machine learning**, como regresión logística y árboles de decisión, puede ofrecer herramientas valiosas para predecir incidentes aéreos, permitiendo a los organismos reguladores y compañías aéreas tomar decisiones informadas que optimicen la seguridad.