<a href="https://colab.research.google.com/github/c-e-leiva/Analisis-Interactivo-Aeronautico-Argentina/blob/main/An%C3%A1lisis_de_Incidentes_Aeron%C3%A1uticos_en_Argentina.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **An√°lisis de Incidentes Aeron√°uticos en Argentina (1947-2023) ‚ú¥‚úàüí•**

## **Descripci√≥n del Proyecto:**

Este proyecto tiene como objetivo descubrir patrones y tendencias en los incidentes aeron√°uticos ocurridos en Argentina desde 1947 hasta 2023. A trav√©s de un an√°lisis detallado de los datos, se identifican caracter√≠sticas clave y distribuciones que permiten comprender mejor las causas y circunstancias de estos incidentes. El an√°lisis cubre un periodo de 76 a√±os, proporcionando una visi√≥n hist√≥rica amplia sobre la evoluci√≥n de los incidentes aeron√°uticos en el pa√≠s.

Se emplearon t√©cnicas de estad√≠stica descriptiva y se crearon visualizaciones interactivas como gr√°ficos de barras, mapas y l√≠neas temporales para facilitar la comprensi√≥n de los patrones, as√≠ como identificar tendencias y anomal√≠as a lo largo del tiempo. Los factores analizados incluyen la distribuci√≥n geogr√°fica de los incidentes por provincias, el tipo de da√±o registrado y la fase del vuelo en la que ocurrieron los incidentes. Estos aspectos son fundamentales para entender las circunstancias en las que se producen los eventos y las √°reas m√°s vulnerables del pa√≠s.

En esta fase exploratoria, se han identificado tendencias en la frecuencia de incidentes en ciertas regiones y en fases espec√≠ficas del vuelo, lo que proporciona una base para futuros an√°lisis m√°s detallados y medidas preventivas. En una fase posterior, se evaluar√° la posibilidad de aplicar modelos de aprendizaje autom√°tico (machine learning) para predecir incidentes futuros. Bas√°ndose en los patrones hist√≥ricos descubiertos, se podr√°n entrenar modelos que analicen las variables m√°s significativas y generen predicciones, lo que permitir√° mejorar la gesti√≥n del riesgo y la prevenci√≥n de incidentes a√©reos en Argentina.

El dataset utilizado para este an√°lisis fue obtenido de Kaggle y se puede acceder a √©l a trav√©s de [click aqu√≠](https://www.kaggle.com/datasets/maifernandarios/sucesos-en-aviacin-argentina).


## **Preguntas de Investigaci√≥n/Hip√≥tesis:**

**1) ¬øCu√°l es la d√©cada/a√±o con m√°s incidentes aeron√°uticos en Argentina?**

- **Hip√≥tesis:** Se espera que las d√©cadas m√°s  recientes, con mayor tr√°fico a√©reo, presenten un mayor n√∫mero de incidentes.


**2) ¬øC√≥mo han variado los incidentes aeron√°uticos en Argentina a lo largo del tiempo?**

- **Hip√≥tesis:** Se espera que haya una tendencia creciente en los incidentes debido al incremento en vuelos comerciales en las √∫ltimas d√©cadas, aunque puede haber ca√≠das en algunos a√±os por factores externos como crisis econ√≥micas o pandemias.


**3) ¬øCu√°les son las provincias con m√°s incidentes y qu√© factores pueden influir en su frecuencia?**

- **Hip√≥tesis:** Las provincias con m√°s actividad aeron√°utica deber√≠an mostrar mayor cantidad de incidentes debido a su tr√°fico elevado.


**4) ¬øExiste alguna relaci√≥n entre el tipo de fase del vuelo y el tipo de lesiones o da√±os?**

- **Hip√≥tesis:** Los incidentes m√°s graves, con mayores da√±os y lesiones, podr√≠an estar m√°s relacionados con las fases de aterrizaje y despegue, que suelen ser las m√°s cr√≠ticas en el vuelo.




---



---



---


### **Conexi√≥n de Google Colab con Google Drive**

In [2]:
# Montar Google Drive correctamente
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## **Instalaci√≥n de Librerias**

In [7]:
# Instalaci√≥n de librer√≠as necesarias en caso de estar en Google Colab
!pip install plotly
!pip install bokeh
!pip install altair
!pip install pydeck

Collecting pydeck
  Downloading pydeck-0.9.1-py2.py3-none-any.whl.metadata (4.1 kB)
Downloading pydeck-0.9.1-py2.py3-none-any.whl (6.9 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m6.9/6.9 MB[0m [31m40.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pydeck
Successfully installed pydeck-0.9.1


## **Importaci√≥n de librerias**

In [8]:
# Importar librer√≠as necesarias para el an√°lisis
import pandas as pd
import plotly.express as px
import altair as alt
import pydeck as pdk

## **Carga y Descripci√≥n del Dataset**



In [9]:
# Cargar el dataset desde la ruta especificada en Google Drive
ruta_archivo = '/content/drive/My Drive/PP1/ProyectoFinal/sucesos-aeronauticos-argentina.csv'
df = pd.read_csv(ruta_archivo)

# Mostrar informaci√≥n general del DataFrame
print("\nINFORMACI√ìN GENERAL DEL DATAFRAME:\n")
df.info()

# Mostrar las primeras filas del DataFrame
print("\nPRIMERAS 5 FILAS DEL DATAFRAME:\n")
df.head(5)


INFORMACI√ìN GENERAL DEL DATAFRAME:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2069 entries, 0 to 2068
Data columns (total 19 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   N¬∞ Exp.                        2069 non-null   object
 1   Fecha                          2069 non-null   object
 2   Estado                         2069 non-null   object
 3   Modelo                         2069 non-null   object
 4   Matr√≠cula                      2069 non-null   object
 5   Da√±os                          2069 non-null   object
 6   Fase                           2069 non-null   object
 7   Lat - Lon                      2069 non-null   object
 8   Lesiones                       2069 non-null   object
 9   Fecha y hora de notificiacion  2069 non-null   object
 10  fecha y hora de arribo         2069 non-null   object
 11  fecha y hora de finalizacion   2069 non-null   object
 12  Provincia            

Unnamed: 0,N¬∞ Exp.,Fecha,Estado,Modelo,Matr√≠cula,Da√±os,Fase,Lat - Lon,Lesiones,Fecha y hora de notificiacion,fecha y hora de arribo,fecha y hora de finalizacion,Provincia,Lugar,tipo Lugar,altura,Oficina,Canal,Fabricante
0,67901159/23,10/6/2023,en curso,AB-115 (Aero Boero),LV-LPI,De importancia,Aterrizaje,"(-34.18222222222222, -58.249722222222225)",Ninguno,S/D,S/D,S/D,BUENOS AIRES (BUE),Isla Martin Garcia,AD,S/D,S/D,S/D,Aero Boero
1,67900259/23,7/6/2023,en curso,B-23 (Beechcraft),LV-BPE,De importancia,Rodaje salida,"(-34.67916666666667, -58.64277777777778)",Ninguno,S/D,S/D,S/D,BUENOS AIRES (BUE),Mor√≥n,AD,S/D,S/D,S/D,Beechcraft
2,59831371/23,24/5/2023,en curso,B-737-800 (Boeing),LV-GGK,Leves,Crucero,"(-24.392777777777777, -65.09777777777778)",Desconocido,S/D,S/D,S/D,JUJUY (JUJ),Gobernador Guzman,AP,S/D,S/D,S/D,Boeing
3,59832202/23,24/5/2023,en curso,B-737-700 (Boeing),LV-CAD,Ninguno,Crucero,"(-24.392777777777777, -65.09777777777778)",Desconocido,S/D,S/D,S/D,JUJUY (JUJ),Gobernador Guzman,AP,S/D,S/D,S/D,Boeing
4,58147231/23,22/5/2023,en curso,B-777 (Boeing),N78008,Ninguno,Aterrizaje,"(-34.81722222222223, -58.53861111111111)",Ninguno,S/D,S/D,S/D,BUENOS AIRES (BUE),Ministro Pistarini -Ezeiza (SAEZ),AP,S/D,S/D,S/D,Boeing


## **Verificaci√≥n de Nulos en el Dataset**

In [10]:
# Verificar valores nulos
print("\nVALORES NULOS EN EL DATASET:\n")
print(df.isnull().sum())


VALORES NULOS EN EL DATASET:

N¬∞ Exp.                          0
Fecha                            0
Estado                           0
Modelo                           0
Matr√≠cula                        0
Da√±os                            0
Fase                             0
Lat - Lon                        0
Lesiones                         0
Fecha y hora de notificiacion    0
fecha y hora de arribo           0
fecha y hora de finalizacion     0
Provincia                        0
Lugar                            0
tipo Lugar                       0
altura                           0
Oficina                          0
Canal                            0
Fabricante                       0
dtype: int64



---

# **GR√ÅFICOS INTERACTIVOS:**

---


# **1) Distribuci√≥n Temporal de Incidentes (por D√©cada):**

En este punto se busca entender c√≥mo los incidentes a√©reos en Argentina han variado a lo largo del tiempo, agrupando los datos por d√©cadas y a√±os para visualizar posibles patrones o tendencias significativas con un gr√°fico interactivo con plotly.

In [11]:
# Convertir la columna de fechas, indicando que el d√≠a viene primero
df['Fecha'] = pd.to_datetime(df['Fecha'], dayfirst=True, errors='raise')

# Extraer el a√±o para an√°lisis por d√©cada
df['A√±o'] = df['Fecha'].dt.year

# Crear la columna 'D√©cada' agrupando por decenas
df['D√©cada'] = (df['A√±o'] // 10) * 10

# Conteo de incidentes por d√©cada
incidentes_por_decada = df['D√©cada'].value_counts().sort_index()

# Crear gr√°fico interactivo con Plotly: Incidentes por d√©cada
fig = px.bar(incidentes_por_decada,
             x=incidentes_por_decada.index,
             y=incidentes_por_decada.values,
             labels={'x': 'D√©cada', 'y': 'N√∫mero de Incidentes'},
             title='Incidentes A√©reos en Argentina por D√©cada',
             text=incidentes_por_decada.values, # Mostrar etiquetas con los valores
             color=incidentes_por_decada.values, # Aplicar un gradiente de color
             color_continuous_scale='Blues' # Escala de colores
            )

# Configurar ejes en escala logar√≠tmica para una mejor visualizaci√≥n de diferencias
fig.update_yaxes(type="log", title_text="N√∫mero de Incidentes (Escala Logar√≠tmica)")

# Actualizar el tama√±o de las etiquetas y layout
fig.update_layout(
    title_font_size=20,
    xaxis_title="D√©cada",
    yaxis_title="N√∫mero de Incidentes",
    uniformtext_minsize=8,
    uniformtext_mode='hide',
    coloraxis_showscale=False
)

# Mostrar gr√°fico interactivo
print("incidentes por decada:", incidentes_por_decada)
fig.show()

incidentes por decada: D√©cada
1940      1
1990    139
2000    676
2010    906
2020    347
Name: count, dtype: int64


- La d√©cada de 2000-2010 mostr√≥ un notable aumento en incidentes, lo cual podr√≠a estar relacionado con el crecimiento del tr√°fico a√©reo durante esa √©poca

## **Distribuci√≥n Temporal de Incidentes (por A√±o):**
En este punto se busca entender c√≥mo los incidentes a√©reos en Argentina han variado a lo largo del tiempo, agrupando los datos por a√±os para visualizar posibles patrones o tendencias significativas con un gr√°fico interactivo con plotly.

In [12]:
# Importar librer√≠as necesarias
import pandas as pd
import plotly.express as px

# Convertir la columna de fechas a datetime
df['Fecha'] = pd.to_datetime(df['Fecha'], dayfirst=True, errors='coerce')

# Filtrar filas con fechas v√°lidas
df = df[df['Fecha'].notnull()]

# Extraer el a√±o y contar incidentes √∫nicos por a√±o
incidentes_por_a√±o = df['Fecha'].dt.year.value_counts().reset_index()
incidentes_por_a√±o.columns = ['A√±o', 'Total Incidentes']

# Ordenar por a√±o
incidentes_por_a√±o = incidentes_por_a√±o.sort_values(by='A√±o')

# Asegurarse de que el 'A√±o' sea categ√≥rico para evitar agrupaciones
incidentes_por_a√±o['A√±o'] = incidentes_por_a√±o['A√±o'].astype(str)

# Crear gr√°fico interactivo con Plotly: Incidentes por a√±o (solo a√±os con registros)
fig = px.bar(incidentes_por_a√±o,
             x='A√±o',
             y='Total Incidentes',
             labels={'A√±o': 'A√±o', 'Total Incidentes': 'N√∫mero de Incidentes'},
             title='Incidentes A√©reos en Argentina por A√±o',
             text='Total Incidentes',  # Mostrar etiquetas con los valores
             color='Total Incidentes',  # Aplicar un gradiente de color
             color_continuous_scale='Blues'  # Escala de colores
            )

# Ajustar el layout para asegurarnos de que solo se muestren los a√±os presentes en el DataFrame
fig.update_layout(
    title_font_size=20,
    xaxis_title="A√±o",
    yaxis_title="N√∫mero de Incidentes",
)

# Mostrar gr√°fico interactivo
print("incidentes por a√±o:", incidentes_por_a√±o)

incidentes por a√±o:      A√±o  Total Incidentes
30  1947                 1
29  1994                 1
27  1995                 2
28  1996                 1
26  1997                20
21  1998                60
24  1999                55
11  2000                77
14  2001                74
19  2002                64
16  2003                71
23  2004                55
12  2005                76
17  2006                70
22  2007                59
20  2008                62
18  2009                68
6   2010                91
7   2011                82
10  2012                78
4   2013               106
15  2014                72
13  2015                74
5   2016                96
8   2017                80
2   2018               113
1   2019               114
9   2020                80
3   2021               109
0   2022               118
25  2023                40


In [13]:
#Mostrar Gr√°fico
fig.show()

- A partir del Gr√°fico el a√±o 2022 es el que mayor n√∫mero de incidentes tuvo con 118.


---



## **Estad√≠stica Descriptiva: Total, M√°ximo y Media de Incidentes**

Este an√°lisis resume la cantidad total de incidentes a√©reos, el a√±o con m√°s incidentes y la media anual, proporcionando una visi√≥n general del comportamiento de los incidentes registrados.


In [14]:
# C√°lculo del total de incidentes de los a√±os registrados
total_incidentes = incidentes_por_a√±o['Total Incidentes'].sum()

# C√°lculo del m√°ximo n√∫mero de incidentes en un a√±o
max_incidentes = incidentes_por_a√±o['Total Incidentes'].max()

# Obtener el a√±o correspondiente al m√°ximo n√∫mero de incidentes
a√±o_max_incidentes = incidentes_por_a√±o.loc[incidentes_por_a√±o['Total Incidentes'].idxmax(), 'A√±o']

# C√°lculo de la media del n√∫mero de incidentes por a√±o
media_incidentes = incidentes_por_a√±o['Total Incidentes'].mean()

# Mostrar resultados
print(f"El total de incidentes registrados es: [{total_incidentes}].")
print(f"El m√°ximo n√∫mero de incidentes en un a√±o es: [{max_incidentes}] en el a√±o [{a√±o_max_incidentes}].")
print(f"La media del n√∫mero de incidentes por a√±o es: [{media_incidentes:.2f}].")

El total de incidentes registrados es: [2069].
El m√°ximo n√∫mero de incidentes en un a√±o es: [118] en el a√±o [2022].
La media del n√∫mero de incidentes por a√±o es: [66.74].



---

## **Top 10 A√±os con Mayor Cantidad de Incidentes A√©reos**
Este gr√°fico con plotly muestra los 10 a√±os con el mayor n√∫mero de incidentes a√©reos registrados en Argentina.


In [15]:
# Obtener el top 10 de a√±os con mayor n√∫mero de incidentes
top_10_incidentes = incidentes_por_a√±o.nlargest(10, 'Total Incidentes')

# Gr√°fico de barras para el top 10
fig = px.bar(top_10_incidentes,
             x='A√±o',
             y='Total Incidentes',
             title='Top 10 A√±os con Mayor N√∫mero de Incidentes',
             labels={'Total Incidentes': 'N√∫mero de Incidentes', 'A√±o': 'A√±o'},
             color='Total Incidentes',
             color_continuous_scale='Reds',
             text='Total Incidentes')  # Agregar texto sobre las barras

# Ajustar la apariencia del gr√°fico
fig.update_traces(texttemplate='%{text}', textposition='outside')  # Posicionar el texto afuera de las barras

# Mostrar el gr√°fico
print("Top 10 incidentes por a√±o:\n\n", top_10_incidentes)
fig.show()

Top 10 incidentes por a√±o:

     A√±o  Total Incidentes
0  2022               118
1  2019               114
2  2018               113
3  2021               109
4  2013               106
5  2016                96
6  2010                91
7  2011                82
8  2017                80
9  2020                80


El gr√°fico revela un incremento significativo en los incidentes a√©reos en los √∫ltimos a√±os, especialmente entre 2018 y 2022, lo que sugiere un posible patr√≥n ascendente. Este aumento podr√≠a estar relacionado con factores como mayor tr√°fico a√©reo.

---

## **2) Gr√°fico de Tendencia de Incidentes A√©reos (1947 - 2023)**
Este gr√°fico interactivo de Plotly muestra la evoluci√≥n del n√∫mero de incidentes a√©reos en Argentina desde 1947 hasta 2023.

In [16]:
# Gr√°fico de tendencia de incidentes a lo largo del tiempo
fig = px.line(incidentes_por_a√±o, x='A√±o', y='Total Incidentes',
              title='Tendencia de Incidentes Aeron√°uticos en Argentina (1947-2023)',
              markers=True)

fig.update_layout(xaxis_title='A√±o', yaxis_title='Total de Incidentes',
                  xaxis=dict(tickmode='linear'))
fig.show()

La tendencia revela fluctuaciones en los incidentes a lo largo del tiempo, con un aumento considerable en los √∫ltimos a√±os, alcanzando su pico en 2022. Esto permite observar patrones hist√≥ricos y posibles periodos de aumento en los incidentes.


---



## **3) Top 10 Provincias con Mayor N√∫mero de Incidentes A√©reos**

Este gr√°fico interactivo de Plotly muestra las 10 provincias de Argentina con el mayor n√∫mero de incidentes a√©reos registrados.


In [17]:
# Contar el n√∫mero total de incidentes por provincia
incidentes_por_provincia = df['Provincia'].value_counts().reset_index()
incidentes_por_provincia.columns = ['Provincia', 'Total Incidentes']

# Obtener el top 10 de provincias con m√°s incidentes y ordenarlas de mayor a menor
top_10_provincias = incidentes_por_provincia.nlargest(10, 'Total Incidentes').sort_values(by='Total Incidentes', ascending=True)

# Crear el gr√°fico de barras horizontal
fig = px.bar(top_10_provincias,
             x='Total Incidentes',
             y='Provincia',
             title='Top 10 Provincias con Mayor N√∫mero de Incidentes',
             text='Total Incidentes',
             orientation='h')  # Aqu√≠ se cambia a horizontal

# Actualizar el dise√±o
fig.update_traces(texttemplate='%{text}', textposition='outside')
fig.update_layout(xaxis_title='Total de Incidentes', yaxis_title='Provincia')


print("Top 10 de provincias con mayor numero de incidentes:\n\n", top_10_provincias.iloc[::-1])
# Mostrar el gr√°fico
fig.show()

Top 10 de provincias con mayor numero de incidentes:

             Provincia  Total Incidentes
0  BUENOS AIRES (BUE)               891
1       CORDOBA (CBA)               243
2      SANTA FE (SFE)               163
3       MENDOZA (DOZ)                90
4    ENTRE RIOS (ERS)                83
5         CHACO (CHA)                67
6         SALTA (SAL)                64
7     RIO NEGRO (RNG)                55
8    CORRIENTES (CRR)                52
9       NEUQUEN (NEU)                46


La provincia de Buenos Aires presenta un n√∫mero significativamente mayor de incidentes en comparaci√≥n con las dem√°s, lo cual podr√≠a estar relacionado con su densidad poblacional y mayor actividad a√©rea. Las provincias de C√≥rdoba y Santa Fe tambi√©n destacan, aunque a menor escala, posiblemente debido a su tr√°fico a√©reo frecuente.



---



# **Distribuci√≥n de Incidentes por Tipo de Da√±o**

Este gr√°fico de **Bokeh** representa la cantidad de incidentes a√©reos en Argentina distribuidos seg√∫n el tipo de da√±o ocasionado. Las categor√≠as incluyen "De importancia," "Leves," "Ninguno," "Destruida," y "Se desconoce."


In [18]:
# Importar funciones para la salida en el notebook y mostrar gr√°ficos
from bokeh.plotting import figure, show
from bokeh.io import output_notebook
from bokeh.models import ColumnDataSource
# Importar la funci√≥n para calcular sumas acumuladas
from math import pi

# Importar una paleta de colores
from bokeh.palettes import Set1
from bokeh.palettes import Magma
from bokeh.palettes import Dark2
from bokeh.palettes import Spectral
from bokeh.palettes import Inferno
from bokeh.palettes import Plasma
from bokeh.palettes import Category10
# Habilitar la salida de Bokeh en el notebook
output_notebook()

# Agrupar datos por tipo de da√±o
da√±os_counts = df['Da√±os'].value_counts().reset_index()
da√±os_counts.columns = ['Tipo de Da√±o', 'Cantidad']

# Preparar los datos para el gr√°fico de torta
da√±os_counts['angle'] = da√±os_counts['Cantidad'] / da√±os_counts['Cantidad'].sum() * 2 * pi
da√±os_counts['start_angle'] = da√±os_counts['angle'].cumsum() - da√±os_counts['angle']
da√±os_counts['end_angle'] = da√±os_counts['angle'].cumsum()
da√±os_counts['color'] = Category10[len(da√±os_counts)]

# Configurar el DataSource de Bokeh
source = ColumnDataSource(da√±os_counts)

# Crear el gr√°fico de torta
p = figure(height=600, width=700, title="Distribuci√≥n de Tipos de Da√±os en Incidentes",
           toolbar_location=None, tools="hover", tooltips="Cantidad Incidentes: @Cantidad")

p.wedge(x=0, y=1, radius=0.6, start_angle='start_angle', end_angle='end_angle',
        line_color="skyblue", fill_color='color', legend_field='Tipo de Da√±o', source=source,
        hover_fill_color='color', hover_line_color='black')

# Ajustar el t√≠tulo
p.title.text_font_size = '15pt'  # Tama√±o de fuente del t√≠tulo
p.title.align = 'center'  # Alinear el t√≠tulo al centro

# Ajustar el dise√±o
p.axis.axis_label = None
p.axis.visible = False
p.grid.grid_line_color = None

print(da√±os_counts)

# Mostrar el gr√°fico
show(p)

     Tipo de Da√±o  Cantidad     angle  start_angle  end_angle    color
0  De importancia       860  2.611667     0.000000   2.611667  #1f77b4
1           Leves       518  1.573074     2.611667   4.184741  #ff7f0e
2         Ninguno       333  1.011262     4.184741   5.196003  #2ca02c
3       Destruida       317  0.962673     5.196003   6.158676  #d62728
4    Se desconoce        41  0.124510     6.158676   6.283185  #9467bd


La mayor√≠a de los incidentes reportaron da√±os "De importancia" (860), seguidos por da√±os "Leves" (518) y "Ninguno" (333). Los casos con destrucci√≥n total sumaron 317, y en (41) no se especific√≥ el da√±o.


---



## **Conteo de Lesiones, Da√±os y Fases de Incidentes A√©reos**

Se presentan las estad√≠sticas de incidentes a√©reos: lesiones ,da√±os y fases de vuelo. Estos datos ayudan a identificar patrones en la gravedad y la operaci√≥n de los incidentes.


In [19]:
# Contar la cantidad de cada tipo √∫nico en las columnas 'Lesiones', 'Da√±os' y 'Fase'
lesiones_count = df['Lesiones'].value_counts()
danos_count = df['Da√±os'].value_counts()
Fase_count =df['Fase'].value_counts()

# Imprimir los resultados
print("Conteo de Lesiones: \n")
print(lesiones_count)

print("\nConteo de Da√±os:\n")
print(danos_count)

print("\nConteo de Fase: \n")
print(Fase_count)

Conteo de Lesiones: 

Lesiones
Ninguno        1494
Fatales         241
Leves           140
Graves           99
Desconocido      95
Name: count, dtype: int64

Conteo de Da√±os:

Da√±os
De importancia    860
Leves             518
Ninguno           333
Destruida         317
Se desconoce       41
Name: count, dtype: int64

Conteo de Fase: 

Fase
Aterrizaje             604
Crucero                449
Despegue               245
Maniobras              184
Ascenso                155
Aproximaci√≥n           147
Rodaje salida           98
Rodaje a plataforma     88
Estacionado             58
Descenso                26
Se desconoce            15
Name: count, dtype: int64



---
## **Conteo de Lesiones y Da√±os por Fase de Vuelo**


In [20]:
# Contar las lesiones por fase
lesiones_por_fase = df.groupby(['Fase', 'Lesiones']).size().reset_index(name='Conteo')

# Contar los da√±os por fase
danos_por_fase = df.groupby(['Fase', 'Da√±os']).size().reset_index(name='Conteo')

print("\n", lesiones_por_fase,"\n")
print(danos_por_fase)


                    Fase     Lesiones  Conteo
0          Aproximaci√≥n  Desconocido       6
1          Aproximaci√≥n      Fatales      31
2          Aproximaci√≥n       Graves      16
3          Aproximaci√≥n        Leves      17
4          Aproximaci√≥n      Ninguno      77
5               Ascenso  Desconocido       7
6               Ascenso      Fatales      29
7               Ascenso       Graves      15
8               Ascenso        Leves      14
9               Ascenso      Ninguno      90
10           Aterrizaje  Desconocido      26
11           Aterrizaje      Fatales       8
12           Aterrizaje       Graves      11
13           Aterrizaje        Leves      22
14           Aterrizaje      Ninguno     537
15              Crucero  Desconocido      24
16              Crucero      Fatales      84
17              Crucero       Graves      20
18              Crucero        Leves      31
19              Crucero      Ninguno     290
20             Descenso  Desconocido       1
21 


---

## **4) Da√±os por Fase de Vuelo**

Este gr√°fico con **Altair** muestra la distribuci√≥n de da√±os seg√∫n diferentes fases de vuelo. Se representan las cantidades de da√±os categorizados en cada fase, lo que permite identificar en qu√© etapas se registran m√°s incidentes y su gravedad.

In [21]:
# Gr√°fico de da√±os por fase de vuelo (columnas individuales)
grafico_danos = alt.Chart(danos_por_fase).mark_bar().encode(
    x=alt.X('Da√±os:N', title='Tipo de Da√±o'),  # Eje X para el tipo de da√±o
    y=alt.Y('Conteo:Q', title='Conteo de Da√±os'),  # Eje Y para el conteo de da√±os
    column=alt.Column('Fase:N', title='Fase de Vuelo'),  # Columnas separadas por fase
    color='Da√±os:N',  # Color por tipo de da√±o
    tooltip=['Fase', 'Da√±os', 'Conteo']  # Tooltip para informaci√≥n adicional
).properties(
    title='Conteo de Da√±os por Tipo y Fase de Vuelo',
    width=70,  # Ancho de cada barra
    height=300  # Altura del gr√°fico
).configure_axis(
    labelAngle=45  # √Ångulo de las etiquetas del eje
)

grafico_danos


the convert_dtype parameter is deprecated and will be removed in a future version.  Do ``ser.astype(object).apply()`` instead if you want ``convert_dtype=False``.


the convert_dtype parameter is deprecated and will be removed in a future version.  Do ``ser.astype(object).apply()`` instead if you want ``convert_dtype=False``.



En el gr√°fico, se observa que durante la fase de aterrizaje se registran la mayor cantidad de incidentes clasificados como "de importancia", seguidos por aquellos catalogados como "leves". Esto sugiere que la fase de aterrizaje es la que presenta un mayor predominio de incidentes.

---


## **Lesiones por Fase de Vuelo**

Este gr√°fico con **Altair**, muestra la distribuci√≥n de lesiones en las distintas fases de vuelo. Se presentan las cantidades de lesiones categorizadas en cada fase, lo que permite identificar en qu√© etapas se registran m√°s incidentes y su gravedad.

In [22]:
# Gr√°fico de lesiones por fase de vuelo (columnas individuales)
grafico_lesiones = alt.Chart(lesiones_por_fase).mark_bar().encode(
    x=alt.X('Lesiones:N', title='Tipo de Lesi√≥n'),  # Eje X para el tipo de lesi√≥n
    y=alt.Y('Conteo:Q', title='Conteo de Lesiones'),  # Eje Y para el conteo de lesiones
    column=alt.Column('Fase:N', title='Fase de Vuelo'),  # Columnas separadas por fase
    color='Lesiones:N',  # Color por tipo de lesi√≥n
    tooltip=['Fase', 'Lesiones', 'Conteo']  # Tooltip para informaci√≥n adicional
).properties(
    title='Conteo de Lesiones por Tipo y Fase de Vuelo',
    width=70,  # Ancho de cada barra
    height=300  # Altura del gr√°fico
).configure_axis(
    labelAngle=45  # √Ångulo de las etiquetas del eje
)

grafico_lesiones


the convert_dtype parameter is deprecated and will be removed in a future version.  Do ``ser.astype(object).apply()`` instead if you want ``convert_dtype=False``.


the convert_dtype parameter is deprecated and will be removed in a future version.  Do ``ser.astype(object).apply()`` instead if you want ``convert_dtype=False``.



En el gr√°fico, se observa que la fase de aterrizaje presenta la mayor cantidad de incidentes, principalmente con el tipo de lesi√≥n categorizada como "ninguno". Le sigue la fase de crucero, que tambi√©n registra incidentes con lesiones "ninguno", al igual que en la fase de despegue. Sin embargo, en la fase de crucero se destaca un n√∫mero significativo de incidentes con lesiones "fatales", un patr√≥n similar al que se observa en la fase de "maniobras".

---

## **Mapa de Calor de Incidentes en Provincias**

Este mapa de calor, creado **Pydeck**, visualiza la distribuci√≥n de incidentes a√©reos en distintas provincias de Argentina. El objetivo es identificar las √°reas con mayor concentraci√≥n de incidentes, lo que permite analizar patrones geogr√°ficos y tomar decisiones informadas para mejorar la seguridad en la aviaci√≥n.

In [23]:
# Funci√≥n para extraer latitud y longitud
def extract_lat_lon(coord):
    if isinstance(coord, str):
        coord = coord.strip('()').split(',')
        return pd.Series([float(part.strip()) if part.strip() not in ['None', ''] else None for part in coord])
    return pd.Series([None, None])

# Aplicar la funci√≥n y crear nuevas columnas
df[['Lat', 'Lon']] = df['Lat - Lon'].apply(extract_lat_lon)

print(df[['Lat', 'Lon']].head(10))  # Muestra las primeras filas de las nuevas columnas

         Lat        Lon
0 -34.182222 -58.249722
1 -34.679167 -58.642778
2 -24.392778 -65.097778
3 -24.392778 -65.097778
4 -34.817222 -58.538611
5        NaN        NaN
6 -34.455000 -58.591389
7 -37.606111 -62.381944
8 -38.957500 -67.806111
9 -31.952222 -65.381389


###Eliminar NaN y Mostrar Mapa

In [24]:
# Eliminar filas con valores NaN en Lat o Lon
df_cleaned = df.dropna(subset=['Lat', 'Lon'])

# Crear una capa de mapa de calor
layer = pdk.Layer(
    'HeatmapLayer',
    data=df_cleaned,
    get_position='[Lon, Lat]',
    get_weight=1,
    radius_pixels=50,
    intensity=1,
    threshold=0.3,
)

# Configurar el mapa
view_state = pdk.ViewState(
    latitude=df_cleaned['Lat'].mean(),
    longitude=df_cleaned['Lon'].mean(),
    zoom=3.5,
    pitch=30,
)

# Crear el gr√°fico
mapa = pdk.Deck(layers=[layer], initial_view_state=view_state)

# Mostrar el gr√°fico
mapa.show()

<IPython.core.display.Javascript object>

Como se observa en el mapa, la mayor concentraci√≥n de incidentes a√©reos se registra en la provincia de Buenos Aires, seguida de C√≥rdoba y Santa Fe. Esta tendencia ya fue confirmada en gr√°ficos anteriores sobre la distribuci√≥n por provincias y ahora se valida mediante las coordenadas de los incidentes. Al ampliar el mapa en la zona de Buenos Aires, se puede notar que la mayor densidad de incidentes se localiza cerca del Aeropuerto de Ezeiza, lo que respalda otros an√°lisis previos que indican que la fase de aterrizaje es cr√≠tica en esta √°rea.


---



## **Modelo de Machine Learning para la Predicci√≥n de Incidentes A√©reos ü¶æ**

En este proyecto, se contempla la posibilidad de implementar un modelo de machine learning para predecir incidentes a√©reos. Utilizando datos recopilados, que incluir√°n variables como la provincia, la fase del vuelo, tipo de da√±o, modelo del avi√≥n, entre otros, se evaluar√°n algoritmos como la regresi√≥n log√≠stica y los √°rboles de decisi√≥n. Adem√°s, se aplicar√°n t√©cnicas de validaci√≥n cruzada para optimizar el rendimiento del modelo, lo que permitir√° facilitar la anticipaci√≥n y gesti√≥n de incidentes a√©reos de manera m√°s efectiva.


### **CONCLUSI√ìN:** ‚úà ‚ö†

El an√°lisis de los incidentes a√©reos en Argentina desde 1947 ha revelado un aumento en la frecuencia y gravedad de estos eventos en los √∫ltimos a√±os, especialmente entre 2018 y 2022. Este incremento puede atribuirse a factores como el aumento de la actividad a√©rea y deficiencias en las medidas de seguridad actuales. Las provincias con mayor actividad a√©rea registran m√°s incidentes y las fases cr√≠ticas del vuelo, como el despegue y el aterrizaje, se han identificado como momentos de mayor riesgo.

En base en estos hallazgos, se recomienda implementar medidas de seguridad adicionales durante las fases cr√≠ticas del vuelo para mitigar riesgos y mejorar la gesti√≥n del tr√°fico a√©reo. Asimismo, la aplicaci√≥n de t√©cnicas de **machine learning**, como regresi√≥n log√≠stica y √°rboles de decisi√≥n, puede ofrecer herramientas valiosas para predecir incidentes a√©reos, permitiendo a los organismos reguladores y compa√±√≠as a√©reas tomar decisiones informadas que optimicen la seguridad.