Lo primero que vamos a realizar sera importar las librerias para analizar y explorar nuestros datos de la mejor manera.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Despues de haber cargado las librerias vamos a leer nuestro archivo csv para ver la data que tenemos dentro y empezar a trabajar con ella.

In [None]:
df = pd.read_csv('AccidentesAviones.csv')
df.head(10)

Si analizamos los nombres de las columnas están en 2 idiomas diferentes, tambien tienen mayusculas intermedio y nombres que no van de acuerdo con el dato, lo que haremos será cambiar el nombre de cada columna para hacer un análisis en nuestro idioma y entender nuestros datos.

In [None]:
#cambiar nombre de columna
df.rename(columns={'Unnamed: 0':'Id Catastrofe'}, inplace=True)
df.rename(columns={'fecha':'Fecha'}, inplace=True)
df.rename(columns={'HORA declarada':'Hora'}, inplace=True)
df.rename(columns={'Ruta':'Lugar'}, inplace=True)
df.rename(columns={'OperadOR':'Aerolinea'}, inplace=True)
df.rename(columns={'flight_no':'Vuelo No.'}, inplace=True)
df.rename(columns={'route':'Ruta'}, inplace=True)
df.rename(columns={'ac_type':'Tipo'}, inplace=True)
df.rename(columns={'registration':'Modelo'}, inplace=True)
df.rename(columns={'cn_ln':'Fuselaje'}, inplace=True)
df.rename(columns={'all_aboard':'Pasajeros'}, inplace=True)
df.rename(columns={'PASAJEROS A BORDO':'Pasajeros 2'}, inplace=True)
df.rename(columns={'crew_aboard':'Tripulación'}, inplace=True)
df.rename(columns={'cantidad de fallecidos':'Taza de fatalidad'}, inplace=True)
df.rename(columns={'passenger_fatalities':'Pasajeros fatales'}, inplace=True)
df.rename(columns={'crew_fatalities':'Tripulación fatal'}, inplace=True)
df.rename(columns={'ground':'Fallecidos en tierra'}, inplace=True)
df.rename(columns={'summary':'Resumen'}, inplace=True)
df.head(11)

Si analizamos nuestros datos vemos que hay gran cantidad de valores con el signo "?", lo que vamos hacer con esos datos va ser transformarlos a valores nulos para saber la cantidad exacta de faltantes en cada columna.

In [None]:
df.replace('?', np.nan, inplace=True)
df.head()

Ahora eliminamos columnas que no aportan nada para el análisis, esto debido a gran cantidad de valores nulos, datos incongruentes, irrelevancia con los objetivos del análisis y rebundancia de la data.

In [None]:
df.drop(['Hora','Vuelo No.', 'Fuselaje', 'Pasajeros 2', 'Modelo', 'Tripulación', 'Pasajeros fatales', 'Tripulación fatal', 'Resumen'], axis=1, inplace=True)
df.head(10)

Vemos en la columnas de "Lugar, Aerolinea, Ruta, Tipo y Resumen" que hay valores nulos, vamos a convertir esos valores nulos en "string" con la palabra "desconocido(a)", esto se hace con el fin que cuando enviemos datos a mysql no tengamos problemas con la carga en las tablas. 

In [None]:
df['Lugar'] = df['Lugar'].replace(np.nan, 'Desconocido')
df['Aerolinea'] = df['Aerolinea'].replace(np.nan, 'Desconocida')
df['Ruta'] = df['Ruta'].replace(np.nan, 'Desconocida')
df['Tipo'] = df['Tipo'].replace(np.nan, 'Desconocido')
df.head(10)

Continuando con el analisis en los datos, es necesario cambiar las comas en las columnas por guiones para poder subir los datos a MySQL sin problemas.

In [None]:
df['Lugar'] = df['Lugar'].str.replace(',', '-')
df['Ruta'] = df['Ruta'].str.replace(',', '-')
df['Tipo'] = df['Tipo'].str.replace(',', '-')
df['Aerolinea'] = df['Aerolinea'].str.replace(',', '-')

Ahora vamos a transformar los datos de la columna Fecha en datetime, esto nos va permitir mas adelante graficar de la mejor manera nuestros valores.

In [None]:
df['Fecha'] = pd.to_datetime(df['Fecha'])
df.head(10)

In [None]:
df.info()

Si revisamos la informacion de nuestros datos podremos analizar que las columnas de "Pasajeros, Taza de fatalidad y Fallecidos en tierra" están con un tipo de dato llamado "object", esto quiere decir que nuestros valores no son tomados como numeros enteros sino como palabras, lo que vamos a realizar será transformar esos valores a numeros enteros para manejar mas adelante los datos sin ningun problema.

In [None]:
df['Pasajeros'] = df['Pasajeros'].replace(np.nan, 0)
df['Pasajeros'] = df['Pasajeros'].astype(int)

df['Taza de fatalidad'] = df['Taza de fatalidad'].replace(np.nan, 0)
df['Taza de fatalidad'] = df['Taza de fatalidad'].astype(int)

df['Fallecidos en tierra'] = df['Fallecidos en tierra'].replace(np.nan, 0)
df['Fallecidos en tierra'] = df['Fallecidos en tierra'].astype(int)

In [None]:
df.info()

Creamos una columna que se llame "Supervivientes" donde vemos el numero total de supervivientes por catastrofe.

In [None]:
df['Supervivientes'] = df['Pasajeros'] - df['Taza de fatalidad']    
df.head(10)

Guardamos todos nuestros cambios en un nuevo csv.

In [None]:
df.to_csv('AccidentesAviones_2.csv', index=False)