# Limpieza de Datos
En base a la inspección anterior, se limpiara el dataset para garantizar que esté libre para el análisis.
Se iniciará con la eliminación de los valores nulos para tener un mejor análisis en los datos y que no se ve perturbados.
Las columnas a trabajas:

-	`Registration`, matricula de las aviones.
-	`Aboard`, el número de personas a bordo.
-	`Fatalities`, número de víctimas. 
-	`Ground`, número de personas en tierra que murieron. 
-   `Type`, tipo de aeronave.



In [1]:
# Importando la librería de pandas
import pandas as pd  # type: ignore
import os

# Cargar datos desde un archivo CSV
try:
    rutaAbsoluta = os.path.abspath('../Airplane_Crashes_and_Fatalities_Since_1908.csv')
    df = pd.read_csv(rutaAbsoluta)    
except FileNotFoundError:
    print("El archivo no se encuentra.") 

`Valores NaN de Registration`, primeramente se observará la cantidad de valores NaN para su posterior eliminación. 

In [14]:
# Se implementará la eliminación de NaN de la columna Registration
# Cantidad de valores NaN
print("\u001b[1mREGISTRATION\u001b[0m")
print(f"Cantidad de NaN: {df['Registration'].isna().sum()}")

#Eliminación de los valores nulos
df = df.dropna(subset=["Registration"])

# Cantidad de datos que quedan
print("Filas:",df.shape[0],"\n")


[1mREGISTRATION[0m
Cantidad de NaN: 0
Filas: 4933 



`Valores NaN de Aboard`, Cantidad de valores NaN de las personas a bordo.

In [15]:
# Se implementará la eliminación de NaN de la columna Aboard
# Cantidad de valores NaN
print("\u001b[1mABOARD\u001b[0m")
print(f"Cantidad de NaN: {df['Aboard'].isna().sum()}")

#Eliminación de los valores nulos
df = df.dropna(subset=["Aboard"])

# Cantidad de datos que quedan
print("Filas:",df.shape[0],"\n")

[1mABOARD[0m
Cantidad de NaN: 19
Filas: 4914 



`Valores NaN de Fatalities`, Cantidad de valores NaN de número de víctimas.

In [16]:
# Se implementará la eliminación de NaN de la columna Fatalities
# Cantidad de valores NaN
print("\u001b[1mFATALITIES\u001b[0m")
print(f"Cantidad de NaN: {df['Fatalities'].isna().sum()}")

#Eliminación de los valores nulos
df = df.dropna(subset=["Fatalities"])

# Cantidad de datos que quedan
print("Filas:",df.shape[0],"\n")

[1mFATALITIES[0m
Cantidad de NaN: 0
Filas: 4914 



`Valores NaN de Ground`, Cantidad de valores NaN de número de personas en tierra que murieron.

In [17]:
# Se implementará la eliminación de NaN de la columna Ground
# Cantidad de valores NaN
print("\u001b[1mGROUND\u001b[0m")
print(f"Cantidad de NaN: {df['Ground'].isna().sum()}")

#Eliminación de los valores nulos
df = df.dropna(subset=["Ground"])

# Cantidad de datos que quedan
print("Filas:",df.shape[0],"\n")

[1mGROUND[0m
Cantidad de NaN: 5
Filas: 4909 



`Valores NaN de Type`, primeramente se observará la cantidad de valores NaN para su posterior eliminación. 

In [24]:
# Se implementará la eliminación de NaN de la columna Type
# Cantidad de valores NaN
print("\u001b[1mTYPE\u001b[0m")
print(f"Cantidad de NaN: {df['Type'].isna().sum()}")

#Eliminación de los valores nulos
df = df.dropna(subset=["Type"])

# Cantidad de datos que quedan
print("Filas:",df.shape[0],"\n")

[1mTYPE[0m
Cantidad de NaN: 0
Filas: 4901 



#### Resumen de la limpieza de NaN:
Se eliminaron valores nulos de 5 columnas, con una cantidad de:
-	Registration: 335
-	Aboard: 22
-	Fatalities: 12
-	Ground: 22  
-   Type: 27

A medida que se van eliminando valores nulos, hay campos que la cantidad total de NaN va disminuido debido a comparten filas en común. Al trabajar con estas columnas la cantidad de datos disminuyo de 5.268 a 4.909, con un descenso de 359 datos.



In [25]:
# Información General del Dataset
# -------- Dimensiones ------------
print("\u001b[1mDIMENSIONES\u001b[0m")
print("Filas:",df.shape[0]) # type: ignore
print("Columnas:",df.shape[1],"\n") # type: ignore

# -------- Valores NaN ------------
print("\u001b[1mCANTIDAD DE VALORES NULOS\u001b[0m")
df.isna().sum()

[1mDIMENSIONES[0m
Filas: 4901
Columnas: 14 

[1mCANTIDAD DE VALORES NULOS[0m


index              0
Date               0
Time            1953
Location          15
Operator           9
Flight #        3842
Route           1473
Type               0
Registration       0
cn/In            888
Aboard             0
Fatalities         0
Ground             0
Summary          318
dtype: int64

#### Observación de datos repetidos.
Se èstima observar los datos repetidos de las matriculas de los aviones `"Registration"`. Se sabe que la cantidad total de fila es de 4909, con respecto a la información general de las columnas se estimara si el registro presenta repetitividad. 

In [26]:
# -------- Valores Repetidos ------------
print("\u001b[1mINFORMACIÓN GENERAL\u001b[0m")
df.info()

[1mINFORMACIÓN GENERAL[0m
<class 'pandas.core.frame.DataFrame'>
Index: 4901 entries, 21 to 5266
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   index         4901 non-null   int64  
 1   Date          4901 non-null   object 
 2   Time          2948 non-null   object 
 3   Location      4886 non-null   object 
 4   Operator      4892 non-null   object 
 5   Flight #      1059 non-null   object 
 6   Route         3428 non-null   object 
 7   Type          4901 non-null   object 
 8   Registration  4901 non-null   object 
 9   cn/In         4013 non-null   object 
 10  Aboard        4901 non-null   float64
 11  Fatalities    4901 non-null   float64
 12  Ground        4901 non-null   float64
 13  Summary       4583 non-null   object 
dtypes: float64(3), int64(1), object(10)
memory usage: 574.3+ KB


#### Resumen de los datos repetidos:
Con respecto a la información general entrega, se puede observar que la columna a estudiar los datos repetidos no presenta ninguna discordancia con la cantidad de filas, es decir la cantidad de datos de `Registration` es igual que la cantidad de filas.     

#### Guardado del archivo
Se implementa guardar el archivo con su respectiva limpieza de los datos, para su continuidad de estudio.


In [27]:
# Guardando resultado
df.to_csv("Accidentes_Aereos_Filtrados.csv", index=False) # no nos interesan los indices