# Limpieza de Datos
En base a la inspección anterior, se limpiara el dataset para garantizar que esté libre para el análisis.
Se iniciará con la eliminación de los valores nulos para tener un mejor análisis en los datos y que no se ve perturbados.
Las columnas a trabajas:

-	`Registration`, matricula de las aviones.
-	`Aboard`, el número de personas a bordo.
-	`Fatalities`, número de víctimas. 
-	`Ground`, número de personas en tierra que murieron. 
-   `Type`, tipo de aeronave.



In [2]:
# Importando la librería de pandas
import pandas as pd  # type: ignore
import os

# Cargar datos desde un archivo CSV
try:
    rutaAbsoluta = os.path.abspath('../Airplane_Crashes_and_Fatalities_Since_1908.csv')
    df = pd.read_csv(rutaAbsoluta)    
except FileNotFoundError:
    print("El archivo no se encuentra.") 

`Valores NaN de Registration`, primeramente se observará la cantidad de valores NaN para su posterior eliminación. 

In [4]:
# Se implementará la eliminación de NaN de la columna Registration
# Cantidad de valores NaN
print("\u001b[1mREGISTRATION\u001b[0m")
print(f"Cantidad de NaN: {df['Registration'].isna().sum()}")

#Eliminación de los valores nulos
df = df.dropna(subset=["Registration"])

# Cantidad de datos que quedan
print("Filas:",df.shape[0],"\n")


[1mREGISTRATION[0m
Cantidad de NaN: 335
Filas: 4933 



`Valores NaN de Aboard`, Cantidad de valores NaN de las personas a bordo.

In [5]:
# Se implementará la eliminación de NaN de la columna Aboard
# Cantidad de valores NaN
print("\u001b[1mABOARD\u001b[0m")
print(f"Cantidad de NaN: {df['Aboard'].isna().sum()}")

#Eliminación de los valores nulos
df = df.dropna(subset=["Aboard"])

# Cantidad de datos que quedan
print("Filas:",df.shape[0],"\n")

[1mABOARD[0m
Cantidad de NaN: 19
Filas: 4914 



`Valores NaN de Fatalities`, Cantidad de valores NaN de número de víctimas.

In [6]:
# Se implementará la eliminación de NaN de la columna Fatalities
# Cantidad de valores NaN
print("\u001b[1mFATALITIES\u001b[0m")
print(f"Cantidad de NaN: {df['Fatalities'].isna().sum()}")

#Eliminación de los valores nulos
df = df.dropna(subset=["Fatalities"])

# Cantidad de datos que quedan
print("Filas:",df.shape[0],"\n")

[1mFATALITIES[0m
Cantidad de NaN: 0
Filas: 4914 



`Valores NaN de Ground`, Cantidad de valores NaN de número de personas en tierra que murieron.

In [7]:
# Se implementará la eliminación de NaN de la columna Ground
# Cantidad de valores NaN
print("\u001b[1mGROUND\u001b[0m")
print(f"Cantidad de NaN: {df['Ground'].isna().sum()}")

#Eliminación de los valores nulos
df = df.dropna(subset=["Ground"])

# Cantidad de datos que quedan
print("Filas:",df.shape[0],"\n")

[1mGROUND[0m
Cantidad de NaN: 5
Filas: 4909 



`Valores NaN de Type`, primeramente se observará la cantidad de valores NaN para su posterior eliminación. 

In [8]:
# Se implementará la eliminación de NaN de la columna Type
# Cantidad de valores NaN
print("\u001b[1mTYPE\u001b[0m")
print(f"Cantidad de NaN: {df['Type'].isna().sum()}")

#Eliminación de los valores nulos
df = df.dropna(subset=["Type"])

# Cantidad de datos que quedan
print("Filas:",df.shape[0],"\n")

[1mTYPE[0m
Cantidad de NaN: 8
Filas: 4901 



`Valores NaN de Operator`, primeramente se observará la cantidad de valores NaN para su posterior eliminación. 

In [9]:
# Se implementará la eliminación de NaN de la columna Type
# Cantidad de valores NaN
print("\u001b[1mOPERATOR\u001b[0m")
print(f"Cantidad de NaN: {df['Operator'].isna().sum()}")

#Eliminación de los valores nulos
df = df.dropna(subset=["Operator"])

# Cantidad de datos que quedan
print("Filas:",df.shape[0],"\n")

[1mOPERATOR[0m
Cantidad de NaN: 9
Filas: 4892 



#### Resumen de la limpieza de NaN:
Se eliminaron valores nulos de 5 columnas, con una cantidad de:
-	Registration: 335
-	Aboard: 22
-	Fatalities: 12
-	Ground: 22  
-   Type: 27
-   Operator: 18

A medida que se van eliminando valores nulos, hay campos que la cantidad total de NaN va disminuido debido a comparten filas en común. Al trabajar con estas columnas la cantidad de datos disminuyo de 5.268 a 4.892, con un descenso de 376 datos.



In [11]:
# Información General del Dataset
# -------- Dimensiones ------------
print("\u001b[1mDIMENSIONES\u001b[0m")
print("Filas:",df.shape[0]) # type: ignore
print("Columnas:",df.shape[1],"\n") # type: ignore

# -------- Valores NaN ------------
print("\u001b[1mCANTIDAD DE VALORES NULOS\u001b[0m")
df.isna().sum()

[1mDIMENSIONES[0m
Filas: 4892
Columnas: 14 

[1mCANTIDAD DE VALORES NULOS[0m


index              0
Date               0
Time            1947
Location          14
Operator           0
Flight #        3833
Route           1468
Type               0
Registration       0
cn/In            882
Aboard             0
Fatalities         0
Ground             0
Summary          317
dtype: int64

#### Observación de datos repetidos.
Se éstima observar los datos repetidos de las matriculas de los aviones `"Registration"` y `Type`. Se sabe que la cantidad total de fila es de 
4.892.  
Solamente, se estimarán los valores duplicados para dicha visualización, no se eliminarán los datos duplicados para el dicho análisis a desarrollar.

In [12]:
# -------- Valores Repetidos ------------
print("\u001b[1mINFORMACIÓN GENERAL\u001b[0m")
df.info()

[1mINFORMACIÓN GENERAL[0m
<class 'pandas.core.frame.DataFrame'>
Index: 4892 entries, 21 to 5266
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   index         4892 non-null   int64  
 1   Date          4892 non-null   object 
 2   Time          2945 non-null   object 
 3   Location      4878 non-null   object 
 4   Operator      4892 non-null   object 
 5   Flight #      1059 non-null   object 
 6   Route         3424 non-null   object 
 7   Type          4892 non-null   object 
 8   Registration  4892 non-null   object 
 9   cn/In         4010 non-null   object 
 10  Aboard        4892 non-null   float64
 11  Fatalities    4892 non-null   float64
 12  Ground        4892 non-null   float64
 13  Summary       4575 non-null   object 
dtypes: float64(3), int64(1), object(10)
memory usage: 573.3+ KB


In [35]:
# VALORES REPETIDOS DE REGISTRATION
print("\u001b[1mVALORES REPETIDOS DE REGISTRATION\u001b[0m")

# Contar cuántas veces aparece cada valor en la columna
columna = "Registration"
conteoVal = df[columna].value_counts() 
valRepetidos = conteoVal[conteoVal > 1] # Filtrar los valores que aparecen más de una vez
print(valRepetidos, end="\n")

# Contar el número de valores únicos que están duplicados
num_valores_duplicados = len(valRepetidos) 
print(f"\u001b[1mNúmero de valores únicos que están duplicados:\u001b[0m {num_valores_duplicados}")

[1mVALORES REPETIDOS DE REGISTRATION[0m
Registration
49            3
PT-EHH        2
CCCP-09303    2
N91303        2
NC10809       2
PT-EPH        2
W4026         2
FAE-068       2
N37741        2
G-AEUH        2
TC-72         2
223           2
CP-45         2
CF-TCL        2
CCCP-46724    2
412           2
N67941        2
N864JA        2
012           2
204           2
82            2
VH-USG        2
128441        2
32            2
77            2
XA-GOT        2
65-0990       2
Name: count, dtype: int64
[1mNúmero de valores únicos que están duplicados:[0m 27


In [34]:
# VALORES REPETIDOS DE TYPE
print("\u001b[1mVALORES REPETIDOS DE TYPE\u001b[0m")

# Contar cuantas veces aparece cada valor en la columna
columna2 = "Type"
conteoValType = df[columna2].value_counts()
valRepetidosType = conteoValType[conteoValType > 1] # Filtrar valores que aparecen más de una vez
print(valRepetidosType, end="\n") # Imprimir datos

# Contar el número de valores únicos que están duplicados
num_valores_duplicados_Type = len(valRepetidosType)
print(f"\u001b[1mNúmero de valores únicos que están duplicados: \u001b[0m {num_valores_duplicados_Type}")


[1mVALORES REPETIDOS DE TYPE[0m
Type
Douglas DC-3                                320
de Havilland Canada DHC-6 Twin Otter 300     81
Douglas C-47A                                72
Douglas C-47                                 44
Douglas DC-4                                 39
                                           ... 
Handley Page W-10                             2
Curtiss C-46D-15-CU                           2
Avro Shackleton MR-1                          2
Convair CV-240-7                              2
Douglas C-47A-35-DL                           2
Name: count, Length: 621, dtype: int64
[1mNúmero de valores únicos que están duplicados: [0m 621


#### Resumen de los datos repetidos:
Con respecto a la información general entrega, se puede observar que la columna a estudiar los datos repetidos si presentan datos duplicados.  
`Registration: 27`  
`Type: 621`

#### Guardado del archivo
Se implementa guardar el archivo con su respectiva limpieza de los datos, para su continuidad de estudio.


In [31]:
# Guardando resultado
df.to_csv("Accidentes_Aereos_Filtrados.csv", index=False) # no nos interesan los indices