In [181]:
import pandas as pd
import numpy as np

In [182]:
# Importamos la  Data
df = pd.read_csv("./DataSet/AccidentesAviones.csv")

# Analizando debia al contenido de la data, Power BI no genera las filas correctamente
# por lotanto se crea un archivo CSV con ";" para evitar este problema
df.to_csv("./DataSet/AccidentesAviones_puntoYcoma.csv", sep=";", index=False)

# Continuamos nuestro trabajo con la nueva dada
df = pd.read_csv("DataSet\AccidentesAviones_puntoYcoma.csv", sep=';')

# ***Análisis exploratorio de los datos: (Exploratory Data Analysis-EDA)***
### Analizaremos columna por columna su información y haremos recomendaciones

### * Análisis General de la Data

In [183]:
# Primer imp[recion de la data
# - Tenemos una primera fila sin nombre con un tipo int
# - El contenido de todas la columnas es de 5008 elementos
# - la columnas route tiene 1 elemento null
# - se tiene que ajustar el tipo de dato de las columnas Dtype
 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5008 entries, 0 to 5007
Data columns (total 18 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Unnamed: 0              5008 non-null   int64 
 1   fecha                   5008 non-null   object
 2   HORA declarada          5008 non-null   object
 3   Ruta                    5008 non-null   object
 4   OperadOR                5008 non-null   object
 5   flight_no               5008 non-null   object
 6   route                   5007 non-null   object
 7   ac_type                 5008 non-null   object
 8   registration            5008 non-null   object
 9   cn_ln                   5008 non-null   object
 10  all_aboard              5008 non-null   object
 11  PASAJEROS A BORDO       5008 non-null   object
 12  crew_aboard             5008 non-null   object
 13  cantidad de fallecidos  5008 non-null   object
 14  passenger_fatalities    5008 non-null   object
 15  crew

#### Columna "Unnamed: 0 "
* Esta primera columna es el numero de conteo de filas de la data original y al no contar co ID se conviene dejarla para una posible identidad futura de la data.
*   Por lo mismo no requiere que se cambie su Dtype

#### Columna "fecha" 

In [184]:
df["fecha"]

0       September 17, 1908
1       September 07, 1909
2            July 12, 1912
3          August 06, 1913
4       September 09, 1913
               ...        
5003        March 28, 2021
5004          May 21, 2021
5005         June 10, 2021
5006         July 04, 2021
5007         July 06, 2021
Name: fecha, Length: 5008, dtype: object

In [185]:
df["fecha"].info()
print()

# Comprobamos si tiene 0
print(df["fecha"][df["fecha"] == "0"].count())

# Corroboramos si tiene nulos
columna = 'fecha'
tiene_nulos = df[columna].isnull().any()

if tiene_nulos:
    print(f"La columna '{columna}' tiene valores nulos.")
else:
    print(f"La columna '{columna}' no tiene valores nulos.")

# Cámbianos su Dtype a fecha
df["fecha"] = pd.to_datetime(df["fecha"])
print(df["fecha"].iloc[0])


<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: fecha
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

0
La columna 'fecha' no tiene valores nulos.
1908-09-17 00:00:00


#### Columna "HORA declarada" 

In [186]:
df["HORA declarada"].info()
print()
# se detecta la precensia de "?"
anomaliaHora = df["HORA declarada"][df["HORA declarada"] == "?"].count()
nd = df["HORA declarada"].count()
print(f"Total de '?' = {anomaliaHora} de {nd}")

# indagamos si tenemos valores con '000'
anomalia2 = df["HORA declarada"][df["HORA declarada"] == "000"].count()
nd = df["HORA declarada"].count()
print(f"Total de '0' = {anomalia2} de {nd}")

# Creamos una columna de prueba para saver si la podemos pasar a una hora
hdf = df["HORA declarada"]
# eliminamos os valores con '?'
hdf = hdf.drop(hdf[hdf == '?'].index)
print(hdf.count())
# seria irrelevante tener en cuenta esta columna "hora" si eliminamos el "?" 
# quedaría con 2/3 partes, 3504 datos  




<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: HORA declarada
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Total de '?' = 1504 de 5008
Total de '0' = 0 de 5008
3504


### Columna "Ruta" - creeris que es el lugar del accidente  

In [187]:

# la info de la data nos informa que no tiene nulos
df["Ruta"].info()
print()

# Buscamos valores en 0
ceros = df["Ruta"][df["Ruta"] == "0"].count()
print(f"Cantidad de valores en 0 {ceros}")

# se detecta la precensia de "?"
# se detectaron 5 valores con '?' 
anomaliaRuta = df["Ruta"][df["Ruta"] == "?"].count()
nd = df["Ruta"].count()
print(f"Total de '?' = {anomaliaRuta} de {nd}")
# Los valores con '?' se cambian a 'Ruta no Definida'
df["Ruta"][df["Ruta"] == "?"] =  'Lugar del accidente no Definida'
anomaliaRuta = df["Ruta"][df["Ruta"] == "?"].count()
nd = df["Ruta"].count()
print(f"Total de '?' = {anomaliaRuta} de {nd}")


<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: Ruta
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Cantidad de valores en 0 0
Total de '?' = 5 de 5008
Total de '?' = 0 de 5008


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["Ruta"][df["Ruta"] == "?"] =  'Lugar del accidente no Definida'


### Columna OperadOR

In [188]:


# Cambiamos el nombre de la columnas de OperadOR por Operador
df = df.rename(columns={"OperadOR": "Operador"})

# El Dtype de la info me indica que no tiene valores nulos 
df["Operador"].info()
print()

# Buscamos valores en 0
ceros = df["Operador"][df["Operador"] == "0"].count()
print(f"Cantidad de valores en 0 {ceros}")


# se detectaron 10 valores con '?'  
anomaliaOperador = df["Operador"][df["Operador"] == "?"].count()
nd = df["Operador"].count()
print(f"Total de '?' = {anomaliaOperador} de {nd}")

# Los valores con '?' se cambian a 'Operador no Definida'
df["Operador"][df["Operador"] == "?"] =  'Operador no Definida'
anomaliaOperador = df["Operador"][df["Operador"] == "?"].count()
nd = df["Operador"].count()
print(f"Total de '?' = {anomaliaOperador} de {nd}")




<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: Operador
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Cantidad de valores en 0 0
Total de '?' = 10 de 5008
Total de '?' = 0 de 5008


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["Operador"][df["Operador"] == "?"] =  'Operador no Definida'


### Columna "flight_no" -> Numero del vuelo

In [189]:
# El Dtype de la info me indica que no tiene valores nulos
df["flight_no"].info()
print()
# Buscamos valores en 0
ceros = df["flight_no"][df["flight_no"] == "0"].count()
print(f"Cantidad de valores en 0 {ceros}")

# Buscamos valores en '-'
ceros = df["flight_no"][df["flight_no"] == '-'].count()
print(f"Cantidad de valores en '-' {ceros}")


# se detectaron 3682 valores con '?'  
anomaliaflight = df["flight_no"][df["flight_no"] == "?"].count()
nd = df["flight_no"].count()
print(f"Total de '?' = {anomaliaflight} de {nd}")

# con el fin de unificar criterios cambiamos "?" y "-" con 'flight no Definida' 
df["flight_no"][(df["flight_no"] == "?") | (df["flight_no"] == "-")] =  'flight no Definida'
anomaliaflight = df["flight_no"][(df["flight_no"] == "?") | (df["flight_no"] == "-")].count()
nd = df["flight_no"].count()
print(f"Total de '?' y '-'= {anomaliaflight} de {nd}")

df["flight_no"]

<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: flight_no
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Cantidad de valores en 0 0
Cantidad de valores en '-' 36
Total de '?' = 3682 de 5008
Total de '?' y '-'= 0 de 5008


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["flight_no"][(df["flight_no"] == "?") | (df["flight_no"] == "-")] =  'flight no Definida'


0       flight no Definida
1       flight no Definida
2       flight no Definida
3       flight no Definida
4       flight no Definida
               ...        
5003    flight no Definida
5004    flight no Definida
5005    flight no Definida
5006    flight no Definida
5007                   251
Name: flight_no, Length: 5008, dtype: object

### Columna route -> ruta

In [190]:
# El Dtype de la info me indica que tenemos 1  valores nulos
df["route"].info()
print()
nulos = df["route"][df["route"].isna()].sum()
print(f" Cantidad de valores con nulos {nulos}")

# Buscamos valores en 0
ceros = df["route"][df["route"] == "0"].count()
print(f"Cantidad de valores en 0 {ceros}")

# se detectaron 762 valores con '?'  
anomaliaflight = df["route"][df["route"] == "?"].count()
nd = df["route"].count()
print(f"Total de '?' = {anomaliaflight} de {nd}")

# se detectaron 762 valores con '-'  
anomaliaflight = df["route"][df["route"] == "-"].count()
nd = df["route"].count()
print(f"Total de '-' = {anomaliaflight} de {nd}")

# con el fin de unificar criterios cambiamos "?"  con 'ruta no Definida' 
df["route"][(df["route"] == "?") | (df["route"] == "-")] =  'Ruta no Definida'
anomaliaRuta = df["route"][df["route"] == "?"].count()
nd = df["route"].count()
print(f"Total de '?' = {anomaliaRuta} de {nd}")

df["route"]

<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: route
Non-Null Count  Dtype 
--------------  ----- 
5007 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

 Cantidad de valores con nulos 0
Cantidad de valores en 0 0
Total de '?' = 762 de 5007
Total de '-' = 0 de 5007
Total de '?' = 0 de 5007


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["route"][(df["route"] == "?") | (df["route"] == "-")] =  'Ruta no Definida'


0                      Demonstration
1                           Air show
2                        Test flight
3                   Ruta no Definida
4                   Ruta no Definida
                    ...             
5003             Sightseeing Charter
5004                Ruta no Definida
5005            Naypyidaw - Anisakan
5006    Cagayan de Oro-Lumbia - Jolo
5007          Petropavlovsk - Palana
Name: route, Length: 5008, dtype: object

### Columna ac_type -> tipo de avion

In [191]:
# El Dtype de la info me indica que no tiene valores nulos
df["ac_type"].info()
print()
# Buscamos valores en 0
ceros = df["ac_type"][df["ac_type"] == "0"].count()
print(f"Cantidad de valores en 0 {ceros}")

# se detectaron 762 valores con '?'  
anomalia_ac_type = df["ac_type"][df["ac_type"] == "?"].count()
nd = df["ac_type"].count()
print(f"Total de '?' = {anomalia_ac_type} de {nd}")


# se detectaron 762 valores con '-' 
anomalia_ac_type = df["ac_type"][df["ac_type"] == "-"].count()
nd = df["ac_type"].count()
print(f"Total de '-' = {anomalia_ac_type} de {nd}")

# con el fin de unificar criterios cambiamos "?"  con 'Tipo de Avion no Definida' 
df["ac_type"][(df["ac_type"] == "?") | (df["ac_type"] == "-")] =  'Tipo de Avion no Definida'
anomalia_ac_type = df["ac_type"][df["ac_type"] == "?"].count()
nd = df["ac_type"].count()
print(f"Total de '?' = {anomalia_ac_type} de {nd}")





<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: ac_type
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Cantidad de valores en 0 0
Total de '?' = 13 de 5008
Total de '-' = 0 de 5008
Total de '?' = 0 de 5008


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["ac_type"][(df["ac_type"] == "?") | (df["ac_type"] == "-")] =  'Tipo de Avion no Definida'


### Columna "registration" -> placa

In [192]:
df["registration"].info()
print()

# Buscamos valores en 0
ceros = df["registration"][df["registration"] == "0"].count()
print(f"Cantidad de valores en 0 {ceros}")

# Buscamos valores en ? se detectaron 272
anom = df["registration"][df["registration"] == "?"].count()
print(f"Cantidad de valores en '?' {anom}")

# se detectaron 762 valores con '-' 
anom1 = df["registration"][df["registration"] == "-"].count()
print(f"Cantidad de valores en '-' {anom1}")

# con el fin de unificar criterios cambiamos "?"  con 'Placa no Definida' 
df["registration"][df["registration"] == "?"] =  'Placa de Avion no Definida'
anom = df["registration"][df["registration"] == "?"].count()
nd = df["registration"].count()
print(f"Total de '?' = {anom} de {nd}")


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["registration"][df["registration"] == "?"] =  'Placa de Avion no Definida'


<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: registration
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Cantidad de valores en 0 0
Cantidad de valores en '?' 272
Cantidad de valores en '-' 0
Total de '?' = 0 de 5008


### Columna cn_ln

In [193]:
# No tenemos valores nulos en eat columna
df["cn_ln"].info()
print()

# Buscamos valores en 0
ceros = df["cn_ln"][df["cn_ln"] == "0"].count()
print(f"Cantidad de valores en 0 {ceros}")

# Buscamos valores en ? = 667
anom = df["cn_ln"][df["cn_ln"] == "?"].count()
print(f"Cantidad de valores en '?' {anom}")

# Buscamos valores en -
anom1 = df["cn_ln"][df["cn_ln"] == "-"].count()
print(f"Cantidad de valores en '-' {anom1}")

# con el fin de unificar criterios cambiamos "?"  con 'cn_ln no Definida' 
df["cn_ln"][df["cn_ln"] == "?"] =  'cn_ln no Definida'
anom = df["cn_ln"][df["cn_ln"] == "?"].count()
print(f"Cantidad de valores en '?' {anom}")




<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: cn_ln
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Cantidad de valores en 0 0
Cantidad de valores en '?' 667
Cantidad de valores en '-' 0
Cantidad de valores en '?' 0


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["cn_ln"][df["cn_ln"] == "?"] =  'cn_ln no Definida'


### Columna all_aboard -> numero de persona a bordo

In [194]:
# No tenemos nulos
df["all_aboard"].info()
print()
# Buscamos valores en 0
ceros = df["all_aboard"][df["all_aboard"] == "0"].count()
print(f"Cantidad de valores en '0' {ceros}")

# Buscar valore en ? 17
anom = df["all_aboard"][df["all_aboard"] == '?'].count()
print(f"Cantidad de valores en '?' {anom}")

# Buscar valore en - 
anom1 = df["all_aboard"][df["all_aboard"] == '-'].count()
print(f"Cantidad de valores en '-' {anom1}")

# con el fin de unificar criterios cambiamos "?"  con '0' 
df["all_aboard"][(df["all_aboard"] == "?")] =  '0'
anom = df["all_aboard"][df["all_aboard"] == "?" ].count()
print(f"Cantidad de valores en '?'  {anom}")

# convertir la columna su Dtype a int
df["all_aboard"]= df["all_aboard"].astype(int)

df["all_aboard"].info()



<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: all_aboard
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Cantidad de valores en '0' 5
Cantidad de valores en '?' 17
Cantidad de valores en '-' 0


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["all_aboard"][(df["all_aboard"] == "?")] =  '0'


Cantidad de valores en '?'  0
<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: all_aboard
Non-Null Count  Dtype
--------------  -----
5008 non-null   int32
dtypes: int32(1)
memory usage: 19.7 KB


### Columna PASAJEROS A BORDO -> numero de pasajeros fuera de la tripulación

In [195]:
# No tenemos nulos
df["PASAJEROS A BORDO"].info()
print()

# Buscamos valores en 0
ceros = df["PASAJEROS A BORDO"][df["PASAJEROS A BORDO"] == '0'].count()
print(f"Cantidad de valores en '0' {ceros}")

# Buscamos valores en -
anom = df["PASAJEROS A BORDO"][df["PASAJEROS A BORDO"] == "-"].count()
print(f"Cantidad de valores en '-' {anom}")

# Buscamos valores en ? 221
anom1 = df["PASAJEROS A BORDO"][df["PASAJEROS A BORDO"] == "?"].count()
print(f"Cantidad de valores en '?' {anom1}")

# con el fin de unificar criterios cambiamos "?"  con '0' 
df["PASAJEROS A BORDO"][df["PASAJEROS A BORDO"] == "?"] =  '0'
anom1 = df["PASAJEROS A BORDO"][df["PASAJEROS A BORDO"] == "?"].count()
print(f"Cantidad de valores en '?' {anom1}")
ceros = df["PASAJEROS A BORDO"][df["PASAJEROS A BORDO"] == '0'].count()
print(f"Cantidad de valores en '0' {ceros}")


# convertir la columna su Dtype a int
df["PASAJEROS A BORDO"]= df["PASAJEROS A BORDO"].astype(int)

df["PASAJEROS A BORDO"].info()



<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: PASAJEROS A BORDO
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Cantidad de valores en '0' 869
Cantidad de valores en '-' 0
Cantidad de valores en '?' 221
Cantidad de valores en '?' 0
Cantidad de valores en '0' 1090
<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: PASAJEROS A BORDO
Non-Null Count  Dtype
--------------  -----
5008 non-null   int32
dtypes: int32(1)
memory usage: 19.7 KB


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["PASAJEROS A BORDO"][df["PASAJEROS A BORDO"] == "?"] =  '0'


### Columna crew_aboard  -> tripulación

In [196]:
df["crew_aboard"].info()
print()
# Buscamos valores en 0
anom = df["crew_aboard"][df["crew_aboard"] == "0"].count()
print(f"Cantidad de valores en '0' {anom}")

# Buscamos valores en -
anom = df["crew_aboard"][df["crew_aboard"] == "-"].count()
print(f"Cantidad de valores en '-' {anom}")

# Buscamos valores en ?
anom = df["crew_aboard"][df["crew_aboard"] == "?"].count()
print(f"Cantidad de valores en '?' {anom}")

# con el fin de unificar criterios cambiamos "?"  con '0' 
df["crew_aboard"][df["crew_aboard"] == "?"] =  '0'
anom = df["crew_aboard"][df["crew_aboard"] == "?"].count()
print(f"Cantidad de valores en '?' {anom}")

# convertir la columna su Dtype a int
df["crew_aboard"]= df["crew_aboard"].astype(int)

df["crew_aboard"].info()



<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: crew_aboard
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Cantidad de valores en '0' 7
Cantidad de valores en '-' 0
Cantidad de valores en '?' 219
Cantidad de valores en '?' 0
<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: crew_aboard
Non-Null Count  Dtype
--------------  -----
5008 non-null   int32
dtypes: int32(1)
memory usage: 19.7 KB


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["crew_aboard"][df["crew_aboard"] == "?"] =  '0'


### Columna cantidad de fallecidos

In [197]:
df["cantidad de fallecidos"].info()
print()
# Buscamos valores en 0
cero = df["cantidad de fallecidos"][df["cantidad de fallecidos"] == "0"].count()
print(f"Cantidad de valores en '0' {cero}")

# Buscamos valores en -
anomal = df["cantidad de fallecidos"][df["cantidad de fallecidos"] == "-"].count()
print(f"Cantidad de valores en '-' {anomal}")


# Buscamos valores en "?"
anomal = df["cantidad de fallecidos"][df["cantidad de fallecidos"] == "?"].count()
print(f"Cantidad de valores en '?' {anomal}")

# con el fin de unificar criterios cambiamos "?"  con '0' 
df["cantidad de fallecidos"][df["cantidad de fallecidos"] == "?"] =  '0'
anomal = df["cantidad de fallecidos"][df["cantidad de fallecidos"] == "?"].count()
print(f"Cantidad de valores en '?' {anomal}")

# convertir la columna su Dtype a int
df["cantidad de fallecidos"]= df["cantidad de fallecidos"].astype(int)

df["cantidad de fallecidos"].info()



<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: cantidad de fallecidos
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Cantidad de valores en '0' 76
Cantidad de valores en '-' 0
Cantidad de valores en '?' 8
Cantidad de valores en '?' 0
<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: cantidad de fallecidos
Non-Null Count  Dtype
--------------  -----
5008 non-null   int32
dtypes: int32(1)
memory usage: 19.7 KB


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["cantidad de fallecidos"][df["cantidad de fallecidos"] == "?"] =  '0'


### Columna passenger_fatalities

In [198]:
df["passenger_fatalities"].info()
print()

# Buscamos valores en 0
cero = df["passenger_fatalities"][df["passenger_fatalities"] == "0"].count()
print(f"Cantidad de valores en '0' {cero}")

# Buscamos valores en -
guion = df["passenger_fatalities"][df["passenger_fatalities"] == "-"].count()
print(f"Cantidad de valores en '-' {guion}")

# Buscamos valores en "?"
pregunta = df["passenger_fatalities"][df["passenger_fatalities"] == "?"].count()
print(f"Cantidad de valores en '?' {pregunta}")

# con el fin de unificar criterios cambiamos "?"  con '0' 
df["passenger_fatalities"][df["passenger_fatalities"] == "?"] =  '0'
pregunta = df["passenger_fatalities"][df["passenger_fatalities"] == "?"].count()
print(f"Cantidad de valores en '?' {pregunta}")

# convertir la columna su Dtype a int
df["passenger_fatalities"]= df["passenger_fatalities"].astype(int)

df["passenger_fatalities"].info()



<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: passenger_fatalities
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Cantidad de valores en '0' 1040
Cantidad de valores en '-' 0
Cantidad de valores en '?' 235
Cantidad de valores en '?' 0
<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: passenger_fatalities
Non-Null Count  Dtype
--------------  -----
5008 non-null   int32
dtypes: int32(1)
memory usage: 19.7 KB


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["passenger_fatalities"][df["passenger_fatalities"] == "?"] =  '0'


### Columna crew_fatalities

In [199]:
df["crew_fatalities"].info()
print()

# Buscamos valores en 0
cero = df["crew_fatalities"][df["crew_fatalities"] == "0"].count()
print(f"Cantidad de valores en '0' {cero}")

# Buscamos valores en -
guion = df["crew_fatalities"][df["crew_fatalities"] == "-"].count()
print(f"Cantidad de valores en '-' {guion}")

# Buscamos valores en ?
pregunta = df["crew_fatalities"][df["crew_fatalities"] == "?"].count()
print(f"Cantidad de valores en '-' {pregunta}")

# con el fin de unificar criterios cambiamos "?"  con '0' 
df["crew_fatalities"][df["crew_fatalities"] == "?"] =  '0'
pregunta = df["crew_fatalities"][df["crew_fatalities"] == "?"].count()
print(f"Cantidad de valores en '-' {pregunta}")

# convertir la columna su Dtype a int
df["crew_fatalities"]= df["crew_fatalities"].astype(int)

df["crew_fatalities"].info()



<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: crew_fatalities
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Cantidad de valores en '0' 400
Cantidad de valores en '-' 0
Cantidad de valores en '-' 235
Cantidad de valores en '-' 0
<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: crew_fatalities
Non-Null Count  Dtype
--------------  -----
5008 non-null   int32
dtypes: int32(1)
memory usage: 19.7 KB


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["crew_fatalities"][df["crew_fatalities"] == "?"] =  '0'


In [200]:
df["ground"].info()
print()
# Buscamos valores en 0
cero = df["ground"][df["ground"] == "0"].count()
print(f"Cantidad de valores en '0' {cero}")

# Buscamos valores en -
guion = df["ground"][df["ground"] == "-"].count()
print(f"Cantidad de valores en '-' {guion}")

# Buscamos valores en ?
pregunta = df["ground"][df["ground"] == "?"].count()
print(f"Cantidad de valores en '?' {pregunta}")

# con el fin de unificar criterios cambiamos "?"  con '0' 
df["ground"][df["ground"] == "?"] =  '0'
pregunta = df["ground"][df["ground"] == "?"].count()
print(f"Cantidad de valores en '?' {pregunta}")

# convertir la columna su Dtype a int
df["ground"]= df["ground"].astype(int)

df["ground"].info()



<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: ground
Non-Null Count  Dtype 
--------------  ----- 
5008 non-null   object
dtypes: object(1)
memory usage: 39.3+ KB

Cantidad de valores en '0' 4716
Cantidad de valores en '-' 0
Cantidad de valores en '?' 44
Cantidad de valores en '?' 0
<class 'pandas.core.series.Series'>
RangeIndex: 5008 entries, 0 to 5007
Series name: ground
Non-Null Count  Dtype
--------------  -----
5008 non-null   int32
dtypes: int32(1)
memory usage: 19.7 KB


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["ground"][df["ground"] == "?"] =  '0'


******************************

In [201]:
df["Operador"].to_csv("./DataSet/Operador/OperadorList.csv", sep=";", index=False, encoding='utf-8-sig')

### Creamos una nuevo Data 

In [202]:

df.to_csv("./DataSet/AccidentesAviones_normalizada.csv", sep=";", index=False)

# Creamos una columna llamada 'Lugar_Despegue'


In [203]:
# Buscamos valores en 0
ceros = df["Ruta"][df["Ruta"] == "0"].count()
print(f"Cantidad de valores en 0 {ceros}")


Cantidad de valores en 0 0


#### Creamos una lista de países De la columna lugar de despegue

In [205]:

df["Lugar_Despegue"] =df["route"].str.split("-").str.get(0)
mf = df.drop(df[df["route"] == 'Ruta no Definida'].index)
mf = mf.drop_duplicates(subset= "Lugar_Despegue")
mf = mf.drop_duplicates(subset= "Lugar_Despegue")
mf = mf.drop(mf[mf["Unnamed: 0"]== 0].index)
mf = mf.drop(mf[mf["Unnamed: 0"]== 26].index)
mf = mf.drop(mf[mf["Unnamed: 0"]== 3173].index)

mf.to_csv("./DataSet/lugar_despegue/lugares_despegue.csv", sep=";", index=False, encoding='utf-8-sig') 

        

In [None]:
df_paises_lugares_despegue = pd.read_csv("./DataSet/lugar_despegue/lugares_despegue_pais.csv", sep=";")
df_paises_lugares_despegue.columns

Index(['Lugar_Despegue', 'Pais'], dtype='object')


df_paises_lugares_despegue = df_paises_lugares_despegue["Pais"]
df_paises_lugares_despegue = df_paises_lugares_despegue.drop_duplicates()
df_paises_lugares_despegue
# se crea un csv con los paises de lugares de despegue
df_paises_lugares_despegue.to_csv("./DataSet/lugar_despegue/despegue_pais.csv", sep=";", index=False, encoding='utf-8-sig')


******************************

******************************

# Query de Power BI

In [None]:
# En la columna Ruta de cambian los valores "?" por 'Ruta no Definida' 
#df["Ruta"][df["Ruta"] == "?"] =  'Ruta no Definida'

# Cambiamos el nombre de la columnas de OperadOR por Operador
#df.rename(columns={"OperadOR": "Operador"})

# Los valores con '?' se cambian a 'Operador no Definida'
# df["Operador"][df["Operador"] == "?"] =  'Operador no Definida'

# con el fin de unificar criterios cambiamos "?" y "-" con 'flight no Definida' 
# df["flight_no"][(df["flight_no"] == "?") | (df["flight_no"] == "-")] =  'flight no Definida'

# con el fin de unificar criterios cambiamos "?"  con 'ruta no Definida' 
# df["route"][(df["route"] == "?") | (df["route"] == "-")] =  'Ruta no Definida'

# con el fin de unificar criterios cambiamos "?"  con 'Tipo de Avion no Definida' 
# df["ac_type"][(df["ac_type"] == "?") | (df["ac_type"] == "-")] =  'Tipo de Avion no Definida'

# con el fin de unificar criterios cambiamos "?"  con 'Placa no Definida' 
# df["registration"][df["registration"] == "?"] =  'Placa de Avion no Definida'

# con el fin de unificar criterios cambiamos "?"  con 'cn_ln no Definida' 
# df["cn_ln"][df["cn_ln"] == "?"] =  'cn_ln no Definida'

# con el fin de unificar criterios cambiamos "?"  con '0' 
# df["all_aboard"][(df["all_aboard"] == "?")] =  '0'


# con el fin de unificar criterios cambiamos "?"  con '0' 
# df["PASAJEROS A BORDO"][df["PASAJEROS A BORDO"] == "?"] =  '0'

# con el fin de unificar criterios cambiamos "?"  con '0' 
# df["crew_aboard"][df["crew_aboard"] == "?"] =  '0'



me puedes dar un lisatado unicamente con lugar y pais  del siguiente listado de lugares