⭕ Importamos Libreria Pandas y el Dataset en formato .csv
⭕ Se puestran las prmeras filas del Dataset

In [1]:
import pandas as pd

# Cargar el dataset desde un archivo CSV
df = pd.read_csv('datos_oil.csv')

# Mostrar las primeras filas del dataset para verificar que se ha cargado correctamente
print(df.head())


                     Spill / Vessel  \
0   2023 Princess Empress oil spill   
1  2022 Keystone Pipeline oil spill   
2   2022 Chesire oil truck rollover   
3             2022 Callao oil spill   
4        2021 New Orleans oil spill   

                                       Location             Dates  Min Tonnes  \
0           Philippines, Pola, Oriental Mindoro  28 February 2023      881.00   
1      United States, Washington County, Kansas   7 December 2022    18516.94   
2          United States, Cheshire, Connecticut  11 February 2022       62.98   
3             Ventanilla District, Callao, Peru   15 January 2022     1626.39   
4  United States, St. Bernard Parish, Louisiana  27 December 2021      944.11   

   Max Tonnes                       Owner        Country  
0      881.00  RDC Reield Marine Services    Philippines  
1    18516.94                   TC Energy  United States  
2       62.98      Libretti and Sons Fuel  United States  
3     1861.68                      Repsol 

⭕ Verificamos la cantidad de filas y columnas que contiene el Dataset

In [16]:
# Obtener el número de filas y columnas
num_filas, num_columnas = df.shape

# Mostrar el resultado
print(f"El DataFrame tiene {num_filas} filas y {num_columnas} columnas.")


El DataFrame tiene 34 filas y 7 columnas.


⭕ Se identifican los valores NaN (valores faltantes)

In [12]:
# Identificar valores NaN en el dataframe
nan_analysis = df.isna().sum()

# Calcular el porcentaje de valores NaN por columna
nan_percentage = (nan_analysis / len(df)) * 100
print('---Identificacion de Valores NaN-->')
print(nan_analysis)
print('---Porcentajes de NaN por columna-->')
print(nan_percentage)

---Identificacion de Valores NaN-->
Spill / Vessel    0
Location          0
Dates             0
Min Tonnes        8
Max Tonnes        8
Owner             4
Country           0
dtype: int64
---Porcentajes de NaN por columna-->
Spill / Vessel     0.000000
Location           0.000000
Dates              0.000000
Min Tonnes        23.529412
Max Tonnes        23.529412
Owner             11.764706
Country            0.000000
dtype: float64


In [13]:
# Crear un DataFrame con el análisis de NaN
nan_df = pd.DataFrame({
    'Column': nan_analysis.index,
    'Missing Values': nan_analysis.values,
    'Percentage (%)': nan_percentage.values
})

# Mostrar el DataFrame con el análisis de NaN
nan_df

Unnamed: 0,Column,Missing Values,Percentage (%)
0,Spill / Vessel,0,0.0
1,Location,0,0.0
2,Dates,0,0.0
3,Min Tonnes,8,23.529412
4,Max Tonnes,8,23.529412
5,Owner,4,11.764706
6,Country,0,0.0


⭕ Se filtran e identifican los valores NaN por columna

In [14]:
# Filtrar las filas donde existen valores NaN en la columna "Owner"
filtered_df = df[df['Owner'].isna()]

# Mostrar el DataFrame filtrado
filtered_df


Unnamed: 0,Spill / Vessel,Location,Dates,Min Tonnes,Max Tonnes,Owner,Country
12,Tanker truck pumping out sludge from a vessel,"New Zealand, Tauranga, Bay of Plenty",30 March 2020,1.7,1.7,,New Zealand
16,Tanker truck rollover,"United States, California, Santa Maria, Cuyama...",21 March 2020,14.6,19.5,,United States
24,Ulysse-Virginia collision,North of Corsica (international waters),1 October 2018,,,,International Waters (near France)
25,Port Erin diesel spill (source ),Isle of Man,23 July 2018,,,,Isle of Man (self-governing British Crown depe...


🕵️‍♂️ ¿Como podrian manejarse los valores NaN?

⭕ Eliminar Filas o Columnas con NaN

df_cleaned = df.dropna()  # Elimina todas las filas que tienen al menos un valor NaN

df_cleaned = df.dropna(subset=['Owner'])  # Elimina solo las filas donde 'Owner' tiene NaN


⭕ En este caso vamos a utilizar la segunda opcion para no eliminar todos los datos con NaN, vamos a seleccionar solamente los valores NaN contenidos en una columna en particular, lleva el nombre de OWNER

In [19]:
 # Elimina solo las filas donde 'Owner' tiene NaN

df_cleaned = df.dropna(subset=['Owner']) 


⭕ Luego de la limpieza volvemos a consultar por los valores NaN de cada columna

In [21]:
# Recalcular el análisis de NaN después de limpiar el DataFrame
nan_analysis_cleaned = df_cleaned.isna().sum()
nan_percentage_cleaned = (nan_analysis_cleaned / len(df_cleaned)) * 100

# Crear un nuevo DataFrame con el análisis de NaN
nan_df_cleaned = pd.DataFrame({
    'Column': nan_analysis_cleaned.index,
    'Missing Values': nan_analysis_cleaned.values,
    'Percentage (%)': nan_percentage_cleaned.values
})

# Mostrar el DataFrame con el análisis de NaN después de limpiar
nan_df_cleaned


Unnamed: 0,Column,Missing Values,Percentage (%)
0,Spill / Vessel,0,0.0
1,Location,0,0.0
2,Dates,0,0.0
3,Min Tonnes,6,20.0
4,Max Tonnes,6,20.0
5,Owner,0,0.0
6,Country,0,0.0


🕵️‍♂️ Como se puede observar en la limpieza anterior, al eliminar las finas que contenian NaN en la columna OWNER tambien se reducen los NaN de las columnas 'Min Tonnes' y 'Max Tonnes' esto puede estar relacionado a que las filas eliminadas tenian alguna relacion con las estas columnas afectadas, por esta razon es miy importante analizar bien antes de eliminar datos. 

⭕ Otra de las opciones uqe tenemos al eliminar NaN es, eliminar la columna completa, siempre y cuando no contega datos relevantes:

df_cleaned = df.drop(columns=['Max Tonnes'])  # Elimina la columna 'Max Tonnes'


⭕ Otra opcion que podemos ver a continuacion es Rellenar los Valores NaN con otros valores, pueden ser con numeros 0 o String.

In [24]:
# Rellenar con 0
df['Min Tonnes'].fillna(0, inplace=True)  # Rellenar con 0



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Min Tonnes'].fillna(0, inplace=True)  # Rellenar con 0


⭕ Ahora vamos a verificar si quedan valores NaN en el Dataframe 

In [25]:
nan_analysis_after_modification = df.isna().sum()
print(nan_analysis_after_modification)


Spill / Vessel    0
Location          0
Dates             0
Min Tonnes        0
Max Tonnes        8
Owner             0
Country           0
dtype: int64


⭕ Vamos a cambiar los valores NaN de la columna 'Max Tonnes? por 'Unknown'

In [26]:
df['Max Tonnes'].fillna('Unknown', inplace=True)  # Rellenar con 'Unknown'

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Max Tonnes'].fillna('Unknown', inplace=True)  # Rellenar con 'Unknown'
  df['Max Tonnes'].fillna('Unknown', inplace=True)  # Rellenar con 'Unknown'


⭕ Volvemos a consultar como quedo el Dataframe

In [27]:
nan_analysis_after_modification = df.isna().sum()
print(nan_analysis_after_modification)

Spill / Vessel    0
Location          0
Dates             0
Min Tonnes        0
Max Tonnes        0
Owner             0
Country           0
dtype: int64


🕵️‍♂️ Otras tecnicas para manejar los NaN son:

⭕ Rellenar con el promedio, mediana o moda:

df['Min Tonnes'].fillna(df['Min Tonnes'].mean(), inplace=True)  # Rellenar con el promedio

df['Min Tonnes'].fillna(df['Min Tonnes'].median(), inplace=True)  # Rellenar con la mediana

⭕ Interpolación lineal: Especialmente útil en series temporales, donde puedes estimar los valores faltantes usando la interpolación.

df['Min Tonnes'] = df['Min Tonnes'].interpolate(method='linear')

⭕ Mantener los NaN
Si los NaN tienen un significado particular, puedes mantenerlos y considerarlos en tu análisis. Por ejemplo, en algunos casos, un valor faltante podría indicar la ausencia de un evento o la falta de información disponible.

⭕ Crear una Columna Indicadora: Si decides rellenar los valores NaN, puedes crear una columna adicional que indique si un valor era originalmente NaN. Esto puede ser útil para análisis posteriores.

df['Owner_missing'] = df['Owner'].isna().astype(int)
df['Owner'].fillna('Unknown', inplace=True)

Rellenar NaN en columnas numéricas con el promedio

df['Min Tonnes'].fillna(df['Min Tonnes'].mean(), inplace=True)
df['Max Tonnes'].fillna(df['Max Tonnes'].mean(), inplace=True)

Rellenar NaN en la columna "Owner" con "Unknown"

df['Owner'].fillna('Unknown', inplace=True)



⭕ Ahora descargamos el Dataset limpio

In [28]:
# Descarga como archivo Excel
df.to_excel('Dataset_Limpio.xlsx', index=False)


In [29]:
#Descarga como archivo CSV
df.to_csv('Dataset_Limpio.csv', index=False)


🕵️‍♂️ Analisis Exploratorio

⭕ A continuacion vamos se analiza si el formato de la columna 'Dates' es correcta, es decir si se encuentra en formato de fecha y hora.

In [30]:
# Verificar el cambio mostrando los primeros registros
print(df['Dates'].head())

0    28 February 2023
1     7 December 2022
2    11 February 2022
3     15 January 2022
4    27 December 2021
Name: Dates, dtype: object


⭕ Segun lo observado, la columna tiene un formato de tipo 'Object' el cual no es el adecuado, por lo tanto vamos a proceder a cambiar dicha configuracion. 

In [31]:
# Convertir la columna 'Dates' a formato de fecha
df['Dates'] = pd.to_datetime(df['Dates'])

# Verificar el cambio mostrando los primeros registros
print(df['Dates'].head())


0   2023-02-28
1   2022-12-07
2   2022-02-11
3   2022-01-15
4   2021-12-27
Name: Dates, dtype: datetime64[ns]


⭕ A continuacion se utiliza el metodo 'resample' sirve para agrupar datos basados en frecuencia de tiempo para luego aplicar alguna operacion como 'mean' 'sum' etc. Esto se conoce como series temporales conjunto de puntos de datos recopilados o registrados en intervalos de tiempo - minutos, días, meses, años. El análisis de series temporales es crucial para la comprensión de las tendencias, la predicción y el modelado.

 La sintaxis es df.resample(rule, on='column_name').operation()

Otras opciones de rule:

'D': Día.

'W': Semana.

'Q': Trimestre.

'A': Año.

'H': Hora.

'T' o 'min': Minuto.




⭕ A continuacion se realiza una agrupacion Mensual de los datos y luego se suman.

In [32]:
# Resamplear por mes y sumar las cantidades mínimas de petróleo derramado
monthly_sum = df.resample('M', on='Dates')['Min Tonnes'].sum()

# Mostrar el resultado
print(monthly_sum)


  monthly_sum = df.resample('M', on='Dates')['Min Tonnes'].sum()


Dates
2016-10-31       240.00
2016-11-30         0.00
2016-12-31       571.00
2017-01-31       251.00
2017-02-28         0.00
2017-03-31         0.00
2017-04-30         0.27
2017-05-31        97.00
2017-06-30         0.00
2017-07-31         0.00
2017-08-31         0.00
2017-09-30      2500.00
2017-10-31         0.00
2017-11-30      1322.00
2017-12-31         0.00
2018-01-31    138000.00
2018-02-28         0.00
2018-03-31         0.00
2018-04-30         0.00
2018-05-31         0.00
2018-06-30         0.00
2018-07-31         0.00
2018-08-31         0.00
2018-09-30         0.00
2018-10-31         0.00
2018-11-30       219.00
2018-12-31         0.00
2019-01-31         0.00
2019-02-28        75.00
2019-03-31         0.00
2019-04-30         0.00
2019-05-31         0.00
2019-06-30         0.00
2019-07-31        35.60
2019-08-31         0.00
2019-09-30         0.00
2019-10-31      1240.00
2019-11-30         0.00
2019-12-31         0.00
2020-01-31         0.00
2020-02-29         0.00
2020-03-31

⭕Siguiendo con los metodos exploratorios de datos a continuacion se utilizan algunos de vital importancia en el analisis de datos.

In [33]:
# Aplicar el método df.info() para obtener información sobre el DataFrame
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34 entries, 0 to 33
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Spill / Vessel  34 non-null     object        
 1   Location        34 non-null     object        
 2   Dates           34 non-null     datetime64[ns]
 3   Min Tonnes      34 non-null     float64       
 4   Max Tonnes      34 non-null     object        
 5   Owner           34 non-null     object        
 6   Country         34 non-null     object        
dtypes: datetime64[ns](1), float64(1), object(5)
memory usage: 2.0+ KB



Este resultado proviene de aplicar el método df.info() a tu DataFrame y proporciona un resumen de su estructura. Aquí te explico lo que significa cada parte del resultado:

1. Clase del DataFrame
python
Copiar código
<class 'pandas.core.frame.DataFrame'>
Esto indica que el objeto que estás analizando es un DataFrame de pandas, que es una estructura de datos bidimensional, similar a una tabla, con filas y columnas.
2. RangeIndex: 34 entries, 0 to 33
RangeIndex: 34 entries, 0 to 33: El DataFrame tiene 34 filas, con un índice que va desde 0 hasta 33.
3. Columnas y sus tipos de datos
Data columns (total 7 columns):: Tu DataFrame tiene un total de 7 columnas.
Cada columna se detalla con:
Número de la columna (#): El índice de la columna (0 a 6).
Nombre de la columna (Column): El nombre de cada columna.
Non-Null Count: El número de valores no nulos en cada columna. Aquí todas las columnas tienen 34 valores no nulos, lo que significa que no hay valores faltantes (NaN) en ninguna columna.
Dtype: El tipo de datos de la columna. Los tipos de datos son:
object: Generalmente representa cadenas de texto.
datetime64[ns]: Representa datos de fecha y hora.
float64: Representa números en coma flotante (decimales).
4. Tipos de datos
dtypes: datetime64 , float64(1), object(5):
El DataFrame tiene 1 columna con tipo datetime64[ns] (fechas), 1 columna con tipo float64 (números decimales), y 5 columnas con tipo object (generalmente cadenas de texto).
5. Uso de memoria
memory usage: 2.0+ KB: Este es el tamaño estimado del DataFrame en la memoria, que en este caso es de aproximadamente 2.0 KB.
Resumen
Tu DataFrame tiene 34 filas y 7 columnas, con diferentes tipos de datos:

Una columna de fechas (datetime64[ns]).
Una columna de números decimales (float64).
Cinco columnas de texto o datos categóricos (object).
No hay valores faltantes en el DataFrame, lo que es positivo para el análisis, ya que no necesitas preocuparte por manejar valores NaN. El DataFrame es pequeño en términos de tamaño, ocupando solo 2.0 KB de memoria, lo que lo hace muy manejable para análisis y procesamiento.

Si tienes más preguntas o necesitas realizar alguna acción adicional, no dudes en pedirlo.