# Proyecto de Limpieza de Datos de Ataques de Tiburones

Este proyecto tiene como objetivo limpiar y estandarizar un conjunto de datos relacionados con ataques de tiburones a nivel mundial. El conjunto de datos original contiene información sobre los incidentes, incluyendo la fecha, la ubicación, la actividad realizada durante el ataque, y otros detalles.

### Pasos del Proyecto
El proceso de limpieza y estandarización de datos se llevó a cabo mediante los siguientes pasos:

1. **Carga y verificación de los datos**: Se carga el archivo de Excel original y se verifica su contenido para asegurarnos de que está correctamente formateado y accesible.
2. **Filtrado por año**: Se filtran los datos para incluir solo registros desde el año 1700 en adelante, eliminando datos potencialmente menos fiables o relevantes.
3. **Eliminación de columnas y filas irrelevantes**: Se eliminan columnas con un alto porcentaje de valores faltantes, así como filas que tienen demasiados datos faltantes.
4. **Estandarización de columnas**: Se realiza la estandarización de los valores en varias columnas clave como país, estado, actividad, sexo, edad, y si la persona falleció o no.
5. **Estandarización de fechas**: Las fechas se estandarizan y se extraen nuevas columnas como mes, año y década para facilitar el análisis temporal.
6. **Añadir columna de temporada**: Dependiendo del mes y el país, se añade una columna que indica la temporada en la que ocurrió el ataque.
7. **Eliminación de duplicados**: Finalmente, se eliminan registros duplicados para asegurar que cada incidente esté representado solo una vez.
8. **Guardado del archivo limpio**: Los datos limpios se guardan en un archivo CSV para su posterior análisis.

### 1. Importar Librerías y Funciones

Primero, importamos las librerías necesarias y el archivo `.py` que contiene todas las funciones de limpieza de datos.

In [1]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np
import re
import pycountry

# Importamos las funciones del archivo limpieza.py
from clean_functions import *

### 2. Ejecutar el Proceso de Limpieza

A continuación, ejecutamos el proceso de limpieza completo utilizando la función `main()` que hemos definido en el script de Python.

In [2]:
# Ejecutamos el proceso de limpieza
url = 'https://www.sharkattackfile.net/spreadsheets/GSAF5.xls'
main(url)

Unnamed: 0,Date,Country,State,Activity,Sex,Age,Deceased,standarized_country,Month,Year,Decade,Season
0,2022-09-01,south africa,WESTERN CAPE PROVINCE,swimming,F,39.0,Y,South Africa,September,2022.0,2020.0,Spring
1,2022-09-01,bahamas,,diving,F,58.0,Y,Bahamas,September,2022.0,2020.0,Autumn
2,2022-09-01,usa,HAWAII,swimming,F,51.0,N,United States,September,2022.0,2020.0,Autumn
3,2022-08-01,australia,NEW SOUTH WALES,surfing,M,14.0,N,Australia,August,2022.0,2020.0,Winter
4,2022-08-01,australia,NEW SOUTH WALES,kayaking,M,,N,Australia,August,2022.0,2020.0,Winter
...,...,...,...,...,...,...,...,...,...,...,...,...
6372,NaT,italy,SARDINIA,swimming,M,,Y,Italy,,,,Unknown
6373,1703-03-01,barbados,SOUTHWEST COAST,swimming,M,19.0,N,Barbados,March,1703.0,1700.0,Spring
6374,NaT,france,,Unspecific,M,,Y,France,,,,Unknown
6375,NaT,france,CÔTE D'AZUR,Unspecific,M,,N,France,,,,Unknown


### 3. Verificación del Archivo Limpio

Una vez que el proceso de limpieza ha finalizado, podemos cargar y revisar el archivo `clean_data.csv` para verificar que los datos han sido limpiados correctamente.

In [3]:
# Cargar y mostrar el archivo limpio para verificación
df_limpio = pd.read_csv('clean_data.csv')
df_limpio.head()

Unnamed: 0,Date,Country,State,Activity,Sex,Age,Deceased,standarized_country,Month,Year,Decade,Season
0,2022-09-01,south africa,WESTERN CAPE PROVINCE,swimming,F,39.0,Y,South Africa,September,2022.0,2020.0,Spring
1,2022-09-01,bahamas,,diving,F,58.0,Y,Bahamas,September,2022.0,2020.0,Autumn
2,2022-09-01,usa,HAWAII,swimming,F,51.0,N,United States,September,2022.0,2020.0,Autumn
3,2022-08-01,australia,NEW SOUTH WALES,surfing,M,14.0,N,Australia,August,2022.0,2020.0,Winter
4,2022-08-01,australia,NEW SOUTH WALES,kayaking,M,,N,Australia,August,2022.0,2020.0,Winter


In [4]:
df_limpio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6377 entries, 0 to 6376
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Date                 5950 non-null   object 
 1   Country              6354 non-null   object 
 2   State                6005 non-null   object 
 3   Activity             6377 non-null   object 
 4   Sex                  6377 non-null   object 
 5   Age                  3672 non-null   float64
 6   Deceased             6377 non-null   object 
 7   standarized_country  6377 non-null   object 
 8   Month                5950 non-null   object 
 9   Year                 5950 non-null   float64
 10  Decade               5950 non-null   float64
 11  Season               6377 non-null   object 
dtypes: float64(3), object(9)
memory usage: 598.0+ KB


### Conclusión

Este notebook ejecuta el proceso de limpieza de datos, resultando en un conjunto de datos más estructurado y preparado para análisis futuros. Ahora, los datos están estandarizados y listos para su uso en análisis estadísticos, visualizaciones, o cualquier otro tipo de procesamiento adicional.