**Ataque de tiburones**


En este ejercicio abriremos una base de datos a través de una url, para procesarlo, limpiarlo y acondicionarlo para cumplir con los objetivos establecidos.

Descripción general
¡Bienvenido a la misión de manipulación de datos! Tu misión: limpiar un conjunto de datos desordenado conocido como " ataques de tiburones " mediante el uso de técnicas de manipulación de datos. Al hacerlo, podrás preparar el conjunto de datos para el análisis de un caso de uso de tu elección. Durante esta misión, mejorarás tus habilidades de Python, darás los siguientes pasos para convertirte en analista de datos, mejorarás el trabajo en equipo y desarrollarás tus habilidades de resolución de problemas. ¿Listo? ¡Vamos!

En primer lugar, examinará el conjunto de datos sobre ataques de tiburones , comprenderá su estructura y formulará una o varias hipótesis sobre los datos. Por ejemplo, podría plantear la hipótesis de que los ataques de tiburones son más comunes en determinadas ubicaciones geográficas o entre personas que realizan determinadas actividades.

Tareas y temas clave del equipo de desarrollo:

1- Descargue el conjunto de datos e impórtelo a Python.
2-Examine los datos e intente comprender qué significan los campos antes de continuar con la limpieza y manipulación de datos.
3-Analizar la estructura y la calidad de un conjunto de datos, identificar posibles problemas y desarrollar un plan para limpiar y transformar los datos.
4-Limpia y formatea todo excepto las fechas.
5-Aplicar al menos cinco técnicas de limpieza de datos, como manejar valores nulos, eliminar columnas, eliminar datos duplicados, manipular cadenas, formatear los datos, etc., para preparar el conjunto de datos para el análisis.
6-Terminar de limpiar y formatear los datos.
7-Estructurar los datos para que sean adecuados para el análisis. Esto puede implicar la creación de nuevos campos, la agrupación de datos o la creación de tablas dinámicas.
8-Utilice técnicas de agregación y filtrado para refinar aún más el conjunto de datos y comenzar a sacar conclusiones sobre sus hipótesis.
9-Finalizar todas las tareas de limpieza, transformación y análisis.
10-Termine de realizar el EDA y utilice los conocimientos adquiridos para validar o refutar las hipótesis iniciales.
11-Termine de refinar su código de acuerdo con las mejores prácticas.
12-Prepare una presentación visualmente atractiva con un texto mínimo para comunicar eficazmente las ideas y conclusiones a las partes interesadas. Asegúrese de crear una narrativa convincente que destaque la importancia de su análisis****

In [1]:
# Pasos a seguir:
# Importamos la libreria Pandas
# Cargamos Los datos

In [2]:
import pandas as pd

In [3]:
! pip install xlrd



In [4]:
df=pd.read_excel("GSAF5.xls")

In [5]:
# Para tener una primera visualización, utilizamos nuestra función bienvenida, número de columnas, y las 5 primeras y últimas columnas a modo de ejemplo.

In [6]:
def bienvenida(df):
    print(df.shape)
    print(df.head())
    print(df.tail())

In [7]:
bienvenida(df)

(6994, 23)
                  Date    Year        Type           Country  \
0  2025-02-07 00:00:00  2025.0  Unprovoked  Turks and Caicos   
1  2025-02-03 00:00:00  2025.0  Unprovoked         Australia   
2  2025-01-23 00:00:00  2025.0  Unprovoked         Australia   
3  2025-01-22 00:00:00  2025.0  Unprovoked         Australia   
4  2025-01-11 00:00:00  2025.0    Provoked               USA   

               State                       Location  Activity  \
0                NaN            Thompson Cove Beach  Swimming   
1         Queensland   Woorim Beach, Bribie Island,  Swimming   
2  Western Australia                 Shipwreck Cove   Bathing   
3  Western Australia                 Cheynes beach    Surfing   
4             Hawaii  Off Haleiwa Boat Harbour Oahu    Diving   

                                     Name Sex Age  ...       Species   \
0                                Unknown    F  55  ...        Unknown   
1                          Charlize Zmuda   F  17  ...     Bull sha

In [8]:
# Vamos a profundizar un poco más en nuestros datos, usando nuestra función "como_eres" para tener una información más detalla de nuestros datos.

In [9]:
def como_eres(df):
    print(df.info())
    print(df.describe().T)
    print(df.describe(include='object').T)


In [10]:
como_eres(df)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6994 entries, 0 to 6993
Data columns (total 23 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Date            6994 non-null   object 
 1   Year            6992 non-null   float64
 2   Type            6976 non-null   object 
 3   Country         6944 non-null   object 
 4   State           6511 non-null   object 
 5   Location        6429 non-null   object 
 6   Activity        6409 non-null   object 
 7   Name            6775 non-null   object 
 8   Sex             6415 non-null   object 
 9   Age             4000 non-null   object 
 10  Injury          6959 non-null   object 
 11  Fatal Y/N       6433 non-null   object 
 12  Time            3468 non-null   object 
 13  Species         3862 non-null   object 
 14  Source          6975 non-null   object 
 15  pdf             6799 non-null   object 
 16  href formula    6794 non-null   object 
 17  href            6796 non-null   o

In [11]:
#Ahora visualizaremos los duplicados en columnas y filas y comenzaremos el proceso de limpieza de nuestros datos.

In [12]:
duplicados = df[df.duplicated()]
print(duplicados)

Empty DataFrame
Columns: [Date, Year, Type, Country, State, Location, Activity, Name, Sex, Age, Injury, Fatal Y/N, Time, Species , Source, pdf, href formula, href, Case Number, Case Number.1, original order, Unnamed: 21, Unnamed: 22]
Index: []

[0 rows x 23 columns]


In [13]:
#Seguimos con el proceso de limpieza homogenizando valores.

In [14]:
nulos = df.isnull().sum()
porcentajes = (df.isnull().sum() / len(df)) * 100

resumen_nulos = pd.DataFrame({'Nulos': nulos, 'Porcentaje': porcentajes})
print(resumen_nulos)

                Nulos  Porcentaje
Date                0    0.000000
Year                2    0.028596
Type               18    0.257363
Country            50    0.714898
State             483    6.905919
Location          565    8.078353
Activity          585    8.364312
Name              219    3.131255
Sex               579    8.278524
Age              2994   42.808121
Injury             35    0.500429
Fatal Y/N         561    8.021161
Time             3526   50.414641
Species          3132   44.781241
Source             19    0.271661
pdf               195    2.788104
href formula      200    2.859594
href              198    2.830998
Case Number       196    2.802402
Case Number.1     197    2.816700
original order    195    2.788104
Unnamed: 21      6993   99.985702
Unnamed: 22      6992   99.971404


In [15]:
#Aquí podemos observar que hay columnas que por su elevado porcentaje de nulos, no nos van a servir, sobre todo para nuestro análisis especifico
#como son por ejemplo, la especie de tiburón.
#En este caso podemos eliminar esa columna, porque su información no es relevante.


In [16]:
df.drop('Case Number', axis=1, inplace=True)

In [17]:
df.drop('Case Number.1', axis=1, inplace=True)

In [18]:
df.drop('Unnamed: 21', axis=1, inplace=True)

In [19]:
df.drop('original order', axis=1, inplace=True)

In [20]:
df.drop('Unnamed: 22', axis=1, inplace=True)

In [21]:
df.drop('href formula', axis=1, inplace=True)

In [22]:
df.drop('href', axis=1, inplace=True)

In [23]:
df.drop('pdf', axis=1, inplace=True)

In [24]:
df.drop('Year', axis=1, inplace=True)

In [25]:
df.drop('Name', axis=1, inplace=True)

In [26]:
df.shape


(6994, 13)

In [27]:
df.drop('Source', axis=1, inplace=True)

In [28]:
#Una vez que hemos eliminado todas las columnas con las que no vamos a trabajar, porque su informacion es irrelevante, vamos a centrarnos en "arreglar las que necesitamos"

In [29]:
df.describe().T

Unnamed: 0,count,unique,top,freq
Date,6994,6042,1957,9
Type,6976,12,Unprovoked,5155
Country,6944,239,USA,2556
State,6511,920,Florida,1185
Location,6429,4554,"New Smyrna Beach, Volusia County",191
Activity,6409,1598,Surfing,1132
Sex,6415,8,M,5613
Age,4000,246,16,92
Injury,6959,4122,FATAL,863
Fatal Y/N,6433,12,N,4873


In [30]:
df.describe(include='object').T

Unnamed: 0,count,unique,top,freq
Date,6994,6042,1957,9
Type,6976,12,Unprovoked,5155
Country,6944,239,USA,2556
State,6511,920,Florida,1185
Location,6429,4554,"New Smyrna Beach, Volusia County",191
Activity,6409,1598,Surfing,1132
Sex,6415,8,M,5613
Age,4000,246,16,92
Injury,6959,4122,FATAL,863
Fatal Y/N,6433,12,N,4873


In [31]:
df

Unnamed: 0,Date,Type,Country,State,Location,Activity,Sex,Age,Injury,Fatal Y/N,Time,Species
0,2025-02-07 00:00:00,Unprovoked,Turks and Caicos,,Thompson Cove Beach,Swimming,F,55,Unknown,N,Unknown,Unknown
1,2025-02-03 00:00:00,Unprovoked,Australia,Queensland,"Woorim Beach, Bribie Island,",Swimming,F,17,Bites to arm and upper body,Y,1645 hrs,Bull shark
2,2025-01-23 00:00:00,Unprovoked,Australia,Western Australia,Shipwreck Cove,Bathing,M,12,Minor bite to lower body,N,1711hrs,Not stated
3,2025-01-22 00:00:00,Unprovoked,Australia,Western Australia,Cheynes beach,Surfing,M,37,None - chunk of surfboard bitten out,N,1600hrs,Bronze whaler
4,2025-01-11 00:00:00,Provoked,USA,Hawaii,Off Haleiwa Boat Harbour Oahu,Diving,M,23,Bitten on the arm,N,1340hrs,Not stated
...,...,...,...,...,...,...,...,...,...,...,...,...
6989,Before 1903,Unprovoked,AUSTRALIA,Western Australia,Roebuck Bay,Diving,M,,FATAL,Y,,
6990,Before 1903,Unprovoked,AUSTRALIA,Western Australia,,Pearl diving,M,,FATAL,Y,,
6991,1900-1905,Unprovoked,USA,North Carolina,Ocracoke Inlet,Swimming,M,,FATAL,Y,,
6992,1883-1889,Unprovoked,PANAMA,,"Panama Bay 8ºN, 79ºW",,M,,FATAL,Y,,
