# Exploración inicial

## Importamos dataset

In [37]:
import pandas as pd

url = "https://www.sharkattackfile.net/spreadsheets/GSAF5.xls"

df_shark_attacks = pd.read_excel(url)

df_shark_attacks.head()

Unnamed: 0,Date,Year,Type,Country,State,Location,Activity,Name,Sex,Age,...,Species,Source,pdf,href formula,href,Case Number,Case Number.1,original order,Unnamed: 21,Unnamed: 22
0,10th January,2026.0,Unprovoked,Australia,NSW,Avalon Beach,Surfing,Paul Stanton,M,?,...,Unknown,Bob Myatt GSAF,,,,,,,,
1,8th January,2026.0,Unprovoked,US Virgin Islands,Fredricksted Island St Croix,Dorsch Beach,Snorkeling,Arlene Lillis,F,56,...,Unknown,Todd Smith: KevinMcMurray Trackingsharks.com,,,,,,,,
2,3rd January,2026.0,Unprovoked,New Caledonia,Kélé,Between Bourail and Moindou,Scuba Diving,Unknown,M,?,...,Unknown,Andy Currie: Province Sud:,,,,,,,,
3,21st December,2025.0,Unprovoked,USA,California,Lovers Point Pacific Grove,Swimming,Erica Fox,F,55,...,Great White Shark,Kevin McMurray Tracking sharks.com: Ralph Coll...,,,,,,,,
4,12th December,2025.0,Unprovoked,USA,Sonoma County California,Salmon Creek,Surfing,Unknown,M,?,...,Suspected Great White Shark,Kevin McMurray Tracking sharks.com:Andrew Curr...,,,,,,,,


## Exploración y algunas conclusiones

In [3]:
print(df_shark_attacks.shape)

(7065, 23)


### El dataset tiene `7065` filas y `23` columnas. (`(7065, 23)`)

## Tipos de datos no apropiados

In [35]:
print(df_shark_attacks.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7065 entries, 0 to 7064
Data columns (total 23 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Date            7065 non-null   object 
 1   Year            7063 non-null   float64
 2   Type            7047 non-null   object 
 3   Country         7015 non-null   object 
 4   State           6578 non-null   object 
 5   Location        6498 non-null   object 
 6   Activity        6480 non-null   object 
 7   Name            6846 non-null   object 
 8   Sex             6486 non-null   object 
 9   Age             4070 non-null   object 
 10  Injury          7030 non-null   object 
 11  Fatal Y/N       6504 non-null   object 
 12  Time            3538 non-null   object 
 13  Species         3934 non-null   object 
 14  Source          7045 non-null   object 
 15  pdf             6799 non-null   object 
 16  href formula    6794 non-null   object 
 17  href            6796 non-null   o

### Hay varios tipos de datos que no son apropiados para lo que describen:
    - `Year` aparece como `float64`, pero conceptualmente es un año (debería ser un `int` o tratarse como temporal/categórico según el análisis).
    - `Age` aparece como `object`, pero es **numérico** (requiere limpieza).
    - `Date` y `Time` aparecen como `object`, pero son variables **temporales**.
    - `Fatal Y/N` y `Sex` aparecen como `object`, y deberían formatearse y limpiarse.

Por eso las siguientes líneas de código no dan gran información:

In [5]:
columnas_numericas = df_shark_attacks.select_dtypes(include=['number']).columns.tolist()
print (f"Las columnas numericas son : {columnas_numericas}")

Las columnas numericas son : ['Year', 'original order']


In [6]:
categorical_columns = df_shark_attacks.select_dtypes(include=['object']).columns.tolist()
print(f"Las columnas categoricas serian: {categorical_columns}")

Las columnas categoricas serian: ['Date', 'Type', 'Country', 'State', 'Location', 'Activity', 'Name', 'Sex', 'Age', 'Injury', 'Fatal Y/N', 'Time', 'Species ', 'Source', 'pdf', 'href formula', 'href', 'Case Number', 'Case Number.1', 'Unnamed: 21', 'Unnamed: 22']


## Columnas numéricas y categóricas: valores únicos

In [36]:
def exploration(df):
    head = df.head()
    describe = df.describe().T
    info = df.info()
    describe_object = df.describe(include="object").T
    cat_cols = list(df.select_dtypes(include="object"))
    num_cols = list(df.select_dtypes(include="number"))
    for col in cat_cols:
        unique_values = df[col].nunique()
        value_counts = df[col].value_counts()
        print(f'This is {col} of unique values: {unique_values}')
        print(f'This is number of each value in {col}: {value_counts}')
    for num_col in num_cols:
        num_col_unique_values = df[num_col].nunique()
        num_col_value_counts = df[num_col].value_counts()
        print(f'This is {num_col} of unique values: {num_col_unique_values}')
        print(f'This is number of each value in {num_col}: {num_col_value_counts}')
        
    return head, describe, info, describe_object
head, describe, info, describe_object = exploration(df_shark_attacks)

describe_object

print(info)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7065 entries, 0 to 7064
Data columns (total 23 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Date            7065 non-null   object 
 1   Year            7063 non-null   float64
 2   Type            7047 non-null   object 
 3   Country         7015 non-null   object 
 4   State           6578 non-null   object 
 5   Location        6498 non-null   object 
 6   Activity        6480 non-null   object 
 7   Name            6846 non-null   object 
 8   Sex             6486 non-null   object 
 9   Age             4070 non-null   object 
 10  Injury          7030 non-null   object 
 11  Fatal Y/N       6504 non-null   object 
 12  Time            3538 non-null   object 
 13  Species         3934 non-null   object 
 14  Source          7045 non-null   object 
 15  pdf             6799 non-null   object 
 16  href formula    6794 non-null   object 
 17  href            6796 non-null   o

### Valores únicos de cada columna determinando las que podrían ser categóricas / temporales / identificadores:
    - *Date*: `6107` valores únicos (temporal, pero está muy heterogéneo: mezcla años, fechas, rangos y `No date`).
        * 1957: 9
        * 1942: 8
        * 1958: 7
        * 1956: 6
        * No date: 6
- Aquí tal vez lo mejor sea tratar de normalizar siempre que sea posible y añadir una categoría difusa o categorías para aquellos que no son posibles de normalizar como los rangos `1845-1853`.

    - *Type*: `13` valores únicos, **CATEGÓRICO** (aunque hay inconsistencias de formato: ` Provoked`, `unprovoked`, `?`, etc., que necesitan limpieza).
        * Unprovoked: 5217          -> categoría propia
        * Provoked: 641             -> categoría propia
        * Invalid: 552              -> categoría propia
        * Watercraft: 355           -> categoría propia
        * Sea Disaster: 242         -> categoría propia
        * Questionable: 26          -> categoría propia
        * Boat: 7                   -> watercraft
        * Provoked: 2               -> Provoked
        * unprovoked: 1             -> unprovoked
        * ?: 1                      -> Questionable
        * Unconfirmed: 1            -> Questionable
        * Unverified: 1             -> Questionable
        * Under investigation: 1    -> Questionable

    - *State*: `944` valores únicos, **CATEGÓRICO**, mucha variabilidad de formatos. Requiere limpieza
        * Florida: 1192
        * New South Wales: 522
        * Queensland: 353
        * Hawaii: 345
        * California: 326

    - *Activity*: `1609` valores únicos, **CATEGÓRICO**: 
        * Surfing: 1143
        * Swimming: 1011
        * Fishing: 494
        * Spearfishing: 391
        * Wading: 178
            + Para estos casos tal vez lo mejor sería: habiendo tal variabilidad, propondría tal vez crear una columna separada para guardar la información que se perderá al hacer un formateo ya que hay alta cardinalidad con valores únicos de una sola frecuencia que podrían ponerse dentro de una gran categoría o pensar otra estrategia pero dejarlo en el análisis exploratorio. Por ejemplo, buscar palabras clave para recategorizar: `surfing`, `swim`, etc.

    - *Sex*: `10` valores únicos, **CATEGÓRICO** (inconsistencias claras: `M`, ` M`, `m`, `F`, etc.). 
        * M: 5665
        * F: 808
        * M: 4
        * F: 2
        * N: 2
        * M: 1
        * m: 1
        * lli: 1
        * M x 2: 1
        * .: 1
            + Entre registros no nulos, hay altísima predominancia de `M`. Por lo demás aquí la estrategia sería limpieza en 3 categorías claras: `M/F/Unknown`.

    - *Injury*: `4179` valores únicos, **CATEGÓRICO** (texto libre).
        * FATAL: 863
        * Foot bitten: 100
        * Survived: 97
        * No injury: 85
        * Leg bitten: 81
        ...

    - *Time*: `469` valores únicos, conceptualmente **TEMPORAL**, pero está como `object` y mezcla etiquetas (`Afternoon`, `Morning`) con horas (`11h00`, `15h00`, etc.). 
        * Afternoon: 215
        * 11h00: 140
        * Morning: 135
        * 15h00: 127
        * 16h00: 123
        * ...
            + Necesita ser validado, y como la categoría más llamada es afternoon, tal vez hacer una transformación a esas categorías difusas y tratarlas como object sea lo mejor.

    - *Source*: `5399` valores únicos, **CATEGÓRICO** (texto libre / alta cardinalidad).
        * K. McMurray, TrackingSharks.com: 131
        * C. Moore, GSAF: 105
        * C. Creswell, GSAF: 101
        * S. Petersohn, GSAF: 82
        * B. Myatt, GSAF: 59

    - *href formula*: `6784` valores únicos, **CATEGÓRICO/ID** (URL).
        * (varios con freq 2; mayoría 1)

    - *Case Number*: `6777` valores únicos, **IDENTIFICADOR** (debería ser único; aquí hay duplicados puntuales).
        * 2021.07.23: 2
        * 1907.10.16.R: 2
        * 2012.09.02.b: 2
        * 2005.04.06: 2
        * 2009.12.18: 2

    - *original order*: `6797` valores únicos (técnica/ID/orden). Hay duplicados puntuales (freq 2) pero mayoritariamente 1.

    - *Unnamed: 22*: `2` valores únicos (parece columna basura).
        * Teramo: 1
        * change filename: 1

In [7]:
print([columna for columna in df_shark_attacks.columns])



# Columna "Species" esta mal escrita, tiene un espacio al final

['Date', 'Year', 'Type', 'Country', 'State', 'Location', 'Activity', 'Name', 'Sex', 'Age', 'Injury', 'Fatal Y/N', 'Time', 'Species ', 'Source', 'pdf', 'href formula', 'href', 'Case Number', 'Case Number.1', 'original order', 'Unnamed: 21', 'Unnamed: 22']


In [8]:
porcentage_null = df_shark_attacks.isnull().sum()/ len(df_shark_attacks)*100
print(porcentage_null)

Date               0.000000
Year               0.028309
Type               0.254777
Country            0.707714
State              6.893135
Location           8.025478
Activity           8.280255
Name               3.099788
Sex                8.195329
Age               42.392074
Injury             0.495400
Fatal Y/N          7.940552
Time              49.922151
Species           44.317056
Source             0.283086
pdf                3.765039
href formula       3.835810
href               3.807502
Case Number        3.779193
Case Number.1      3.793347
original order     3.765039
Unnamed: 21       99.985846
Unnamed: 22       99.971691
dtype: float64


## Porcentaje de valores nulos en cada Columna:

In [9]:
#Detectar duplicados
print(df_shark_attacks.duplicated().sum())

0


- La mayoria de columnas tiene menos del 10% de valores nulos:
- `Age`, `Time`, `Species` y `Unnamed: 21` y `Unnamed: 22` tienen 42%, 49%, 44%, 99% y 99% respectivamente.

Estos porcentajes hacen necesaria la valoración de si son necesarios para el análisis.

## No se observan duplicados

In [10]:
df_shark_attacks['Year'].dtype

dtype('float64')

In [11]:
print( df_shark_attacks["Year"].unique()[:100])

[2026. 2025. 2024. 2023. 2022. 2021. 2020. 2019. 2018. 2017.   nan 2016.
 2015. 2014. 2013. 2012. 2011. 2010. 2009. 2008. 2007. 2006. 2005. 2004.
 2003. 2002. 2001. 2000. 1999. 1998. 1997. 1996. 1995. 1984. 1994. 1993.
 1992. 1991. 1990. 1989. 1969. 1988. 1987. 1986. 1985. 1983. 1982. 1981.
 1980. 1979. 1978. 1977. 1976. 1975. 1974. 1973. 1972. 1971. 1970. 1968.
 1967. 1966. 1965. 1964. 1963. 1962. 1961. 1960. 1959. 1958. 1957. 1956.
 1955. 1954. 1953. 1952. 1951. 1950. 1949. 1948. 1848. 1947. 1946. 1945.
 1944. 1943. 1942. 1941. 1940. 1939. 1938. 1937. 1936. 1935. 1934. 1933.
 1932. 1931. 1930. 1929.]


In [12]:
#Detectar valores nulos en Year
print(df_shark_attacks['Year'].isnull().sum())

2


Solo tenemos 2 valores nulos en la columna Year
Parece que la mayoria de años estan bien escritos, podriamos convertir los nulos a 0

In [13]:
print(df_shark_attacks['Year'].unique())

[2026. 2025. 2024. 2023. 2022. 2021. 2020. 2019. 2018. 2017.   nan 2016.
 2015. 2014. 2013. 2012. 2011. 2010. 2009. 2008. 2007. 2006. 2005. 2004.
 2003. 2002. 2001. 2000. 1999. 1998. 1997. 1996. 1995. 1984. 1994. 1993.
 1992. 1991. 1990. 1989. 1969. 1988. 1987. 1986. 1985. 1983. 1982. 1981.
 1980. 1979. 1978. 1977. 1976. 1975. 1974. 1973. 1972. 1971. 1970. 1968.
 1967. 1966. 1965. 1964. 1963. 1962. 1961. 1960. 1959. 1958. 1957. 1956.
 1955. 1954. 1953. 1952. 1951. 1950. 1949. 1948. 1848. 1947. 1946. 1945.
 1944. 1943. 1942. 1941. 1940. 1939. 1938. 1937. 1936. 1935. 1934. 1933.
 1932. 1931. 1930. 1929. 1928. 1927. 1926. 1925. 1924. 1923. 1922. 1921.
 1920. 1919. 1918. 1917. 1916. 1915. 1914. 1913. 1912. 1911. 1910. 1909.
 1908. 1907. 1906. 1905. 1904. 1903. 1902. 1901. 1900. 1899. 1898. 1897.
 1896. 1895. 1894. 1893. 1892. 1891. 1890. 1889. 1888. 1887. 1886. 1885.
 1884. 1883. 1882. 1881. 1880. 1879. 1878. 1877. 1876. 1875. 1874. 1873.
 1872. 1871. 1870. 1869. 1868. 1867. 1866. 1865. 18

Podemos ver que todos los valores escritos en la columna Year, revisar los futuros y los que no tengan sentido

In [14]:
print(df_shark_attacks["Country"].value_counts().head(20))

Country
USA                 2578
AUSTRALIA           1482
SOUTH AFRICA         597
NEW ZEALAND          144
PAPUA NEW GUINEA     136
BAHAMAS              136
BRAZIL               122
MEXICO               103
ITALY                 72
FIJI                  67
NEW CALEDONIA         65
PHILIPPINES           63
REUNION               60
CUBA                  49
EGYPT                 49
MOZAMBIQUE            46
SPAIN                 46
INDIA                 41
FRENCH POLYNESIA      37
JAPAN                 36
Name: count, dtype: int64


In [15]:
#Comprobar la forma que esta escrita los datos para saber si coinciden entre ellos aunque no esten definidos igual
#Tendremos que hacer que los que sean el mismo pais aunque esta escrito de distinta manera se agrupen
print(df_shark_attacks['Country'].unique())

['Australia' 'US Virgin Islands' 'New Caledonia' 'USA' 'French Polynesia'
 'Samoa' 'Columbia' 'Costa Rica' 'Bahamas' 'Puerto Rico' 'Spain'
 'Canary Islands' 'South Africa' 'Vanuatu' 'Jamaica' 'Israel' 'Mexico'
 'Maldives' 'Philippines' 'Turks and Caicos' 'Mozambique' 'Egypt'
 'Thailand' 'New Zealand' 'Hawaii' 'Honduras' 'Indonesia' 'Morocco'
 'Belize' 'Maldive Islands' 'Tobago' 'AUSTRALIA' 'INDIA' 'TRINIDAD'
 'BAHAMAS' 'SOUTH AFRICA' 'MEXICO' 'NEW ZEALAND' 'EGYPT' 'BELIZE'
 'PHILIPPINES' 'Coral Sea' 'SPAIN' 'PORTUGAL' 'SAMOA' 'COLOMBIA' 'ECUADOR'
 'FRENCH POLYNESIA' 'NEW CALEDONIA' 'TURKS and CaICOS' 'CUBA' 'BRAZIL'
 'SEYCHELLES' 'ARGENTINA' 'FIJI' 'MeXICO' 'ENGLAND' 'JAPAN' 'INDONESIA'
 'JAMAICA' 'MALDIVES' 'THAILAND' 'COLUMBIA' 'COSTA RICA'
 'British Overseas Territory' 'CANADA' 'JORDAN' 'ST KITTS / NEVIS'
 'ST MARTIN' 'PAPUA NEW GUINEA' 'REUNION ISLAND' 'ISRAEL' 'CHINA'
 'IRELAND' 'ITALY' 'MALAYSIA' 'LIBYA' nan 'MAURITIUS' 'SOLOMON ISLANDS'
 'ST HELENA, British overseas territory' '

In [16]:
#Comprobacion de valores nulos en la tabla Location
nulos_location = df_shark_attacks['Location'].isnull()
print(nulos_location)

0       False
1       False
2       False
3       False
4       False
        ...  
7060    False
7061     True
7062    False
7063    False
7064    False
Name: Location, Length: 7065, dtype: bool


In [17]:

#Es una columna que tiene poca relevancia, ya que los nombres no aportaran demasiada informacion a las conclusiones
# pero podemos  agrupar los que no tengamos nombre en "Desconocidos"

In [18]:
print(df_shark_attacks["Name"].isin ([df_shark_attacks]))

0       False
1       False
2       False
3       False
4       False
        ...  
7060    False
7061    False
7062    False
7063    False
7064    False
Name: Name, Length: 7065, dtype: bool


In [19]:
# Ver por que Age no es numerico
print( df_shark_attacks["Age"].unique()[:50])



['?' '56' '55' '24' '26' '25' '61' '40' '13' '14' '50+' '54' '48' '57' '8'
 '63' '9' '39' '19' '7' '85' '69' '18' '66' '21' '37' '16' '20' '12' '42'
 '45' '30' '30+' '40+' '29' 35 58 29 24 20 55 17 12 37 36 23 40 28 69 48]


Podemos observar que en los primeros 50 datos de age, aparece escrito de distintas maneras, habria que limpiar todos estos datos
Tambien tenemos que ver cuales son los valores tipicos y sacar estadisticas

In [20]:
print(f"Valores 'Y' y 'N' en: {df_shark_attacks['Fatal Y/N'].value_counts()}")

print(f"Valores unicos en Fatal Y/N: {df_shark_attacks['Fatal Y/N'].unique()}")
print(f"Valores no nullos en Fatal Y/N: {df_shark_attacks['Fatal Y/N'].isnull()}")

Valores 'Y' y 'N' en: Fatal Y/N
N          4926
Y          1486
UNKNOWN      71
 N            7
F             5
M             3
n             1
Nq            1
2017          1
Y x 2         1
N             1
y             1
Name: count, dtype: int64
Valores unicos en Fatal Y/N: ['N' 'Y' 'F' 'M' nan 'n' 'Nq' 'UNKNOWN' 2017 'Y x 2' ' N' 'N ' 'y']
Valores no nullos en Fatal Y/N: 0       False
1       False
2       False
3       False
4       False
        ...  
7060    False
7061    False
7062    False
7063    False
7064    False
Name: Fatal Y/N, Length: 7065, dtype: bool


Tenemos un total de 4926 como No fatal y 1486 como Si fatal, el resto esta por determinar ya que algunos datos aparecen como numeros, con espacion o en minusculas. Los que no estan claros se pueden determinar como Unknown


In [21]:
#Descripciones diferentes 
num_species = df_shark_attacks['Species '].nunique()    
print(f"El numero de especies es: {num_species}")

El numero de especies es: 1736


In [22]:
print(df_shark_attacks['Species '].value_counts().head(30))

Species 
White shark                                           194
Shark involvement prior to death was not confirmed    105
Invalid                                               102
Shark involvement not confirmed                        92
Tiger shark                                            89
Bull shark                                             73
Shark involvement prior to death unconfirmed           68
4' shark                                               43
6' shark                                               43
1.8 m [6'] shark                                       35
Questionable incident                                  35
Questionable                                           34
1.5 m [5'] shark                                       32
5' shark                                               29
Wobbegong shark                                        27
4' to 5' shark                                         27
1.2 m [4'] shark                                       27
3' sh

In [23]:
print("Ejemplos raros:")
print(df_shark_attacks['Species '].sample(10))

Ejemplos raros:
6998                                     0.9 m [3'] shark
994                                        3' to 4' shark
1656                                    Tiger shark, 2.8m
2908                              White shark, 4 m [13'] 
3054                            Nurse shark, 0.9 m  [3'] 
1568                                    White shark, 2.5m
2006    Shark involvement not confirmed; thought to be...
5211                                             4' shark
4258                                                  NaN
5900                         White shark, 3.8 m [12.5']  
Name: Species , dtype: object


In [24]:
#
# se puede buscar por palabras que coincidan con los valores mas tipicos, como white, bull, o incluso por tamaño del tiburon

In [25]:
print(df_shark_attacks['pdf'].head)

<bound method NDFrame.head of 0                                  NaN
1                                  NaN
2                                  NaN
3                                  NaN
4                                  NaN
                     ...              
7060            ND-0005-RoebuckBay.pdf
7061                 ND-0004-Ahmun.pdf
7062    ND-0003-Ocracoke_1900-1905.pdf
7063        ND-0002-JulesPatterson.pdf
7064                ND-0001-Ceylon.pdf
Name: pdf, Length: 7065, dtype: object>


In [26]:
# Verificamos si es unico 
es_unico = df_shark_attacks['pdf'].nunique() == len(df_shark_attacks)
print(f"\n¿Es la columna 'pdf' un identificador único perfecto?: {es_unico}")


¿Es la columna 'pdf' un identificador único perfecto?: False


In [27]:
print(f"Duplicados en pdf: {df_shark_attacks['pdf'].duplicated().sum()}")

Duplicados en pdf: 275


Esta columna no aportaria ningun valor a nuestro analisis

In [28]:
print(df_shark_attacks[['href']].head())

  href
0  NaN
1  NaN
2  NaN
3  NaN
4  NaN


In [29]:
print(f"Nulos en href: {df_shark_attacks['href'].isnull().sum()}")

Nulos en href: 269


Nos indica la pagina web donde esta el pdf con la informacion, haciendo que esta columna no tenga mucho sentido para nuestro analisis

In [30]:
diferencias = df_shark_attacks[df_shark_attacks['Case Number'] != df_shark_attacks['Case Number.1']]
print(f"Cantidad de filas donde Case Number y Case Number.1 son diferentes: {len(diferencias)}")

Cantidad de filas donde Case Number y Case Number.1 son diferentes: 317


In [31]:
if len(diferencias) > 0:
    print("\nMuestra de diferencias:")
    print(diferencias[['Case Number', 'Case Number.1']].head())


Muestra de diferencias:
  Case Number Case Number.1
0         NaN           NaN
1         NaN           NaN
2         NaN           NaN
3         NaN           NaN
4         NaN           NaN


Parece que las columnas son duplicadas, igualmente no parece que ninguna tenga informacion para nuestro analisis

In [32]:
# porcentaje de nulos
nulos_unnamed = df_shark_attacks['Unnamed: 21'].isnull().sum()
total_filas = len(df_shark_attacks)

print(f"Total filas: {total_filas}")
print(f"Nulos en Unnamed 21: {nulos_unnamed}")



Total filas: 7065
Nulos en Unnamed 21: 7064


Estas columnas son totalmente iguales, a lo mejor son archivos corruptos. Igualmente no aportarian nada de info a nuestros analaisis

Columnas utiles para nuestro analisis:
Year, county, Location como geografia y tiempo
Name y age como demografia
Fatal y species como incidentes

Columnas irrelevantes:
pdf nos dice el nombre del archivo
href nos dice el enlace web
casenumber 1, parece un diplicado
unnamed 21 columna totalmente vacia

Podemos definir una lista de columnas irrelevantes para borrarlas

columnas_a_eliminar = [
    'pdf',
    'href',
    'href formula',   
    'Case Number.1',  
    'Unnamed: 21',    ]

Ejecucion de eliminacion de columnas

df_shark_attacks.drop(columns=columnas_a_eliminar, inplace=True, errors='ignore')

Comprvacion de tablas restantes

print(df_shark_attacks.columns.tolist())