In [1]:
# librerias y configuración

import pandas as pd
import numpy as np

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

import warnings
warnings.filterwarnings('ignore')

In [2]:
# archivo csv

df = pd.read_csv('../data/attacks.csv', encoding= "ISO-8859-1")

df.head()

Unnamed: 0,Case Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,Age,Injury,Fatal (Y/N),Time,Species,Investigator or Source,pdf,href formula,href,Case Number.1,Case Number.2,original order,Unnamed: 22,Unnamed: 23
0,2018.06.25,25-Jun-2018,2018.0,Boating,USA,California,"Oceanside, San Diego County",Paddling,Julie Wolfe,F,57.0,"No injury to occupant, outrigger canoe and pad...",N,18h00,White shark,"R. Collier, GSAF",2018.06.25-Wolfe.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.25,2018.06.25,6303.0,,
1,2018.06.18,18-Jun-2018,2018.0,Unprovoked,USA,Georgia,"St. Simon Island, Glynn County",Standing,Adyson McNeely,F,11.0,Minor injury to left thigh,N,14h00 -15h00,,"K.McMurray, TrackingSharks.com",2018.06.18-McNeely.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.18,2018.06.18,6302.0,,
2,2018.06.09,09-Jun-2018,2018.0,Invalid,USA,Hawaii,"Habush, Oahu",Surfing,John Denges,M,48.0,Injury to left lower leg from surfboard skeg,N,07h45,,"K.McMurray, TrackingSharks.com",2018.06.09-Denges.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.09,2018.06.09,6301.0,,
3,2018.06.08,08-Jun-2018,2018.0,Unprovoked,AUSTRALIA,New South Wales,Arrawarra Headland,Surfing,male,M,,Minor injury to lower leg,N,,2 m shark,"B. Myatt, GSAF",2018.06.08-Arrawarra.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.08,2018.06.08,6300.0,,
4,2018.06.04,04-Jun-2018,2018.0,Provoked,MEXICO,Colima,La Ticla,Free diving,Gustavo Ramos,M,,Lacerations to leg & hand shark PROVOKED INCIDENT,N,,"Tiger shark, 3m",A .Kipper,2018.06.04-Ramos.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.04,2018.06.04,6299.0,,


In [3]:
df.shape

(25723, 24)

In [4]:
# cambio los nombres de algunas columnas

df.rename(columns={'Sex ':'Sex', 'Species ':'Species'}, inplace=True)

In [5]:
'''se ha observado que a partir de la fila 6302 inclusive los datos son nulos para todas las columnas, con lo 
que se van a eliminar todas las filas a partir de esta'''

df = df.drop(df.index[6302:])

In [6]:
# Búsqueda de filas duplicadas

subset = df[['Date', 'Year', 'Type', 'Country', 'Area', 'Location', 'Activity', 'Name', 'Sex', 'Age', 'Injury', 'Fatal (Y/N)']]

subset.duplicated().any()   # devuelve True

subset[subset.duplicated()]   # obtengo los indices de los duplicados: 4688, 5709, 6295

df.drop([4688, 5709, 6295], inplace=True)

In [7]:
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6299 entries, 0 to 6301
Data columns (total 24 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Case Number             6298 non-null   object 
 1   Date                    6299 non-null   object 
 2   Year                    6297 non-null   float64
 3   Type                    6295 non-null   object 
 4   Country                 6249 non-null   object 
 5   Area                    5845 non-null   object 
 6   Location                5760 non-null   object 
 7   Activity                5755 non-null   object 
 8   Name                    6089 non-null   object 
 9   Sex                     5734 non-null   object 
 10  Age                     3471 non-null   object 
 11  Injury                  6271 non-null   object 
 12  Fatal (Y/N)             5760 non-null   object 
 13  Time                    2948 non-null   object 
 14  Species                 3462 non-null   

# ¿Que és cada columna?

### Case number

Indice de los casos.

### Date

Fecha en la que se ha producido el incidente.

### Year

Año en el que se ha producido el incidente. 

### Type

Razón del incidente, que puede ser: Boating, Unprovoked, Provoked, Questionable o Sea Disaster.

### Country

País en el que se ha producido el incidente. En el caso de ser territorio internacional, como un oceano, se indica la región.

### Area

Región en la que se ha producido el incidente.

### Location

Lugar concreto del incidente.

### Activity

Actividad que se estaba realizando cuando ocurrio el incidente.

### Name

Nombre de la persona o personas envueltas en el incidente.

### Sex

Indica el sexo de la persona envuelta en el incidente siendo F: Female y M: Male.

### Age

Indica la edad de la persona envuelta en el incidente. En los casos en los que hubo varios afectados se indica la media de las edades.

### Injury

Descripción de los daños causados.

### Fatal (Y/N)

Indica Y si el incidente fue mortal y N si no.

### Time

Indica la hora y minuto a la que se produjo el incidente.

### Species

Indica la especie del tiburón envuelto en el incidente.

### Investigator or Source

Persona, entidad o ambas responsable de la investigación del ataque

### pdf

Nombre del pdf asociado al incidente.

### href formula y href

Link al pdf del incidente.

### Case Number.1 y Case Number.2

Copias del índice (Case Number).

### original order

Orden original de los casos.

In [8]:
# Case Number: Se crea un índice con valores únicos

df['Case Number'] = [int(e) for e in range(1, len(df)+1)]

In [9]:
# Date

df.loc[0:6177, 'Date'] = df.loc[0:6177, 'Case Number.1']   # Hasta esa fila el Case Number.1 indica la fecha

# Ahora se quitan los caracteres posteriores a la fecha

df['Date'] = df['Date'].str.extract('^(\d{4}\.\d{2}\.\d{2})', expand=False)

# Se corrigen los errores

nuevos_valores = {117: '2017.07.20',
                 3522: '1967.07.05',
                 3880: '1961.09.06'}
df['Date'].update(pd.Series(nuevos_valores))
 
# El resto de valores no son exactos, con lo que se indican como unknown

df.loc[6177:, 'Date'] = 'unknown'

In [10]:
# Year

# Se elimina el .0 que viene al final de muchos años

df['Year'] = df['Year'].astype(str).replace(to_replace=r'\.0', value='', regex=True)

# Se cambian los 0 por unknown

df.Year.replace({'0': 'unknown'}, inplace=True)

In [11]:
# Type: Los nulos e invalid se cambian por unknown

df['Type'].fillna('unknown', inplace=True)

df['Type'] = df['Type'].replace(to_replace='Invalid', value='unknown', regex=True)

# Se unifican todos los boating

df['Type'] = df['Type'].replace(to_replace='Boat', value='Boating')

df['Type'] = df['Type'].replace(to_replace='Boatomg', value='Boating')

In [12]:
# Country

df['Country'] = df['Country'].str.capitalize()

# Se cambian las string que se consideran mal puestas

df['Country'].replace({'St helena, british overseas territory': 'British overseas territory',
                       'Diego garcia': 'unknown', 
                       'Turks & caicos': 'Turkish islands and caicos',
                       'United arab emirates (uae)': 'United arab emirates',
                       'British virgin islands': 'British overseas territory',
                       'Grand cayman': 'Caiman Islands',
                       'Mexico ': 'Mexico',
                       ' tonga': 'Tonga',
                       'Egypt / israel': 'Egypt',
                       'British isles': 'British overseas territory',
                       'Federated states of micronesia': 'Micronesia',
                       'Admiralty islands': 'Papua New Guinea',
                       'Red sea / indian ocean': 'Read sea',
                       'Andaman / nicobar islandas': 'Andaman and nicobar islands',
                       'Sudan?': 'Sudan',
                       'Iran / iraq': 'Iran',
                       ' philippines': 'Philippines',
                       'Solomon islands / vanuatu': 'Solomon islands',
                       'Southwest pacific ocean': 'South pacific ocean',
                       'Mid-pacifc ocean': 'Mid pacifc ocean',
                       'Italy / croatia': 'Italy',
                       'San domingo': 'Dominican republic',
                       'Crete': 'Greece',
                       'Egypt ': 'Egypt',
                       'British new guinea': 'Territory of Papua',
                       'Ocean': 'unknown',
                       'Indian ocean?': 'Indian ocean',
                       'Andaman islands': 'Andaman and nicobar islands',
                       'Equatorial guinea / cameroon': 'Equatorial guinea',
                       'Africa': 'unknown',                    
                       'Coast of africa': 'unknown',
                       'Between portugal & india': 'unknown',
                       'Red sea?': 'Read sea',
                       'Asia?': 'unknown',
                       'Ceylon (sri lanka)': 'Ceylon'
                      }, inplace=True)

# Se cambian los nulos por unknown

df['Country'].fillna('unknown', inplace=True)

In [13]:
# Area

df['Area'] = df['Area'].str.capitalize()

# Se cambian nulos por unknown. No se verifican los valores uno por uno por la gran cantidad de valores únicos

df['Area'].fillna('unknown', inplace=True)

In [14]:
df.query("Country == 'unknown' & Area != 'unknown'")   # Se comprueba si se puede deducir algun país por su area

# Se cambian aquellos valores que se pueden deducir

nuevos_valores = {2956: 'English channel',
                  3387: 'Caribbean sea',
                  4018: 'Australia',
                  4231: 'Andaman and nicobar islands',
                  4266: 'Madagascar',
                  4498: 'Caribbean sea',
                  4712: 'Caribbean sea',
                  5020: 'Indian ocean',
                  5612: 'Mediterranean sea',
                  5742: 'Mexico',
                  5748: 'Northern pacific ocean',
                  6059: 'Caribbean sea',
                  6137: 'Middle atlantic ocean',
                  6175: 'Ionian sea',
                  6177: 'Ionian sea',              
                 }
df['Country'].update(pd.Series(nuevos_valores))

In [15]:
# Location

df['Location'] = df['Location'].str.capitalize()

# Se cambian nulos por unknown. No se verifican los valores uno por uno por la gran cantidad de valores únicos

df['Location'].fillna('unknown', inplace=True)

In [16]:
# Se comprueba si se puede deducir algun país o area por su localización

df.query("Country == 'unknown' & Location != 'unknown'")   

# Se cambian aquellos valores que se pueden deducir

nuevos_valores_area = {3605: 'Florida strait',
                  4639: 'South china sea',
                  6155: 'Carlisle bay',         
                 }
df['Area'].update(pd.Series(nuevos_valores_area))

nuevos_valores_pais = {3605: 'Cuba',
                  4639: 'South china sea',
                  6155: 'Antigua',      
                 }              
df['Country'].update(pd.Series(nuevos_valores_pais))

In [17]:
# Activity

# Se cambian nulos por unknown. No se verifican los valores uno por uno por la gran cantidad de valores únicos

df['Activity'].fillna('Activity', inplace=True)

In [18]:
# Name

# Se cambian nulos, male y female por unknown. No se verifican los valores uno por uno por la gran cantidad de valores únicos

df['Name'].fillna('unknown', inplace=True)

df['Name'].replace({'male': 'unknown',
                  'Male': 'unknown',
                  'female': 'unknown',
                  'Female': 'unknown',
                  'Unknown': 'unknown'
                 } , inplace=True)

In [19]:
# Sex

df.Sex.unique()   # ['F', 'M', nan, 'M ', 'lli', 'N', '.']

# Se corrige 'M ' y el resto (excepto F y M) se cambian por unknown

df.Sex.fillna('unknown', inplace=True)

df.Sex.replace({'M ': 'M',
                'lli': 'unknown', 
                'N': 'unknown',
                '.': 'unknown'
                }, inplace=True)

In [20]:
# Se comprueba si se puede deducir el sexo de los unknown por el nombre

df.query("Sex == 'unknown' & Name != 'unknown'")

# Se cambian aquellos valores que se pueden deducir

nuevos_valores_area = {218: 'M',
                  243: 'M',
                  463: 'M', 
                  465: 'M',
                  747: 'M',
                  820: 'M', 
                  839: 'M',
                  1177: 'M',
                  1366: 'M', 
                  1525: 'F',
                  1624: 'M',
                  2225: 'M', 
                  2246: 'M',
                  2273: 'M',
                  2279: 'M', 
                  2295: 'M',
                  2317: 'M',
                  2452: 'F', 
                  2472: 'M',
                  2478: 'M',
                  2502: 'M', 
                  2505: 'M',
                  2799: 'M',
                  2865: 'M', 
                  3049: 'M',
                  3157: 'M',
                  3162: 'M', 
                  3235: 'M',
                  3306: 'M',
                  3452: 'M', 
                  3487: 'M',
                  3704: 'M',
                  3768: 'M', 
                  3855: 'M',
                  4036: 'F',
                  4338: 'M', 
                  4403: 'M',
                  4467: 'M',
                  4839: 'M', 
                  5499: 'M',
                  5602: 'M',
                  6108: 'M', 
                  6131: 'M',
                 }
df['Sex'].update(pd.Series(nuevos_valores_area))

In [21]:
# Age: Se rellenan los nulos con unknown y se arreglan los demás valores

df.Age.fillna('unknown', inplace=True)

df['Age'] = df['Age'].replace(to_replace=r'[^\w\s]', value='', regex=True)

df.Age.replace({'Teen ': '16',     # La palabra teenager y su acortamiento teen se emplean en inglés para referirse a las personas de edades comprendidas entre los 13 y los 19 años
               '18 months': '1', 
               '30s': '35',
               '50s': '50',
               'teen ': '16',
               '18 or 20': '19', 
               '12 or 13': '12',
               '28 23  30': '28',
               'Teens ': '16',
               '36  26': '31', 
               '8 or 10': '9',
               '\xa0 ': 'unknown',
               '  ': 'unknown',
               '30 or 36': '33', 
               '6½': '6',
               '21  ': '21',
               '33 or 37': '35',
               'mid30s': '35',
               '23  20': '21',
               ' 30': '30', 
               '7          31': 'unknown',
               ' 28': '28',
               '32  30': '31',
               '16 to 18': '17', 
               'Elderly': '65',  # La tercera edad en España se considera a partir de los 65 años
               'mid20s': '25',
               'Ca 33': '33',
               '74 ': '74',
               '45 ': '45', 
               '21 or 26': '23',
               '20 ': '20',
               '18 to 22': '20',
               'adult': '42', # La etapa de la adultez va desde los 25 hasta los 60 años de edad
               '9  12': '10',
               '   19': '19', 
               '9 months': '0',
               ' 25 to 35': '30',
               '23  26': '24',
               '33  37': '35',
               '25 or 28': '26',
               '37 67 35 27    27': '38',   # la media
               '21 3424  35': '28',   # la media
               '30  32': '31',
               '50  30': '40',
               '17  35': '26',
               'X': 'unknown',
               'middleage': '50',    # Middle-aged people are between the ages of about 40 and 60
               '13 or 18': '15', 
               '34  19': '26',
               '33  26': '29',
               '2 to 3 months': '0',
               'MAKE LINE GREEN': 'unknown', 
               ' 43': '43',
               'young': '3',    # Con edad temprana nos referimos a las edades comprendidas entre el nacimiento y los cinco años de edad
               '7 or 8': '7',
               '17  16': '16',
               'F': 'unknown',
               'Both 11': '11', 
               '9 or 10': '9',
               '36  23': '29',
               '  ': 'unknown',
               'AM': 'unknown', 
               '       14': '14',
               '10 or 12': '11',    
               '31 or 33': '32',
               '2½': '2',
               '13 or 14': '13',   
               '40s': '45',
               'Teen': 'unknown',
               '60s': '60',
               'teen': 'unknown',
               'Teens': 'unknown',
               ' ': 'unknown',
               '  19': '19',
               '25 to 35': '30'
              }, inplace=True)

In [22]:
# Injury: Se cambian los valores nulos por unknown

df.Injury.fillna('unknown', inplace=True)

In [23]:
# Fatal: Se cambian los valores nulos por unknown y se corrigen los valores mal puestos

df['Fatal (Y/N)'].fillna('unknown', inplace=True)

df['Fatal (Y/N)'].replace({'M': 'unknown',
                       'UNKNOWN': 'unknown', 
                       '2017': 'unknown',
                       ' N': 'N',
                       'N ': 'N',
                       'y': 'Y'
                      }, inplace=True)

In [24]:
# Time: Se cambian los valores nulos por unknown y se corrigen el resto de valores

df['Time'].fillna('unknown', inplace=True)

# Se convierten los valores con formato 15h00 a formato 15:00

condicion = df['Time'].str.contains('^\d+h\d+$')

df.loc[condicion, 'Time'] = df.loc[condicion, 'Time'].str.replace(r'(^\d+)h(\d+)', r'\1:\2')

# Arreglo del resto de valores

df['Time'].replace({'14h00  -15h00': '14:30',
                       'Late afternoon': 'unknown', 
                       'Morning': 'unknown',
                       'Afternoon': 'unknown',
                       '19h00, Dusk': '19:00',
                       'Night': 'unknown',
                       'Midday ': 'unknown',
                       'Shortly before 12h00': '12:00',
                       'After noon': 'unknown',
                       '1300': '13:00', 
                       '14h30 / 15h30': '15:00',
                       'Morning ': 'unknown',
                       'Midnight': 'unknown',
                       '09h30 / 10h00': '09:45',
                       '10h45-11h15': '11:00',
                       'Evening': 'unknown',
                       'Sometime between 06h00 & 08hoo': '07:00',
                       'Early afternoon': 'unknown',
                       '07h00 - 08h00': '07:30',
                       '18h15-18h30': '18:23',
                       '09h00 - 09h30': '09:15',
                       '0830': '08:30', 
                       'Just before noon': 'unknown',
                       'Early morning': 'unknown',
                       'Dawn': 'unknown',
                       'AM': 'unknown',
                       'A.M.': 'unknown',
                       'Dusk': 'unknown',
                       'Lunchtime': 'unknown', 
                       '15j45': '15:45',
                       '0500': '05:00',
                       'Before 07h00': 'unknown',
                       '10h00 -- 11h00': '10:30',
                       '"Just before 11h00"': '11:00', 
                       'Sunset': 'unknown',
                       '  ': 'unknown',
                       '"Evening"': 'unknown',
                       'Just before sundown': 'unknown',
                       '11h30 ': '11:30',
                       'Between 05h00 and 08h00': 'unknown',   # se deja como unknown por la gran amplitud del intervalo
                       '17h00 or 17h40': '17:20',
                       '>08h00': '08:00',
                       '--': 'unknown',
                       'Just after 12h00': '12:00',
                       ' ': 'unknown',
                       'Early Morning': 'unknown', 
                       'Shortly after midnight': 'unknown',
                       '\xa0 ': 'unknown',
                       '09h00 -10h00': '09:30',
                       '20h45 (Sunset)': '20:45',
                       'Late morning': 'unknown', 
                       'P.M.': 'unknown',
                       'Shortly before 13h00': '13:00',
                       '8:04 pm': '20:04',
                       'Possibly same incident as 2000.08.21': 'unknown',
                       'After Dusk': 'unknown',
                       'Noon': 'unknown',
                       '2 hours after Opperman': 'unknown',
                       'Mid afternoon': 'unknown',
                       'Mid morning': 'unknown',
                       '11h00 / 11h30': '11:15',
                       '"Night"': 'unknown', 
                       '18h30?': '18:30',
                       '30 minutes after 1992.07.08.a': 'unknown',
                       '>06h45': '06:45',
                       'Between 06h00 & 07h20': '06:40',
                       '<07h30': '07:30', 
                       '17h00 Sunset': '17:00',
                       'Nightfall': 'unknown',
                       'X': 'unknown',
                       '18h30 (Sunset)': '18:30',
                       '06j00': '06:00',
                       'Prior to 10h37': '10:37', 
                       'Daybreak': 'unknown',
                       '>12h00': '12:00',
                       'Mid-morning': 'unknown',
                       '16h30 or 18h00': '17:15',
                       'Just before dawn': 'unknown', 
                       ' 14h00': '14:00',
                       'Daytime': 'unknown',
                       'Dark': 'unknown',
                       '10h00 / 11h00': '10:30',
                       '"After lunch"': 'unknown',
                       '15h00 or 15h45': '15:23',
                       '>17h00': '17:00',
                       '19h00 / 20h00': '19:30',
                       '12h45 / 13h45': '13:15',
                       '14h00 - 15h00': '14:30',
                       'night': 'unknown', 
                       '03h45 - 04h00': '03:53',
                       '09h30 / 15h30': 'unknown',
                       '08h00 / 09h30': '08:45',
                       '12h00 to 14h00': '13:00',
                       'Late night': 'unknown', 
                       '10h30 or 13h30': 'unknown',
                       '15h00j': '15:00',
                       'Midday.': 'unknown',
                       '"After dark"': 'unknown',
                       '10h00 or 14h00': 'unknown',
                       '2 hrs before sunset': 'unknown',
                       '18h15 to 21h30': 'unknown',
                       '1500': '15:00', 
                       '"shortly before dusk"': 'unknown',
                       '>17h30': '17:30',
                       '>14h30': '14:30',
                       'Between 11h00 & 12h00': '11:30',
                       'After 04h00': '04:00',
                       '11h01 -time of ship sinking': '11:01',
                       'Ship aban-doned at 03h10': '03:10',
                       'After dusk': 'unknown',
                       'FATAL  (Wire netting installed at local beaches after this incident.)': 'unknown',
                       'After midnight': 'unknown',
                       'Late afternon': 'unknown', 
                       '"Early evening"': 'unknown',
                       'Late Afternoon': 'unknown',
                       '   ': 'unknown',
                       'Before daybreak': 'unknown',
                       'dusk': 'unknown', 
                       'Before 10h30': '10:30',
                       '06h00 -- 07h00': '06:30',
                       '17h00-18h00': '17:30',
                       '19h00-20h00': '19:30',
                       'Midday': 'unknown',
                       '09h30 ': '09:30',
                       '13:345': '13:45',
                       '11:115': '11:15',
                       '1600': '16:00',
                       '9:00': '09:00',
                       'unknwon': 'unknown'
                      }, inplace=True)

In [25]:
# Species

# Se cambian nulos por unknown. No se verifican los valores uno por uno por la gran cantidad de valores únicos

df['Species'].fillna('unknown', inplace=True)


In [26]:
# Investigator or Source

# Se cambian nulos por unknown. No se verifican los valores uno por uno por la gran cantidad de valores únicos

df['Investigator or Source'].fillna('unknown', inplace=True)

In [27]:
# href formula

df['href formula'].fillna('unknown', inplace=True) # Se pone el único valor nulo como unknown

df['href formula'].loc[df['href formula'] == 'unknown']   # Se busca su índice

df['href formula'][3244] = df['href'][3244]    # Se iguala el valor al valor de la columna href

In [28]:
# Case Number.1 y Case Number.2: Se igualan a Case Number

df['Case Number.1'] = df['Case Number']

df['Case Number.2'] = df['Case Number']

In [29]:
# Unnamed: 22 y # Unnamed: 23: Se convierten todos los valores en unknown puesto que no se sabe representan 

df.loc[:,"Unnamed: 22"] = "unknown"

df.loc[:,"Unnamed: 23"] = "unknown"

In [30]:
# Se resetea el índice por las filas eliminadas antes de limpiar las columnas

df.reset_index(inplace=True, drop=True)

In [31]:
# Se cambian los tipos de datos para ahorrar memoria

# Se tiene en cuenta que int16 ocupa menos memoria que el tipo category si la columna tiene un gran número de valores únicos

df['original order'] = df['original order'].astype('int')    
pd.to_numeric(df['original order'], downcast='integer')

for c in df.select_dtypes('integer'):
    
    df[c]=pd.to_numeric(df[c], downcast='integer')
    
for c in df.select_dtypes('object'):
    
    df[c]=df[c].astype('category')
    

In [32]:
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6299 entries, 0 to 6298
Data columns (total 24 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   Case Number             6299 non-null   int16   
 1   Date                    6299 non-null   category
 2   Year                    6299 non-null   category
 3   Type                    6299 non-null   category
 4   Country                 6299 non-null   category
 5   Area                    6299 non-null   category
 6   Location                6299 non-null   category
 7   Activity                6299 non-null   category
 8   Name                    6299 non-null   category
 9   Sex                     6299 non-null   category
 10  Age                     6299 non-null   category
 11  Injury                  6299 non-null   category
 12  Fatal (Y/N)             6299 non-null   category
 13  Time                    6299 non-null   category
 14  Species                 

In [33]:
df.to_csv('../data/attacks_clean.csv', index=False)