# Objetivo del proyecto: Definir un Business Case

##### Problem statement: Red Bull nos contactó para organizar un evento extremo para personas que querían nadar con tiburones peligrosos.
##### Hipotesis: Organizar el evento con tiburones en Australia 
##### Idea de negocio: Buceo con tiburones en Argentina

Plan:
1. Limpiar datos (5 técnicas de limpieza) y transformar datos (poner en el mismo formato)
 - Limpiar null values
 - Quitar duplicados
 - Manipular strings
 - Fechas en mismo formato
 - Preparar dataset para análisis (EDA)

2. Redex

In [None]:
import numpy as np
import pandas as pd

# Para leer un excel hay que instalar pip install xlrd>=2.0.1 desde la terminal e indicar que lea read_excel
shark_df = pd.read_excel("/Users/sarasalmon/Desktop/IRONHACK/Data_Analytics/Semana_2/QUEST/GSAF5.xls")
shark_df

Examine the data and try to understand what the fields mean before proceeding with data cleaning and manipulation.

In [None]:
shark_df.shape

In [None]:
shark_df.Country.value_counts()

In [None]:
shark_df.T

Una vez tenemos las columnas traspuestas para poder ver la información contenida en cada una de ellas, sacamos las principales conclusiones:

- La primera columna (Date), da información del día, mes y año en el que se produjo el ataque de tiburón. Es interesante quedarnos con las épocas del año (quitar día, agrupar meses por primera, verano, otoño e invierno)

- La segunda columna (Year), da información del año en el que se produjo el ataque del tiburón. Esta información es redundante con la que da la primera columna. Se puede eliminar.

- La tercera columna (Type), da información sobre si el ataque fue provocado o no. La dejamos para tener información sobre la agresividad del tiburón.

- La cuarta columna (Country), da información sobre el país en el que ocurrió. La dejaremos para poder entender dónde montar el negocio. Esta columna la eliminaremos, por ser información muy general.

- La quinta columna (State) va fuera.

- La sexta columna (Location) es con la que trabajaremos para poder entender la recurrencia de los ataques de los tiburones y poder desarrollar el negocio en base a esto.

- La septima columna (Activity) es importante para entender qué actividad provoca menos ataques de tiburón.

- La octava columna, novena y decima (Name, Sex, Age) van fuera.

- La columna 12 (Injury) es importante para entender la agresividad del ataque de tiburón.

- La columna 13 la eliminamos, ya que no tiene información.

- ** La columna 14 (Time) la dejamos para analizarla y ver si es importante para nuestro negocio.

- La columna 15 (Species) es importante para conocer la agresividad del tiburón.

- La columna de Source no da información relevante para entender / prevenir los ataques de tiburón, por lo que podría eliminarse también.

- Las ultimas 8 columnas (pdf, href formula, href, Case Number, Case Number.1, original order, Unnamedb21 y Unnamed:22 no contienen datos importantes, por lo que sería conveniente eliminarlas.

In [None]:
shark_df.info()

In [None]:
shark_df.describe()



- La segunda columna (Year)
  
- La quinta columna (State)

- La octava columna, novena y decima (Name, Sex, Age) van fuera.

- La columna 13 la eliminamos, ya que no tiene información.

- Las ultimas 8 columnas (pdf, href formula, href, Case Number, Case Number.1, original order, Unnamedb21 y Unnamed:22 no contienen datos importantes, por lo que sería conveniente eliminarlas.

In [None]:
shark_df.info()

In [None]:
shark_clean_1_df= shark_df.drop(columns = ["Year","State","Name","Sex","Age","Unnamed: 11","Time","Source","pdf","href formula","href","Case Number","Case Number.1","original order", "Unnamed: 21","Unnamed: 22"])

In [None]:
shark_clean_1_df

In [None]:
shark_clean_1_df.value_counts("Type")

In [None]:
# Primero copiamos todo el dataframe
shark_2_df = shark_clean_1_df.copy()

# Limpiamos los espacios de los titulos y los ponemos en mayusculas
shark_2_df.columns = [column.lower().replace(" ","") for column in shark_clean_1_df.columns]
shark_2_df

# Cleaning Column Names

To ensure consistency and ease of use, standardize the column names of the dataframe. 

In [None]:
shark_2_df["country"].nunique()

In [None]:
shark_2_df['country'] = shark_2_df['country'].str.lower().str.strip()
shark_2_df["country"].nunique()

In [None]:
shark_2_df["country"].unique()

In [None]:
countries_dictionary = {
    'usa': 'united states',
    'america': 'united states',
    'mexico': 'mexico',
    'belize': 'belize',
    'australia': 'australia',
    'au': 'australia',
    'maldives': 'maldives',
    'maldiveislands': 'maldives',
    'turksandcaicos': 'turks and caicos',
    'turks&caicos': 'turks and caicos',
    'turksandcaicos': 'turks and caicos',
    'turksandcaicos': 'turks and caicos',
    'frenchpolynesia': 'french polynesia',
    'french polynesia': 'french polynesia',
    'southafrica': 'south africa',
    'south africa': 'south africa',
    'newzealand': 'new zealand',
    'new zealand': 'new zealand',
    'trinidad': 'trinidad and tobago',
    'trinidad&tobago': 'trinidad and tobago',
    'tobago': 'trinidad and tobago',
    'bahamas': 'bahamas',
    'columbia': 'colombia',
    'costa rica': 'costa rica',
    'jamaica': 'jamaica',
    'ecuador': 'ecuador',
    'spain': 'spain',
    'portugal': 'portugal',
    'samoa': 'samoa',
    'colombia': 'colombia',
    'fiji': 'fiji',
    'coralsea': 'coral sea',
    'philippines': 'philippines',
    'brazil': 'brazil',
    'seychelles': 'seychelles',
    'argentina': 'argentina',
    'england': 'united kingdom',
    'uk': 'united kingdom',
    'unitedkingdom': 'united kingdom',
    'newcaledonia': 'new caledonia',
    'malaysia': 'malaysia',
    'france': 'france',
    'egypt': 'egypt',
    'thailand': 'thailand',
    'indonesia': 'indonesia',
    'china': 'china',
    'italy': 'italy',
    'japan': 'japan',
    'canada': 'canada',
    'jordan': 'jordan',
    'st kitts/nevis': 'st kitts and nevis',
    'stkitts/nevis': 'st kitts and nevis',
    'stmartin': 'st martin',
    'st.maarten': 'st martin',
    'papuanewguinea': 'papua new guinea',
    'reunion': 'reunion',
    'reunionisland': 'reunion',
    'israel': 'israel',
    'india': 'india',
    'italy/croatia': 'italy',
    'sthelena,britishoverseasterritory': 'st helena',
    'britishoverseasterritory': 'united kingdom',
    'scotland': 'united kingdom',
    'wales': 'united kingdom',
    'northernireland': 'united kingdom',
    'dominicanrepublic': 'dominican republic',
    'puertorico': 'puerto rico',
    'jamaica': 'jamaica',
    'falklandislands': 'falkland islands',
    'marshallislands': 'marshall islands',
    'marshall': 'marshall islands',
    'solomonislands': 'solomon islands',
    'britishvirginislands': 'british virgin islands',
    'virginislands': 'british virgin islands',
    'bvi': 'british virgin islands',
    'caymanislands': 'cayman islands',
    'grandcayman': 'cayman islands',
    'american samoa': 'american samoa',
    'micronesia': 'micronesia',
    'srilanka': 'sri lanka',
    'ceylon': 'sri lanka',
    'south korea': 'south korea',
    'southkorea': 'south korea',
    'north korea': 'north korea',
    'northkorea': 'north korea',
    'malta': 'malta',
    'vietnam': 'vietnam',
    'madagascar': 'madagascar',
    'panama': 'panama',
    'somalia': 'somalia',
    'libya': 'libya',
    'iran': 'iran',
    'iraq': 'iraq',
    'iran/iraq': 'iran',
    'nigeria': 'nigeria',
    'greece': 'greece',
    'portugal': 'portugal',
    'chile': 'chile',
    'peru': 'peru',
    'kenya': 'kenya',
    'russia': 'russia',
    'venezuela': 'venezuela',
    'uruguay': 'uruguay',
    'guam': 'guam',
    'ghana': 'ghana',
    'djibouti': 'djibouti',
    'sudan': 'sudan',
    'sudan?': 'sudan',
    'bangladesh': 'bangladesh',
    'new britain': 'new britain',
    'pacificocean': 'pacific ocean',
    'southpacificocean': 'south pacific ocean',
    'northpacificocean': 'north pacific ocean',
    'indianocean': 'indian ocean',
    'redsea': 'red sea',
    'mediterraneansea': 'mediterranean sea',
    'caribbeansea': 'caribbean sea',
    'gulf of aden': 'gulf of aden',
    'persiangulf': 'persian gulf',
    'northatlantic': 'north atlantic ocean',
    'midatlantic': 'mid atlantic ocean',
    'northsea': 'north sea',
    'tasmansea': 'tasman sea',
    'englishchannel': 'english channel',
    'persiangulf': 'persian gulf',
    'antarctica': 'antarctica',
    'cyprus': 'cyprus',
    'mauritius': 'mauritius',
    'mongolia': 'mongolia',
    'jordan': 'jordan',
    'kuwait': 'kuwait',
    'new guinea': 'new guinea',
    'algeria': 'algeria',
    'yemen': 'yemen',
    'singapore': 'singapore',
    'kuwait': 'kuwait',
    'burma': 'myanmar',
    'myanmar': 'myanmar',
    'britishwestindies': 'british west indies',
    'cuba': 'cuba',
    'pakistan': 'pakistan',
    'sweden': 'sweden',
    'norway': 'norway',
    'ireland': 'ireland',
    'britishisles': 'united kingdom',
    'kyrgyzstan': 'kyrgyzstan',
    'taiwan': 'taiwan',
    'lebanon': 'lebanon',
    'georgia': 'georgia',
    'croatia': 'croatia',
    'slovenia': 'slovenia',
    'serbia': 'serbia',
    'north macedonia': 'north macedonia',
    'comoros': 'comoros',
    'vanuatu': 'vanuatu',
    'guatemala': 'guatemala',
    'honduras': 'honduras',
    'philippines': 'philippines',
    'mid-pacificocean': 'mid-pacific ocean',
    'israel': 'israel',
    'hongkong': 'hong kong',
    'taiwan': 'taiwan',
    'china': 'china',
    'liberia': 'liberia',
    'gabon': 'gabon',
    'gambia': 'gambia',
    'singapore': 'singapore',
    'burma': 'myanmar',
    'macao': 'macao',
    'cayman islands': 'cayman islands',
    'morocco': 'morocco',
    'jamaica': 'jamaica',
    'belize': 'belize',
    'australia': 'australia',
    'usa': 'united states',
    'america': 'united states',
    'maldiveislands': 'maldives',
    'maldives': 'maldives',
    'turksandcaicos': 'turks and caicos',
    'turks&caicos': 'turks and caicos',
    'frenchpolynesia': 'french polynesia',
    'french polynesia': 'french polynesia',
    'tobago': 'trinidad and tobago',
    'trinidad': 'trinidad and tobago',
    'trinidad&tobago': 'trinidad and tobago',
    'bahamas': 'bahamas',
    'india': 'india',
    'southafrica': 'south africa',
    'south africa': 'south africa',
    'mexico': 'mexico',
    'newzealand': 'new zealand',
    'new zealand': 'new zealand',
    'egypt': 'egypt',
    'philippines': 'philippines',
    'coralsea': 'coral sea',
    'spain': 'spain',
    'portugal': 'portugal',
    'samoa': 'samoa',
    'colombia': 'colombia',
    'columbia': 'colombia',
    'ecuador': 'ecuador',
    'newcaledonia': 'new caledonia',
    'cuba': 'cuba',
    'brazil': 'brazil',
    'seychelles': 'seychelles',
    'argentina': 'argentina',
    'fiji': 'fiji',
    'england': 'united kingdom',
    'uk': 'united kingdom',
    'unitedkingdom': 'united kingdom',
    'japan': 'japan',
    'indonesia': 'indonesia',
    'thailand': 'thailand',
    'costarica': 'costa rica',
    'costa rica': 'costa rica',
    'britishoverseasterritory': 'united kingdom',
    'stkitts/nevis': 'st kitts and nevis',
    'stmartin': 'st martin',
    'st.maarten': 'st martin',
    'papuanewguinea': 'papua new guinea',
    'reunionisland': 'reunion',
    'reunion': 'reunion',
    'israel': 'israel',
    'china': 'china',
    'ireland': 'ireland',
    'italy': 'italy',
    'italy/croatia': 'italy',
    'malaysia': 'malaysia',
    'libya': 'libya',
    'mauritius': 'mauritius',
    'solomonislands': 'solomon islands',
    'solomon islands': 'solomon islands',
    'sthelena,britishoverseasterritory': 'st helena',
    'comoros': 'comoros',
    'unitedarabemirates': 'united arab emirates',
    'unitedarabemirates(uae)': 'united arab emirates',
    'uae': 'united arab emirates',
    'capeverde': 'cape verde',
    'dominicanrepublic': 'dominican republic',
    'puertorico': 'puerto rico',
    'caymanislands': 'cayman islands',
    'grandcayman': 'cayman islands',
    'aruba': 'aruba',
    'mozambique': 'mozambique',
    'atlanticocean': 'atlantic ocean',
    'greece': 'greece',
    'st.martin': 'st martin',
    'france': 'france',
    'kiribati': 'kiribati',
    'diegogarcia': 'diego garcia',
    'taiwan': 'taiwan',
    'palestinianterritories': 'palestinian territories',
    'guam': 'guam',
    'nigeria': 'nigeria',
    'tonga': 'tonga',
    'scotland': 'united kingdom',
    'croatia': 'croatia',
    'saudiarabia': 'saudi arabia',
    'chile': 'chile',
    'antigua': 'antigua and barbuda',
    'kenya': 'kenya',
    'russia': 'russia',
    'azores': 'azores',
    'southkorea': 'south korea',
    'malta': 'malta',
    'vietnam': 'vietnam'}

In [None]:
shark_3_df = shark_2_df.copy()
shark_3_df['country'] = shark_3_df['country'].replace(countries_dictionary)

# Mostrar el DataFrame limpio
print(shark_3_df['country'].nunique())

In [None]:
# Primero miramos los valores nulos 
shark_3_df.isnull().sum()

In [None]:
shark_3_df.shape

In [None]:
shark_3_df.info()

In [None]:
shark_3_df

In [None]:
shark_4_df=shark_3_df.copy()
shark_4_df=shark_4_df.dropna(how="all")

In [None]:
shark_4_df

In [None]:
shark_4_df["type"].unique()

In [None]:
types_dictionary = {'Unprovoked':'Unprovoked',
                    ' Provoked':'Provoked',
                    'Provoked': 'Provoked',
                    'Questionable': 'Nan',
                    'Watercraft': 'Watercraft',
                    'Sea Disaster':'Nan',
                    'nan':'Nan',
                    '?':'Nan',
                    'Unconfirmed':'Nan',
                    'Unverified': 'Nan',
                    'Invalid': 'Nan',
                    'Under investigation':'Nan',
                    'Boat':'Watercraft'}

In [None]:
shark_4_df

In [None]:
# Cuando son strings se saca la moda (en vez de la media) y con la moda se reemplazan los vacíos

# Para type
#mode_type = shark_4_df["type"].mode()

# Limpiamos la columna
shark_4_df["type"]= shark_4_df["type"].replace(types_dictionary)
shark_4_df

In [None]:
# Reemplazamos los Nan por la moda
mode_type=shark_4_df["type"].mode()
mode_type

In [None]:
shark_4_df["type"]= shark_4_df["type"].fillna("Unprovoked")
shark_4_df

In [None]:
shark_4_df.isnull().sum()

In [None]:
shark_4_df["type"].isnull().sum()

In [None]:
# Decidimos eliminar todas las filas que contengan valores nulos en la columna "localización"
shark_5_df= shark_4_df.copy()
shark_5_df=shark_5_df.dropna(subset=["location"])

In [None]:
shark_5_df.isnull().sum()

In [None]:
shark_5_df

In [None]:
# en el caso de las especies de tiburón, hacemos la moda porque queremos ver en cada lugar el tiburón que ataca con más frecuencia
mode_species=shark_5_df["species"].mode()
mode_species

In [None]:
shark_5_df["species"]= shark_4_df["species"].fillna("White shark")
shark_5_df

In [None]:
shark_5_df.isnull().sum()

In [None]:
# Sacamos la moda de la actividad, para saber cuál es la actividad más peligrosa
mode_activity=shark_5_df["activity"].mode()
mode_activity

In [None]:
# Borramos las filas que tengan actividad Nan, ya que la cantidad de valores nulos de actividad dentro del total de filas
# No es muy significativo
shark_5_df=shark_5_df.dropna(subset=["activity"])
shark_5_df.isnull().sum()

In [None]:
shark_5_df=shark_5_df.dropna(subset=["country"])
shark_5_df.isnull().sum()

In [None]:
shark_5_df=shark_5_df.dropna(subset=["injury"])
shark_5_df.isnull().sum()

In [None]:
shark_5_df

In [None]:
shark_6_df=shark_5_df.copy()

In [None]:
pd.set_option('display.max_rows', None)
shark_6_df

shark_6_df["mes"]=shark_6_df["date"].apply(lambda x: x.split('-')[1] if len(x.split("-"))>1 else "sin_mes")

In [None]:
# queremos ver LOS ATAQUES por cada país y año?
# pivot_df = df.pivot_table(index='country', columns='year', values=['GDP'])
# pivot_df.head(10)

In [None]:
shark_6_df["date"]=shark_6_df["date"].astype(str)

In [None]:
shark_7_df = shark_6_df.copy()
shark_7_df['clean_date'] = shark_7_df['date'].str.replace(r'^[^\d]+', '', regex=True)

In [None]:
shark_7_df

In [None]:
shark_8_df=shark_7_df.copy()
shark_8_df

In [None]:
shark_8_df['clean_date'] = shark_8_df['clean_date'].str.replace(r'\s*\d{2}:\d{2}:\d{2}', '', regex=True)

In [None]:
shark_8_df

In [None]:
shark_9_df=shark_8_df.copy()

In [None]:
shark_9_df

In [None]:
def fechas(element):
    # Verifica si el elemento es una cadena de texto
    if isinstance(element, str):
        # Si el elemento contiene "-", lo divide por el guion
        if "-" in element:
            return element.split("-")
        # Si no, lo divide por espacios
        else:
            return element.split(" ")
    # Si el elemento no es una cadena (ya es lista), lo retorna tal cual
    return element

In [None]:
shark_9_df["clean_date"] = shark_9_df["clean_date"].apply(fechas)
shark_9_df

In [None]:
shark_10_df=shark_9_df.copy()
shark_10_df["clean_date"]= shark_10_df["clean_date"]

In [None]:
shark_10_df['clean_date'] = shark_10_df['clean_date'].apply(lambda x: x[:-1] if isinstance(x, list) and len(x) == 3 else x)
shark_10_df

In [None]:
shark_11_df=shark_10_df.copy()
shark_11_df['clean_date'] = shark_11_df['clean_date'].apply(lambda x: x[0:-1] if isinstance(x, list) and len(x) == 4 else x)

In [None]:
shark_11_df

In [None]:
def años(element1,element2):
    año1=[]
    año2=[]
    for element1,element2 in column:
        for i in element1,element2:
            año.append(i)

shark_11_df['clean_date'] = shark_11_df['clean_date'].apply(años)

In [None]:
shark_11_df['xisca_mes'] = shark_11_df['date'].apply(lambda x: x.split("-")[1] if len(x.split("-"))>1 else "sin_mes")
shark_11_df['xisca_mes'].value_counts()

In [None]:
len(shark_11_df[shark_11_df.xisca_mes.isin(["Jul","Aug","Sep","Jan","Feb","Mar","Apr","May","Jun","Oct","Nov","Dec"])])/len(shark_11_df)*100

In [None]:
shark_11_df['xisca_mes2'] = shark_11_df['clean_date'].apply(lambda x: x[1] if len(x)>1 else "sin_mes")
shark_11_df['xisca_mes2'].value_counts()

In [None]:
shark_12_df = shark_11_df[shark_11_df.xisca_mes.isin(["Jul","Aug","Sep","Jan","Feb","Mar","Apr","May","Jun","Oct","Nov","Dec"])]
shark_12_df()

In [None]:
shark_13_df= shark_12_df.drop(columns=["date"])
shark_13_df

In [None]:
shark_13_df

In [None]:
shark_13_df=shark_13_df.rename(columns={"xisca_mes":"months"})

In [None]:
shark_13_df

In [None]:
def get_season(month):
    if month in ["Dec", "Jan", "Feb"]:
        return 'Winter'
    elif month in ["Mar", "Apr", "May"]:
        return 'Spring'
    elif month in ["Jun", "Jul", "Aug"]:
        return 'Summer'
    elif month in ["Sep", "Oct", "Nov"]:
        return 'Autumun'
shark_13_df['seasons'] = shark_13_df['months'].apply(get_season)
shark_13_df

In [None]:
shark_attacks_country = shark_13_df.groupby(['country', 'seasons']).agg({ 'ataques de tiburones': 'sum', 'fatalidad del ataque': 'sum' }).reset_index()

In [None]:
#Queremos encontrar el numero de ataques en cada pais por estación
attacks=len(shark_13_df)
attacks

In [None]:
shark_13_df["attacks"]=1
shark_13_df

In [None]:
df_attacks_general= round(shark_13_df.groupby(by=["country","seasons"])["attacks"].sum().reset_index())
df_attacks

In [None]:
# Representar maximos y minimos 
# Calculamos maximos y minimos de los ataques en función del país y de la estación
df_attacks_statistics = round(shark_13_df.groupby(by=["country"])["attacks"].agg(["max", "min", "mean"]))
df_attacks_statistics

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
ataques_por_pais= shark_13_df.groupby("country")["attacks"].sum()
ataques_por_pais

In [None]:
paises_mas_ataques = ataques_por_pais.nlargest(5)
paises_mas_ataques

In [None]:
paises_menos_ataques = ataques_por_pais.nsmallest(5)
paises_menos_ataques

In [None]:
len(shark_13_df)

In [None]:
import seaborn as sns 
import matplotlib.pyplot as plt

test= shark_13_df.groupby(["country","seasons"])["attacks"].sum()
test_shorted = test.sort_values(ascending=False).head(10)
test_shorted_df = test_shorted.reset_index(drop=False)
test_shorted_df

In [None]:
# Crear el gráfico de barras 
plt.figure(figsize=(10, 6)) 
sns.barplot(data=test_shorted_df, x='country', y='attacks', hue='seasons', ci=None) 

# Personalizar el gráfico 
plt.title('Top 3 Countries with most Shark Attacks by Season') 
plt.xlabel('Country') 
plt.ylabel('Number of Attacks') 
plt.legend(title='Season') 
plt.show()

In [None]:
test_1= shark_13_df.groupby(["country","seasons"])["attacks"].sum()
test_shorted_min= test_1.sort_values(ascending=True).head(15)
test_shorted_min_df = test_shorted_min.reset_index(drop=False)
test_shorted_min_df

In [None]:
# Suponiendo que ya tienes un DataFrame 'ataques_por_pais'

plt.figure(figsize=(10, 6))
sns.barplot(data=test_shorted_min_df, x='country', y='attacks', palette='viridis')

# Personalizar el gráfico
plt.title('Los 5 Países con Menos Ataques de Tiburones')
plt.xlabel('País')
plt.ylabel('Número de Ataques')
plt.xticks(rotation=45)  # Rotar las etiquetas del eje x si es necesario
plt.show()