## Importar librerías

In [1]:
#Librerías para el manejo de datos
import pandas as pd
import numpy as np

#Librerías para la visualización de los datos
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objs as go
import seaborn as sns


# Expresiones regulares
import re
from fuzzywuzzy import process

import warnings
warnings.filterwarnings('ignore')



In [3]:
df_suicides=pd.read_csv(r"C:\Users\usuario\Desktop\Master Data Analytics\PROYECTO FINAL - HEALTH ANALYTICS\Dato\death_rate_from_suicides_gho.csv")


## Análisis general de los datos

In [2]:
#Una vez importados los datos analizamos por encima los df
def check_df(df):
    print("Cuál es la forma del dataframe?")
    display(df.shape)
    print("\n------------------------------------------------------------------------------------------------------------------------------------")
    print("Cuáles son las columnas del dataframe?")
    print(df.columns)
    print("\n------------------------------------------------------------------------------------------------------------------------------------")
    print("Cuáles son las primeras 5 filas del dataframe?")
    display(df.head())
    print("\n------------------------------------------------------------------------------------------------------------------------------------")
    print("Cuáles son las 5 últimas filas?")
    display(df.tail())
    print("\n------------------------------------------------------------------------------------------------------------------------------------")
    print("Muéstrame 5 filas aleatorias del dataframe")
    display(df.sample(5))
    print("\n------------------------------------------------------------------------------------------------------------------------------------")
    print("Información sobre la tipología de datos:")
    print(df.dtypes)
    print("\n------------------------------------------------------------------------------------------------------------------------------------")
    print("Principales datos estadísticos:")
    display(df.describe())
    print("\n------------------------------------------------------------------------------------------------------------------------------------")
    print("Existen columnas con valores nulos?")
    print(df.isnull().sum())
    print("\n------------------------------------------------------------------------------------------------------------------------------------")
    print("Existen columnas con valores duplicados?")
    print(df.duplicated().sum())

In [4]:
check_df(df_suicides)

Cuál es la forma del dataframe?


(3880, 4)


------------------------------------------------------------------------------------------------------------------------------------
Cuáles son las columnas del dataframe?
Index(['Entity', 'Code', 'Year',
       'Age-standardized suicide rate - Sex: both sexes'],
      dtype='object')

------------------------------------------------------------------------------------------------------------------------------------
Cuáles son las primeras 5 filas del dataframe?


Unnamed: 0,Entity,Code,Year,Age-standardized suicide rate - Sex: both sexes
0,Afghanistan,AFG,2000,7.71
1,Afghanistan,AFG,2001,7.89
2,Afghanistan,AFG,2002,7.85
3,Afghanistan,AFG,2003,7.72
4,Afghanistan,AFG,2004,7.77



------------------------------------------------------------------------------------------------------------------------------------
Cuáles son las 5 últimas filas?


Unnamed: 0,Entity,Code,Year,Age-standardized suicide rate - Sex: both sexes
3875,Zimbabwe,ZWE,2015,30.7352
3876,Zimbabwe,ZWE,2016,28.6973
3877,Zimbabwe,ZWE,2017,25.8514
3878,Zimbabwe,ZWE,2018,23.8676
3879,Zimbabwe,ZWE,2019,23.6286



------------------------------------------------------------------------------------------------------------------------------------
Muéstrame 5 filas aleatorias del dataframe


Unnamed: 0,Entity,Code,Year,Age-standardized suicide rate - Sex: both sexes
302,Barbados,BRB,2002,0.291
576,Burundi,BDI,2016,12.6147
997,Dominican Republic,DOM,2017,6.02
875,Cuba,CUB,2015,10.3608
2794,Portugal,PRT,2014,9.23



------------------------------------------------------------------------------------------------------------------------------------
Información sobre la tipología de datos:
Entity                                              object
Code                                                object
Year                                                 int64
Age-standardized suicide rate - Sex: both sexes    float64
dtype: object

------------------------------------------------------------------------------------------------------------------------------------
Principales datos estadísticos:


Unnamed: 0,Year,Age-standardized suicide rate - Sex: both sexes
count,3880.0,3880.0
mean,2009.5,11.711984
std,5.767025,9.58546
min,2000.0,0.0
25%,2004.75,5.8075
50%,2009.5,9.9
75%,2014.25,14.60265
max,2019.0,116.1953



------------------------------------------------------------------------------------------------------------------------------------
Existen columnas con valores nulos?
Entity                                               0
Code                                               200
Year                                                 0
Age-standardized suicide rate - Sex: both sexes      0
dtype: int64

------------------------------------------------------------------------------------------------------------------------------------
Existen columnas con valores duplicados?
0


In [5]:
df_null=df_suicides[df_suicides["Code"].isnull()]
df_null.head()

Unnamed: 0,Entity,Code,Year,Age-standardized suicide rate - Sex: both sexes
20,Africa,,2000,15.6107
21,Africa,,2001,15.2592
22,Africa,,2002,15.0343
23,Africa,,2003,14.8581
24,Africa,,2004,14.609


In [6]:
#Como hemos visto en los df anteriores por lo general las entidades sin código suelen ser entidades sin países
df_null["Entity"].unique()

array(['Africa', 'Americas', 'Eastern Mediterranean', 'Europe',
       'High-income', 'Low-income', 'Lower-middle-income',
       'South-East Asia', 'Upper-middle-income', 'Western Pacific'],
      dtype=object)

In [7]:
#Analizamos los datos en general para ver los países que están a la cabeza en suicidos y los que no
df=df_suicides.dropna()
df.sort_values(by="Age-standardized suicide rate - Sex: both sexes", ascending=False).head(3)

Unnamed: 0,Entity,Code,Year,Age-standardized suicide rate - Sex: both sexes
1974,Lesotho,LSO,2014,116.1953
1975,Lesotho,LSO,2015,114.4881
1973,Lesotho,LSO,2013,111.4236


In [8]:
#Los paíeses con menor nivel de suicidios
df.sort_values(by="Age-standardized suicide rate - Sex: both sexes",).head(3)

Unnamed: 0,Entity,Code,Year,Age-standardized suicide rate - Sex: both sexes
129,Antigua and Barbuda,ATG,2009,0.0
132,Antigua and Barbuda,ATG,2012,0.0
133,Antigua and Barbuda,ATG,2013,0.0


## Visualización de los niveles de suicidio por renta

In [11]:
income_filter=["High-income", "Upper-middle-income", "Lower-middle-income","Low-income"]
df_income=df_suicides[df_suicides["Entity"].isin(income_filter)]
df_income.head()

Unnamed: 0,Entity,Code,Year,Age-standardized suicide rate - Sex: both sexes
1520,High-income,,2000,11.9728
1521,High-income,,2001,11.8232
1522,High-income,,2002,12.0356
1523,High-income,,2003,12.2437
1524,High-income,,2004,12.0231


In [13]:
fig=px.line(
    data_frame=df_income,
    y="Age-standardized suicide rate - Sex: both sexes",
    x="Year",
    color="Entity",
    title= "Nivel de suicidios según el nivel de renta"
            
    )
fig.update_layout(
    title={
        'text': "Nivel de suicidios según el nivel de renta",
        'x': 0.5,
        'xanchor':'center'

    }
)

En el rango temporal no se puede hacer una relación clara entre el nivel de renta del país y los suicidios. Si miramos a inicios del año 2000 los niveles están encabezados por países con un nivel de renta medio-bajo, pero en los años más avanzados pasa a estar encabezado por los paíes de renta alta.

## Visualización de los niveles de suicidio por continente

In [17]:
continent_filter=["Africa", "Americas", "Eastern Mediterranean", "Europe",  "South-East Asia", "Western Pacific" ]
df_continent=df_suicides[df_suicides["Entity"].isin(continent_filter)]
df_continent.head()

Unnamed: 0,Entity,Code,Year,Age-standardized suicide rate - Sex: both sexes
20,Africa,,2000,15.6107
21,Africa,,2001,15.2592
22,Africa,,2002,15.0343
23,Africa,,2003,14.8581
24,Africa,,2004,14.609


In [18]:
fig=px.line(
    data_frame=df_continent,
    y="Age-standardized suicide rate - Sex: both sexes",
    x="Year",
    color="Entity",
    title= "Nivel de suicidios por continente"
            
    )
fig.update_layout(
    title={
        'text': "Nivel de suicidios por continente",
        'x': 0.5,
        'xanchor':'center'

    }
)

El líder en cifras de suicidio está compartido por África y Europa. A inicios del año 2000 está a la cabeza Europa con una diferencia sustancial sobre el resto, pero conforme pasa el tiempo las cifras de Europa y África convergen.