# Análisis de Dataset: Tasa de Suicidios por País (2024)

Este notebook sigue las instrucciones al 100% para el análisis y manipulación de datos
utilizando Pandas y prácticas recomendadas para explorar, limpiar, transformar,
y analizar un dataset en formato CSV sin visualización.

In [26]:
# Paso 1: Preparación del Entorno
import pandas as pd

# Cargamos los datos desde el archivo CSV
file_path = 'data/suicide-rate-by-country-2024.csv'
df = pd.read_csv(file_path)


## Paso 2: Carga y Exploración de los Datos

In [27]:
# Mostrar las primeras 10 filas del DataFrame para confirmar carga
print('Primeras 10 filas del DataFrame:')
print(df.head(10))

# Mostrar las últimas 5 filas del DataFrame
print('\nÚltimas 5 filas del DataFrame:')
print(df.tail(5))

# Información general del DataFrame
print('\nInformación general:')
df.info()

# Estadísticas descriptivas del DataFrame
print('\nEstadísticas descriptivas:')
print(df.describe())


Primeras 10 filas del DataFrame:
         country  SuicideRate_BothSexes_RatePer100k_2021  \
0          India                                   13.33   
1          China                                    9.17   
2  United States                                   15.25   
3      Indonesia                                    1.64   
4       Pakistan                                    5.82   
5        Nigeria                                    4.27   
6         Brazil                                    7.78   
7     Bangladesh                                    3.67   
8         Russia                                   24.10   
9       Ethiopia                                    6.17   

   SuicideRate_Male_RatePer100k_2021  SuicideRate_Female_RatePer100k_2021  \
0                              15.70                                10.85   
1                              10.64                                 7.63   
2                              24.13                                 6.66  

## Paso 3: Limpieza de Datos

In [28]:
# Verificación de valores nulos en cada columna
print('\nValores nulos por columna:')
print(df.isnull().sum())

# Relleno de datos faltantes con la mediana para columnas numéricas
for column in df.select_dtypes(include=['float64', 'int64']).columns:
    df[column].fillna(df[column].median(), inplace=True)

# Eliminación de duplicados si existen
df.drop_duplicates(inplace=True)
print('\nDuplicados eliminados si existían.')



Valores nulos por columna:
country                                    0
SuicideRate_BothSexes_RatePer100k_2021     0
SuicideRate_Male_RatePer100k_2021          0
SuicideRate_Female_RatePer100k_2021        0
SuicideRate_BothSexes_RatePer100k_2020     0
SuicideRate_Male_RatePer100k_2020          0
SuicideRate_Female_RatePer100k_2020        0
SuicideRate_BothSexes_RatePer100k_2019    21
SuicideRate_Male_RatePer100k_2019         22
SuicideRate_Female_RatePer100k_2019       21
dtype: int64

Duplicados eliminados si existían.


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[column].fillna(df[column].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[column].fillna(df[column].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are se

## Paso 4: Transformación de Datos

In [29]:
# Usar la columna de tasas de suicidio de 2021 como base para el análisis
if 'SuicideRate_BothSexes_RatePer100k_2021' in df.columns:
    df['suicide_rate_per_100k'] = df['SuicideRate_BothSexes_RatePer100k_2021']
    print('\nColumna suicide_rate_per_100k creada con datos de 2021.')
else:
    print('Columna de tasa de suicidio no encontrada.')

# Función para clasificar en categorías de riesgo
def categorize_risk(rate):
    if rate >= 20:
        return 'Alto'
    elif rate >= 10:
        return 'Medio'
    else:
        return 'Bajo'

# Aplicar la función de categorización al DataFrame
df['risk_category'] = df['suicide_rate_per_100k'].apply(categorize_risk)



Columna suicide_rate_per_100k creada con datos de 2021.


## Paso 5: Análisis de Datos

In [30]:
# Tasa media de suicidio por país
if 'country' in df.columns and 'suicide_rate_per_100k' in df.columns:
    suicide_by_country = df.groupby('country')['suicide_rate_per_100k'].mean()
    print('\nTasa media de suicidio por país:')
    print(suicide_by_country)

# Estadísticas avanzadas por categoría de riesgo
if 'risk_category' in df.columns:
    risk_stats = df.groupby('risk_category')['suicide_rate_per_100k'].agg(['count', 'mean', 'std', 'min', 'max'])
    print('\nEstadísticas por categoría de riesgo:')
    print(risk_stats)



Tasa media de suicidio por país:
country
Afghanistan        3.60
Albania            4.10
Algeria            2.76
American Samoa     8.04
Andorra            7.89
                  ...  
Venezuela          8.11
Vietnam            8.01
Yemen              3.56
Zambia             8.16
Zimbabwe          17.61
Name: suicide_rate_per_100k, Length: 204, dtype: float64

Estadísticas por categoría de riesgo:
               count       mean        std    min    max
risk_category                                           
Alto              13  26.273077  10.551356  20.04  59.62
Bajo             130   5.630154   2.369482   0.78   9.85
Medio             61  14.259344   2.407465  10.47  19.42
