# Análisis de desórdenes mentales en el mundo.

## Introducción

## Justificación
El presente proyecto busca generar un análisis de la evolución de diversos desórdenes mentales en el mundo a lo largos de las últimas décadas. Para este proyecto se hace especial énfasis en la depresión, ya que se cuenta con una base de información extremadamente bien documentada sobre este fenómeno en particular y, por otro lado, este desorden en particular se encuentra como la mayor causa de discapacidad en el mundo, siendo entonces su estudio y comprensión de suma importancia para un mayor entendimiento de sus causas, consecuencias, así como de sus posibles soluciones.

La OMS ha identificado fuertes vínculos entre la depresión y otros trastornos y enfermedades no transmisibles. La depresión aumenta el riesgo de trastornos por uso de sustancias y enfermedades como la diabetes y las enfermedades del corazón; lo contrario también es cierto, lo que significa que las personas con estas otras condiciones tienen un mayor riesgo de depresión.

La depresión también es un factor de riesgo importante para el suicidio, que reclama cientos de miles de vidas cada año.

Es por esta razón que un análisis que nos permita estudiarla resulta sumamente relevante.

## Preguntas clave
- ¿A qué edad empiezan a manifestarse ciertos desórdenes?
- ¿En qué zonas del mundo hay mayor prevalencia de desórdenes mentales?
- ¿Qué tan prevalentes son estos desórdenes en países desarrollados? ¿Y en países en desarrollo?
- ¿Qué tendencia tienen en su prevalencia a lo largo de los años?
- ¿Está relacionada la depresión con el suicidio?

### Instalación de las librerías

In [121]:
!pip install openpyxl
!pip install pandas
!pip install kaggle
!pip install zipfile

Collecting zipfile


You should consider upgrading via the 'python -m pip install --upgrade pip' command.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.
  ERROR: Could not find a version that satisfies the requirement zipfile (from versions: none)
ERROR: No matching distribution found for zipfile
You should consider upgrading via the 'python -m pip install --upgrade pip' command.


### Importación de Librerías
- Pandas
- ZipFile
- os

In [122]:
import pandas as pd
from zipfile import ZipFile 
import os

### Lectura de datos

In [123]:
global_disorders = pd.read_excel(open('./data/depression.xlsx', 'rb'), sheet_name='prevalence-by-mental-and-substa')
education_level = pd.read_excel(open('./data/depression.xlsx', 'rb'), sheet_name='depression-by-level-of-educatio')
age_groups = pd.read_excel(open('./data/depression.xlsx', 'rb'), sheet_name='prevalence-of-depression-by-age')
gender_groups = pd.read_excel(open('./data/depression.xlsx', 'rb'), sheet_name='prevalence-of-depression-males-')
depression_and_suicide_rate = pd.read_excel(open('./data/depression.xlsx', 'rb'), sheet_name='suicide-rates-vs-prevalence-of-')
affected = pd.read_excel(open('./data/depression.xlsx', 'rb'), sheet_name='number-with-depression-by-count')

### Visualización las dimensiones de las tablas

La uniformidad de los datos es importante, ya que nos permite concatenar fácilmente datos que están relacionados entre sí.

Esto se puede realizar mediante la función <code>shape</code>.

In [124]:
print('global disorders: ', global_disorders.shape)
print('education levels', education_level.shape)
print('age groups: ', age_groups.shape)
print('gender groups: ', gender_groups.shape)
print('depression and suicide rate: ', depression_and_suicide_rate.shape)
print('affected: ', affected.shape)

global disorders:  (6468, 10)
education levels (26, 15)
age groups:  (6468, 13)
gender groups:  (47807, 6)
depression and suicide rate:  (47807, 6)
affected:  (6468, 4)


### Nombre y tipos de datos

La consistencia entre los metadatos de un conjunto de datos permite la correcta integración entre sí.

Esto se puede realizar mediante la función <code>dtypes</code>.

DataFrame de índices de desórdenes globales

In [125]:
global_disorders.dtypes

Entity                        object
Code                          object
Year                           int64
Schizophrenia (%)            float64
Bipolar disorder (%)         float64
Eating disorders (%)         float64
Anxiety disorders (%)        float64
Drug use disorders (%)       float64
Depression (%)               float64
Alcohol use disorders (%)    float64
dtype: object

DataFrame de índices de depresión por nivel de educación

In [126]:
education_level.dtypes

Entity                                                           object
Code                                                             object
Year                                                              int64
All levels (active) (%)                                         float64
All levels (employed) (%)                                       float64
All levels (total) (%)                                          float64
Below upper secondary (active) (%)                              float64
Below upper secondary (employed) (%)                            float64
Below upper secondary (total) (%)                               float64
Tertiary (active) (%)                                           float64
Tertiary (employed) (%)                                         float64
Tertiary (total) (%)                                            float64
Upper secondary & post-secondary non-tertiary (active) (%)      float64
Upper secondary & post-secondary non-tertiary (employed) (%)    

DataFrame de índices de depresión por edad

In [127]:
age_groups.dtypes

Entity                   object
Code                     object
Year                      int64
20-24 years old (%)     float64
10-14 years old (%)     float64
All ages (%)            float64
70+ years old (%)       float64
30-34 years old (%)     float64
15-19 years old (%)     float64
25-29 years old (%)     float64
50-69 years old (%)     float64
Age-standardized (%)    float64
15-49 years old (%)     float64
dtype: object

DataFrame de índices de depresión por género

In [128]:
gender_groups.dtypes

Entity                        object
Code                          object
Year                          object
Prevalence in males (%)      float64
Prevalence in females (%)    float64
Population                   float64
dtype: object

DataFrame de índices de depresión y suicidio por cada 100,000 individuos

In [129]:
depression_and_suicide_rate.dtypes

Entity                                                       object
Code                                                         object
Year                                                         object
Suicide rate (deaths per 100,000 individuals)               float64
Depressive disorder rates (number suffering per 100,000)    float64
Population                                                  float64
dtype: object

DataFrame de población afectada por la depresión

In [130]:
affected.dtypes

Entity                                                                                                        object
Code                                                                                                          object
Year                                                                                                           int64
Prevalence - Depressive disorders - Sex: Both - Age: All Ages (Number) (people suffering from depression)    float64
dtype: object

### Visualización de un conjunto de datos pequeño

Explorar el conjunto de datos nos permite visualizar los posibles valores que adquiere cada columna y de esta forma, realizar un correcto procesamiento de datos.

Este proceso se puede realizar mediante la función <code>head</code>.

DataFrame de índices de desórdenes globales

In [131]:
global_disorders.head()

Unnamed: 0,Entity,Code,Year,Schizophrenia (%),Bipolar disorder (%),Eating disorders (%),Anxiety disorders (%),Drug use disorders (%),Depression (%),Alcohol use disorders (%)
0,Afghanistan,AFG,1990,0.16056,0.697779,0.101855,4.82883,1.677082,4.071831,0.672404
1,Afghanistan,AFG,1991,0.160312,0.697961,0.099313,4.82974,1.684746,4.079531,0.671768
2,Afghanistan,AFG,1992,0.160135,0.698107,0.096692,4.831108,1.694334,4.088358,0.670644
3,Afghanistan,AFG,1993,0.160037,0.698257,0.094336,4.830864,1.70532,4.09619,0.669738
4,Afghanistan,AFG,1994,0.160022,0.698469,0.092439,4.829423,1.716069,4.099582,0.66926


DataFrame de índices de depresión por nivel de educación

In [132]:
education_level.head()

Unnamed: 0,Entity,Code,Year,All levels (active) (%),All levels (employed) (%),All levels (total) (%),Below upper secondary (active) (%),Below upper secondary (employed) (%),Below upper secondary (total) (%),Tertiary (active) (%),Tertiary (employed) (%),Tertiary (total) (%),Upper secondary & post-secondary non-tertiary (active) (%),Upper secondary & post-secondary non-tertiary (employed) (%),Upper secondary & post-secondary non-tertiary (total) (%)
0,Austria,AUT,2014,6.5,4.7,7.7,15.5,9.0,15.2,4.3,3.5,5.5,5.5,4.2,6.7
1,Belgium,BEL,2014,5.0,4.1,7.1,7.1,4.8,11.6,3.7,3.3,4.2,5.7,5.0,7.5
2,Czech Republic,CZE,2014,3.0,2.6,4.0,2.1,2.5,6.0,1.7,1.7,2.0,3.5,3.0,4.4
3,Denmark,DNK,2014,6.7,5.7,8.3,10.4,6.5,15.5,5.7,4.7,6.7,7.4,6.9,8.8
4,Estonia,EST,2014,3.8,3.8,5.1,4.7,4.7,6.4,3.6,3.6,4.3,3.7,3.8,5.2


DataFrame de índices de depresión por edad

In [133]:
age_groups.head()

Unnamed: 0,Entity,Code,Year,20-24 years old (%),10-14 years old (%),All ages (%),70+ years old (%),30-34 years old (%),15-19 years old (%),25-29 years old (%),50-69 years old (%),Age-standardized (%),15-49 years old (%)
0,Afghanistan,AFG,1990,4.417802,1.594676,3.218871,5.202803,5.799034,3.455708,5.175856,5.917752,4.071831,4.939766
1,Afghanistan,AFG,1991,4.433524,1.588356,3.203468,5.192849,5.814828,3.45188,5.176729,5.927093,4.079531,4.902682
2,Afghanistan,AFG,1992,4.453689,1.57798,3.156559,5.176872,5.829745,3.434982,5.160249,5.945656,4.088358,4.837097
3,Afghanistan,AFG,1993,4.464517,1.577201,3.120655,5.167355,5.85306,3.42021,5.148767,5.966915,4.09619,4.813657
4,Afghanistan,AFG,1994,4.46296,1.570846,3.082179,5.157549,5.852851,3.425222,5.148227,5.975907,4.099582,4.83934


DataFrame de índices de depresión por género

In [134]:
gender_groups.head()

Unnamed: 0,Entity,Code,Year,Prevalence in males (%),Prevalence in females (%),Population
0,Afghanistan,AFG,1800,,,3280000.0
1,Afghanistan,AFG,1801,,,3280000.0
2,Afghanistan,AFG,1802,,,3280000.0
3,Afghanistan,AFG,1803,,,3280000.0
4,Afghanistan,AFG,1804,,,3280000.0


DataFrame de índices de depresión y suicidio por cada 100,000 individuos

In [135]:
depression_and_suicide_rate.head()

Unnamed: 0,Entity,Code,Year,"Suicide rate (deaths per 100,000 individuals)","Depressive disorder rates (number suffering per 100,000)",Population
0,Afghanistan,AFG,1800,,,3280000.0
1,Afghanistan,AFG,1801,,,3280000.0
2,Afghanistan,AFG,1802,,,3280000.0
3,Afghanistan,AFG,1803,,,3280000.0
4,Afghanistan,AFG,1804,,,3280000.0


DataFrame de población afectada por la depresión

In [136]:
affected.head()

Unnamed: 0,Entity,Code,Year,Prevalence - Depressive disorders - Sex: Both - Age: All Ages (Number) (people suffering from depression)
0,Afghanistan,AFG,1990,318435.81367
1,Afghanistan,AFG,1991,329044.773956
2,Afghanistan,AFG,1992,382544.572895
3,Afghanistan,AFG,1993,440381.507393
4,Afghanistan,AFG,1994,456916.645489


La tabla <code>education_level</code> carece de la información necesaria para poder relacionarla con los demás DataFrames, por lo que decidimos descartarla debido a múltiples factores como:

- Únicamente comprende el año 2014.
- Contiene muy pocos registros, por lo que altera la uniformidad de los datos.
- Comprende países de una sola región.

### Renombramiento

Como pudimos observar, los nombres de las columnas no siguen la convención de nombramiento de variables <code>Snake Case</code>, por lo que hay que renombrar cada columna para cada una de los DataFrames mediante la función <code>rename</code>.

In [137]:
percentages_of_global_disorders = global_disorders.copy().rename(
    columns={
        'Entity': 'entity',
        'Code': 'code',
        'Year': 'year',
        'Schizophrenia (%)': 'schizophrenia',
        'Bipolar disorder (%)': 'bipolar_disorder',
        'Eating disorders (%)': 'eating_disorder',
        'Anxiety disorders (%)': 'anxiety',
        'Drug use disorders (%)': 'drug_addiction',
        'Depression (%)': 'depression',
        'Alcohol use disorders (%)': 'alcoholism'
    }
)

depression_rates_by_age = age_groups.copy().rename(
    columns={
        'Entity': 'entity',
        'Code': 'code',
        'Year': 'year',
        'All ages (%)': 'all',
        '10-14 years old (%)': 'from_10_to_14',
        '15-19 years old (%)': 'from_15_to_19',
        '20-24 years old (%)': 'from_20_to_24',
        '25-29 years old (%)': 'from_25_to_29',
        '30-34 years old (%)': 'from_30_to_34',
        '15-49 years old (%)': 'from_15_to_49',
        '50-69 years old (%)': 'from_50_to_69',
        '70+ years old (%)': 'above_69',
        'Age-standardized (%)': 'standardized'
    }
)

depression_rates_by_gender = gender_groups.copy().rename(
    columns = {
        'Entity': 'entity',
        'Code': 'code',
        'Year': 'year',
        'Prevalence in males (%)': 'prevalence_in_males',
        'Prevalence in females (%)': 'prevalence_in_females',
        'Population': 'population'
    }
)

depression_and_suicide_rate_per_100000_individuals = depression_and_suicide_rate.copy().rename(
    columns={
        'Entity': 'entity',
        'Code': 'code',
        'Year': 'year',
        'Suicide rate (deaths per 100,000 individuals)': 'suicide_rate',
        'Depressive disorder rates (number suffering per 100,000)': 'depression_rate',
        'Population': 'population'
    }
)

depression_affected = affected.copy().rename(
    columns={
        'Entity': 'entity',
        'Code': 'code',
        'Year': 'year',
        'Prevalence - Depressive disorders - Sex: Both - Age: All Ages (Number) (people suffering from depression)': 'depression_prevalence'
    }
)

### Casting

La columna <code>year</code> de los DataFrames <code>gender_groups</code> y <code>depression_and_suicide_rate</code> es de tipo <code>object</code> mientras que en los demás DataFrames es de tipo <code>int64</code>.

1. Transformar los valores a números mediante la función <code>to_numeric</code>.
2. Filtrar los registros que no tienen valores <code>NaN</code> mediante la función <code>isna</code>.
3. Transformar los valores de <code>float64</code> a <code>int64</code> mediante la función <code>astype</code>.

In [138]:
depression_rates_by_gender['year'] = pd.to_numeric(depression_rates_by_gender['year'], errors='coerce')
depression_rates_by_gender = depression_rates_by_gender[depression_rates_by_gender['year'].isna() == False]
depression_rates_by_gender['year'] = depression_rates_by_gender['year'].astype('int64')

depression_and_suicide_rate_per_100000_individuals['year'] = pd.to_numeric(depression_and_suicide_rate_per_100000_individuals['year'], errors='coerce')
depression_and_suicide_rate_per_100000_individuals = depression_and_suicide_rate_per_100000_individuals[depression_and_suicide_rate_per_100000_individuals['year'].isna() == False]
depression_and_suicide_rate_per_100000_individuals['year'] = depression_and_suicide_rate_per_100000_individuals['year'].astype('int64')

### Limpieza de datos

Es necesario identificar las columnas que poseen valores <code>NaN</code>, ya que los datos <code>NaN</code> no permiten un correcto procesamiento de los datos.

Este proceso se puede realizar mediante las funciones <code>isna</code> y <code>mean</code>.

DataFrame de índices de desórdenes globales

In [139]:
percentages_of_global_disorders.isna().mean()

entity              0.000000
code                0.151515
year                0.000000
schizophrenia       0.000000
bipolar_disorder    0.000000
eating_disorder     0.000000
anxiety             0.000000
drug_addiction      0.000000
depression          0.000000
alcoholism          0.000000
dtype: float64

DataFrame de índices de depresión por edad

In [140]:
depression_rates_by_age.isna().mean()

entity           0.000000
code             0.151515
year             0.000000
from_20_to_24    0.000000
from_10_to_14    0.000000
all              0.000000
above_69         0.000000
from_30_to_34    0.000000
from_15_to_19    0.000000
from_25_to_29    0.000000
from_50_to_69    0.000000
standardized     0.000000
from_15_to_49    0.000000
dtype: float64

DataFrame de índices de depresión por género

In [141]:
depression_rates_by_gender.isna().mean()

entity                   0.000000
code                     0.034900
year                     0.000000
prevalence_in_males      0.864508
prevalence_in_females    0.864508
population               0.019356
dtype: float64

DataFrame de índices de depresión y suicidio por cada 100,000 individuos

In [142]:
depression_and_suicide_rate_per_100000_individuals.isna().mean()

entity             0.000000
code               0.034900
year               0.000000
suicide_rate       0.864508
depression_rate    0.864508
population         0.019356
dtype: float64

DataFrame de población afectada por la depresión

In [143]:
depression_affected.isna().mean()

entity                   0.000000
code                     0.151515
year                     0.000000
depression_prevalence    0.000000
dtype: float64

Los DataFrames contienen regiones del mundo. Estas solo nos proporcionan información parcial, por lo que no son de gran utilidad para este análisis.

Todos estos registros pueden filtrarse mediante la función <code>isna</code> aplicada a la columna <code>code</code>, ya que esta columna no tiene valor alguno para estos registros.

In [144]:
percentages_of_global_disorders = percentages_of_global_disorders.drop(percentages_of_global_disorders[percentages_of_global_disorders['code'].isna()].index)

depression_rates_by_age = depression_rates_by_age.drop(depression_rates_by_age[depression_rates_by_age['code'].isna()].index)

depression_rates_by_gender = depression_rates_by_gender.drop(depression_rates_by_gender[depression_rates_by_gender['code'].isna()].index)

depression_and_suicide_rate_per_100000_individuals = depression_and_suicide_rate_per_100000_individuals.drop(depression_and_suicide_rate_per_100000_individuals[depression_and_suicide_rate_per_100000_individuals['code'].isna()].index)

depression_affected = depression_affected.drop(depression_affected[depression_affected['code'].isna()].index)

Existen registros donde la columna <code>code</code> no tiene valor alguno por el momento, por lo que se puede eliminar sin dañar la integridad de los datos.

Los valores únicos de las columnas <code>entity</code> y <code>code</code> se almacenan en una lista para hacer referencia a este valor más adelante.

Este proceso se hace mediante la función <code>drop</code>.

In [145]:
three_letter_code = pd.Series(data = depression_rates_by_age['code'].unique(),index= depression_rates_by_age['entity'].unique(), name = "code")

percentages_of_global_disorders = percentages_of_global_disorders.drop(columns=['code'])
depression_rates_by_age = depression_rates_by_age.drop(columns=['code'])
depression_rates_by_gender = depression_rates_by_gender.drop(columns=['code'])
depression_and_suicide_rate_per_100000_individuals = depression_and_suicide_rate_per_100000_individuals.drop(columns=['code'])
depression_affected = depression_affected.drop(columns=['code'])

Ahora, procedemos a filtrar los registros comprendidos entre los años <code>1990</code> y <code>2017</code> de los DataFrames <code>depression_rates_by_gender</code> y <code>depression_and_suicide_rate_per_100000_individuals</code>.

In [146]:
depression_rates_by_gender = depression_rates_by_gender[depression_rates_by_gender['year'] >= 1990]
depression_rates_by_gender = depression_rates_by_gender[depression_rates_by_gender['year'] <= 2017]

depression_and_suicide_rate_per_100000_individuals = depression_and_suicide_rate_per_100000_individuals[depression_and_suicide_rate_per_100000_individuals['year'] >= 1990]
depression_and_suicide_rate_per_100000_individuals = depression_and_suicide_rate_per_100000_individuals[depression_and_suicide_rate_per_100000_individuals['year'] <= 2017]

Aplicamos la función <code>shape</code> para visualizar el tamaño actual de los DataFrames.

In [147]:
print('global disorders: ', percentages_of_global_disorders.shape)
print('age groups: ', depression_rates_by_age.shape)
print('gender groups: ', depression_rates_by_gender.shape)
print('depression and suicide rate: ', depression_and_suicide_rate_per_100000_individuals.shape)
print('affected: ', depression_affected.shape)

global disorders:  (5488, 9)
age groups:  (5488, 12)
gender groups:  (6580, 5)
depression and suicide rate:  (6580, 5)
affected:  (5488, 3)


Como podemos observar, los DataFrames <code>depression_rates_by_gender</code> y <code>depression_and_suicide_rate_per_100000_individuals</code> aún cuentan con una mayor cantidad de registros que el resto de los DataFrames.

Realizamos una comparación entre los valores únicos de las columnas <code>entity</code> de ambos DataFrames y un DataFrame que contiene los valores únicos compartidos de las columnas <code>entity</code> de las demás DataFrame, con el fin de conocer las entidades adicionales tienen ambos DataFrames.

In [148]:
global_disorders_unique_list = pd.unique(percentages_of_global_disorders['entity'])
gender_groups_unique_list = pd.Series(pd.unique(depression_rates_by_gender['entity']))

countries_not_in_all_dfs = gender_groups_unique_list[gender_groups_unique_list.apply(lambda x:x not in global_disorders_unique_list)]
countries_not_in_all_dfs.head()

6                            Anguilla
10                              Aruba
25    Bonaire Sint Eustatius and Saba
29             British Virgin Islands
38                     Cayman Islands
dtype: object

Podemos observar que hay registros de países pequeños, territorios y demás dependencias.

La importancia de estos registros es menor al considerar el valor de uniformidad entre cada uno de los DataFrames obtenidos, por lo que podemos filtrarlos mediante la función <code>apply</code> aplicada a la columna <code>entity</code> de ambos DataFrames.

In [149]:
depression_rates_by_gender = depression_rates_by_gender[depression_rates_by_gender['entity'].apply(lambda x:x not in countries_not_in_all_dfs.tolist())]
depression_and_suicide_rate_per_100000_individuals = depression_and_suicide_rate_per_100000_individuals[depression_and_suicide_rate_per_100000_individuals['entity'].apply(lambda x:x not in countries_not_in_all_dfs.tolist())]

print('gender groups: ', depression_rates_by_gender.shape)
print('depression and suicide rate: ', depression_and_suicide_rate_per_100000_individuals.shape)

gender groups:  (5488, 5)
depression and suicide rate:  (5488, 5)


Una vez que el número de filas sea uniforme, procedemos a comprobar que ya no existan valores <code>NaN</code> en ninguno de los DataFrames.

Este proceso se hace mediante las funciones <code>isna</code> y <code>mean</code>.

DataFrame de índices de desórdenes globales

In [150]:
percentages_of_global_disorders.isna().mean()

entity              0.0
year                0.0
schizophrenia       0.0
bipolar_disorder    0.0
eating_disorder     0.0
anxiety             0.0
drug_addiction      0.0
depression          0.0
alcoholism          0.0
dtype: float64

DataFrame de índices de desórdenes globales

In [151]:
depression_rates_by_age.isna().mean()

entity           0.0
year             0.0
from_20_to_24    0.0
from_10_to_14    0.0
all              0.0
above_69         0.0
from_30_to_34    0.0
from_15_to_19    0.0
from_25_to_29    0.0
from_50_to_69    0.0
standardized     0.0
from_15_to_49    0.0
dtype: float64

DataFrame de índices de depresión por género

In [152]:
depression_rates_by_gender.isna().mean()

entity                   0.0
year                     0.0
prevalence_in_males      0.0
prevalence_in_females    0.0
population               0.0
dtype: float64

DataFrame de índices de depresión y suicidio por cada 100,000 individuos

In [153]:
depression_and_suicide_rate_per_100000_individuals.isna().mean()

entity             0.0
year               0.0
suicide_rate       0.0
depression_rate    0.0
population         0.0
dtype: float64

DataFrame de población afectada por la depresión

In [154]:
depression_affected.isna().mean()

entity                   0.0
year                     0.0
depression_prevalence    0.0
dtype: float64

### Concatenación de los DataFrames

Una vez que el conjunto de datos está limpio y uniforme, procedemos a concatenar las columnas de los DataFrames.

Este proceso se hace mediante la función <code>merge</code>, en el análisis hecho previamente se aprecia que todos los DataFrames tienen en común las columnas <code>entity</code> y <code>year</code>, por lo que son adecuadas para relacionar los DataFrames entre sí.

In [155]:
first_merge = percentages_of_global_disorders.merge(depression_rates_by_age, left_on=['entity','year'],right_on=['entity','year'])
second_merge = first_merge.merge(depression_rates_by_gender, left_on=['entity','year'], right_on=['entity','year'])
third_merge = second_merge.merge(depression_and_suicide_rate_per_100000_individuals, left_on=['entity','year'],right_on=['entity','year'])
df_merge = third_merge.merge(depression_affected, left_on=['entity','year'],right_on=['entity','year'])
df_merge.columns

Index(['entity', 'year', 'schizophrenia', 'bipolar_disorder',
       'eating_disorder', 'anxiety', 'drug_addiction', 'depression',
       'alcoholism', 'from_20_to_24', 'from_10_to_14', 'all', 'above_69',
       'from_30_to_34', 'from_15_to_19', 'from_25_to_29', 'from_50_to_69',
       'standardized', 'from_15_to_49', 'prevalence_in_males',
       'prevalence_in_females', 'population_x', 'suicide_rate',
       'depression_rate', 'population_y', 'depression_prevalence'],
      dtype='object')

Como podemos observar, las columnas <code>population_x</code> y <code>population_y</code> hacen referencia a la misma columna, este duplicado se debe a que la columna <code>population</code> estaba presente en dos DataFrames, por lo que es necesario eliminar cualquiera de las dos columnas mediante la función <code>drop</code> para evitar la redundancia de datos y renombrar la otra columna mediante la función <code>rename</code> con el fin de preservar la legibilidad de las variables.

In [156]:
df_merge = df_merge.drop(columns = ['population_y']).rename(columns={
    'population_x': 'population'
})

Procedemos a visualizar el conjunto de datos para comprobar que el proceso se haya llevado a cabo exitosamente.

In [157]:
df_merge.head()

Unnamed: 0,entity,year,schizophrenia,bipolar_disorder,eating_disorder,anxiety,drug_addiction,depression,alcoholism,from_20_to_24,...,from_25_to_29,from_50_to_69,standardized,from_15_to_49,prevalence_in_males,prevalence_in_females,population,suicide_rate,depression_rate,depression_prevalence
0,Afghanistan,1990,0.16056,0.697779,0.101855,4.82883,1.677082,4.071831,0.672404,4.417802,...,5.175856,5.917752,4.071831,4.939766,3.499982,4.647815,12412000.0,10.318504,4039.755763,318435.81367
1,Afghanistan,1991,0.160312,0.697961,0.099313,4.82974,1.684746,4.079531,0.671768,4.433524,...,5.176729,5.927093,4.079531,4.902682,3.503947,4.655772,13299000.0,10.32701,4046.256034,329044.773956
2,Afghanistan,1992,0.160135,0.698107,0.096692,4.831108,1.694334,4.088358,0.670644,4.453689,...,5.160249,5.945656,4.088358,4.837097,3.508912,4.662066,14486000.0,10.271411,4053.709902,382544.572895
3,Afghanistan,1993,0.160037,0.698257,0.094336,4.830864,1.70532,4.09619,0.669738,4.464517,...,5.148767,5.966915,4.09619,4.813657,3.513429,4.669012,15817000.0,10.376123,4060.203474,440381.507393
4,Afghanistan,1994,0.160022,0.698469,0.092439,4.829423,1.716069,4.099582,0.66926,4.46296,...,5.148227,5.975907,4.099582,4.83934,3.515578,4.67305,17076000.0,10.575915,4062.290365,456916.645489


### API de Kaggle

Para aplicar funciones de agrupación sobre los DataFrames, utilizamos un conjunto de datos alojado en la plataforma Kaggle, el cual contiene los continentes y regiones de los distintos países del mundo.

Esto nos permite agrupar los datos por regiones geográficas y de esta forma, descubrir nuevos hallazgos.

In [164]:
os.environ['KAGGLE_CONFIG_DIR'] = "./data"
!kaggle datasets download -d andradaolteanu/country-mapping-iso-continent-region

file_name = "country-mapping-iso-continent-region.zip"
  
# opening the zip file in READ mode 
with ZipFile(file_name, 'r') as zip_file:
    # printing all the contents of the zip file 
    zip_file.printdir()
    # extracting all the files 
    zip_file.extractall()

!cp "country-mapping-iso-continent-region.zip" "./data/country-mapping-iso-continent-region.zip"
!cp "continents2.csv" "./data/continents2.csv"
!rm "continents2.csv"
!rm "country-mapping-iso-continent-region.zip"

continents = pd.read_csv('./data/continents2.csv')
continents.head()

"cp" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
"cp" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
"rm" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
"rm" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


Unnamed: 0,name,alpha-2,alpha-3,country-code,iso_3166-2,region,sub-region,intermediate-region,region-code,sub-region-code,intermediate-region-code
0,Afghanistan,AF,AFG,4,ISO 3166-2:AF,Asia,Southern Asia,,142.0,34.0,
1,Åland Islands,AX,ALA,248,ISO 3166-2:AX,Europe,Northern Europe,,150.0,154.0,
2,Albania,AL,ALB,8,ISO 3166-2:AL,Europe,Southern Europe,,150.0,39.0,
3,Algeria,DZ,DZA,12,ISO 3166-2:DZ,Africa,Northern Africa,,2.0,15.0,
4,American Samoa,AS,ASM,16,ISO 3166-2:AS,Oceania,Polynesia,,9.0,61.0,


Una vez realizada la descarga y lectura del conjunto de datos obtenido a través de la API de Kaggle, procedemos a realizar la integración con el conjunto de datos principal.

Este proceso se realiza mediante la función <code>merge</code> y de igual forma que lo realizamos anteriormente, empleamos la columna <code>code</code> del DataFrame y la columna <code>alpha-3</code> del conjunto de datos obtenido a través de la API de Kaggle.

In [159]:
df_merge_with_codes = df_merge.merge(three_letter_code, left_on = 'entity', right_index = True)

depression = df_merge_with_codes.merge(continents[['region','sub-region','alpha-3']], left_on='code', right_on= 'alpha-3').drop(columns = ['code','alpha-3'])

Visualizamos las dimensiones del DataFrame

In [160]:
print(f'depression: {depression.shape}')

depression: (5460, 27)


Comprobamos que el proceso no haya generado valores <code>NaN</code>.

In [161]:
depression.isna().mean()

entity                   0.0
year                     0.0
schizophrenia            0.0
bipolar_disorder         0.0
eating_disorder          0.0
anxiety                  0.0
drug_addiction           0.0
depression               0.0
alcoholism               0.0
from_20_to_24            0.0
from_10_to_14            0.0
all                      0.0
above_69                 0.0
from_30_to_34            0.0
from_15_to_19            0.0
from_25_to_29            0.0
from_50_to_69            0.0
standardized             0.0
from_15_to_49            0.0
prevalence_in_males      0.0
prevalence_in_females    0.0
population               0.0
suicide_rate             0.0
depression_rate          0.0
depression_prevalence    0.0
region                   0.0
sub-region               0.0
dtype: float64

Como podemos observar, hemos perdido 28 filas, lo cual equivale a un periodo de 28 años para un país.

Al analizar la diferencia entre la columna <code>code</code> de nuestro DataFrame y la columna <code>alpha-3</code> del conjunto de datos obtenido de Kaggle, podemos observar que existen índices globales que no están presentes dentro del conjunto de datos <code>country-mapping-iso-continent-region</code>.

Dejar este valor a un lado para el análisis de países es aceptable y puede ser calculado de nuevo si se necesita.

In [162]:
three_letter_code[three_letter_code.apply(lambda x: x not in continents['alpha-3'].tolist())]

World    OWID_WRL
Name: code, dtype: object

### Almacenamiento del conjunto de datos procesado

Una vez que hemos realizado la limpieza de datos y aplicado la función <code>merge</code> a los DataFrames, procedemos a guardar dos versiones de la información.

- Conjunto de datos procesado previamente en formato <code>.csv</code>.

- Conjunto de datos procesado previamente con múltiples pestañas en formato <code>.xlsx</code>.

El segundo archivo tiene la finalidad de ofrecer un formato más amigable para realizar un análisis exploratorio rápido de forma manual utilizando software ofimático como Excel.

In [163]:
depression.to_csv('./clean_data/depression_clean.csv', index = False)

with pd.ExcelWriter('./clean_data/depression_clean.xlsx') as writer:
    percentages_of_global_disorders.to_excel(writer, sheet_name='Global Percentage of Disorders', index = False)
    depression_rates_by_age.to_excel(writer, sheet_name='Depression Rates by Age', index = False)
    depression_rates_by_gender.to_excel(writer, sheet_name='Depression Rates by Gender', index = False)
    depression_and_suicide_rate_per_100000_individuals.to_excel(writer, sheet_name='Rate per 100000 individuals', index = False)
    depression_affected.to_excel(writer, sheet_name='Depression Affected', index = False)

## Análisis del dataset limpio

Antes de comenzar, declaramos las siguientes funciones, las cuales nos permitiran conocer exactamente que países pertenecen a cada región o subregión.

In [None]:
def countries_in__region(region):
    try:
        if True not in depression['region'].str.contains(region).tolist():
            raise Exception
        return depression[depression['region'] == region]['entity'].unique().tolist()
    except:
        return f'Region {region} does not exist, please try again.'

def countries_in_sub_region(subregion):
    try:
        if True not in depression['sub-region'].str.contains(subregion).tolist():
            raise Exception
        return depression[depression['sub-region'] == subregion]['entity'].unique().tolist()
    except:
        return f'Sub-region {subregion} does not exist, please try again.'

### ¿En qué zonas del mundo hay mayor prevalencia de desórdenes mentales?

Esta interrogante la podemos resolver agrupando las subregiones del mundo y obteniendo el promedio de valores a lo largo de los años. Al hacer este procedimiento podemos observar lo siguiente

In [None]:
mental_ailments_by_sub_region = depression.groupby(['sub-region'])[['schizophrenia','bipolar_disorder','eating_disorder','anxiety','drug_addiction','depression','alcoholism']].mean()
print(mental_ailments_by_sub_region.idxmax())
print(f'Eastern European countries: {countries_in_sub_region("Eastern Europe")}')
print(f'North American countries: {countries_in_sub_region("Northern America")}')

Este análisis sencillo nos indica que la mayoría de los desórdenes estudiados tienen una mayor prevalencia en Australia y Nueva Zelanda, con escepción de la depresión, la cual presenta una mayor concentración en Norteamérica. Por otro lado, cumpliendo un esteriotipo popular que en realidad parece tener algo de verdad, Europa del este, región en la que se encuentra Rusia, es la región con el mayor problema de alcoholismo en el mundo.

## Preguntas clave
- ¿A qué edad empiezan a manifestarse ciertos desórdenes?
- ¿En qué zonas del mundo hay mayor prevalencia de desórdenes mentales?
- ¿Qué tan prevalentes son estos desórdenes en países desarrollados? ¿Y en países en desarrollo?
- ¿Qué tendencia tienen en su prevalencia a lo largo de los años?
- ¿Está relacionada la depresión con el suicidio?

## Descubrimiento
- 15-49 años