# Análisis de desórdenes mentales en el mundo.

## Introducción

## Justificación
El presente proyecto busca generar un análisis de la evolución de diversos desordenes mentales en el mundo a lo largos de las últimas decadas. Para este proyecto se hace especial enfásis en la depresión, ya que se cuenta con una base de información extremadamente bien documentada sobre este fenómeno en particular y, por otro lado, este desorden en particular se encuentra como la mayor causa de discapacidad en el mundo, siendo entonces su estudio y comprensión de suma importancia para un mayor entendimiento de sus causas, consecuencias, así como de sus posibles soluciones.

La OMS ha identificado fuertes vínculos entre la depresión y otros trastornos y enfermedades no transmisibles. La depresión aumenta el riesgo de trastornos por uso de sustancias y enfermedades como la diabetes y las enfermedades del corazón; lo contrario también es cierto, lo que significa que las personas con estas otras condiciones tienen un mayor riesgo de depresión.

La depresión también es un factor de riesgo importante para el suicidio, que reclama cientos de miles de vidas cada año.

Es por esta razón que un análisis que nos permita estudiarla resulta sumamente relevante.

## Preguntas clave
- ¿A qué edad empiezan a manifestarse ciertos desórdenes?
- ¿En qué zonas del mundo hay mayor prevalencia de desórdenes mentales?
- ¿Que tan prevalentes son estos desórdenes en países desarrollados? ¿Y en países en desarrollo?
- ¿Qué tendencia tienen en su prevalencia a lo largo de los años?
- ¿Esta relacionada la depresión con el suicido?

### Instalación de las librerías

In [1]:
#!pip install openpyxl
#!pip install pandas
#!pip install numpy

### Importación de Librerías
- Pandas

In [2]:
import pandas as pd

### Lectura de datos

In [3]:
global_disorders = pd.read_excel(open('./data/depression.xlsx', 'rb'), sheet_name='prevalence-by-mental-and-substa')
education_level = pd.read_excel(open('./data/depression.xlsx', 'rb'), sheet_name='depression-by-level-of-educatio')
age_groups = pd.read_excel(open('./data/depression.xlsx', 'rb'), sheet_name='prevalence-of-depression-by-age')
gender_groups = pd.read_excel(open('./data/depression.xlsx', 'rb'), sheet_name='prevalence-of-depression-males-')
depression_and_suicide_rate = pd.read_excel(open('./data/depression.xlsx', 'rb'), sheet_name='suicide-rates-vs-prevalence-of-')
affected = pd.read_excel(open('./data/depression.xlsx', 'rb'), sheet_name='number-with-depression-by-count')

### Visualización las dimensiones de las tablas

In [4]:
print('global disorders: ', global_disorders.shape)
print('education levels', education_level.shape)
print('age groups: ', age_groups.shape)
print('gender groups: ', gender_groups.shape)
print('depression and suicide rate: ', depression_and_suicide_rate.shape)
print('affected: ', affected.shape)

global disorders:  (6468, 10)
education levels (26, 15)
age groups:  (6468, 13)
gender groups:  (47807, 6)
depression and suicide rate:  (47807, 6)
affected:  (6468, 4)


### Nombre y tipos de datos

Tabla de índices de desórdenes globales

In [5]:
global_disorders.dtypes

Entity                        object
Code                          object
Year                           int64
Schizophrenia (%)            float64
Bipolar disorder (%)         float64
Eating disorders (%)         float64
Anxiety disorders (%)        float64
Drug use disorders (%)       float64
Depression (%)               float64
Alcohol use disorders (%)    float64
dtype: object

Tabla de índices de depresión por edad

In [6]:
age_groups.dtypes

Entity                   object
Code                     object
Year                      int64
20-24 years old (%)     float64
10-14 years old (%)     float64
All ages (%)            float64
70+ years old (%)       float64
30-34 years old (%)     float64
15-19 years old (%)     float64
25-29 years old (%)     float64
50-69 years old (%)     float64
Age-standardized (%)    float64
15-49 years old (%)     float64
dtype: object

Tabla de índices de depresión por género

In [7]:
gender_groups.dtypes

Entity                        object
Code                          object
Year                          object
Prevalence in males (%)      float64
Prevalence in females (%)    float64
Population                   float64
dtype: object

Tabla de índices de depresión y suicidio por cada 100,000 individuos

In [8]:
depression_and_suicide_rate.dtypes

Entity                                                       object
Code                                                         object
Year                                                         object
Suicide rate (deaths per 100,000 individuals)               float64
Depressive disorder rates (number suffering per 100,000)    float64
Population                                                  float64
dtype: object

Tabla de población afectada por la depresión

In [9]:
affected.dtypes

Entity                                                                                                        object
Code                                                                                                          object
Year                                                                                                           int64
Prevalence - Depressive disorders - Sex: Both - Age: All Ages (Number) (people suffering from depression)    float64
dtype: object

### Visualización de un conjunto de datos pequeño

Tabla de índices de desórdenes globales

In [10]:
global_disorders.head()

Unnamed: 0,Entity,Code,Year,Schizophrenia (%),Bipolar disorder (%),Eating disorders (%),Anxiety disorders (%),Drug use disorders (%),Depression (%),Alcohol use disorders (%)
0,Afghanistan,AFG,1990,0.16056,0.697779,0.101855,4.82883,1.677082,4.071831,0.672404
1,Afghanistan,AFG,1991,0.160312,0.697961,0.099313,4.82974,1.684746,4.079531,0.671768
2,Afghanistan,AFG,1992,0.160135,0.698107,0.096692,4.831108,1.694334,4.088358,0.670644
3,Afghanistan,AFG,1993,0.160037,0.698257,0.094336,4.830864,1.70532,4.09619,0.669738
4,Afghanistan,AFG,1994,0.160022,0.698469,0.092439,4.829423,1.716069,4.099582,0.66926


Tabla de índices de depresión por edad

In [11]:
age_groups.head()

Unnamed: 0,Entity,Code,Year,20-24 years old (%),10-14 years old (%),All ages (%),70+ years old (%),30-34 years old (%),15-19 years old (%),25-29 years old (%),50-69 years old (%),Age-standardized (%),15-49 years old (%)
0,Afghanistan,AFG,1990,4.417802,1.594676,3.218871,5.202803,5.799034,3.455708,5.175856,5.917752,4.071831,4.939766
1,Afghanistan,AFG,1991,4.433524,1.588356,3.203468,5.192849,5.814828,3.45188,5.176729,5.927093,4.079531,4.902682
2,Afghanistan,AFG,1992,4.453689,1.57798,3.156559,5.176872,5.829745,3.434982,5.160249,5.945656,4.088358,4.837097
3,Afghanistan,AFG,1993,4.464517,1.577201,3.120655,5.167355,5.85306,3.42021,5.148767,5.966915,4.09619,4.813657
4,Afghanistan,AFG,1994,4.46296,1.570846,3.082179,5.157549,5.852851,3.425222,5.148227,5.975907,4.099582,4.83934


Tabla de índices de depresión por género

In [12]:
gender_groups.head()

Unnamed: 0,Entity,Code,Year,Prevalence in males (%),Prevalence in females (%),Population
0,Afghanistan,AFG,1800,,,3280000.0
1,Afghanistan,AFG,1801,,,3280000.0
2,Afghanistan,AFG,1802,,,3280000.0
3,Afghanistan,AFG,1803,,,3280000.0
4,Afghanistan,AFG,1804,,,3280000.0


Tabla de índices de depresión y suicidio por cada 100,000 individuos

In [13]:
depression_and_suicide_rate.head()

Unnamed: 0,Entity,Code,Year,"Suicide rate (deaths per 100,000 individuals)","Depressive disorder rates (number suffering per 100,000)",Population
0,Afghanistan,AFG,1800,,,3280000.0
1,Afghanistan,AFG,1801,,,3280000.0
2,Afghanistan,AFG,1802,,,3280000.0
3,Afghanistan,AFG,1803,,,3280000.0
4,Afghanistan,AFG,1804,,,3280000.0


Tabla de población afectada por la depresión

In [14]:
affected.head()

Unnamed: 0,Entity,Code,Year,Prevalence - Depressive disorders - Sex: Both - Age: All Ages (Number) (people suffering from depression)
0,Afghanistan,AFG,1990,318435.81367
1,Afghanistan,AFG,1991,329044.773956
2,Afghanistan,AFG,1992,382544.572895
3,Afghanistan,AFG,1993,440381.507393
4,Afghanistan,AFG,1994,456916.645489


### Renombramiento
Como pudimos observar, los nombres de las columnas no siguen la convención <code>Snake Case</code>, por lo que hay que renombrar cada columna para cada una de las tablas mediante la función <code>rename</code>.

In [15]:
percentages_of_global_disorders = global_disorders.rename(
    columns={
        'Entity': 'entity',
        'Code': 'code',
        'Year': 'year',
        'Schizophrenia (%)': 'schizophrenia',
        'Bipolar disorder (%)': 'bipolar_disorder',
        'Eating disorders (%)': 'eating_disorder',
        'Anxiety disorders (%)': 'anxiety',
        'Drug use disorders (%)': 'drug_addiction',
        'Depression (%)': 'depression',
        'Alcohol use disorders (%)': 'alcoholism'
    }
)

depression_rates_by_age = age_groups.rename(
    columns={
        'Entity': 'entity',
        'Code': 'code',
        'Year': 'year',
        'All ages (%)': 'all',
        '10-14 years old (%)': 'from_10_to_14',
        '15-19 years old (%)': 'from_15_to_19',
        '20-24 years old (%)': 'from_20_to_24',
        '25-29 years old (%)': 'from_25_to_29',
        '30-34 years old (%)': 'from_30_to_34',
        '15-49 years old (%)': 'from_15_to_49',
        '50-69 years old (%)': 'from_50_to_69',
        '70+ years old (%)': 'above_69',
        'Age-standardized (%)': 'standardized'
    }
)

depression_rates_by_gender = gender_groups.rename(
    columns = {
        'Entity': 'entity',
        'Code': 'code',
        'Year': 'year',
        'Prevalence in males (%)': 'prevalence_in_males',
        'Prevalence in females (%)': 'prevalence_in_females',
        'Population': 'population'
    }
)

depression_and_suicide_rate_per_100000_individuals = depression_and_suicide_rate.rename(
    columns={
        'Entity': 'entity',
        'Code': 'code',
        'Year': 'year',
        'Suicide rate (deaths per 100,000 individuals)': 'suicide_rate',
        'Depressive disorder rates (number suffering per 100,000)': 'depression_rate',
        'Population': 'population'
    }
)

depression_affected = affected.rename(
    columns={
        'Entity': 'entity',
        'Code': 'code',
        'Year': 'year',
        'Prevalence - Depressive disorders - Sex: Both - Age: All Ages (Number) (people suffering from depression)': 'depression_prevalence'
    }
)

### Casting
La columna <code>year</code> de las tablas <code>gender_groups</code> y <code>depression_and_suicide_rate</code> es de tipo <code>object</code> mientras que en las demás tablas es de tipo <code>int64</code>.

1. Transformar los valores a números mediante la función <code>to_numeric</code>.
2. Filtrar los registros que no tienen valores <code>NaN</code> mediante la función <code>isna</code>.
3. Transformar los valores de <code>float64</code> a <code>int64</code> mediante la función <code>astype</code>.

In [16]:
depression_rates_by_gender['year'] = pd.to_numeric(depression_rates_by_gender['year'], errors='coerce')
depression_rates_by_gender = depression_rates_by_gender[depression_rates_by_gender['year'].isna() == False]
depression_rates_by_gender['year'] = depression_rates_by_gender['year'].astype('int64')

depression_and_suicide_rate_per_100000_individuals['year'] = pd.to_numeric(depression_and_suicide_rate_per_100000_individuals['year'], errors='coerce')
depression_and_suicide_rate_per_100000_individuals = depression_and_suicide_rate_per_100000_individuals[depression_and_suicide_rate_per_100000_individuals['year'].isna() == False]
depression_and_suicide_rate_per_100000_individuals['year'] = depression_and_suicide_rate_per_100000_individuals['year'].astype('int64')

### Limpieza de datos

Existen registros donde la columna <code>code</code> no tiene valor alguno, por lo que se puede eliminar sin dañar la integridad de los datos. Esto se hace mediante la función <code>drop</code>.

In [17]:
percentages_of_global_disorders = percentages_of_global_disorders.drop(columns=['code'])
depression_rates_by_age = depression_rates_by_age.drop(columns=['code'])
depression_rates_by_gender = depression_rates_by_gender.drop(columns=['code'])
depression_and_suicide_rate_per_100000_individuals = depression_and_suicide_rate_per_100000_individuals.drop(columns=['code'])
depression_affected = depression_affected.drop(columns=['code'])

In [18]:
#depression_rates_by_age = depression_rates_by_age[['entity', 'year', 'all', 'standardized', 'from_10_to_14', 'from_15_to_19', 'from_20_to_24', 'from_25_to_29', 'from_30_to_34', 'from_15_to_49', 'from_50_to_69', 'above_69']]

Una vez que la columna <code>year</code> de todas las tablas es de tipo <code>int64</code>, hay que filtrar los registros comprendidos entre los años <code>1990</code> y <code>2017</code> de las tablas <code>depression_rates_by_gender</code> y <code>depression_and_suicide_rate_per_100000_individuals</code>.

In [19]:
depression_rates_by_gender = depression_rates_by_gender[depression_rates_by_gender['year'] >= 1990]
depression_rates_by_gender = depression_rates_by_gender[depression_rates_by_gender['year'] <= 2017]

depression_and_suicide_rate_per_100000_individuals = depression_and_suicide_rate_per_100000_individuals[depression_and_suicide_rate_per_100000_individuals['year'] >= 1990]
depression_and_suicide_rate_per_100000_individuals = depression_and_suicide_rate_per_100000_individuals[depression_and_suicide_rate_per_100000_individuals['year'] <= 2017]

## Nota: Añadir continente usando la API de kaggle 
https://www.kaggle.com/statchaitya/country-to-continent