# Análisis de Datos de Fertilidad

> Para realizar la presente sesión importamos las bibliotecas `numpy`, `pandas` y `matplotlib.pyplot`, y también importa la función `interact` y el módulo `widgets` de la biblioteca `ipywidgets`. Aquí está el código:

In [None]:
# pip install --upgrade ipywidgets

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt

from ipywidgets import interact, widgets

> - `import numpy as np` importa la biblioteca numpy y la asigna al alias `np`. Esto te permitirá utilizar las funciones y operaciones proporcionadas por numpy.
> - `import pandas as pd` importa la biblioteca pandas y la asigna al alias `pd`. Esto te permitirá utilizar las funcionalidades de pandas para la manipulación y análisis de datos.
> - `import matplotlib.pyplot as plt` importa el módulo pyplot de la biblioteca matplotlib y lo asigna al alias `plt`. Esto te permitirá generar visualizaciones y gráficos.
> - `from ipywidgets import interact, widgets` importa la función `interact` y el módulo `widgets` de la biblioteca `ipywidgets`. Estos widgets interactivos pueden ser utilizados para crear interfaces gráficas de usuario interactivas en entornos como Jupyter Notebook.
> 
> Con estas importaciones, tendrás acceso a las funcionalidades y objetos proporcionados por estas bibliotecas para realizar operaciones numéricas, análisis de datos, generación de gráficos y crear widgets interactivos en tu código.
>
> Posteriormente descargamos la base de datos `gapminder.xls` desde:
[GitHub](https://github.com/theengineeringworld/statistics-using-python/blob/master/gapminder.xls)
>
> Abrimos un block de notas, copiamos y pegamos la información guardando el archivo con el nombre `gapminder.csv` en nuestro directorio de trabajo.
>
> El primer paso es importar la biblioteca pandas. Luego, se utiliza la función `pd.read_csv()` para leer el archivo CSV `"gapminder.csv"` y se almacena en el DataFrame llamado `df`. Por último, el método `head()` muestra las primeras filas del DataFrame para proporcionar una vista previa de los datos cargados.

In [None]:
data1 = pd.read_csv('gapminder.csv')
data1.head()

> Este código te permitirá cargar el archivo CSV en un DataFrame y ver las primeras filas de los datos. Asegúrate de que el archivo `"gapminder.csv"` esté en el directorio de trabajo actual o proporcione la ruta completa al archivo si se encuentra en otro lugar.

## Obtención de información sobre un DataFrame

> El método `info()` se utiliza para obtener información sobre un DataFrame en Pandas. Proporciona un resumen conciso de la estructura y el contenido del DataFrame, incluyendo:
> 
> - La cantidad de filas y columnas del DataFrame.
> - El nombre y tipo de datos de cada columna.
> - El número de valores no nulos en cada columna.
> - La cantidad de memoria utilizada por el DataFrame.
> 
> Al utilizar el método `info()` en un DataFrame, se muestra una tabla con esta información. Es útil para comprender rápidamente la estructura de los datos y detectar posibles problemas, como valores faltantes o tipos de datos incompatibles.
> 
> Si tienes un DataFrame llamado `data1`, puedes ejecutar `data1.info()` en tu entorno para obtener la información detallada sobre el DataFrame, incluyendo los nombres de las columnas, los tipos de datos y los valores no nulos en cada columna.

In [None]:
data1.info

## Obtención de la forma de un Dataframe

> Si tienes un DataFrame llamado `data1`, puedes obtener su forma (número de filas y columnas) utilizando el atributo `shape`.  Para obtener la forma de `data1`, puedes ejecutar el siguiente código:

In [None]:
data1.shape

> Esto devolverá una tupla que contiene dos valores: el número de filas y el número de columnas en `data1`. Por ejemplo, si `data1` tiene 14740 filas y 9 columnas, el resultado sería `(14740, 9)`.

## Obtención de las columnas del Dataframe

Si tienes un DataFrame llamado `data1`, puedes obtener los nombres de las columnas utilizando el atributo `columns`. Este atributo devuelve una lista con los nombres de todas las columnas presentes en el DataFrame. Para obtener los nombres de las columnas de `data1`, puedes ejecutar el siguiente código:

In [None]:
data1.columns

> Esto devolverá una lista con los nombres de las columnas de `data1`. Puedes utilizar esta lista para acceder o manipular las columnas individuales del DataFrame. Por ejemplo, puedes usar `data1['nombre_columna']` para acceder a una columna específica o `data1[['columna1', 'columna2']]` para seleccionar varias columnas a la vez.
>
> Aquí una breve explicación de cada una de las columnas mencionadas:
> 
> 1. **country**: La columna `"country"` indica el nombre del país al que pertenece cada registro de datos. Permite identificar a qué país se refiere cada observación en el conjunto de datos.
> 
> 2. **year**: La columna `"year"` indica el año al que corresponde cada registro de datos. Es una variable temporal que permite analizar la evolución de los datos a lo largo del tiempo.
> 
> 3. **region**: La columna `"region"` indica la región geográfica a la que pertenece cada país. Esta variable puede agrupar los países en diferentes categorías geográficas, como América, Europa, Asia, África, etc.
> 
> 4. **population**: La columna `"population"` representa la población total del país en cada año. Indica el número de personas que viven en el país en un momento específico.
> 
> 5. **life_expectancy**: La columna `"life_expectancy"` muestra la esperanza de vida media de la población en cada país y año. Representa el número medio de años que se espera que viva una persona en un determinado país y período.
> 
> 6. **age5_surviving**: La columna `"age5_surviving"` se refiere a la tasa de supervivencia de los niños menores de 5 años, como se explicó anteriormente. Indica la proporción de niños que sobreviven hasta los 5 años en una determinada población.
> 
> 7. **babies_per_woman**: La columna `"babies_per_woman"` se refiere a la tasa de fecundidad o número promedio de hijos nacidos por mujer en edad fértil, como se explicó anteriormente. Indica la cantidad media de hijos que tiene una mujer en un período determinado.
> 
> 8. **gdp_per_capita**: La columna `"gdp_per_capita"` representa el Producto Interno Bruto (PIB) per cápita del país en cada año. Es una medida del valor total de los bienes y servicios producidos en el país dividido por la población.
> 
> 9. **gdp_per_day**: La columna `"gdp_per_day"` representa el PIB per cápita diario del país. Es una estimación del PIB per cápita dividido por el número de días en el año, lo que proporciona una medida del ingreso promedio diario por persona.
> 
> Estas columnas son variables clave que se utilizan para analizar diferentes aspectos relacionados con la población, la salud, la economía y el desarrollo humano en diversos países y años.

## Obtención de estadísticas descriptivas de un DataFrame
>
> El método `describe()` en Pandas se utiliza para obtener estadísticas descriptivas de un DataFrame, como el recuento, la media, la desviación estándar, los valores mínimo y máximo, y los percentiles de las columnas numéricas.
>
> Si tienes un DataFrame llamado `data1`, puedes obtener las estadísticas descriptivas de sus columnas numéricas utilizando el método `describe()`. Puedes ejecutar el siguiente código:

In [None]:
data1.describe()

> Esto devolverá un resumen estadístico de las columnas numéricas en `data1`. El resultado incluirá el recuento de valores no nulos, la media, la desviación estándar, los valores mínimo y máximo, y los percentiles (25%, 50%, 75%) de las columnas numéricas.
> 
>  El método `describe()` es útil para obtener una visión general rápida de las propiedades estadísticas de un DataFrame y puede ayudar a identificar valores atípicos, la distribución de los datos y otras características importantes de las variables numéricas en el conjunto de datos.

## Obtención de países únicos del Dataframe
>
> Si tienes un DataFrame llamado `data1` y quieres obtener un conjunto de países únicos de la columna `"country"`, puedes utilizar la función `set()` en combinación con la sintaxis de acceso a columnas de Pandas. Aquí tienes un ejemplo de cómo obtener los países únicos de la columna "country" en el DataFrame `data1`:

In [None]:
paises1 = set(data1.country)
paises1

> La variable `paises1` contendrá un conjunto (set) de los países únicos presentes en la columna `"country"` de `data1`. Cada país estará representado una vez en el conjunto, sin repeticiones.

## Obtención el número de países únicos del Dataframe
>
> Si deseas obtener el número de países únicos en la columna `"country"` de tu DataFrame `data1`, puedes utilizar la función `set()` para crear un conjunto de los valores únicos y luego utilizar la función `len()` para obtener la longitud de ese conjunto. Aquí tienes un ejemplo de cómo obtener el número de países únicos en la columna `"country"` de `data1`:

In [None]:
num_paises = len(set(data1.country))
print('El número de países en la base de datos es: {}'.format(num_paises))

> La variable `num_paises` contendrá el número de países únicos en la columna `"country"` de `data1`. Esto mostrará el número de países únicos en la columna "country" de `data1`.

## Obtención de regiones únicas del Dataframe
>
> Si deseas obtener un conjunto de regiones únicas de la columna "region" en tu DataFrame `data1`, puedes utilizar la función `set()` en combinación con la sintaxis de acceso a columnas de Pandas. Aquí tienes un ejemplo de cómo obtener las regiones únicas de la columna "region" en el DataFrame `data1`:

In [None]:
regiones = set(data1.region)
regiones

> La variable `regiones` contendrá un conjunto (set) de las regiones únicas presentes en la columna `"region"` de `data1`. Cada región estará representada una vez en el conjunto, sin repeticiones. Esto mostrará las regiones únicas en el conjunto `regiones`.

## Valor mínimo y maximo de la columna `"year"` del DataFrame 
>
> Para obtener el valor mínimo y mínimo de la columna `"year"` en el DataFrame `data1`, puedes utilizar el atributo `min()` y `max()` después de acceder a la columna `"year"`, respectivamente. Aquí tienes un ejemplo de cómo obtener el valor mínimo de la columna `"year"` en el DataFrame `data1`:

In [None]:
anio_minimo = data1.year.min()
print('El mínimo valor de la columna year es: {}'.format(anio_minimo))

> Aquí tienes un ejemplo de cómo obtener el valor máximo de la columna `"year"` en el DataFrame `data1`:

In [None]:
anio_maximo = data1.year.max()
print('El máximo valor de la columna year es: {}'.format(anio_maximo))

## Instalación de `bokeh`
>
> Para instalar o actualizar el paquete Bokeh, puedes ejecutar el comando `pip install --upgrade bokeh` en tu entorno de desarrollo o en la línea de comandos de tu sistema operativo.
> 
> Asegúrate de tener una instalación de Python y el administrador de paquetes pip configurado correctamente en tu sistema antes de ejecutar el comando. También puedes considerar utilizar un entorno virtual para gestionar tus paquetes de Python de manera aislada.
> 
> Si tienes algún problema con la instalación o actualización de Bokeh, puedes buscar en la documentación oficial de Bokeh o en recursos en línea para obtener instrucciones específicas según tu sistema operativo y configuración.

In [None]:
!pip install --upgrade bokeh

> El código `bokeh.sampledata.download()` se utiliza para descargar los datos de muestra proporcionados por la biblioteca `bokeh`. Estos datos de muestra son conjuntos de datos utilizados en ejemplos y tutoriales de Bokeh.

In [None]:
import bokeh
bokeh.sampledata.download()

In [None]:
from bokeh.sampledata import gapminder

# Obtener los datos del identificador
grupos = gapminder.regions

# Reseteamos el indice del 'identificador' y guardamos el Dataframe en 'df'
df_tmp = grupos.reset_index()

# Guardar el DataFrame en un archivo XLSX
df_tmp.to_excel('grupos.xlsx', index=False)

> Este código utiliza la biblioteca Bokeh para trabajar con los datos de muestra llamados `"gapminder"`. Aquí está la descripción de cada línea:
> 
> 1. `from bokeh.sampledata import gapminder`: Importa los datos de muestra `"gapminder"` de la biblioteca Bokeh. Estos datos contienen información demográfica y socioeconómica de varios países a lo largo del tiempo.
> 
> 2. `grupos = gapminder.regions`: Obtiene los datos de la columna `"regions"` del conjunto de datos `"gapminder"`. Estos datos representan las regiones geográficas a las que pertenecen los países.
> 
> 3. `df_tmp = grupos.reset_index()`: Crea un nuevo DataFrame llamado `"df_tmp"` a partir de los datos de la variable `"grupos"`. La función `reset_index()` se utiliza para reiniciar el índice del DataFrame y convertir los datos en columnas.
> 
> 4. `df_tmp.to_excel('grupos.xlsx', index=False)`: Guarda el DataFrame `"df_tmp"` en un archivo de Excel (.xlsx) llamado `"grupos.xlsx"`. El parámetro `index=False` se utiliza para no incluir el índice del DataFrame en el archivo Excel.

In [None]:
data2 = pd.read_excel('grupos.xlsx')
data2.head(10)

In [None]:
data2.columns

In [None]:
paises2 = set(data2.Country)
paises2

In [None]:
paises1 - paises2

In [None]:
renombres = {'Central African Rep.' : 'Central African Republic',
             'Czech Rep.' : 'Czech Republic',
             'Dominican Rep.' : 'Dominican Republic',
             'Kyrgyzstan' : 'Kyrgyz Republic',
             'Laos' : 'Lao',
             'Korea, Dem. Rep.' : 'North Korea',
             'Korea, Rep.' : 'South Korea',
             'Saint Lucia' : 'St. Lucia',
             'Saint Vincent and the Grenadines' : 'St. Vincent and the Grenadines', 
             'Yemen, Rep.' : 'Yemen'}

data2= data2.replace(renombres)
data2.head(10)

In [None]:
paises2 = set(data2.Country)
paises2

In [None]:
paises1 - paises2

In [None]:
paises2 - paises1

In [None]:
# Primer DataFrame
df1 = data1

# Segundo DataFrame
df2 = data2

# Combinar los DataFrames utilizando la columna "Country" como clave
df_merged = pd.merge(df1, df2, left_on='country', right_on='Country', how='left')

# Eliminar la columna "Country" duplicada
df_merged = df_merged.drop(columns='Country')

# Guardar el DataFrame en un archivo XLSX
df_merged.to_excel('data_consolidada.xlsx', index=False)

In [None]:
set(df_merged.region)

In [None]:
set(df_merged.Group)

In [None]:
fig, ax = plt.subplots(figsize=(10, 7))
df_merged[df_merged['year'] == 1965].plot.scatter('babies_per_woman', 'age5_surviving', ax=ax)

plt.show()

In [None]:
data = df_merged[df_merged.year == 1965]
area = 5e-6 * data.population
colors = data.Group.map({'Sub-Saharan Africa': 'skyblue', 
                         'Europe & Central Asia': 'gold', 
                         'America': 'Palegreen', 
                         'Middle East & North Africa': 'blue',
                         'South Asia': 'magenta',
                         'East Asia & Pacific': 'Coral'})
data.plot.scatter('babies_per_woman', 'age5_surviving',
                     s = area, c = colors,
                     linewidth = 1, edgecolors = 'k',
                     figsize = (10,7))
    
plt.axis(ymin=50, ymax=105, xmin=0, xmax= 8)
plt.xlabel('Nº de hijos por Mujer')
plt.ylabel('% de Niños vivos menores de 5 años');

In [None]:
def plotyear(year, dataframe):
    data = dataframe[dataframe.year == year]
    area = 5e-6 * data.population
    colors = data.Group.map({'Sub-Saharan Africa': 'skyblue', 
                         'Europe & Central Asia': 'gold', 
                         'America': 'Palegreen', 
                         'Middle East & North Africa': 'blue',
                         'South Asia': 'magenta',
                         'East Asia & Pacific': 'Coral'})
    ax = data.plot.scatter('babies_per_woman', 'age5_surviving',
                     s = area, c = colors,
                     linewidth = 1, edgecolors = 'k',
                     figsize = (10,7))
    
    plt.axis(ymin=50, ymax=105, xmin=0, xmax= 8)
    plt.xlabel('Nº de hijos por Mujer')
    plt.ylabel('% de Niños vivos menores de 5 años')

In [None]:
plotyear(1965, df_merged)

In [None]:
plotyear(1975, df_merged)

In [None]:
plotyear(1985, df_merged)

In [None]:
plotyear(1995, df_merged)

In [None]:
plotyear(2005, df_merged)

In [None]:
plotyear(2015, df_merged)

In [None]:
set(df_merged.region)

In [None]:
africa = df_merged[(df_merged.region == 'Africa')]

In [None]:
africa.babies_per_woman.max()

In [None]:
africa.babies_per_woman.min()

In [None]:
europa = df_merged[(df_merged.region == 'Europe')]

In [None]:
europa.babies_per_woman.max()

In [None]:
europa.babies_per_woman.min()

In [None]:
america = df_merged[(df_merged.region == 'America')]

In [None]:
america.babies_per_woman.max()

In [None]:
america.babies_per_woman.min()

In [None]:
asia = df_merged[(df_merged.region == 'Asia')]

In [None]:
asia.babies_per_woman.max()

In [None]:
asia.babies_per_woman.min()

In [None]:
plotyear(2000, europa)

In [None]:
plotyear(2000, america)

In [None]:
plotyear(2000, asia)

In [None]:
plotyear(2000, africa)

In [None]:
# pip install plotly

In [None]:
import plotly.express as px
import plotly.offline as pyo

In [None]:
# dir(px)

In [None]:
# dir(pyo)

In [None]:
df_merged.head()

In [None]:
df_merged.columns

In [None]:
# df_merged.query?

In [None]:
# filtrar datos para "Peru" y almacenarlos en una variable llamada "peru"
peru = df_merged.query("country == 'Peru'")
peru

In [None]:
# create bar charts 
fig1 = px.bar(peru, x='year', y='population', height=400)
fig1.show()

In [None]:
fig2 = px.scatter(df_merged, 
                 x = 'babies_per_woman', 
                 y = "life_expectancy",
                 labels={'babies_per_woman':'Hijos por mujer', 'life_expectancy':'Expectativa de vida'})
fig2.show()

In [None]:
fig3 = px.scatter(df_merged,
                 x='babies_per_woman',
                 y="life_expectancy",
                 color='region',
                 labels={'babies_per_woman':'Hijos por mujer', 'life_expectancy':'Expectativa de vida'})
fig3.show()

In [None]:
fig4 = px.scatter(df_merged,
                 x='babies_per_woman',
                 y="life_expectancy",
                 color='Group',
                hover_name='country',  
                 labels={'babies_per_woman':'Hijos por mujer', 'life_expectancy':'Expectativa de vida'})
fig4.show()

In [None]:
df_merged['babies_per_woman'].min()

In [None]:
df_merged['babies_per_woman'].max()

In [None]:
df_merged["life_expectancy"].min()

In [None]:
df_merged["life_expectancy"].max()

In [None]:
df_merged["age5_surviving"].min()

In [None]:
df_merged["age5_surviving"].max()

In [None]:
df_merged["gdp_per_day"].min()

In [None]:
df_merged["gdp_per_day"].max()

In [None]:
fig5 = px.scatter(df_merged,
                 x='babies_per_woman',
                 y="life_expectancy",
                 color='Group',
                 size='population',
                 size_max=60,
                 hover_name='country',
                 animation_frame='year',
                 animation_group='country',
                 range_x = [1, 10],
                 range_y = [0, 90],
                 labels={'babies_per_woman':'Tasa de fecundidad', 'life_expectancy':'Esperanza de Vida'})
fig5.update_layout(
    title='Tasa de fecundidad vs. Esperanza de Vida',
    title_x=0.43,  # Ajusta la posición horizontal del título
    transition_duration=6000
)
fig5.show()
fig5.write_html('fig5.html')

In [None]:
fig6 = px.scatter(df_merged,
                 x='babies_per_woman',
                 y="age5_surviving",
                 color='Group',
                 size='population',
                 size_max=60,
                 hover_name='country',
                 animation_frame='year',
                 animation_group='country',
                 range_x = [1, 10],
                 range_y = [20, 110],
                 labels={'babies_per_woman':'Tasa de fecundidad', 
                         'age5_surviving':'% Supervivencia de los niños menores de 5 años'})
fig6.update_layout(
    title='Tasa de fecundidad vs. Tasa de supervivencia',
    title_x=0.43,  # Ajusta la posición horizontal del título
    transition_duration=6000
)
fig6.show()
fig6.write_html('fig6.html')

In [None]:
fig7 = px.scatter(df_merged,
                 y="gdp_per_capita",
                 x='babies_per_woman',
                 color='Group',
                 size='population',
                 size_max=100,
                 hover_name='country',
                 animation_frame='year',
                 animation_group='country',
                 log_y=True,
                 range_y = [100, 200000],
                 range_x = [1, 10],
                 labels={'babies_per_woman':'Tasa de fecundidad', 
                         'gdp_per_capita':'PIB per cápita anual',})
fig7.update_layout(
    title='Tasa de fecundidad vs. PIB percápita anual',
    title_x=0.43,  # Ajusta la posición horizontal del título
    transition_duration=6000
)
fig7.show()
fig7.write_html('fig7.html')

In [None]:
# Aplicar el logaritmo base 10 a la columna 'gdp_per_day'
df_merged['log_gdp_per_day'] = np.log10(df_merged['gdp_per_day'])
df_merged

In [None]:
fig8 = px.scatter(df_merged,
                 x="babies_per_woman",
                 y="log_gdp_per_day",
                 color='Group',
                 size='population',
                 size_max=100,
                 hover_name='country',
                 animation_frame='year',
                 animation_group='country',
                 range_x = [0, 10],
                 range_y = [-1, 3],
                 labels={'babies_per_woman':'Tasa de fecundidad', 'log_gdp_per_day':'PIB per cápita diario (log)'})

fig8.update_layout(
    title='Tasa de fecundidad vs. PIB percápita diario',
    title_x=0.43,  # Ajusta la posición horizontal del título
    transition_duration=6000
)
fig8.show()
fig8.write_html('fig8.html')