In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Cargar el dataset
df = pd.read_csv('./data/GODT.csv')

In [None]:
# Redondear los años al múltiplo de 2 más cercano
df['REPORTYEAR'] = df['REPORTYEAR'] // 2 * 2

# Calcular el número total de trasplantes por región y año
df['Total Transplants'] = df[['TOTAL Liver TX', 'TOTAL Kidney Tx', 'TOTAL Lung Tx']].sum(axis=1)

# Agrupar por región y año (redondeado al múltiplo de 2 más cercano) y sumar el número total de trasplantes
result = df.groupby(['REGION', 'REPORTYEAR'])['Total Transplants'].sum().reset_index()

# Mostrar los resultados
print(result)


In [None]:
# Agrupar por región y sumar el número total de trasplantes
result = df.groupby(['REGION'])['Total Transplants'].sum().reset_index()
print(result)

In [None]:
# Convertir población a formato numérico
df['POPULATION'] = df['POPULATION'].str.replace(',', '').astype(float)

# Redondear los años al múltiplo de 2 más cercano
df['REPORTYEAR_ROUNDED'] = df['REPORTYEAR'] // 2 * 2

# Calcular el número total de trasplantes
df['Total Transplants'] = df[['TOTAL Liver TX', 'TOTAL Kidney Tx', 'TOTAL Lung Tx']].sum(axis=1)

# Calcular el porcentaje respecto a la población
df['Transplants per Population'] = (df['Total Transplants'] / df['POPULATION']) * 100

# Agrupar por región y año redondeado para sumar trasplantes y obtener la media de los años de reporte y el porcentaje teniendo en cuenta la población total
result = df.groupby(['REGION', 'REPORTYEAR_ROUNDED']).agg({
    'Total Transplants': 'sum',
    'POPULATION': 'sum',
    'Transplants per Population': 'mean',
    'REPORTYEAR': 'mean'
}).reset_index()

# Calcular el porcentaje respecto a la población agregada
result['Transplants per Population'] = (result['Total Transplants'] / result['POPULATION']) * 100

print(result)

In [None]:
# Configurar el tamaño de la figura
plt.figure(figsize=(14, 7))

# Crear una curva de tiempo para cada región
for region in result['REGION'].unique():
    region_data = result[result['REGION'] == region]
    plt.plot(region_data['REPORTYEAR_ROUNDED'], region_data['Transplants per Population'], marker='o', label=region)

# Añadir títulos y etiquetas
plt.title('Percentage of Total Transplants Relative to Population Over Time by Region')
plt.xlabel('Year')
plt.ylabel('Transplants per Population (%)')
plt.legend()
plt.grid(True)

# Mostrar el gráfico
plt.show()

In [None]:
df['Total Transplants'] = df[['TOTAL Liver TX', 'TOTAL Kidney Tx', 'TOTAL Lung Tx']].sum(axis=1)

# Agrupar por región para sumar los trasplantes totales
region_totals = df.groupby('REGION')['Total Transplants'].sum().reset_index()

# Configurar el tamaño de la figura
plt.figure(figsize=(10, 7))

# Crear un gráfico de pastel
plt.pie(region_totals['Total Transplants'], labels=region_totals['REGION'], autopct='%1.1f%%', startangle=140)

# Añadir un título
plt.title('Total Transplants by Region')

# Mostrar el gráfico
plt.show()

In [None]:
# Reagrupar las regiones
df['REGION_GROUPED'] = df['REGION'].apply(lambda x: 'Europe & America' if x in ['Europe', 'America'] else 'Rest of the World')

# Agrupar por la nueva categorización de región
region_totals_grouped = df.groupby('REGION_GROUPED')['Total Transplants'].sum().reset_index()

# Configurar el tamaño de la figura
plt.figure(figsize=(10, 7))

# Crear un gráfico de pastel
plt.pie(region_totals_grouped['Total Transplants'], labels=region_totals_grouped['REGION_GROUPED'], autopct='%1.1f%%', startangle=140)

# Añadir un título
plt.title('Total Transplants: Europe & America vs Rest of the World')

# Mostrar el gráfico
plt.show()

### Contextualización y Guion Gráfico

#### Objetivo y Usuario:
El objetivo de este análisis y visualización de datos es mostrar una visión global de los trasplantes de órganos en diversas regiones del mundo a lo largo del tiempo, destacando las diferencias y tendencias regionales. Este reporte está dirigido a profesionales de la salud, investigadores, y responsables de políticas sanitarias que buscan comprender mejor las distribuciones y tendencias en los trasplantes de órganos para una mejor planificación y optimización de recursos.

#### Storyboarding:
El guion gráfico se presenta en varios pasos, cada uno con un mensaje específico y una técnica de visualización adecuada:

1. **Inicio - Visión de trasplantes por tipo de trasplante**
   - **Mensaje:** Presentar la distribución global de los trasplantes de órganos por tipo de trasplante y por año.
   - **Visualización:** Mapa de barras apiladas que muestre la cantidad de trasplantes de cada tipo por año.

2. **Desglose Temporal por Región:**
   - **Mensaje:** Mostrar la evolución temporal de los trasplantes en distintas regiones.
   - **Visualización:** Gráficos de líneas para cada región que representen el porcentaje de trasplantes respecto a la población a lo largo del tiempo.

3. **Comparación Regiones Específicas (Europa y América vs. Resto del Mundo):**
   - **Mensaje:** Comparar el total de trasplantes acumulados de Europa y América con el resto del mundo.
   - **Visualización:** Gráfico de pastel para representar la comparación de trasplantes acumulados.

4. **Análisis Detallado de Cada Regió:**
   - **Mensaje:** Proporcionar un análisis detallado para cada región.
   - **Visualización:** Gráficos de barras apiladas que muestren los diferentes tipos de trasplantes en cada región.

5. **Visión Global (Choropleth Map):**
   - **Mensaje:** Presentar la distribución global de los trasplantes de órganos por regiones.
   - **Visualización:** Un mapa coroplético que muestra la cantidad de trasplantes por región.   

### Diseño y Desarrollo

#### Narrativa Visual:
La narrativa sigue un flujo lógico que comienza con la presentación de la distribución global, desglosa los datos temporalmente y posteriormente, enfoca en comparaciones regionales específicas, para luego culminar en un análisis detallado de los datos por región.

#### Visualización de Datos:

1. **Mapa de Barras Apiladas por Tipo de Trasplante y Año:**

```python
import pandas as pd
import matplotlib.pyplot as plt

# Cargar el dataset
df = pd.read_csv('./data/GODT.csv')

# Calcular el número total de trasplantes por tipo de órgano y año
transplants_by_type_and_year = df.groupby('REPORTYEAR')[['TOTAL Liver TX', 'TOTAL Kidney Tx', 'TOTAL Lung TX']].sum().reset_index()

# Mostrar los resultados
print(transplants_by_type_and_year)

# Crear gráficos de barras por cada tipo de trasplante

fig, axes = plt.subplots(3, 1, figsize=(12, 18))

# Gráfico para Liver Transplants
axes[0].bar(transplants_by_type_and_year['REPORTYEAR'], transplants_by_type_and_year['TOTAL Liver TX'], color='salmon')
axes[0].set_title('Liver Transplants by Year')
axes[0].set_xlabel('Year')
axes[0].set_ylabel('Total Liver Transplants')

# Gráfico para Kidney Transplants
axes[1].bar(transplants_by_type_and_year['REPORTYEAR'], transplants_by_type_and_year['TOTAL Kidney Tx'], color='skyblue')
axes[1].set_title('Kidney Transplants by Year')
axes[1].set_xlabel('Year')
axes[1].set_ylabel('Total Kidney Transplants')

# Gráfico para Lung Transplants
axes[2].bar(transplants_by_type_and_year['REPORTYEAR'], transplants_by_type_and_year['TOTAL Lung TX'], color='lightgreen')
axes[2].set_title('Lung Transplants by Year')
axes[2].set_xlabel('Year')
axes[2].set_ylabel('Total Lung Transplants')

# Ajustar la disposición de los subplots
plt.tight_layout()

# Mostrar el gráfico
plt.show()
```

2. **Gráficos de Líneas Temporales por Región:**

```python
import seaborn as sns

# Ejemplo para otros datos agrupados 
region_year_data = {
    "REGION": ["Eastern Mediterranean", "Europe", "Africa"],
    "REPORTYEAR_ROUNDED": [2002, 2010, 2008],
    "Total Transplants": [0, 2, 98],
    "POPULATION": [24.9, 3.2, 34.4],
    "Transplants per Population": [0.0, 62.5, 285.71] 
}
result = pd.DataFrame(region_year_data)

plt.figure(figsize=(14, 7))
for region in result['REGION'].unique():
    region_data = result[result['REGION'] == region]
    plt.plot(region_data['REPORTYEAR_ROUNDED'], region_data['Transplants per Population'], marker='o', label=region)

plt.title('Percentage of Total Transplants Relative to Population Over Time by Region')
plt.xlabel('Year')
plt.ylabel('Transplants per Population (%)')
plt.legend()
plt.grid(True)
plt.show()
```

3. **Gráfico de Pastel (Pie Chart) para Comparación de Regiones:**

```python
# Reagrupar las regiones
df['REGION_GROUPED'] = df['REGION'].replace({
    "Europe": "Europe & America",
    "America": "Europe & America"
})
df['REGION_GROUPED'] = df['REGION_GROUPED'].apply(lambda x: x if x == "Europe & America" else "Rest of the World")
region_totals_grouped = df.groupby('REGION_GROUPED')['Total Transplants'].sum().reset_index()

plt.figure(figsize=(10, 7))
plt.pie(region_totals_grouped['Total Transplants'], labels=region_totals_grouped['REGION_GROUPED'], autopct='%1.1f%%', startangle=140)
plt.title('Total Transplants: Europe & America vs Rest of the World')
plt.show()
```

4. **Gráfico de Barras Apiladas por Región:**

```python
# Datos de ejemplo para este gráfico
df_grouped = df.groupby(['REGION']).agg({
    'TOTAL Liver TX': 'sum',
    'TOTAL Kidney Tx': 'sum',
    'TOTAL Lung Tx': 'sum'
}).reset_index()

# Crear un gráfico de barras apiladas
df_grouped.set_index('REGION')[['TOTAL Liver TX', 'TOTAL Kidney Tx', 'TOTAL Lung Tx']].plot(kind='bar', stacked=True, figsize=(14, 7))
plt.title('Total Transplants by Type and Region')
plt.xlabel('Region')
plt.ylabel('Number of Transplants')
plt.legend(title='Type of Transplant')
plt.show()
```


5. **Mapa Coroplético:**

```python
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors

# Datos de ejemplo:
data = {
    "REGION": ["Eastern Mediterranean", "Eastern Mediterranean", "Eastern Mediterranean", "Europe", "Europe", "Africa", "Africa"],
    "COUNTRY": ["Afghanistan", "Afghanistan", "Afghanistan", "Albania", "Albania", "Algeria", "Algeria"],
    "REPORTYEAR": [2000, 2002, 2004, 2008, 2010, 2008, 2010],
    "POPULATION": ["22,7", "23,3", "24,9", "3,2", "3,2", "34,4", "35,4"],
    "TOTAL Liver TX": [0, 0, 0, 0, 0, 3, 6],
    "TOTAL Kidney Tx": [0, 0, 0, 1, 2, 112, 98],
    "TOTAL Lung Tx": [0, 0, 0, 0, 0, 0, 0]
}

df = pd.DataFrame(data)
df['POPULATION'] = df['POPULATION'].str.replace(',', '').astype(float)
df['Total Transplants'] = df[['TOTAL Liver TX', 'TOTAL Kidney Tx', 'TOTAL Lung Tx']].sum(axis=1)
df['Transplants per Population'] = (df['Total Transplants'] / df['POPULATION']) * 100

# Cargar shapefile de países
world = gpd.read_file(gpd.datasets.get_path('naturalearth_lowres'))

# Mapear los nombres de los países
country_map = dict(zip(df['COUNTRY'], df['Transplants per Population']))
world['transplants_per_population'] = world.apply(lambda row: country_map.get(row.name, 0), axis=1)

# Visualización del Choropleth Map
fig, ax = plt.subplots(1, 1, figsize=(15, 10))
world.boundary.plot(ax=ax)
world.plot(column='transplants_per_population', ax=ax, legend=True,
           legend_kwds={'label': "Transplants per Population (%)",
                        'orientation': "horizontal"},
           cmap='OrRd')
plt.title("Global Distribution of Transplants per Population")
plt.show()
```

### Estética:

- Utilizar una paleta de colores consistente y que refuerce la legibilidad.
- Usar tipografías claras y tamaños de letra adecuados para etiquetas y títulos.
- Asegúrate que los gráficos están alineados y siguen una estructura lógica en la presentación.
- Añadir anotaciones donde sea necesario para resaltar puntos importantes y facilitar la comprensión.

### Narrativa Completa:

0. **Inicio - Choropleth Map**
   - Presentación de la distribución global de trasplantes.
   - Muestra las variaciones por países usando un mapa.
   
2. **Nudo - Gráficos de Líneas por Región**
   - Desglose por regiones, mostrando las tendencias temporales.
   - Facilita la comprensión de cómo ha evolucionado la cantidad de trasplantes en diferentes áreas geográficas.

3. **Comparación Específica - Pie Chart**
   - Comparación entre regiones específicas y el resto del mundo.
   - Clarifica la importancia de las regiones combinadas (Europa y América) en relación con el resto del mundo.

4. **Desenlace - Gráfico de Barras Detallado**
   - Análisis detallado de los tipos de trasplantes por región.
   - Proporciona una visión completa y detallada, refuerza el entendimiento de los datos presentados anteriormente.

5. **Inicio - Choropleth Map**
   - Presentación de la distribución global de trasplantes.
   - Muestra las variaciones por países usando un mapa.


Este enfoque narrativo con diversas técnicas de visualización permite comunicar eficazmente las diferencias y tendencias regionales en los trasplantes de órganos, proporcionando tanto una visión global como un análisis detallado y específico.


### Visualización Completa

De acuerdo con la estructura narrativa y los gráficos presentados, el storyboard completo se organizaría de la siguiente manera:

1. **Inicio - Choropleth Map**
   - **Mapa Coroplético** que muestra la distribución global de trasplantes per cápita a nivel mundial.
   - **Propósito:** Ofrecer una visión general rápida sobre qué regiones tienen una mayor cantidad de trasplantes.

2. **Nudo - Gráficos de Líneas por Región**
   - **Gráficos de Líneas** que muestran la tendencia a lo largo del tiempo de trasplantes per cápita en distintas regiones.
   - **Propósito:** Ilustrar cómo han cambiado las tasas de trasplantes a lo largo de los años en diferentes regiones, ayudando a identificar tendencias y cambios importantes.

3. **Comparación Específica - Pie Chart**
   - **Gráfico de Pastel** que compara la cantidad total de trasplantes entre Europa & América y el resto del mundo.
   - **Propósito:** Resaltar la proporción de trasplantes que ocurren en regiones combinadas versus otras, proporcionando una perspectiva sobre la concentración de operaciones.

4. **Desenlace - Gráfico de Barras Detallado**
   - **Gráfico de Barras Apiladas** mostrando la distribución de diferente tipos de trasplantes (riñón, hígado, pulmón) por región.
   - **Propósito:** Ofrecer un análisis más detallado por tipo de trasplante en cada región, ayudando en la comprensión del enfoque y esfuerzo específico de cada área.

Esta organización narrativa y presentación gráfica ayudará a proporcionar una visión coherente y detallada del estado de los trasplantes a nivel global, destacando las disparidades y similitudes entre las diferentes regiones.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Cargar el dataset
df = pd.read_csv('./data/GODT.csv')

print(df.columns)

# Calcular el número total de trasplantes por tipo de órgano y año
transplants_by_type_and_year = df.groupby('REPORTYEAR')[['TOTAL Liver TX', 'TOTAL Kidney Tx', 'TOTAL Lung Tx']].sum().reset_index()

# Mostrar los resultados
print(transplants_by_type_and_year)

# Crear gráficos de barras por cada tipo de trasplante

fig, axes = plt.subplots(3, 1, figsize=(12, 18))

# Gráfico para Liver Transplants
axes[0].bar(transplants_by_type_and_year['REPORTYEAR'], transplants_by_type_and_year['TOTAL Liver TX'], color='salmon')
axes[0].set_title('Liver Transplants by Year')
axes[0].set_xlabel('Year')
axes[0].set_ylabel('Total Liver Transplants')

# Gráfico para Kidney Transplants
axes[1].bar(transplants_by_type_and_year['REPORTYEAR'], transplants_by_type_and_year['TOTAL Kidney Tx'], color='skyblue')
axes[1].set_title('Kidney Transplants by Year')
axes[1].set_xlabel('Year')
axes[1].set_ylabel('Total Kidney Transplants')

# Gráfico para Lung Transplants
axes[2].bar(transplants_by_type_and_year['REPORTYEAR'], transplants_by_type_and_year['TOTAL Lung Tx'], color='lightgreen')
axes[2].set_title('Lung Transplants by Year')
axes[2].set_xlabel('Year')
axes[2].set_ylabel('Total Lung Transplants')


# Ajustar la disposición de los subplots
plt.tight_layout()

# Mostrar el gráfico
plt.show()

In [None]:
# CSV de Trasplantes por año y tipo de órgano

import pandas as pd

# Cargar el dataset
df = pd.read_csv('./data/GODT.csv')

# Verificar nombres de columnas
print(df.columns)

# Definir el rango de años que queremos considerar
years = range(2000, 2023)

# Filtrar el DataFrame solo para los años de interés
df_filtered = df[df['REPORTYEAR'].isin(years)]

transplants_by_type_and_year = df_filtered.groupby('REPORTYEAR')[['TOTAL Liver TX', 'TOTAL Kidney Tx', 'TOTAL Lung Tx', 'Total Heart TX']].sum().reset_index()

# Renombrar las columnas para un formato más claro
transplants_by_type_and_year.rename(columns={
    'TOTAL Liver TX': 'Liver',
    'TOTAL Kidney Tx': 'Kidney',
    'TOTAL Lung Tx': 'Lung',
    'TOTAL Heart TX': 'Heart'
}, inplace=True)

# Transponer el DataFrame para tener años como columnas y trasplantes como filas
transposed_df = transplants_by_type_and_year.set_index('REPORTYEAR').T

# Guardar el resultado en un archivo CSV
transposed_df.to_csv('transplants_by_year_and_type.csv')

# Mostrar los resultados
print(transposed_df)

In [78]:
# CSV de Trasplantes por año y región

import pandas as pd

# Cargar el dataset
df = pd.read_csv('./data/GODT.csv')

# Verificar nombres de columnas
print(df.columns)

# Definir las columnas requeridas para el cálculo
required_columns = ['TOTAL Liver TX', 'TOTAL Kidney Tx', 'TOTAL Lung Tx', 'Total Heart TX']

# Definir el rango de años que queremos considerar
years = range(2000, 2023)

# Filtrar el DataFrame por los años de interés
df_filtered = df[df['REPORTYEAR'].isin(years)]

# Calcular el número total de trasplantes por fila
df_filtered['Total Transplants'] = df[required_columns].sum(axis=1)

# Agrupar por año y región y sumar el número total de trasplantes
transplants_by_year_and_region = df_filtered.groupby(['REGION', 'REPORTYEAR'])['Total Transplants'].sum().unstack(fill_value=0)

# Guardar el resultado en un archivo CSV
transplants_by_year_and_region.to_csv('total_transplants_by_year_and_region.csv')

# Mostrar los resultados
print(transplants_by_year_and_region)

Index(['REGION', 'COUNTRY', 'REPORTYEAR', 'POPULATION', 'TOTAL Actual DD',
       'Actual DBD', 'Actual DCD', 'Total Utilized DD', 'Utilized DBD',
       'Utilized DCD', 'DD Kidney Tx', 'LD Kidney Tx', 'TOTAL Kidney Tx',
       'DD Liver Tx', 'DOMINO Liver Tx', 'LD Liver Tx', 'TOTAL Liver TX',
       'Total Heart TX', 'DD Lung Tx', 'LD Lung Tx', 'TOTAL Lung Tx',
       'Pancreas Tx', 'Kidney Pancreas Tx', 'Small Bowel Tx'],
      dtype='object')
REPORTYEAR                2000     2001     2002     2003     2004     2005  \
REGION                                                                        
Africa                     0.0      0.0      0.0      0.0      0.0    310.0   
America                23507.0  24348.0  25129.0  25851.0  37071.0  34072.0   
Eastern Mediterranean     47.0    106.0    130.0   1756.0   4719.0   6119.0   
Europe                 14811.0  16903.0  16958.0  25347.0  27425.0  26095.0   
South-East Asia            0.0      0.0      0.0      0.0   3079.0     59.0 

In [82]:
import pandas as pd

# Cargar el dataset
df = pd.read_csv('./data/GODT.csv')

# Verificar nombres de columnas
print(df.columns)

# Definir las columnas requeridas para el cálculo
required_columns = ['TOTAL Liver TX', 'TOTAL Kidney Tx', 'TOTAL Lung Tx', 'Total Heart TX']

# Filtrar el DataFrame para el año 2022
df_2022 = df[df['REPORTYEAR'] == 2022]

# Calcular el número total de trasplantes por fila
df_2022['Total Transplants'] = df_2022[required_columns].sum(axis=1)

# Agrupar por región y sumar el número total de trasplantes
transplants_by_region_2022 = df_2022.groupby('REGION')['Total Transplants'].sum().reset_index()

# Calcular el total global de trasplantes en 2022
total_transplants_2022 = transplants_by_region_2022['Total Transplants'].sum()

# Calcular el porcentaje de trasplantes por región en 2022
transplants_by_region_2022['Percentage'] = (transplants_by_region_2022['Total Transplants'] / total_transplants_2022) * 100

# Guardar el resultado en un archivo CSV
transplants_by_region_2022.to_csv('percentage_transplants_by_region_2022.csv', index=False)

# Mostrar los resultados
print(transplants_by_region_2022)

Index(['REGION', 'COUNTRY', 'REPORTYEAR', 'POPULATION', 'TOTAL Actual DD',
       'Actual DBD', 'Actual DCD', 'Total Utilized DD', 'Utilized DBD',
       'Utilized DCD', 'DD Kidney Tx', 'LD Kidney Tx', 'TOTAL Kidney Tx',
       'DD Liver Tx', 'DOMINO Liver Tx', 'LD Liver Tx', 'TOTAL Liver TX',
       'Total Heart TX', 'DD Lung Tx', 'LD Lung Tx', 'TOTAL Lung Tx',
       'Pancreas Tx', 'Kidney Pancreas Tx', 'Small Bowel Tx'],
      dtype='object')
                  REGION  Total Transplants  Percentage
0                 Africa              286.0    0.184130
1                America            60919.0   39.220344
2  Eastern Mediterranean             8420.0    5.420892
3                 Europe            39686.0   25.550298
4        South-East Asia            17181.0   11.061323
5        Western Pacific            28833.0   18.563013


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_2022['Total Transplants'] = df_2022[required_columns].sum(axis=1)


In [84]:
import pandas as pd

# Cargar el dataset
df = pd.read_csv('./data/GODT.csv')

# Verificar los nombres de las columnas
print(df.columns)

# Definir las columnas requeridas para el cálculo
required_columns = ['TOTAL Liver TX', 'TOTAL Kidney Tx', 'TOTAL Lung Tx', 'Total Heart TX']

# Redondear los años al múltiplo de 2 más cercano
df['REPORTYEAR'] = (df['REPORTYEAR'] // 2) * 2

# Calcular el número total de trasplantes por fila
df['Total Transplants'] = df[required_columns].sum(axis=1)

# Agrupar por región y año redondeado al múltiplo de 2 más cercano y sumar el número total de trasplantes
transplants_by_region_and_year = df.groupby(['REGION', 'REPORTYEAR'])['Total Transplants'].sum().unstack(fill_value=0).reset_index()

# Ordenar las columnas de año correctamente, manteniendo 'REGION' en el lugar correcto
year_columns = sorted([col for col in transplants_by_region_and_year.columns if isinstance(col, int)])
transplants_by_region_and_year = transplants_by_region_and_year[['REGION'] + year_columns]

# Guardar el resultado en un archivo CSV
transplants_by_region_and_year.to_csv('total_transplants_by_region_and_year.csv', index=False)

# Mostrar los resultados
print(transplants_by_region_and_year)

Index(['REGION', 'COUNTRY', 'REPORTYEAR', 'POPULATION', 'TOTAL Actual DD',
       'Actual DBD', 'Actual DCD', 'Total Utilized DD', 'Utilized DBD',
       'Utilized DCD', 'DD Kidney Tx', 'LD Kidney Tx', 'TOTAL Kidney Tx',
       'DD Liver Tx', 'DOMINO Liver Tx', 'LD Liver Tx', 'TOTAL Liver TX',
       'Total Heart TX', 'DD Lung Tx', 'LD Lung Tx', 'TOTAL Lung Tx',
       'Pancreas Tx', 'Kidney Pancreas Tx', 'Small Bowel Tx'],
      dtype='object')
REPORTYEAR                 REGION     2000     2002     2004     2006  \
0                          Africa      0.0      0.0    310.0    631.0   
1                         America  47855.0  50980.0  71143.0  76971.0   
2           Eastern Mediterranean    153.0   1886.0  10838.0   8476.0   
3                          Europe  31714.0  42305.0  53520.0  59664.0   
4                 South-East Asia      0.0      0.0   3138.0    868.0   
5                 Western Pacific   1612.0   2018.0  32830.0  28344.0   

REPORTYEAR     2008     2010     2012 

In [3]:
import pandas as pd

# Cargar el dataset
df = pd.read_csv('./data/GODT.csv')

# Verificar los nombres de las columnas
print(df.columns)

# Definir las columnas requeridas para el cálculo
required_columns = ['TOTAL Liver TX', 'TOTAL Kidney Tx', 'TOTAL Lung Tx', 'Total Heart TX']

df['Total Transplants'] = df[required_columns].sum(axis=1)

# Convertir la población a formato numérico (eliminando comas si existen)
df['POPULATION'] = df['POPULATION'].str.replace(',', '').astype(float)

# Calcular la media de la población por país
average_population_by_country = df.groupby('COUNTRY')['POPULATION'].mean().reset_index()

# Calcular el número total de trasplantes por país
total_transplants_by_country = df.groupby('COUNTRY')['Total Transplants'].sum().reset_index()

# Combinar los dataframes de total de trasplantes y población media
combined_df = pd.merge(total_transplants_by_country, average_population_by_country, on='COUNTRY')

# Calcular el ratio de trasplantes por persona
combined_df['Transplants per Capita'] = combined_df['Total Transplants'] / combined_df['POPULATION']

# Guardar el resultado en un archivo CSV
combined_df.to_csv('transplants_per_capita_by_country.csv', index=False)

# Filtrar solo COUNTRY y Transplants per Capita para generar el archivo CSV y redondear a 2 decimales
combined_df = combined_df.round({'Transplants per Capita': 2})
combined_df = combined_df[['COUNTRY', 'Transplants per Capita']]
combined_df.to_csv('transplants_per_capita_by_country_filtered.csv', index=False)

# Mostrar los resultados
print(combined_df)

Index(['REGION', 'COUNTRY', 'REPORTYEAR', 'POPULATION', 'TOTAL Actual DD',
       'Actual DBD', 'Actual DCD', 'Total Utilized DD', 'Utilized DBD',
       'Utilized DCD', 'DD Kidney Tx', 'LD Kidney Tx', 'TOTAL Kidney Tx',
       'DD Liver Tx', 'DOMINO Liver Tx', 'LD Liver Tx', 'TOTAL Liver TX',
       'Total Heart TX', 'DD Lung Tx', 'LD Lung Tx', 'TOTAL Lung Tx',
       'Pancreas Tx', 'Kidney Pancreas Tx', 'Small Bowel Tx'],
      dtype='object')
                                COUNTRY  Transplants per Capita
0                           Afghanistan                    0.45
1                               Albania                    3.02
2                               Algeria                    5.31
3                               Andorra                    0.00
4                                Angola                    0.00
..                                  ...                     ...
189  Venezuela (Bolivarian Republic of)                   12.26
190                            Viet Na

In [6]:
import pandas as pd

# Cargar el dataset
df = pd.read_csv('./data/GODT.csv')

# Verificar nombres de columnas
print(df.columns)

# Asegurarse de que la columna POPULATION está en formato numérico
df['POPULATION'] = pd.to_numeric(df['POPULATION'], errors='coerce')

# Verificar si hay valores NaN en la columna POPULATION
print(df['POPULATION'].isna().sum())

# Ver los primeros registros del DataFrame para asegurar que se cargaron correctamente
print(df.head())

# Definir el rango de años que queremos considerar
years = range(2000, 2023)

# Filtrar el DataFrame solo para los años de interés
df_filtered = df[df['REPORTYEAR'].isin(years)]

# Definir los intervalos de 2 años
df_filtered['2_YEAR_INTERVAL'] = ((df_filtered['REPORTYEAR'] - 2000) // 2) * 2 + 2000

# Calcular la media de la población por región e intervalo de 2 años
mean_population = df_filtered.groupby(['2_YEAR_INTERVAL', 'REGION'])['POPULATION'].mean().reset_index()

# Sumar los trasplantes por intervalo de 2 años y región
transplants_by_region = df_filtered.groupby(['2_YEAR_INTERVAL', 'REGION'])[['TOTAL Liver TX', 'TOTAL Kidney Tx', 'TOTAL Lung Tx', 'Total Heart TX']].sum().reset_index()

# Unir el DataFrame de trasplantes con el DataFrame de la población media
transplants_with_population = pd.merge(transplants_by_region, mean_population, on=['2_YEAR_INTERVAL', 'REGION'])

# Calcular los trasplantes per cápita
transplants_with_population['Liver per Capita'] = transplants_with_population['TOTAL Liver TX'] / transplants_with_population['POPULATION']
transplants_with_population['Kidney per Capita'] = transplants_with_population['TOTAL Kidney Tx'] / transplants_with_population['POPULATION']
transplants_with_population['Lung per Capita'] = transplants_with_population['TOTAL Lung Tx'] / transplants_with_population['POPULATION']
transplants_with_population['Heart per Capita'] = transplants_with_population['Total Heart TX'] / transplants_with_population['POPULATION']

# Seleccionar las columnas relevantes y renombrar para un formato más claro
transplants_per_capita = transplants_with_population[['2_YEAR_INTERVAL', 'REGION', 'Liver per Capita', 'Kidney per Capita', 'Lung per Capita', 'Heart per Capita']]

# Pivotear el DataFrame para tener intervalos de años y regiones como índices
transposed_df = transplants_per_capita.pivot(index='2_YEAR_INTERVAL', columns='REGION').reset_index()

# Guardar el resultado en un archivo CSV
transposed_df.to_csv('transplants_per_capita_by_interval_region_and_type.csv', index=False)

# Mostrar los resultados
print(transposed_df)

Index(['REGION', 'COUNTRY', 'REPORTYEAR', 'POPULATION', 'TOTAL Actual DD',
       'Actual DBD', 'Actual DCD', 'Total Utilized DD', 'Utilized DBD',
       'Utilized DCD', 'DD Kidney Tx', 'LD Kidney Tx', 'TOTAL Kidney Tx',
       'DD Liver Tx', 'DOMINO Liver Tx', 'LD Liver Tx', 'TOTAL Liver TX',
       'Total Heart TX', 'DD Lung Tx', 'LD Lung Tx', 'TOTAL Lung Tx',
       'Pancreas Tx', 'Kidney Pancreas Tx', 'Small Bowel Tx'],
      dtype='object')
3224
                  REGION      COUNTRY  REPORTYEAR  POPULATION  \
0  Eastern Mediterranean  Afghanistan        2000         NaN   
1  Eastern Mediterranean  Afghanistan        2001         NaN   
2  Eastern Mediterranean  Afghanistan        2002         NaN   
3  Eastern Mediterranean  Afghanistan        2003         NaN   
4  Eastern Mediterranean  Afghanistan        2004         NaN   

   TOTAL Actual DD  Actual DBD  Actual DCD  Total Utilized DD  Utilized DBD  \
0              NaN         NaN         NaN                NaN           NaN