![code](https://gifsanimados.espaciolatino.com/cats/Lineas/x_lineblau1.gif)![code](https://gifsanimados.espaciolatino.com/cats/Lineas/x_lineblau1.gif)



# Expansión Estratégica de Biogenesys
**Descripción del Proyecto**



![code](https://tse1.mm.bing.net/th?id=OIG4.SsrLByPmEglg2zg92Qcp&pid=ImgGn) 


La empresa farmacéutica **BIOGENESYS** busca identificar las ubicaciones óptimas para la expansión de laboratorios farmacéuticos en **Latinoamérica**. El enfoque se centra en seis países: **Colombia, Argentina, Chile, México, Perú y Brasil**. 

**Objetivo**

El objetivo principal es optimizar la respuesta a los efectos de la pandemia y postpandemia, mejorando el acceso a las vacunas. Para ello, se realizará un análisis de datos que considere:

- **Incidencia de COVID-19**
- **Tasas de vacunación**
- **Disponibilidad de infraestructuras sanitarias**



**Nota:** Este proyecto es vital para que BIOGENESYS esté preparado y pueda responder rápidamente ante cualquier situación futura relacionada con la salud pública.

![code](https://gifsanimados.espaciolatino.com/cats/Lineas/x_lineblau1.gif)![code](https://gifsanimados.espaciolatino.com/cats/Lineas/x_lineblau1.gif)



# **AVANCE 1**




>**_Importando las librerias_**


In [74]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.interpolate import make_interp_spline
from matplotlib.colors import LinearSegmentedColormap


>**_Lectura del archivo data_latinoamerica.csv_**



In [75]:
# Ruta al archivo CSV
Archivo_data_latinoamerica = r'C:\Users\flore\OneDrive\Desktop\H\Modulo 4\PI\data_latinoamerica.csv'

# Lectura del archivo CSV con la conversión de la columna 'date' a tipo datetime
data_latinoamerica = pd.read_csv(Archivo_data_latinoamerica, sep=",", parse_dates=['date'])


>**_Verificación de los datos cargados_**


In [76]:
# Verificar si se cargaron correctamente los primeros registros
data_latinoamerica.head()  # Muestra las primeras filas del DataFrame

Unnamed: 0,location_key,date,country_code,country_name,new_confirmed,new_deceased,cumulative_confirmed,cumulative_deceased,cumulative_vaccine_doses_administered,population,...,population_largest_city,area_rural_sq_km,area_urban_sq_km,life_expectancy,adult_male_mortality_rate,adult_female_mortality_rate,pollution_mortality_rate,comorbidity_mortality_rate,new_recovered,cumulative_recovered
0,AR,2020-01-01,AR,Argentina,3.0,0.0,3.0,0.0,,44938712.0,...,15057273.0,2690269.0,55032.0,76.52,147.086,79.483,26.6,15.8,,
1,AR,2020-01-02,AR,Argentina,14.0,0.0,17.0,0.0,,44938712.0,...,15057273.0,2690269.0,55032.0,76.52,147.086,79.483,26.6,15.8,,
2,AR,2020-01-03,AR,Argentina,3.0,0.0,20.0,0.0,,44938712.0,...,15057273.0,2690269.0,55032.0,76.52,147.086,79.483,26.6,15.8,,
3,AR,2020-01-04,AR,Argentina,7.0,0.0,27.0,0.0,,44938712.0,...,15057273.0,2690269.0,55032.0,76.52,147.086,79.483,26.6,15.8,,
4,AR,2020-01-05,AR,Argentina,5.0,0.0,32.0,0.0,,44938712.0,...,15057273.0,2690269.0,55032.0,76.52,147.086,79.483,26.6,15.8,,


In [79]:
# Verificar la cantidad de registros y columnas cargadas
print(f"Registros: {data_latinoamerica.shape[0]}, Columnas: {data_latinoamerica.shape[1]}")
#shape el listado de axis de una longitud


Registros: 12216057, Columnas: 50


In [80]:
# Comprobar los tipos de datos de las columnas
print(data_latinoamerica.dtypes)

location_key                                     object
date                                     datetime64[ns]
country_code                                     object
country_name                                     object
new_confirmed                                   float64
new_deceased                                    float64
cumulative_confirmed                            float64
cumulative_deceased                             float64
cumulative_vaccine_doses_administered           float64
population                                      float64
population_male                                 float64
population_female                               float64
population_rural                                float64
population_urban                                float64
population_density                              float64
human_development_index                         float64
population_age_00_09                            float64
population_age_10_19                            

>**_Eliminar las columnas donde todos sus valores son nulos_**

In [81]:
# Eliminar primero las filas donde todos los valores son nulos
df_sin_filas_nulas = data_latinoamerica.dropna(axis=0, how="all")
print("____")
print("DataFrame sin filas completamente nulas:")
print(df_sin_filas_nulas)

# Luego eliminar columnas donde todos los valores son nulos
df_latinoamerica = data_latinoamerica.dropna(axis=1, how="all")
print("____")
print("DataFrame sin filas y columnas completamente nulas:")
print(f"Registros: {df_latinoamerica.shape[0]}, Columnas: {df_latinoamerica.shape[1]}")


____
DataFrame sin filas completamente nulas:
         location_key       date country_code country_name  new_confirmed  \
0                  AR 2020-01-01           AR    Argentina            3.0   
1                  AR 2020-01-02           AR    Argentina           14.0   
2                  AR 2020-01-03           AR    Argentina            3.0   
3                  AR 2020-01-04           AR    Argentina            7.0   
4                  AR 2020-01-05           AR    Argentina            5.0   
...               ...        ...          ...          ...            ...   
12216052         VE_Z 2022-09-13           VE    Venezuela            NaN   
12216053         VE_Z 2022-09-14           VE    Venezuela            NaN   
12216054         VE_Z 2022-09-15           VE    Venezuela            NaN   
12216055         VE_Z 2022-09-16           VE    Venezuela            NaN   
12216056         VE_Z 2022-09-17           VE    Venezuela            NaN   

          new_deceased  cumul

>**_Selección de países_**


In [82]:
#Verifico de la columna 'country name' los valores unicos
df_latinoamerica["country_name"].unique()

array(['Argentina', 'Bolivia', 'Brazil', 'Chile', 'Colombia',
       'Costa Rica', 'Cuba', 'Dominican Republic', 'Ecuador', 'Guatemala',
       'Honduras', 'Mexico', 'Nicaragua', 'Panama', 'Peru', 'Puerto Rico',
       'Paraguay', 'El Salvador', 'Uruguay', 'Venezuela'], dtype=object)

In [83]:
# Lista de países a seleccionar
paises_seleccionados = ['Argentina', 'Chile', 'Colombia', 'Mexico', 'Peru', 'Brazil']

# Filtramos el DataFrame para obtener solo los datos de los países de interés
data_latinoamerica = df_latinoamerica[df_latinoamerica['country_name'].isin(paises_seleccionados)]

# Verificamos cuántas columnas y registros tenemos luego del filtrado
print(f"Registros: {data_latinoamerica.shape[0]}, Columnas: {data_latinoamerica.shape[1]}")

Registros: 11970289, Columnas: 50


>**_Eliminamos las columnas con más de 6000000 valores nulos_**


In [84]:
# Identificamos columnas con más de 6000000 de valores nulos
columnas_a_eliminar = data_latinoamerica.isnull().sum()[data_latinoamerica.isnull().sum() > 6000000].index

# Eliminamos las columnas con más de 6000000 valores nulos
data_latinoamerica = data_latinoamerica.drop(columns=columnas_a_eliminar)

>**_Filtramos a nivel país utilizando los códigos de ubicación_**


In [85]:
# Filtramos a nivel país utilizando los códigos de ubicación
data_latinoamerica_paises = data_latinoamerica[data_latinoamerica["location_key"].isin(['AR', 'CL', 'CO', 'MX', 'PE', 'BR'])]

# Verificamos cuántas columnas y registros tenemos luego del segundo filtrado
print(f"Registros: {data_latinoamerica_paises.shape[0]}, Columnas: {data_latinoamerica_paises.shape[1]}")


Registros: 5946, Columnas: 28


>**_Filtrado de fechas_**

In [86]:
#Filtrado de los datos para fechas mayores a 2021-01-01.

data_latinoamerica_fecha= data_latinoamerica_paises[data_latinoamerica_paises['date']>'2021-01-01']

# Contamos valores nulos
valores_nulos_fecha= data_latinoamerica_fecha.isnull().sum()[data_latinoamerica_fecha.isnull().sum()>0]
print(valores_nulos_fecha)
print(np.shape(data_latinoamerica_fecha))

new_confirmed                  21
new_deceased                   21
cumulative_confirmed           21
cumulative_deceased            21
average_temperature_celsius    42
minimum_temperature_celsius    41
maximum_temperature_celsius    41
rainfall_mm                    90
relative_humidity              42
dtype: int64
(3744, 28)


>**_Rellenado de valores faltantes_**

_Interpolar:_
_Decidí usar la interpolación, ya que predice los valores faltantes basándose en los datos valores anteriores y posteriores._

In [87]:
# Rellenar columnas con interpolación lineal
columnas_interpolar = [
    'new_confirmed', 'new_deceased', 'cumulative_confirmed', 'cumulative_deceased',
    'average_temperature_celsius', 'minimum_temperature_celsius', 'maximum_temperature_celsius'
]

for columna in columnas_interpolar:
    data_latinoamerica_fecha[columna].interpolate(method='linear', inplace=True)
    '''interpolate(method='linear') para cada valor nulo, el valor se estima tomando una media ponderada 
     de los valores anteriores y posteriores en el tiempo, respetando la tendencia temporal.
    inplace nocopia'''
print(data_latinoamerica_fecha[columnas_interpolar].head())

     new_confirmed  new_deceased  cumulative_confirmed  cumulative_deceased  \
367         7767.0         166.0             1670634.0              46688.0   
368         4934.0         157.0             1675568.0              46845.0   
369        13953.0         157.0             1689521.0              47002.0   
370        14085.0         160.0             1703606.0              47162.0   
371        14496.0         131.0             1718102.0              47293.0   

     average_temperature_celsius  minimum_temperature_celsius  \
367                    27.740741                    18.098765   
368                    21.956790                    17.950617   
369                    24.894444                    18.072222   
370                    20.104938                    16.135802   
371                    20.919753                    13.290123   

     maximum_temperature_celsius  
367                    33.962963  
368                    33.456790  
369                    30.244

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data_latinoamerica_fecha[columna].interpolate(method='linear', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_latinoamerica_fecha[columna].interpolate(method='linear', inplace=True)


_Rellenar con la media (promedio):_
_Los valores faltantes no siguen una tendencia clara, por eso decidí rellenar con el promedio de la columna._


In [88]:
# Rellenar columnas con la media
columnas_media = [
    'rainfall_mm', 'relative_humidity'
]

for columna in columnas_media:
    media = data_latinoamerica_fecha[columna].mean()  # Calcular la media
    data_latinoamerica_fecha[columna].fillna(media, inplace=True)

# Verificar
print(data_latinoamerica_fecha[columnas_media].head())

     rainfall_mm  relative_humidity
367     0.000000          43.581350
368    13.144500          74.880846
369     1.498600          60.805923
370     8.286750          72.972595
371     5.108222          52.241997


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data_latinoamerica_fecha[columna].fillna(media, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_latinoamerica_fecha[columna].fillna(media, inplace=True)


In [95]:
# Verificar valores nulos en todas las columnas
valores_nulos = data_latinoamerica_fecha.isnull().sum()
print(valores_nulos)

location_key                   0
date                           0
country_code                   0
country_name                   0
new_confirmed                  0
new_deceased                   0
cumulative_confirmed           0
cumulative_deceased            0
population                     0
population_male                0
population_female              0
population_age_00_09           0
population_age_10_19           0
population_age_20_29           0
population_age_30_39           0
population_age_40_49           0
population_age_50_59           0
population_age_60_69           0
population_age_70_79           0
population_age_80_and_older    0
latitude                       0
longitude                      0
area_sq_km                     0
average_temperature_celsius    0
minimum_temperature_celsius    0
maximum_temperature_celsius    0
rainfall_mm                    0
relative_humidity              0
dtype: int64


In [96]:
data_latinoamerica_fecha.to_csv("Datosfinalesfiltrados.csv",index=False)

In [97]:
data_latinoamerica_fecha

Unnamed: 0,location_key,date,country_code,country_name,new_confirmed,new_deceased,cumulative_confirmed,cumulative_deceased,population,population_male,...,population_age_70_79,population_age_80_and_older,latitude,longitude,area_sq_km,average_temperature_celsius,minimum_temperature_celsius,maximum_temperature_celsius,rainfall_mm,relative_humidity
367,AR,2021-01-02,AR,Argentina,7767.0,166.0,1670634.0,46688.0,44938712.0,19523766.0,...,1817557.0,994030.0,-34.0,-64.0,2780400.0,27.740741,18.098765,33.962963,0.000000,43.581350
368,AR,2021-01-03,AR,Argentina,4934.0,157.0,1675568.0,46845.0,44938712.0,19523766.0,...,1817557.0,994030.0,-34.0,-64.0,2780400.0,21.956790,17.950617,33.456790,13.144500,74.880846
369,AR,2021-01-04,AR,Argentina,13953.0,157.0,1689521.0,47002.0,44938712.0,19523766.0,...,1817557.0,994030.0,-34.0,-64.0,2780400.0,24.894444,18.072222,30.244444,1.498600,60.805923
370,AR,2021-01-05,AR,Argentina,14085.0,160.0,1703606.0,47162.0,44938712.0,19523766.0,...,1817557.0,994030.0,-34.0,-64.0,2780400.0,20.104938,16.135802,30.685185,8.286750,72.972595
371,AR,2021-01-06,AR,Argentina,14496.0,131.0,1718102.0,47293.0,44938712.0,19523766.0,...,1817557.0,994030.0,-34.0,-64.0,2780400.0,20.919753,13.290123,26.580247,5.108222,52.241997
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10253872,PE,2022-09-13,PE,Peru,1150.0,22.0,4127612.0,216173.0,29381884.0,14450757.0,...,1078066.0,573103.0,-9.4,-76.0,1285220.0,30.500000,25.666667,34.666667,0.000000,60.851205
10253873,PE,2022-09-14,PE,Peru,1150.0,22.0,4127612.0,216173.0,29381884.0,14450757.0,...,1078066.0,573103.0,-9.4,-76.0,1285220.0,30.500000,25.666667,34.666667,1.445042,62.306435
10253874,PE,2022-09-15,PE,Peru,1150.0,22.0,4127612.0,216173.0,29381884.0,14450757.0,...,1078066.0,573103.0,-9.4,-76.0,1285220.0,30.500000,25.666667,34.666667,1.445042,62.306435
10253875,PE,2022-09-16,PE,Peru,1150.0,22.0,4127612.0,216173.0,29381884.0,14450757.0,...,1078066.0,573103.0,-9.4,-76.0,1285220.0,30.500000,25.666667,34.666667,1.445042,62.306435


In [None]:
latinoamerica_paises=pd.read_csv("Datosfinalesfiltrados.csv",sep=",")