In [1]:
# Tratamiento de datos
# ==============================================================================
import pandas as pd
import numpy as np


# Configuración warnings
# ==============================================================================
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

In [2]:
dataset_dir = 'Casos_Covid/Poblacion/poblacion_municipio.csv' #Se carga el dataset
df_pob = pd.read_csv(dataset_dir, sep=(','), encoding='latin-1') #Se lee el archivo csv el cual está separado por comas
df_pob.isnull().sum() #Se imprime la suma de filas nulas del dataset

DP                 0
DPNOM              0
DPMP               0
MPIO               0
AÑO                0
ÁREA GEOGRÁFICA    0
Total              0
dtype: int64

In [3]:
#Se renombran las siguiente columnas
df_pob = df_pob.rename({'DP': 'CodCiudad', 'DPNOM': 'Departamento', 'DPMP': 'CodDepMun', 'MPIO' : 'Ciudad', 'AÑO' : 'Ano', 'ÁREA GEOGRÁFICA' : 'Area', 'Total' : 'Total'}, axis=1)
df_pob #Se imprime el dataset

Unnamed: 0,CodCiudad,Departamento,CodDepMun,Ciudad,Ano,Area,Total
0,5,Antioquia,5001,Medellín,2018,Cabecera Municipal,2382399
1,5,Antioquia,5001,Medellín,2018,Centros Poblados y Rural Disperso,44730
2,5,Antioquia,5001,Medellín,2018,Total,2427129
3,5,Antioquia,5001,Medellín,2019,Cabecera Municipal,2439470
4,5,Antioquia,5001,Medellín,2019,Centros Poblados y Rural Disperso,44075
...,...,...,...,...,...,...,...
60583,99,Vichada,99773,Cumaribo,2034,Centros Poblados y Rural Disperso,93327
60584,99,Vichada,99773,Cumaribo,2034,Total,96319
60585,99,Vichada,99773,Cumaribo,2035,Cabecera Municipal,3001
60586,99,Vichada,99773,Cumaribo,2035,Centros Poblados y Rural Disperso,94793


In [5]:
df_pob.info() #Se imprime la información del dataset

df_pob['CodCiudad'] = df_pob['CodCiudad'].astype('int64') #Se corrige el tipo de dato de la variable

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60588 entries, 0 to 60587
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   CodCiudad     60588 non-null  int64 
 1   Departamento  60588 non-null  object
 2   CodDepMun     60588 non-null  int64 
 3   Ciudad        60588 non-null  object
 4   Ano           60588 non-null  int64 
 5   Area          60588 non-null  object
 6   Total         60588 non-null  int64 
dtypes: int64(4), object(3)
memory usage: 3.2+ MB


In [6]:
#Se eliminan las filas cuya columna 'Area' sea su dato diferente a 'Total'
df_pob = df_pob.drop(df_pob[df_pob['Area'] != 'Total'].index)

df_pob #Se imprime el dataset

Unnamed: 0,CodCiudad,Departamento,CodDepMun,Ciudad,Ano,Area,Total
2,5,Antioquia,5001,Medellín,2018,Total,2427129
5,5,Antioquia,5001,Medellín,2019,Total,2483545
8,5,Antioquia,5001,Medellín,2020,Total,2533424
11,5,Antioquia,5001,Medellín,2021,Total,2573220
14,5,Antioquia,5001,Medellín,2022,Total,2612958
...,...,...,...,...,...,...,...
60575,99,Vichada,99773,Cumaribo,2031,Total,91879
60578,99,Vichada,99773,Cumaribo,2032,Total,93367
60581,99,Vichada,99773,Cumaribo,2033,Total,94853
60584,99,Vichada,99773,Cumaribo,2034,Total,96319


In [7]:
#Se eliminan las filas cuyo valor de 'Ano' se mayor a 2021 o igual a 2018
df_pob = df_pob.drop(df_pob[df_pob['Ano'] > 2021].index) 
df_pob = df_pob.drop(df_pob[df_pob['Ano'] == 2018].index)
df_pob.reset_index(drop=True, inplace=True) #Se reinicia el índice del dataset
df_pob # Se imprime el dataset

Unnamed: 0,CodCiudad,Departamento,CodDepMun,Ciudad,Ano,Area,Total
0,5,Antioquia,5001,Medellín,2019,Total,2483545
1,5,Antioquia,5001,Medellín,2020,Total,2533424
2,5,Antioquia,5001,Medellín,2021,Total,2573220
3,5,Antioquia,5002,Abejorral,2019,Total,20258
4,5,Antioquia,5002,Abejorral,2020,Total,20287
...,...,...,...,...,...,...,...
3361,99,Vichada,99624,Santa Rosalía,2020,Total,4193
3362,99,Vichada,99624,Santa Rosalía,2021,Total,4252
3363,99,Vichada,99773,Cumaribo,2019,Total,76196
3364,99,Vichada,99773,Cumaribo,2020,Total,78863


In [8]:
df_pob['Ano'].unique().tolist() #Se lista los diferentes valores de la columna "Ano"

[2019, 2020, 2021]

In [9]:
#Se realiza un comprobación filtrando con una ciudad
df_cas_t = df_pob[df_pob["Ciudad"] == "Villavicencio"]
df_cas_t #Se imprime el dataset

Unnamed: 0,CodCiudad,Departamento,CodDepMun,Ciudad,Ano,Area,Total
2058,50,Meta,50001,Villavicencio,2019,Total,538824
2059,50,Meta,50001,Villavicencio,2020,Total,545302
2060,50,Meta,50001,Villavicencio,2021,Total,549922


In [10]:
#Se corrigen los nombres de algunas ciudades

#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "ARMENIA"] = "Armenia" 
#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "BARRANQUILLA"] = "Barranquilla" 
df_pob["Ciudad"][df_pob["Ciudad"] == "Bogotá D.C."] = "Bogota" 
#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "BUCARAMANGA"] = "Bucaramanga"
#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "CALI"] = "Cali"
df_pob["Ciudad"][df_pob["Ciudad"] == "Cartagena de Indias"] = "Cartagena"
df_pob["Ciudad"][df_pob["Ciudad"] == "San José de Cúcuta"] = "Cucuta"
#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "FLORENCIA"] = "Florencia"
df_pob["Ciudad"][df_pob["Ciudad"] == "Ibagué"] = "Ibague"
#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "MANIZALES"] = "Manizales"
df_pob["Ciudad"][df_pob["Ciudad"] == "Medellín"] = "Medellin"
df_pob["Ciudad"][df_pob["Ciudad"] == "Montería"] = "Monteria"
#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "NEIVA"] = "Neiva"
#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "PASTO"] = "Pasto"
#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "PEREIRA"] = "Pereira"
df_pob["Ciudad"][df_pob["Ciudad"] == "Popayán"] = "Popayan"
df_pob["Ciudad"][df_pob["Ciudad"] == "Quibdó"] = "Quibdo"
#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "RIOHACHA"] = "Riohacha"
df_pob["Ciudad"][df_pob["Ciudad"] == "San Andrés"] = "Sanandres"
df_pob["Ciudad"][df_pob["Ciudad"] == "Santa Marta"] = "Santamarta"
#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "SINCELEJO"] = "Sincelejo"
#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "TUNJA"] = "Tunja"
#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "VALLEDUPAR"] = "Valledupar"
#df_cas_n["Nombre municipio"][df_cas_n["Nombre municipio"] == "VILLAVICENCIO"] = "Villavicencio"
df_pob #Se imprime el dataset

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_pob["Ciudad"][df_pob["Ciudad"] == "Bogotá D.C."] = "Bogota"
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_pob["Ciudad"][df_pob["Ciudad"] == "Cartagena de Indias"] = "Cartagena"
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_pob["Ciudad"][df_pob["Ciudad"] == "San José de Cúcuta"] = "Cucuta"
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing

Unnamed: 0,CodCiudad,Departamento,CodDepMun,Ciudad,Ano,Area,Total
0,5,Antioquia,5001,Medellin,2019,Total,2483545
1,5,Antioquia,5001,Medellin,2020,Total,2533424
2,5,Antioquia,5001,Medellin,2021,Total,2573220
3,5,Antioquia,5002,Abejorral,2019,Total,20258
4,5,Antioquia,5002,Abejorral,2020,Total,20287
...,...,...,...,...,...,...,...
3361,99,Vichada,99624,Santa Rosalía,2020,Total,4193
3362,99,Vichada,99624,Santa Rosalía,2021,Total,4252
3363,99,Vichada,99773,Cumaribo,2019,Total,76196
3364,99,Vichada,99773,Cumaribo,2020,Total,78863


In [11]:
# Se asigna un código a cada ciudad correspondiente al código divipola
ciudad = {'Armenia':63,'Barranquilla':8,'Bogota':11,'Bucaramanga':68,
       'Cali':76,'Cartagena':13,'Cucuta':54,'Florencia':18,'Ibague':73,
       'Manizales':17,'Medellin':5,'Monteria':23,'Neiva':41,'Pasto':52,
       'Pereira':66,'Popayan':19,'Quibdo':27,'Riohacha':44,'Sanandres':88,
       'Santamarta':47,'Sincelejo':70,'Tunja':15,'Valledupar':20,
          'Villavicencio':50}


In [12]:
df_t = None #Se crea una variable vacia

#Se crea un ciclo for para filtrar las filas segun el codigo y nombre de la ciudad
for ciu,cciu in ciudad.items():
    val = df_pob[(df_pob["Ciudad"] == ciu) & (df_pob['CodCiudad'] == cciu)]
    df_t = pd.concat([df_t,val],ignore_index=True) #Se agrupan cada resultado
df_t #Se 

Unnamed: 0,CodCiudad,Departamento,CodDepMun,Ciudad,Ano,Area,Total
0,63,Quindio,63001,Armenia,2019,Total,300194
1,63,Quindio,63001,Armenia,2020,Total,304764
2,63,Quindio,63001,Armenia,2021,Total,308463
3,8,Atlántico,8001,Barranquilla,2019,Total,1243056
4,8,Atlántico,8001,Barranquilla,2020,Total,1274250
...,...,...,...,...,...,...,...
67,20,Cesar,20001,Valledupar,2020,Total,532956
68,20,Cesar,20001,Valledupar,2021,Total,544134
69,50,Meta,50001,Villavicencio,2019,Total,538824
70,50,Meta,50001,Villavicencio,2020,Total,545302


In [13]:
export_dir = 'Casos_Covid/Poblacion/Estimacion_pre.csv'
df_t.to_csv(export_dir, index=False, header=True)