
## Introducción a la problemática: COVID-19 en Colombia







[La pandemia de enfermedad por coronavirus de 2019-2020](https://es.wikipedia.org/wiki/Pandemia_de_enfermedad_por_coronavirus_de_2019-2020) es una pandemia derivada de la enfermedad por coronavirus iniciada en 2019 (COVID-19), ocasionada por el virus coronavirus 2 del síndrome respiratorio agudo grave (SARS-CoV-2). Se identificó por primera vez en diciembre de 2019 en la ciudad de Wuhan,​ capital de la provincia de Hubei, en la República Popular China, al reportarse casos de un grupo de personas enfermas con un tipo de neumonía desconocida. La mayoría de individuos afectados tenían vinculación con trabajadores del Mercado Mayorista de Mariscos del Sur de China de Wuhan.​ La Organización Mundial de la Salud (OMS) la reconoció como una pandemia global el 11 de marzo de 2020.

Hasta el 11 de agosto de 2020, se ha informado de más de 20,4 millones de casos de la enfermedad en 218 países y territorios en el mundo (los cinco países con mayor número de infectados son Estados Unidos, Brasil, India, Rusia y Sudáfrica), con más de 745.000 muertes (los cinco países con mayor cantidad de fallecidos son Estados Unidos, Brasil, México, India y Reino Unido), más de 13,4 millones de casos de personas recuperadas​ (los cinco países con mayor número de personas recuperadas son Estados Unidos, Brasil, India, Rusia y Sudáfrica) y más de 6,2 casos activos (los cinco países con mayor número de casos activos son Estados Unidos, Brasil, India, Rusia y **Colombia**).

En este documento, se realizará una lectura, análisis, transformación y exportación de datos relacionados con el estado actual de casos de contagio por COVID-19 en Colombia desde el 27 de Febrero de 2020 hasta el 20 de Agosto de 2020.

A continuación se presentarán algunas notas importantes presentadas por  el Instituto Nacional de Salud para tener en cuenta a la hora de leer los datos:

"Consulte los datasets históricos en: https://www.ins.gov.co/Paginas/Boletines-casos-COVID-19-Colombia.aspx

ACTUALIZACIÓN: Se incluye la variable de nombre del grupo étnico. Se actualizará cada semana.

RESUMEN DIARIO: https://infogram.com/panorama-general-1h7z2lgn3l9l4ow?live
Debido a los ataques que ha recibido la página del INS desde IPs extranjeras, se ha limitado el acceso de manera temporal desde IPs fuera de Colombia.

Cualquier actualización que se identifique, quedará registrada al día siguiente en la publicación. Consulte la fe de erratas y notas aclaratorias en: http://www.ins.gov.co/Noticias/Paginas/Coronavirus.aspx

Contiene el consolidado de los casos positivos de Coronavirus COVID-19 en Colombia reportados por el Instituto Nacional de Salud (INS). Incluye variables como género, departamento, grupo etáreo, entre otras.

Para las ciudades que son distritos (Cartagena, Bogotá, Santa Marta, Buenaventura y Barranquilla), sus cifras son independientes a las cifras del departamento al cual pertecen, en concordancia con la división oficial de Colombia.
* Los casos marcados como en estudio están sujetos a modificación una vez se identifique el origen (importado o relacionado).
* Recuperado es paciente con segunda prueba negativa para el virus. El paciente puede permanecer en el hospital por otras razones.
* Por seguridad de las personas, algunos datos serán limitados evitando así la exposición y posible identificación en determinados municipios."

Realizamos el siguiente diagrama de flujo expresado en: 



##Código

In [None]:
import pandas as pd
from datetime import datetime
import matplotlib.pyplot as plt
%matplotlib inline

covid_df = pd.read_csv("https://www.datos.gov.co/api/views/gt2j-8ykr/rows.csv?accessType=DOWNLOAD")

  interactivity=interactivity, compiler=compiler, result=result)


In [None]:
from google.colab import drive
drive.mount("/content/drive/")

Mounted at /content/drive/


In [None]:
pd.set_option('display.max_rows', 502178)

In [None]:
!head covid_data_procesada.csv

head: cannot open 'covid_data_procesada.csv' for reading: No such file or directory


In [None]:
covid_df.shape

(765076, 21)

In [None]:
covid_df.columns

Index(['ID de caso', 'Fecha de notificación', 'Código DIVIPOLA',
       'Ciudad de ubicación', 'Departamento o Distrito ', 'atención', 'Edad',
       'Sexo', 'Tipo', 'Estado', 'País de procedencia', 'FIS',
       'Fecha de muerte', 'Fecha diagnostico', 'Fecha recuperado',
       'fecha reporte web', 'Tipo recuperación', 'Codigo departamento',
       'Codigo pais', 'Pertenencia etnica', 'Nombre grupo etnico'],
      dtype='object')

In [None]:
covid_df.rename(columns={'Fecha de notificación':'Fecha de notificacion', 'Código DIVIPOLA':'Codigo DIVIPOLA','Ciudad de ubicación':'Ciudad de ubicacion', 'atención':'atencion', 'País de procedencia':'Pais de procedencia', 'Tipo recuperación':'Tipo recuperacion'}, inplace=True)

In [None]:
covid_df.columns

Index(['ID de caso', 'Fecha de notificacion', 'Codigo DIVIPOLA',
       'Ciudad de ubicacion', 'Departamento o Distrito ', 'atencion', 'Edad',
       'Sexo', 'Tipo', 'Estado', 'Pais de procedencia', 'FIS',
       'Fecha de muerte', 'Fecha diagnostico', 'Fecha recuperado',
       'fecha reporte web', 'Tipo recuperacion', 'Codigo departamento',
       'Codigo pais', 'Pertenencia etnica', 'Nombre grupo etnico'],
      dtype='object')

In [None]:
covid_df.dtypes

ID de caso                    int64
Fecha de notificacion        object
Codigo DIVIPOLA               int64
Ciudad de ubicacion          object
Departamento o Distrito      object
atencion                     object
Edad                          int64
Sexo                         object
Tipo                         object
Estado                       object
Pais de procedencia          object
FIS                          object
Fecha de muerte              object
Fecha diagnostico            object
Fecha recuperado             object
fecha reporte web            object
Tipo recuperacion            object
Codigo departamento           int64
Codigo pais                 float64
Pertenencia etnica           object
Nombre grupo etnico          object
dtype: object

In [None]:
covid_df["Fecha de notificacion"].value_counts(dropna=False)

2020-07-27T00:00:00.000    12112
2020-08-06T00:00:00.000    11908
2020-07-28T00:00:00.000    11792
2020-08-26T00:00:00.000    11732
2020-07-31T00:00:00.000    11472
2020-08-24T00:00:00.000    11457
2020-08-03T00:00:00.000    11030
2020-07-30T00:00:00.000    11003
2020-07-29T00:00:00.000    10840
2020-08-13T00:00:00.000    10718
2020-08-04T00:00:00.000    10527
2020-07-24T00:00:00.000    10443
2020-07-23T00:00:00.000    10427
2020-07-21T00:00:00.000    10382
2020-07-22T00:00:00.000    10321
2020-08-05T00:00:00.000    10221
2020-08-10T00:00:00.000    10163
2020-08-14T00:00:00.000    10084
2020-08-18T00:00:00.000    10063
2020-08-12T00:00:00.000     9950
2020-08-11T00:00:00.000     9806
2020-07-17T00:00:00.000     9698
2020-07-13T00:00:00.000     9491
2020-07-18T00:00:00.000     9478
2020-08-19T00:00:00.000     9476
2020-08-01T00:00:00.000     9441
2020-07-16T00:00:00.000     9420
2020-07-25T00:00:00.000     9379
2020-08-25T00:00:00.000     9366
2020-09-04T00:00:00.000     9314
2020-08-21

In [None]:
covid_df["Fecha de notificacion"] = pd.to_datetime(covid_df.loc[:, "Fecha de notificacion"])

In [None]:
covid_df["Fecha de notificacion"].min() 

Timestamp('2020-03-02 00:00:00')

In [None]:
covid_df["Fecha de notificacion"].max() 

Timestamp('2020-09-20 00:00:00')

In [None]:
covid_df["Departamento o Distrito "].value_counts(dropna=False)

Bogotá D.C.                                                252319
Antioquia                                                  103915
Valle del Cauca                                             54706
Barranquilla D.E.                                           37600
Cundinamarca                                                30883
Atlántico                                                   28976
Santander                                                   27463
Córdoba                                                     22768
Cartagena D.T. y C.                                         22419
Nariño                                                      17485
Cesar                                                       17403
Norte de Santander                                          14535
Meta                                                        14261
Sucre                                                       13545
Tolima                                                      10967
Santa Mart

In [None]:
covid_df["atencion"].value_counts(dropna=False)


Recuperado      633199
Casa             90763
Fallecido        24208
Hospital         14057
NaN               1602
Hospital UCI      1242
CASA                 5
Name: atencion, dtype: int64

In [None]:
covid_df["Edad"].value_counts(dropna=False)

30     20339
28     19895
29     19860
27     19495
31     19364
26     18990
25     18422
32     18379
33     18329
35     18194
34     18190
36     17233
24     17218
38     17001
37     16761
39     16183
40     16148
23     15608
41     14705
22     13706
42     13289
43     12909
21     12250
44     12172
45     11826
50     11418
46     11169
47     11153
49     11148
48     11146
20     11055
51     10952
52     10878
53     10553
55     10486
54     10443
56     10198
57      9918
19      9511
58      8918
59      8574
60      8336
61      7406
62      6854
18      6674
63      6586
64      6077
65      5660
66      5386
17      5144
67      5076
68      4770
16      4709
69      4423
70      4367
15      4341
14      4089
72      3872
12      3868
13      3821
71      3812
73      3640
11      3578
0       3451
74      3323
10      3297
9       3055
75      3051
8       2920
76      2808
1       2790
7       2720
77      2674
78      2674
6       2671
80      2650
5       2634

In [None]:
covid_df["Sexo"].value_counts(dropna=False)

M    389352
F    375715
f         7
m         2
Name: Sexo, dtype: int64

In [None]:
covid_df["Sexo"].replace(["f",  "m"], ["F", "M"], inplace=True)

In [None]:
covid_df["Tipo"].value_counts(dropna=False)

En estudio     721452
Relacionado     40401
En Estudio       2185
Importado         981
relacionado        38
RELACIONADO        14
EN ESTUDIO          5
Name: Tipo, dtype: int64

In [None]:
covid_df["Tipo"].replace(["relacionado", "RELACIONADO"], "Relacionado", inplace=True)

In [None]:
covid_df["Estado"].value_counts(dropna=False)

Leve            619415
Asintomático     95449
Fallecido        24207
Moderado         21942
Grave             2216
NaN               1842
LEVE                 5
Name: Estado, dtype: int64

In [None]:
covid_df["Pais de procedencia"].value_counts(dropna=False)

NaN                                                764108
ESPAÑA                                                265
ESTADOS UNIDOS                                        217
ECUADOR                                                70
BRASIL                                                 61
MÉXICO                                                 53
PANAMA                                                 34
TURQUÍA                                                28
CHILE                                                  20
FRANCIA                                                20
PERU                                                   18
JAMAICA                                                16
REINO UNIDO DE GRAN BRETAÑA E IRLANDA DEL NORTE        14
VENEZUELA                                              14
PUERTO RICO                                            13
ALEMANIA                                               12
EGIPTO                                                 12
REPÚBLICA DOMI

In [None]:
covid_df['Pais de procedencia'].fillna('COLOMBIA')

0           ITALIA
1           ESPAÑA
2           ESPAÑA
3         COLOMBIA
4         COLOMBIA
            ...   
765071    COLOMBIA
765072    COLOMBIA
765073    COLOMBIA
765074    COLOMBIA
765075    COLOMBIA
Name: Pais de procedencia, Length: 765076, dtype: object

In [None]:
covid_df["FIS"].value_counts(dropna=False)

NaN                        95449
2020-07-24T00:00:00.000    12586
2020-07-27T00:00:00.000    11047
2020-07-25T00:00:00.000    10192
2020-08-10T00:00:00.000    10043
2020-08-01T00:00:00.000    10042
2020-08-20T00:00:00.000     9477
2020-07-23T00:00:00.000     9415
2020-07-29T00:00:00.000     9370
2020-08-03T00:00:00.000     9364
2020-07-28T00:00:00.000     9289
2020-08-06T00:00:00.000     9032
2020-07-10T00:00:00.000     8973
2020-07-22T00:00:00.000     8911
2020-07-31T00:00:00.000     8826
2020-08-04T00:00:00.000     8750
2020-08-05T00:00:00.000     8721
2020-07-16T00:00:00.000     8677
2020-07-13T00:00:00.000     8555
2020-07-14T00:00:00.000     8279
2020-07-15T00:00:00.000     8270
2020-08-19T00:00:00.000     8215
2020-07-21T00:00:00.000     8205
2020-07-17T00:00:00.000     8141
2020-08-18T00:00:00.000     7989
2020-07-20T00:00:00.000     7939
2020-08-08T00:00:00.000     7880
2020-07-30T00:00:00.000     7880
2020-08-12T00:00:00.000     7861
2020-07-26T00:00:00.000     7724
2020-08-11

In [None]:
covid_df["FIS"] = pd.to_datetime(covid_df.loc[:, "FIS"], errors="coerce")
 

In [None]:
covid_df["FIS"].min()

Timestamp('2020-02-27 00:00:00')

In [None]:
covid_df["FIS"].max()

Timestamp('2020-09-19 00:00:00')

In [None]:
covid_df["Fecha de muerte"].value_counts(dropna=False)

NaN                        739138
2020-07-30T00:00:00.000       378
2020-08-08T00:00:00.000       378
2020-08-03T00:00:00.000       366
2020-07-31T00:00:00.000       354
2020-07-29T00:00:00.000       352
2020-08-07T00:00:00.000       345
2020-08-11T00:00:00.000       343
2020-08-13T00:00:00.000       341
2020-08-06T00:00:00.000       340
2020-07-28T00:00:00.000       337
2020-08-09T00:00:00.000       337
2020-07-21T00:00:00.000       336
2020-07-27T00:00:00.000       336
2020-08-19T00:00:00.000       333
2020-08-05T00:00:00.000       326
2020-07-24T00:00:00.000       325
2020-08-01T00:00:00.000       322
2020-07-23T00:00:00.000       318
2020-07-26T00:00:00.000       317
2020-08-02T00:00:00.000       317
2020-08-04T00:00:00.000       316
2020-08-18T00:00:00.000       315
2020-08-10T00:00:00.000       314
2020-07-22T00:00:00.000       311
2020-08-21T00:00:00.000       308
2020-07-25T00:00:00.000       302
2020-08-16T00:00:00.000       301
2020-07-17T00:00:00.000       300
2020-08-15T00:

In [None]:
covid_df["Fecha de muerte"].dropna(inplace=True)

In [None]:
covid_df["Fecha de muerte"].min()

'2020-03-16T00:00:00.000'

In [None]:
covid_df["Fecha de muerte"].max()

'2020-09-20T00:00:00.000'

In [None]:
covid_df["Fecha de muerte"] = pd.to_datetime(covid_df.loc[:, "Fecha de muerte"]) #  Asumimos que los Nan corresponden a recuperados

In [None]:
covid_df["Fecha diagnostico"].value_counts(dropna=False)


2020-08-11T00:00:00.000    17514
2020-07-28T00:00:00.000    14582
2020-08-13T00:00:00.000    13769
2020-08-19T00:00:00.000    13659
2020-08-16T00:00:00.000    13399
2020-08-20T00:00:00.000    12138
2020-08-04T00:00:00.000    11663
2020-07-22T00:00:00.000    11394
2020-08-15T00:00:00.000    11374
2020-08-08T00:00:00.000    10928
2020-08-25T00:00:00.000    10891
2020-08-02T00:00:00.000    10708
2020-08-01T00:00:00.000    10608
2020-08-05T00:00:00.000    10456
2020-08-21T00:00:00.000    10402
2020-08-07T00:00:00.000    10362
2020-07-29T00:00:00.000    10291
2020-07-27T00:00:00.000    10221
2020-08-17T00:00:00.000    10059
2020-08-06T00:00:00.000     9866
2020-08-24T00:00:00.000     9823
2020-08-26T00:00:00.000     9566
2020-08-12T00:00:00.000     9559
2020-09-02T00:00:00.000     9553
2020-08-31T00:00:00.000     9465
2020-07-24T00:00:00.000     9440
2020-08-28T00:00:00.000     9357
2020-09-10T00:00:00.000     9280
2020-07-21T00:00:00.000     9192
2020-07-30T00:00:00.000     9034
2020-08-27

In [None]:
covid_df["Fecha diagnostico"] = pd.to_datetime(covid_df.loc[:, "Fecha diagnostico"])

In [None]:
covid_df["Fecha diagnostico"].min()

Timestamp('2020-03-06 00:00:00')

In [None]:
covid_df["Fecha diagnostico"].max()

Timestamp('2020-09-20 00:00:00')

In [None]:
covid_df["Fecha recuperado"].value_counts(dropna=False)

NaN                        131877
2020-09-10T00:00:00.000     16490
2020-08-23T00:00:00.000     14140
2020-08-17T00:00:00.000     14018
2020-08-19T00:00:00.000     13630
2020-09-11T00:00:00.000     13295
2020-08-15T00:00:00.000     13115
2020-08-20T00:00:00.000     13019
2020-08-16T00:00:00.000     12518
2020-08-28T00:00:00.000     12296
2020-08-25T00:00:00.000     11819
2020-08-26T00:00:00.000     11806
2020-09-08T00:00:00.000     11790
2020-09-09T00:00:00.000     11537
2020-09-07T00:00:00.000     11238
2020-08-29T00:00:00.000     11099
2020-08-27T00:00:00.000     10916
2020-08-22T00:00:00.000     10914
2020-08-18T00:00:00.000     10612
2020-08-24T00:00:00.000     10569
2020-08-13T00:00:00.000     10545
2020-09-06T00:00:00.000     10511
2020-08-14T00:00:00.000     10393
2020-09-01T00:00:00.000     10224
2020-08-30T00:00:00.000     10133
2020-09-12T00:00:00.000     10028
2020-08-21T00:00:00.000      9904
2020-09-02T00:00:00.000      9860
2020-09-03T00:00:00.000      9701
2020-09-05T00:

In [None]:
covid_df["Fecha recuperado"].dropna(inplace=True)

In [None]:
covid_df["Fecha recuperado"].min()

'2020-03-13T00:00:00.000'

In [None]:
covid_df["Fecha recuperado"].max()

'2020-09-20T00:00:00.000'

In [None]:
covid_df["Fecha recuperado"] = pd.to_datetime(covid_df.loc[:, "Fecha recuperado"])

In [None]:
covid_df["fecha reporte web"].value_counts(dropna=False)

2020-08-19T00:00:00.000    13056
2020-08-11T00:00:00.000    12830
2020-08-18T00:00:00.000    12462
2020-08-12T00:00:00.000    12066
2020-08-06T00:00:00.000    11996
2020-08-16T00:00:00.000    11643
2020-08-15T00:00:00.000    11578
2020-08-20T00:00:00.000    11541
2020-08-02T00:00:00.000    11470
2020-08-14T00:00:00.000    11306
2020-08-13T00:00:00.000    11286
2020-08-22T00:00:00.000    10965
2020-08-05T00:00:00.000    10735
2020-08-01T00:00:00.000    10673
2020-08-09T00:00:00.000    10611
2020-08-24T00:00:00.000    10549
2020-08-25T00:00:00.000    10432
2020-07-28T00:00:00.000    10284
2020-08-03T00:00:00.000    10199
2020-08-10T00:00:00.000    10142
2020-08-26T00:00:00.000    10142
2020-07-30T00:00:00.000     9965
2020-08-27T00:00:00.000     9752
2020-08-08T00:00:00.000     9674
2020-07-31T00:00:00.000     9488
2020-08-07T00:00:00.000     9486
2020-08-29T00:00:00.000     9394
2020-09-02T00:00:00.000     9270
2020-07-17T00:00:00.000     8934
2020-09-01T00:00:00.000     8901
2020-07-29

In [None]:
covid_df["fecha reporte web"].min()

'2020-03-06T00:00:00.000'

In [None]:
covid_df["fecha reporte web"].max()

'2020-09-20T00:00:00.000'

In [None]:
covid_df["fecha reporte web"] = pd.to_datetime(covid_df.loc[:, "fecha reporte web"])

In [None]:
covid_df["Tipo recuperacion"].value_counts(dropna=False) # Se asume NaN como fallecidos

Tiempo    526752
NaN       131877
PCR       106447
Name: Tipo recuperacion, dtype: int64

In [None]:
covid_df["Codigo departamento"].value_counts(dropna=False)

11    252319
5     103915
8      66576
76     57244
25     30883
13     28027
68     27463
23     22768
52     17485
20     17403
47     14563
54     14535
50     14261
70     13545
73     10967
66      9596
41      9545
19      8293
18      7783
44      7397
15      6086
17      4752
27      3947
86      3640
91      2732
63      2655
85      1875
81      1475
88       938
97       693
95       649
94       631
99       435
Name: Codigo departamento, dtype: int64

In [None]:
covid_df["Codigo pais"].value_counts(dropna=False)

NaN      764108
724.0       265
840.0       224
218.0        69
76.0         62
484.0        54
591.0        38
792.0        28
604.0        25
250.0        20
152.0        20
388.0        16
862.0        14
826.0        14
630.0        13
214.0        12
276.0        12
818.0        12
380.0        10
530.0         8
376.0         6
32.0          5
192.0         4
300.0         4
533.0         3
124.0         3
682.0         2
188.0         2
531.0         2
558.0         2
752.0         2
504.0         2
784.0         2
756.0         1
760.0         1
191.0         1
320.0         1
620.0         1
340.0         1
372.0         1
36.0          1
70.0          1
50.0          1
56.0          1
404.0         1
858.0         1
Name: Codigo pais, dtype: int64

In [None]:
covid_df["Pertenencia etnica"].value_counts(dropna=False)

Otro        701292
Negro        29987
Indígena     19166
NaN          14607
Rom             24
Name: Pertenencia etnica, dtype: int64

In [None]:
covid_df["Nombre grupo etnico"].value_counts(dropna=False) #Los datos NaN se consideran como "Sin pertenencia étnica")

NaN                                                  752099
ZENÚ                                                   2652
Por definir                                            1268
PASTO                                                  1060
MOKANA                                                 1004
PIJAO                                                   893
NASA (PAÉZ)                                             819
Sin Comunidad                                           570
WAYUU                                                   557
MUISCA                                                  476
EMBERA                                                  396
TIKUNA                                                  392
KANKUAMO                                                312
EMBERA KATÍO                                            213
INGA                                                    208
MURUI (UITOTO)                                          203
YANACONA                                

In [None]:
lista_nombres_etnias_tipo_oracion = ["Tikuna", "Embera", "Wayuu", "Cocama", "Embera Katio", "Matapi", "Yukuna", "Pasto", "Yagua", "Tukano", "Tucano", "Zenú", "Bora", "Eperara Siapidara", "Desano", "Puinave", "Tanimuca", "Andoque", "Piratapuyo", "Pijao", "Kankuamo", "Yukpa", "Cubeo", "Curripaco", "Macahuan", "Arhuaco", "Miraña"]
lista_nombres_etnias_mayusculas = [nombre.upper() for nombre in lista_nombres_etnias_tipo_oracion]
serie_nombres_etnias_mayusculas = pd.Series(lista_nombres_etnias_mayusculas)
serie_nombres_etnias_mayusculas.replace("TUCANO", "TUKANO", inplace=True)
lista_nombres_etnias_mayusculas = list(serie_nombres_etnias_mayusculas)
print(lista_nombres_etnias_mayusculas)


['TIKUNA', 'EMBERA', 'WAYUU', 'COCAMA', 'EMBERA KATIO', 'MATAPI', 'YUKUNA', 'PASTO', 'YAGUA', 'TUKANO', 'TUKANO', 'ZENÚ', 'BORA', 'EPERARA SIAPIDARA', 'DESANO', 'PUINAVE', 'TANIMUCA', 'ANDOQUE', 'PIRATAPUYO', 'PIJAO', 'KANKUAMO', 'YUKPA', 'CUBEO', 'CURRIPACO', 'MACAHUAN', 'ARHUACO', 'MIRAÑA']


In [None]:
covid_df["Nombre grupo etnico"].replace(lista_nombres_etnias_tipo_oracion, lista_nombres_etnias_mayusculas, inplace=True)

In [None]:
covid_df["Nombre grupo etnico"].value_counts(dropna=False)

NaN                                                  752099
ZENÚ                                                   2652
Por definir                                            1268
PASTO                                                  1063
MOKANA                                                 1004
PIJAO                                                   894
NASA (PAÉZ)                                             819
Sin Comunidad                                           570
WAYUU                                                   564
MUISCA                                                  476
TIKUNA                                                  440
EMBERA                                                  397
KANKUAMO                                                312
EMBERA KATÍO                                            213
INGA                                                    208
MURUI (UITOTO)                                          203
YANACONA                                

In [None]:
covid_df["fecha reporte web"] = pd.to_datetime(covid_df.loc[:, "fecha reporte web"])

In [None]:
covid_df["fecha reporte web"].min() 

Timestamp('2020-03-06 00:00:00')

In [None]:
covid_df["fecha reporte web"].max() 

Timestamp('2020-09-20 00:00:00')

In [None]:
covid_df.dtypes

ID de caso                           int64
Fecha de notificacion       datetime64[ns]
Codigo DIVIPOLA                      int64
Ciudad de ubicacion                 object
Departamento o Distrito             object
atencion                            object
Edad                                 int64
Sexo                                object
Tipo                                object
Estado                              object
Pais de procedencia                 object
FIS                         datetime64[ns]
Fecha de muerte             datetime64[ns]
Fecha diagnostico           datetime64[ns]
Fecha recuperado            datetime64[ns]
fecha reporte web           datetime64[ns]
Tipo recuperacion                   object
Codigo departamento                  int64
Codigo pais                        float64
Pertenencia etnica                  object
Nombre grupo etnico                 object
dtype: object

In [None]:
covid_df.to_csv("covid_data_procesada.csv", index= False)

In [None]:
!cp /content/covid_data_procesada.csv "/content/drive/My Drive/Bootcamp/Colab Notebooks/CLASS EXERCISES/TABLERO GOOGLE DATA STUDIO"

cp: cannot stat '/content/covid_data_procesada.csv': No such file or directory


##Inconvenientes y asunciones 


En el procesos se encontraron algunos obstáculos técnicos, dentro de los que se encuentra la exportación de la base de datos transformada a formato Excel, se cree que es porque al menos un registro no se encuentra codificado con el sistema UTF-8.
Además, dentro de los nombres de los grupos étnicos se encontraron dos nombres diferentes para un mismo grupo: "TUKANO" y "TUCANO".
De acuerdo con la [esta bibliografía](http://www.humanas.unal.edu.co/colantropos/files/5714/8052/6454/GRUPOS.pdf), se asumió que era "TUKANO".  