In [24]:
from IPython.display import display, HTML

display(HTML(data="""
<style>
    div#notebook-container    { width: 75%; }
    div#menubar-container     { width: 95%; }
    div#maintoolbar-container { width: 65%; }a
</style>
"""))

# Filtering data (Part 2)  - Pandas 

In [30]:
import pandas as pd
import numpy as np
import chardet 

In [95]:
#Gettting the code of strings

rawdata = open(r'../../data/fallecidos_covid.csv', 'rb').read()
result = chardet.detect(rawdata)
charenc = result['encoding']

In [109]:
relative_path = r'../../data/fallecidos_covid.csv'
muertos_covid = pd.read_csv( relative_path,   delimiter = ';',  encoding = charenc )
muertos_covid 

Unnamed: 0,FECHA_CORTE,UUID,FECHA_FALLECIMIENTO,EDAD_DECLARADA,SEXO,FECHA_NAC,DEPARTAMENTO,PROVINCIA,DISTRITO
0,20210302,cdbdc47c6c955a031f997677becb9065,20200729,64,MASCULINO,19551202.0,LIMA,LIMA,CHORRILLOS
1,20210302,a3aaeeedaba295f128635f5edbda6498,20200729,78,FEMENINO,19420118.0,LIMA,LIMA,COMAS
2,20210302,631e87aac1be2aabd19935a6a255a569,20200729,66,MASCULINO,19540503.0,LIMA,LIMA,COMAS
3,20210302,74c292a1a2c357a786b26a13fc839719,20200729,69,MASCULINO,19510314.0,LIMA,LIMA,COMAS
4,20210302,229e060d0ece75f752a790eab2e4470d,20200729,71,MASCULINO,19490215.0,LIMA,LIMA,COMAS
...,...,...,...,...,...,...,...,...,...
47084,20210302,5a88884f8b44e60cd1b48600e9f82275,20201125,49,MASCULINO,,LIMA,LIMA,SAN MARTIN DE PORRES
47085,20210302,06a96fa92f5ee82a29386e177cdb700f,20201128,65,MASCULINO,,LIMA,LIMA,MAGDALENA DEL MAR
47086,20210302,d192565dac6c74ed120c402cbbdd3115,20201128,60,FEMENINO,,ANCASH,SANTA,NUEVO CHIMBOTE
47087,20210302,01be7035823ed5f7b5de812af513bd60,20201125,62,FEMENINO,,LIMA,LIMA,SAN MARTIN DE PORRES


In [110]:
# Check unique values 

muertos_covid['UUID'].is_unique

True

In [111]:
muertos_covid['UUID'].isnull().sum()

0

#### Se puede observar que la variable UUID no se repite y, por tanto, identifica a cada persona. Asismimo, no existe missing. Por tanto, permite identifcar a las victimas sin posibles errores por omisión. 

### ¿A qué sexo pertenecen el mayor número de fallecidos?


In [112]:
# deaths on gender 

hombres = muertos_covid["SEXO"] == "MASCULINO"
mujeres = muertos_covid["SEXO"] == "FEMENINO"
muertos_covid["SEXO"].loc[hombres].count()

31754

In [113]:
muertos_covid["SEXO"].loc[mujeres].count()

15325

#### Se púede observar que la mayor cantidad de fallecidos pertenece a los varones

### Dentro de los fallecidos de entre 30 y 60 años, ¿Qué sexo es el que cuenta con mayor número de fallecidos ?

In [114]:
hombres = muertos_covid["SEXO"] == "MASCULINO"
mujeres = muertos_covid["SEXO"] == "FEMENINO"
edad_1 = muertos_covid.iloc[:,3] < 60 
edad_2 = muertos_covid.iloc[:,3] > 30


In [115]:
muertos_covid["SEXO"].loc[mujeres].loc[edad_1 & edad_2].count()

3769

In [116]:
muertos_covid["SEXO"].loc[hombres].loc[edad_1 & edad_2].count()

9590

#### El sexo que más predomina entre los fallecidos de 30 y 60 años es masculinno

### ¿Cuántas observaciones no cuentan con información de fecha de nacimiento?


In [117]:
muertos_covid["FECHA_NAC"].isnull().sum()

15342

### Halla el total de fallecidos por departamento.

In [118]:
base1 = pd.DataFrame(muertos_covid.groupby( ["DEPARTAMENTO"] ).count().reset_index())
base1.rename(columns = {'UUID':'Muertos por departamento'}, inplace = True)

muertos_departamento = base1[['DEPARTAMENTO', 'Muertos por departamento']]

In [119]:
base1[['Muertos por departamento']]


Unnamed: 0,Muertos por departamento
0,326
1,1878
2,275
3,2026
4,504
5,801
6,2495
7,759
8,231
9,764


### Halla el total de fallecidos por provincia.

In [120]:
base2 = pd.DataFrame(muertos_covid.groupby( ["DEPARTAMENTO","PROVINCIA"], as_index=False ).count())
base2.rename(columns = {'UUID':'Muertos por provincia'}, inplace = True)
muertos_provincia=base2[["DEPARTAMENTO","PROVINCIA",'Muertos por provincia']]
muertos_provincia

Unnamed: 0,DEPARTAMENTO,PROVINCIA,Muertos por provincia
0,AMAZONAS,BAGUA,109
1,AMAZONAS,BONGARA,15
2,AMAZONAS,CHACHAPOYAS,44
3,AMAZONAS,CONDORCANQUI,22
4,AMAZONAS,LUYA,22
...,...,...,...
200,TUMBES,TUMBES,322
201,TUMBES,ZARUMILLA,77
202,UCAYALI,ATALAYA,10
203,UCAYALI,CORONEL PORTILLO,432


### Halla el total de fallecidos por distrito.

In [121]:
pd.DataFrame(muertos_covid.groupby( ["DEPARTAMENTO","PROVINCIA","DISTRITO"], as_index=False ).count())
base3.rename(columns = {'UUID':'Muertos por distrito'}, inplace = True)
muertos_distrito=base3[["DEPARTAMENTO","PROVINCIA","DISTRITO",'Muertos por distrito']]
muertos_distrito

Unnamed: 0,DEPARTAMENTO,PROVINCIA,DISTRITO,Muertos por distrito
0,AMAZONAS,BAGUA,ARAMANGO,10
1,AMAZONAS,BAGUA,BAGUA,60
2,AMAZONAS,BAGUA,COPALLIN,4
3,AMAZONAS,BAGUA,IMAZA,24
4,AMAZONAS,BAGUA,LA PECA,11
...,...,...,...,...
1444,UCAYALI,CORONEL PORTILLO,YARINACOCHA,93
1445,UCAYALI,PADRE ABAD,CURIMANA,2
1446,UCAYALI,PADRE ABAD,IRAZOLA,6
1447,UCAYALI,PADRE ABAD,NESHUYA,7


## <a id='def'>Merge Dataset</a>

In [122]:
#muertos_covid = muertos_covid.merge( muertos_departamento , how = 'left', on = 'DEPARTAMENTO' , indicator = False )
#muertos_covid = muertos_covid.merge( muertos_provincia , how = 'left', on = ['DEPARTAMENTO','PROVINCIA'], indicator = False )
#base_total = muertos_covid.merge( muertos_distrito , how = 'left', on = ['DEPARTAMENTO','PROVINCIA','DISTRITO'] , indicator = False )

In [123]:
muertos_covid = muertos_distrito.merge( muertos_provincia , how = 'left', on = ['DEPARTAMENTO','PROVINCIA'] , indicator = False )


In [124]:
muertos_covid = muertos_covid.merge( muertos_departamento , how = 'left', on = ['DEPARTAMENTO'])

In [125]:
muertos_covid

Unnamed: 0,DEPARTAMENTO,PROVINCIA,DISTRITO,Muertos por distrito,Muertos por provincia,Muertos por departamento
0,AMAZONAS,BAGUA,ARAMANGO,10,109,326
1,AMAZONAS,BAGUA,BAGUA,60,109,326
2,AMAZONAS,BAGUA,COPALLIN,4,109,326
3,AMAZONAS,BAGUA,IMAZA,24,109,326
4,AMAZONAS,BAGUA,LA PECA,11,109,326
...,...,...,...,...,...,...
1444,UCAYALI,CORONEL PORTILLO,YARINACOCHA,93,432,534
1445,UCAYALI,PADRE ABAD,CURIMANA,2,55,534
1446,UCAYALI,PADRE ABAD,IRAZOLA,6,55,534
1447,UCAYALI,PADRE ABAD,NESHUYA,7,55,534


In [129]:
muertos_covid['distr_prov']=(muertos_covid['Muertos por distrito']/muertos_covid['Muertos por provincia'])*100
muertos_covid['prov_dpto']=(muertos_covid['Muertos por provincia']/muertos_covid['Muertos por departamento'])*100
muertos_covid['distr_dpto']=(muertos_covid['Muertos por distrito']/muertos_covid['Muertos por departamento'])*100
Tabla_1 = muertos_covid[['DEPARTAMENTO','PROVINCIA','DISTRITO','distr_prov']].round(2)
Tabla_1

Unnamed: 0,DEPARTAMENTO,PROVINCIA,DISTRITO,distr_prov
0,AMAZONAS,BAGUA,ARAMANGO,9.17
1,AMAZONAS,BAGUA,BAGUA,55.05
2,AMAZONAS,BAGUA,COPALLIN,3.67
3,AMAZONAS,BAGUA,IMAZA,22.02
4,AMAZONAS,BAGUA,LA PECA,10.09
...,...,...,...,...
1444,UCAYALI,CORONEL PORTILLO,YARINACOCHA,21.53
1445,UCAYALI,PADRE ABAD,CURIMANA,3.64
1446,UCAYALI,PADRE ABAD,IRAZOLA,10.91
1447,UCAYALI,PADRE ABAD,NESHUYA,12.73


In [130]:
muertos_covid

Unnamed: 0,DEPARTAMENTO,PROVINCIA,DISTRITO,Muertos por distrito,Muertos por provincia,Muertos por departamento,distr_prov,prov_dpto,distr_dpto
0,AMAZONAS,BAGUA,ARAMANGO,10,109,326,9.174312,33.435583,3.067485
1,AMAZONAS,BAGUA,BAGUA,60,109,326,55.045872,33.435583,18.404908
2,AMAZONAS,BAGUA,COPALLIN,4,109,326,3.669725,33.435583,1.226994
3,AMAZONAS,BAGUA,IMAZA,24,109,326,22.018349,33.435583,7.361963
4,AMAZONAS,BAGUA,LA PECA,11,109,326,10.091743,33.435583,3.374233
...,...,...,...,...,...,...,...,...,...
1444,UCAYALI,CORONEL PORTILLO,YARINACOCHA,93,432,534,21.527778,80.898876,17.415730
1445,UCAYALI,PADRE ABAD,CURIMANA,2,55,534,3.636364,10.299625,0.374532
1446,UCAYALI,PADRE ABAD,IRAZOLA,6,55,534,10.909091,10.299625,1.123596
1447,UCAYALI,PADRE ABAD,NESHUYA,7,55,534,12.727273,10.299625,1.310861


### Prov/Department

In [133]:
Tabla_2 = muertos_covid[['DEPARTAMENTO','PROVINCIA','prov_dpto']].round(2)
Tabla_2

Unnamed: 0,DEPARTAMENTO,PROVINCIA,prov_dpto
0,AMAZONAS,BAGUA,33.44
1,AMAZONAS,BAGUA,33.44
2,AMAZONAS,BAGUA,33.44
3,AMAZONAS,BAGUA,33.44
4,AMAZONAS,BAGUA,33.44
...,...,...,...
1444,UCAYALI,CORONEL PORTILLO,80.90
1445,UCAYALI,PADRE ABAD,10.30
1446,UCAYALI,PADRE ABAD,10.30
1447,UCAYALI,PADRE ABAD,10.30


### Distric/department

In [134]:
Tabla_3 = muertos_covid[['DEPARTAMENTO','PROVINCIA','DISTRITO','distr_dpto']].round(2)

Tabla_3

Unnamed: 0,DEPARTAMENTO,PROVINCIA,DISTRITO,distr_dpto
0,AMAZONAS,BAGUA,ARAMANGO,3.07
1,AMAZONAS,BAGUA,BAGUA,18.40
2,AMAZONAS,BAGUA,COPALLIN,1.23
3,AMAZONAS,BAGUA,IMAZA,7.36
4,AMAZONAS,BAGUA,LA PECA,3.37
...,...,...,...,...
1444,UCAYALI,CORONEL PORTILLO,YARINACOCHA,17.42
1445,UCAYALI,PADRE ABAD,CURIMANA,0.37
1446,UCAYALI,PADRE ABAD,IRAZOLA,1.12
1447,UCAYALI,PADRE ABAD,NESHUYA,1.31


In [135]:
Tabla_1.to_csv("../../data/Tabla_1_salud.csv")