# CLASE 4

## Análisis de base de datos: ENDES

In [72]:
#Instalamos paquetes
import numpy as np
import pandas as pd
import os

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
#Seteamos la ruta en la que se encuentran nuestros datos a usar
os.chdir('/content/drive/MyDrive/Q-LAB/Taller Python/Datos')

La base de datos a utilizar proviene de la Encuesta Demográfica y de Salud Familiar (ENDES). Específicamente, se hace uso del módulo de Mortalidad Materna - Violencia Familiar

Puede descargar la base aquí: http://iinei.inei.gob.pe/microdatos/

In [None]:
#Importando la base de datos en formato dta
df= pd.read_stata('REC84DV_2019.dta')

In [None]:
df.head()

In [None]:
df.shape

*Las variables de interés son las siguientes:*

D104: Hubo violencia emocional | 0=No, 1=Sí

D106: Experimentó cualquier violencia física menos severa | 0=No, 1=Sí

D107: Experimentó cualquier violencia física severa | 0=No, 1=Sí

D108: Experimentó cualquier violencia sexual | 0=No, 1=Sí


In [None]:
#Creamos un DataFrame con solo nuestras variables de interés
df1 = df[["CASEID", "D104", "D106", "D107", "D108"]]
df1

In [None]:
#Explorando los valores de cada variable

df1["D104"].values, df1["D106"].values, df1["D107"].values, df1["D108"].values

1. El número de mujeres que han sido víctimas de violencia emocional


In [None]:
df1["D104"].value_counts()

In [None]:
#Notar que con el comando "value_counts()" estamos gerando una Serie
type(df1["D104"].value_counts())

In [None]:
#Guardamos la Serie
V1 = df1["D104"].value_counts()

2. El número de mujeres que han sido víctimas de violencia física menos severa


In [None]:
df1["D106"].value_counts()

In [None]:
V2 = df1["D106"].value_counts()

3. El número de mujeres que han sido víctimas de violencia física severa

In [None]:
df1["D107"].value_counts()

In [None]:
V3 = df1["D107"].value_counts()

4. El número de mujeres que han sido víctimas de violencia sexual


In [None]:
df1["D108"].value_counts()

In [None]:
V4 = df1["D108"].value_counts()

5. El número de mujeres que han sido víctimas de cualquier tipo de violencia física


In [None]:
#Creamos una variable que tome el valor de 1 si es que la mujer ha sido víctima de violencia física y 0 si es que no lo ha sido
df1["V_FISICA"] = (df1["D106"] == 1) | (df1["D107"] == 1)

In [None]:
df1.V_FISICA.value_counts()

In [None]:
#Convertimos los False en 0 y los True en 1
df1["V_FISICA"] = df1["V_FISICA"]*1   

In [None]:
df1.V_FISICA.value_counts()

In [None]:
V5 = df1.V_FISICA.value_counts()

6. El número de mujeres que han sido víctimas de al menos algún tipo de violencia

In [None]:
#Creamos una variable que tome el valor de 1 si es que la mujer ha sido víctima de algún al menos algún tipo de violencia y 0 si es que no lo ha sido
df1["VICTIMA1"] = ( (df1["D104"] == 1) | (df1["V_FISICA"] == 1) | (df1["D108"] == 1) )*1

In [None]:
df1.VICTIMA1.value_counts()

In [None]:
V6 = df1.VICTIMA1.value_counts()

7. El número de mujeres que han sido víctimas de todos los tipos de violencia

In [None]:
df1["VICTIMA2"] = ( (df1["D104"] == 1) & (df1["V_FISICA"] == 1) & (df1["D108"] == 1) )*1

In [None]:
df1.VICTIMA2.value_counts()

In [None]:
V7 = df1.VICTIMA1.value_counts()

In [None]:
Mortalidad_Violencia = df1

**Guardando nuestros resultados en un nuevo DataFrame**

In [None]:
database = pd.DataFrame([V1, V2, V3, V4, V5, V6, V7])
database

In [None]:
database.index=['V1','V2','V3','V4','V5','V6','V7']
database

In [None]:
#podemos transponer el DataFrame
database.T 

## Unión de bases de datos

**One to one merging**

In [None]:
demo = pd.DataFrame({'country': ['USA', 'Albania', 'Turkey', 'China', 'Sudan'],
                    'democracy_score': [19, 16, 16, 5, 10]})

econ = pd.DataFrame({'country': ['China', 'Albania', 'Turkey', 'USA', 'Sudan'],
                    'gpd_pc': [12000, 10000, 9000, 20000, 500]})

In [None]:
demo

In [None]:
econ

In [None]:
#help(pd.merge)

In [None]:
demo_econ = demo.merge( econ, on = "country" ) 

In [None]:
demo_econ

**Many to one merging**

In [None]:
demo = pd.DataFrame({'country': ['USA', 'USA', 'USA', 'China', 'China', 'China', 'Sudan', 'Sudan', 'Sudan'],
                    'democracy_score': [7, 6, 5, 10, 12, 7, 3, 4, 10]})

region = pd.DataFrame({'country': ['USA', 'China', 'Sudan'],
                    'region': ['America', 'Asia', 'Africa']})

In [None]:
demo

In [None]:
region

In [None]:
demo_region = demo.merge( region, on = "country" )

In [None]:
demo_region

## Unión de bases de datos: ENDES

Haremos uso del módulo llamado Datos Básicos de MEF. Uniremos este módulo con el módulo de Mortalidad Materna-Violencia Familiar

In [None]:
df2= pd.read_stata('REC91_2019.dta')

In [None]:
df2.head()

In [None]:
df2.shape

*Las variables de interés son las siguientes:*


S108N: Nivel educativo aprobado (6 categorías)

S119NA: Lengua materna (13 categorías)

SREGION: Región Natural | 1=Lima Metropolitina, 2= Resto Costa, 3= Sierra, 4=Selva

In [None]:
#Creamos un DataFrame con solo nuestras variables de interés
datos_MEF = df2[["CASEID", "S108N", "S119NA", "SREGION"]]

**Unimos la base datos_MEF con la base Mortalidad_Violencia**

In [None]:
Mortalidad_Violencia.head()

In [None]:
Mortalidad_Violencia.shape

In [None]:
datos_MEF.head()

In [None]:
datos_MEF.shape

In [None]:
#inner merge
base_i = datos_MEF.merge( Mortalidad_Violencia, how = "inner", on ="CASEID" ) 
base_i.shape

In [None]:
base_i.head()

In [None]:
#left merge
base_l = datos_MEF.merge( Mortalidad_Violencia, how = "left", on ="CASEID" ) 
base_l.shape

In [None]:
base_l.head()

In [None]:
#right merge
base_r = datos_MEF.merge( Mortalidad_Violencia, how = "right", on ="CASEID" ) 
base_r.shape

In [None]:
base_r.head()

## Gráficos con Matplotlib

In [None]:
import matplotlib.pyplot as plt

Utilizaremos la base de datos "Casos positivos por COVID-19" del MINSA

Aquí puede descargar la base: https://www.minsa.gob.pe/datosabiertos/?op=22

In [None]:
df_fallecidos = pd.read_csv('fallecidos_covid.csv', delimiter=";", encoding = 'latin')

df_fallecidos.head()

### Gráfico de barras

In [None]:
#Número de fallecidos según sexo
data1 = df_fallecidos.groupby("SEXO").size().to_frame("NÚMERO DE MUERTES").reset_index()

data1

In [None]:
data1.drop([0],axis=0,inplace=True) 

In [None]:
data1

In [None]:
x = data1['SEXO']
y = data1['NÚMERO DE MUERTES']

plt.bar( x=x, height= y)

In [None]:
plt.bar( x=x, height= y)

plt.xlabel('Sexo') 
plt.ylabel('Número de muertes') 
  
# título
plt.title("Cantidad de muertos por sexo")

plt.show() 

### Histogramas

In [None]:
#Número de fallecidos por edad
plt.hist(x = df_fallecidos["EDAD_DECLARADA"],bins=30)
plt.show()

In [None]:
#Porcentaje de fallecidos por edad

plt.hist(x = df_fallecidos["EDAD_DECLARADA"],bins=30,density=True)
plt.show()

### Diagrama de cajas

In [None]:
plt.boxplot(df_fallecidos["EDAD_DECLARADA"])
plt.show()

### Gráfico circular





In [None]:
#Número de fallecidos por departamento
data2 = df_fallecidos.groupby("DEPARTAMENTO").size().to_frame("NÚMERO DE MUERTES").reset_index()
data2

In [None]:
#Solo nos quedamos con los departamentos que tienen más de 5000 fallecidos
data3 = data2[~(data2['NÚMERO DE MUERTES'].values<5000)]
data3

In [None]:
plt.pie( data3["NÚMERO DE MUERTES"], labels = data3["DEPARTAMENTO"])
plt.show() 

### Gráfico de dispersión

In [None]:
x = np.array([5,7,8,7,2,17,2,9,4,11,12,9,6])
y = np.array([99,86,87,88,111,86,103,87,94,78,77,85,86])

plt.scatter(x, y)
plt.show() 