In [2]:
# Step 1: Import the relevant python libraries for the analysis
import pandas as pd
from pandas import DataFrame
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [3]:
# Step 2: Load and test dataset and set the index if applicable
materna = pd.read_csv('mortalidad_materna.csv')
materna.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18163 entries, 0 to 18162
Data columns (total 58 columns):
Año de nacimiento                                   18163 non-null int64
Mes de nacimiento                                   18163 non-null int64
Descripción del mes de nacimiento                   18163 non-null object
Día de nacimiento                                   18163 non-null int64
Genero                                              18163 non-null int64
Clave de la edad                                    18163 non-null object
Edad cumplida                                       18163 non-null int64
Estado conyugal                                     18163 non-null int64
Descripción del estado conyugal                     18163 non-null object
Entidad de residencia                               18163 non-null int64
Descripción de entidad de residencia                18163 non-null object
Municipio de residencia                             18163 non-null int64
Descripción

In [4]:
# Step 3: Create a Dataframe to store data types in materna
m_dtypes = pd.DataFrame(materna.dtypes)
m_dtypes.head()

Unnamed: 0,0
Año de nacimiento,int64
Mes de nacimiento,int64
Descripción del mes de nacimiento,object
Día de nacimiento,int64
Genero,int64


In [5]:
# 3a: Rename 0 column to be 'DataType'
m_dtypes = m_dtypes.rename(columns={0:'DataType'})
m_dtypes.head()

Unnamed: 0,DataType
Año de nacimiento,int64
Mes de nacimiento,int64
Descripción del mes de nacimiento,object
Día de nacimiento,int64
Genero,int64


In [6]:
# 3a: Analyze Missing Values
m_dtypes['MissingVal'] = materna.isnull().sum()
m_dtypes.head()

Unnamed: 0,DataType,MissingVal
Año de nacimiento,int64,0
Mes de nacimiento,int64,0
Descripción del mes de nacimiento,object,0
Día de nacimiento,int64,0
Genero,int64,0


In [8]:
# 3c: Identify number of unique values
m_dtypes['NumUnique'] = materna.nunique()
m_dtypes.head()

Unnamed: 0,DataType,MissingVal,NumUnique
Año de nacimiento,int64,0,83
Mes de nacimiento,int64,0,13
Descripción del mes de nacimiento,object,0,13
Día de nacimiento,int64,0,32
Genero,int64,0,1


In [9]:
# 3d: Identify the count for each variable
m_dtypes['Count']=materna.count()
m_dtypes.head()

Unnamed: 0,DataType,MissingVal,NumUnique,Count
Año de nacimiento,int64,0,83,18163
Mes de nacimiento,int64,0,13,18163
Descripción del mes de nacimiento,object,0,13,18163
Día de nacimiento,int64,0,32,18163
Genero,int64,0,1,18163


In [10]:
# Step 4: Run descriptive statistics of object datatypes
materna.describe(include=['object'])

Unnamed: 0,Descripción del mes de nacimiento,Clave de la edad,Descripción del estado conyugal,Descripción de entidad de residencia,Descripción del municipio de residencia,Descripción de la localidad de residencia,Descripción del tamaño de localidad,Descripción de la ocupación habitual,Descripción de la escolaridad,Descripción de la derechohabiencia,...,Descripción del mes de la defunción,Descripción de la asistencia médica,Causa CIE a cuatro dígitos,Descripción de la causa CIE,Descripción de quien certificó,Descripción de la entidad de registro,Descripción del municipio de registro,Descripción del mes de registro,Descripción del mes de la certificación,Descripción de la razón de mortalidad materna
count,18163,18163,18163,18163,18163,18163,18163,17762,18163,18163,...,18163,18163,18163,18163,18163,18163,18163,18163,18163,18163
unique,13,1,9,36,1862,7160,18,22,12,11,...,13,3,272,272,7,32,1393,12,13,2
top,NO ESPECIFICADO,A,CASADO,México,007 IZTAPALAPA,150330001 Ecatepec de Morelos,1 a 999 habitantes,NO OCUPADOS,SECUNDARIA COMPLETA,NINGUNA,...,OCTUBRE,CON ATENCION MEDICA,O150,O150 Eclampsia en el embarazo,OTRO MEDICO,México,015 CUAUHTEMOC,OCTUBRE,NO ESPECIFICADO,Muertes Maternas para la razón de Mortalidad M...
freq,5586,18163,7973,2605,301,286,3846,10818,4390,6700,...,1616,15627,1548,1548,11153,2014,954,1623,2724,16696


In [11]:
# 4a: Run descriptive statistics of numerical datatypes
materna.describe(include=['number'])

Unnamed: 0,Año de nacimiento,Mes de nacimiento,Día de nacimiento,Genero,Edad cumplida,Estado conyugal,Entidad de residencia,Municipio de residencia,Localidad de residencia,Tamaño de localidad,...,Entidad de registro,Municipio de registro,Año de registro,Mes de registro,Día de registro,Año de la certificación,Mes de la certificación,Día de la certificación,Año de la base de datos,Razón de mortalidad materna
count,18163.0,18163.0,18163.0,18163.0,18163.0,18163.0,18163.0,18163.0,18163.0,18163.0,...,18163.0,18163.0,18163.0,18163.0,18163.0,15466.0,18163.0,15466.0,18163.0,18163.0
mean,1972.378186,3.900952,10.17365,2.0,29.716622,3.928206,16.281451,58.749876,56.715961,7.855861,...,16.095744,53.225513,2008.960084,6.649562,15.687276,2008.52651,5.606122,15.665266,2008.960084,0.919231
std,124.765192,3.793616,10.157249,0.0,36.003429,1.464599,7.848476,74.563125,420.835539,5.914919,...,7.950259,64.38921,4.580846,3.455209,9.648856,56.114109,3.955472,8.901255,4.580846,0.272487
min,0.0,0.0,0.0,2.0,11.0,0.0,0.0,0.0,0.0,0.0,...,1.0,1.0,2002.0,1.0,0.0,0.0,0.0,0.0,2002.0,0.0
25%,1974.0,0.0,0.0,2.0,22.0,4.0,10.0,13.0,1.0,2.0,...,9.0,14.0,2005.0,4.0,8.0,2007.0,2.0,8.0,2005.0,1.0
50%,1980.0,3.0,8.0,2.0,28.0,4.0,15.0,35.0,1.0,7.0,...,15.0,35.0,2009.0,7.0,15.0,2010.0,6.0,16.0,2009.0,1.0
75%,1987.0,7.0,19.0,2.0,34.0,5.0,21.0,78.0,15.0,14.0,...,21.0,72.0,2013.0,10.0,23.0,2013.0,9.0,23.0,2013.0,1.0
max,2003.0,12.0,31.0,2.0,998.0,9.0,35.0,570.0,9999.0,17.0,...,32.0,570.0,2017.0,12.0,99.0,2017.0,12.0,99.0,2017.0,1.0


In [12]:
reason_for_death = materna['Descripción de la razón de mortalidad materna']
reason_for_death = np.unique(reason_for_death)
list(reason_for_death)

['Muertes Maternas excluidas para la razón de Mortalidad Materna',
 'Muertes Maternas para la razón de Mortalidad Materna']

In [13]:
last_age = materna['Edad cumplida']
int(last_age.mean())

29

In [14]:
gender = materna['Genero']
int(gender.mean())

2

In [15]:
residence = materna['Descripción de entidad de residencia']
residence = np.unique(residence)
list(residence)

['Aguascalientes',
 'Baja California',
 'Baja California Sur',
 'Campeche',
 'Chiapas',
 'Chihuahua',
 'Coahuila de Zaragoza',
 'Colima',
 'Distrito Federal',
 'Durango',
 'Estados Unidos de Norteamérica',
 'Guanajuato',
 'Guerrero',
 'Hidalgo',
 'Jalisco',
 'Michoacán de Ocampo',
 'Morelos',
 'México',
 'Nayarit',
 'No especificado',
 'Nuevo León',
 'Oaxaca',
 'Otros paises',
 'Otros paises latinoamericanos',
 'Puebla',
 'Querétaro Arteaga',
 'Quintana Roo',
 'San Luis Potosí',
 'Sinaloa',
 'Sonora',
 'Tabasco',
 'Tamaulipas',
 'Tlaxcala',
 'Veracruz de Ignacio de la Llave',
 'Yucatán',
 'Zacatecas']

In [16]:
localsize = materna['Tamaño de localidad']
localsize = np.unique(localsize)
list(localsize)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

In [17]:
localsize_descrip = materna['Descripción del tamaño de localidad']
localsize_descrip = np.unique(localsize_descrip)
list(localsize_descrip)

['1 a 999            habitantes',
 '1000 a 1999    habitantes',
 '10000 a 14999  habitantes',
 '100000 a 249999 habitantes',
 '1000000 a 1499999  habitantes',
 '15000 a 19999   habitantes',
 '1500000 y más habitantes',
 '2000 a 2499    habitantes',
 '20000 a 29999   habitantes',
 '2500 a 4999    habitantes',
 '250000 a 499999 habitantes',
 '30000 a 39999   habitantes',
 '40000 a 49999   habitantes',
 '5000 a 9999    habitantes',
 '50000 a 74999   habitantes',
 '500000 a 999999  habitantes',
 '75000 a 99999   habitantes',
 'No Especificado.']

In [18]:
local_res = materna['Descripción de la localidad de residencia']
local_res = np.unique(local_res)
len(local_res)

7160

In [19]:
local_df = materna[['Descripción de entidad de residencia','Tamaño de localidad','Descripción del tamaño de localidad']]
local_df = local_df.sort_values('Tamaño de localidad', axis=0, ascending=True)
len(local_df)

18163

In [20]:
tlx = materna[materna['Descripción de entidad de residencia'] == 'Tlaxcala']
tlx = tlx['Edad cumplida'] 
tlx.head()

0     29
1     36
57    28
65    30
67    29
Name: Edad cumplida, dtype: int64