# Análisis y visualización de datos con python
# Indexación y selección de dataframes

## Documentación
Muchas de las funciones que veremos en este tutorial tienen opciones o paramétros que pueden cambiar. Además, es muy común no saber el nombre exacto de la función aunque si tengamos una idea general de como debé de llamarse. O simplemente olvidar cual era el nombre de la función. 

En ese caso la mejor idea es googlear "pandas"o "python" y el nombre de la función o descripción de que queremos hacer. Existen dos recursos particularmente útiles:

* La documentación oficial de la biblioteca, en este caso la [documentación de pandas](https://pandas.pydata.org/pandas-docs/stable/).
* [StackOverflow](stackoverflow.com/), donde generalmente la mejor respuesta tiene la mayor cantidad de votos.

Si no puedes encontrar la respuesta recuerda [googlear antes de preguntar](https://xkcd.com/627/) y revisa [como hacer buenas preguntas en los foros ](https://stackoverflow.com/help/how-to-ask).

Muchas veces las respuestas se encuentran en ingles. Los traductores automáticos pueden ayudarte a plantear y entender la respuesta. Sin embargo, recuerda que las lineas de código no debén de traducirse.

## 3.1 Estructura de una tabla 

En primer lugar cargaremos las primeras mil lineas del Módulo de Fosas Comunes como vimos en el tutorial anterior.

In [1]:
import pandas as pd

file_mfc = 'data_raw/Modulo-de-Fosas-Comunes_actualizacion24nov2022_VD.xlsx'
df = pd.read_excel(file_mfc, sheet_name="MFC", nrows=1000)
df

Unnamed: 0,ID,Estado_origen,Municipio_origen,Panteón_origen,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Conocido_Desconocido,Primer apellido,Segundo Apellido,Nombre(s),Nombre completo,Institución_origen,Rdoc,Marca_temporal,Datos alternativos
0,XX-P001,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-30,2018-03-04 00:00:00,NaT,Restos cremados,Masculino,55,Desconocido,,,,,UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA,Sí,2020-03-23 00:00:00.000,
1,XX-P002,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-12 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
2,XX-P003,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-13 00:00:00,NaT,Cadáver,Masculino,,Conocido,Cruz,Lucero,Alberto,Alberto Cruz Lucero,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
3,XX-P004,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-14 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
4,XX-P005,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-18 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,XX-P996,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,S/D,NaT,Cadáver,Masculino,42,Conocido,Flores,Rosette,Sergio,Sergio Flores Rosette,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:19:52.451,
996,XX-P997,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2017-10-27 00:00:00,NaT,Cadáver,Masculino,64,Conocido,Juárez,Chávez,Juan Carlos,Juan Carlos Juárez Chávez,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:22:53.304,
997,XX-P998,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2018-08-18 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 21:30:12.169,
998,XX-P999,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2018-05-22 00:00:00,NaT,Cadáver,Femenino,1,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 21:32:30.839,


Una tabla de pandas o dataframe consta de varios elementos:
* Nombres de columnas, las cuales pueden ser vistas como la primera fila en letras negritas. Para verlas usa _.columns_.
* Nombres de filas, las cuales pueden ser vistas como la primera columna, la cual carece de nombre. Para verlas usa _.index_.
* Valores, los datos dentro de la tabla. Para verlas usa _.values_.
* El número de filas y columnas total. Para verla usa _.shape_.
* Tipo de datos de cada columna. Para verla usa _.dtype_.

Con el fin de conocer el nombre de las columnas usaremos la opción _.columns_. Es importante notar que esta opción no tiene paréntesis no corchetes, ya que es un elemento del objeto.

In [2]:
df.columns

Index(['ID', 'Estado_origen', 'Municipio_origen', 'Panteón_origen',
       'Estatus_FC', 'Fecha_inhumación', 'Fecha_defunción', 'Fecha_exhumación',
       'Restos_tipo', 'Sexo', 'Edad', 'Conocido_Desconocido',
       'Primer apellido', 'Segundo Apellido', 'Nombre(s)', 'Nombre completo',
       'Institución_origen', 'Rdoc', 'Marca_temporal', 'Datos alternativos'],
      dtype='object')

Estas columnas corresponden a las del diccionario de datos que se encuentra en la Hoja 2 del archivo.

### Ejercicio 1

Usa cada una de las opciones mencionadas en esta sección y describe que regresa.
* `df.index`
* `df.values`
* `df.shape`
* `df.dtypes`


## 3.2 Slicing

Muchas veces no queremos trabajar sobre toda la tabla de datos, en su lugar queremos usar unicamente una fracción de ella. Para ello, existen varias formas de selecionar partes de una tabla.

Por ejemplo, la función _.head()_ devuelve las primeras filas de la tabla. Por defecto estos comandos muestran solo cinco filas, pero es posible cambiar el número de filas poniendo un número entre paréntesis.

In [3]:
df.head()

Unnamed: 0,ID,Estado_origen,Municipio_origen,Panteón_origen,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Conocido_Desconocido,Primer apellido,Segundo Apellido,Nombre(s),Nombre completo,Institución_origen,Rdoc,Marca_temporal,Datos alternativos
0,XX-P001,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-30,2018-03-04 00:00:00,NaT,Restos cremados,Masculino,55.0,Desconocido,,,,,UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA,Sí,2020-03-23,
1,XX-P002,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-12 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23,
2,XX-P003,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-13 00:00:00,NaT,Cadáver,Masculino,,Conocido,Cruz,Lucero,Alberto,Alberto Cruz Lucero,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23,
3,XX-P004,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-14 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23,
4,XX-P005,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-18 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23,


Si queremos ver las últimas filas se puede usar el comando _.tail()_. 

En ambos casos se puede específicar el número de filas que se quieren ver

In [4]:
df.tail(10)

Unnamed: 0,ID,Estado_origen,Municipio_origen,Panteón_origen,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Conocido_Desconocido,Primer apellido,Segundo Apellido,Nombre(s),Nombre completo,Institución_origen,Rdoc,Marca_temporal,Datos alternativos
990,XX-P991,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2017-10-06 00:00:00,NaT,Cadáver,Masculino,55.0,Desconocido,,,,,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:01:48.076,
991,XX-P992,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2017-10-09 00:00:00,NaT,Cadáver,Masculino,50.0,Desconocido,,,,,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:03:54.636,
992,XX-P993,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2017-10-16 00:00:00,NaT,Cadáver,Masculino,50.0,Desconocido,,,,,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:05:50.156,
993,XX-P994,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,S/D,NaT,Cadáver,Masculino,65.0,Conocido,Ramirez,,José,José Ramirez,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:10:54.850,
994,XX-P995,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,S/D,NaT,Cadáver,Masculino,31.0,Conocido,,,Luciano,Luciano,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:17:19.389,
995,XX-P996,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,S/D,NaT,Cadáver,Masculino,42.0,Conocido,Flores,Rosette,Sergio,Sergio Flores Rosette,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:19:52.451,
996,XX-P997,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2017-10-27 00:00:00,NaT,Cadáver,Masculino,64.0,Conocido,Juárez,Chávez,Juan Carlos,Juan Carlos Juárez Chávez,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:22:53.304,
997,XX-P998,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2018-08-18 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 21:30:12.169,
998,XX-P999,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2018-05-22 00:00:00,NaT,Cadáver,Femenino,1.0,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 21:32:30.839,
999,XX-P1000,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2018-05-29 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 21:35:23.157,


Para ver una columna específica se pone el nombre del dataframe seguido por corchetes con el nombre de la columna. Una sola columna es del tipo _series_. Por ejemplo, para ver la columna del sexo ponemos su nombre 'Sexo' entre corchetes. Esto es similar a la forma en la que se seleccionan elementos en listas o diccionarios.

In [5]:
df['Sexo']

0      Masculino
1      Masculino
2      Masculino
3      Masculino
4      Masculino
         ...    
995    Masculino
996    Masculino
997    Masculino
998     Femenino
999    Masculino
Name: Sexo, Length: 1000, dtype: object

Se pueden seleccionar varias columnas a la vez, poniendo sus nombres en una lista dentro de corchetes. Lo anterior significa que para seleccionar varias columnas hay que usar corchetes dobles.

In [7]:
df[  ['Conocido_Desconocido','Sexo']  ]

Unnamed: 0,Conocido_Desconocido,Sexo
0,Desconocido,Masculino
1,Desconocido,Masculino
2,Conocido,Masculino
3,Desconocido,Masculino
4,Desconocido,Masculino
...,...,...
995,Conocido,Masculino
996,Conocido,Masculino
997,Desconocido,Masculino
998,Desconocido,Femenino


La primera columna que podemos observar en la tabla y carece de nombre, es el índice de las filas. Por default, pandas asigna números de identificación a cada una de las filas, empezando por el cero . Podemos seleccionar filas con el comando _loc_ más el número de posición de la fila, sin olvidar que la numeración empieza en 0. Por ejemplo, seleccionemos la novena fila.

In [8]:
df.loc[9]

ID                                                                XX-P010
Estado_origen                                            Ciudad de México
Municipio_origen                                           Miguel Hidalgo
Panteón_origen                                   Panteón Civil de Dolores
Estatus_FC                                                     Inhumación
Fecha_inhumación                                      2019-01-26 00:00:00
Fecha_defunción                                       2018-12-18 00:00:00
Fecha_exhumación                                                      NaT
Restos_tipo                                                       Cadáver
Sexo                                                            Masculino
Edad                                                                  NaN
Conocido_Desconocido                                          Desconocido
Primer apellido                                                       NaN
Segundo Apellido                      

De la misma manera, se pueden seleccionar varias filas usando una lista.

In [9]:
df.loc[  [9, 13, 62, 201]  ]

Unnamed: 0,ID,Estado_origen,Municipio_origen,Panteón_origen,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Conocido_Desconocido,Primer apellido,Segundo Apellido,Nombre(s),Nombre completo,Institución_origen,Rdoc,Marca_temporal,Datos alternativos
9,XX-P010,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-18 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23,
13,XX-P014,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-19 00:00:00,NaT,Cadáver,Femenino,,Conocido,Ibarra,García,Wendy,Wendy Ibarra García,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23,
62,XX-P063,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-12,2018-11-29 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-24,
201,XX-P202,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-10-20,2018-09-18 00:00:00,NaT,Cadáver,Femenino,,Conocido,Aguirre,Bahena,Delia,Delia Aguirre Bahena,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-24,


Este comando también se puede usar para seleccionar un conjunto de filas y columnas específico. Para hacerlo se utiliza el formato: _df.loc[filas, columnas]_

In [10]:
df.loc[  [9, 13, 62, 201]  ,  ['Conocido_Desconocido','Sexo']  ]

Unnamed: 0,Conocido_Desconocido,Sexo
9,Desconocido,Masculino
13,Conocido,Femenino
62,Desconocido,Masculino
201,Conocido,Femenino


## 3.3 Únicos y conteo

Se pueden hacer varias cosas con una columna. 

Por ejemplo, se pueden determinar los valores únicos de la columna para entender la información contenida en ella.

Por ejemplo, al revisar el profile se puede ver que hay múltiples instituciones de origen, así que obtendremos una lista de estas.

In [12]:
df['Institución_origen'].unique()

array(['UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA',
       'INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPERIOR DE JUSTICIA DE LA CIUDAD DE MÉXICO',
       'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
       'INSTITUTO POLITÉCNICO NACIONAL - ESCUELA NACIONAL DE MEDICINA Y HOMEOPATÍA',
       'CENTRO CULTURAL UNIVERSITARIO JUSTO SIERRA',
       'UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACULTAD DE MEDICINA',
       'UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE LA SALUD',
       'ESCUELA DE MEDICINA SAINT LUKE',
       'INSTITUCIÓN DE ASISTENCIA PRIVADA - ESCUELA LIBRE DE HOMEOPATÍA DE MÉXICO',
       'SECRETARÍA DE LA DEFENSA NACIONAL - ESCUELA MILITAR DE MEDICINA',
       'THE AMERICAN BRITISH COWDRAY MEDICAL CENTER LA.P.',
       'PROCURADURÍA GENERAL DE LA REPÚBLICA',
       'UNIVERSIDAD POPULAR AUTÓNOMA DEL ESTADO DE PUEBLA'], dtype=object)

Si lo único que nos interesa saber es cuantos datos únicos hay, y no cuales son, se puede usar la función _.nunique()_.

In [13]:
df['Institución_origen'].nunique()

13

También, se puede contabilizar cuántas veces aparece cada uno de estos valores. Esto permite saber cuantas veces aparece cada valor único. El resultado de la función es un dataframe.

In [14]:
df['Institución_origen'].value_counts()

INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPERIOR DE JUSTICIA DE LA CIUDAD DE MÉXICO    533
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACULTAD DE MEDICINA                           331
INSTITUTO POLITÉCNICO NACIONAL - ESCUELA NACIONAL DE MEDICINA Y HOMEOPATÍA                58
CENTRO CULTURAL UNIVERSITARIO JUSTO SIERRA                                                16
UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA                                               15
UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE LA SALUD                                    13
THE AMERICAN BRITISH COWDRAY MEDICAL CENTER LA.P.                                          9
SECRETARÍA DE LA DEFENSA NACIONAL - ESCUELA MILITAR DE MEDICINA                            7
UNIVERSIDAD POPULAR AUTÓNOMA DEL ESTADO DE PUEBLA                                          7
UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS                    4
ESCUELA DE MEDICINA SAINT LUKE                                        

Para ver estos resultados como porcentaje se puede usar el parámetro _normalize_. 

**Nota sobre los datos faltantes**

Es posible que en una columna o variable haya filas u observaciones donde no se registro el dato. 
Para incluir los NaN es necesario cambiar los parámetros de la función,usando el parámetro `dropna=False`.
Esto es de suma importancia al normalizar los datos, ya que el porcentaje de cada valor único cambiará dependiendo de si se toman, o no, en cuenta los NaN.

In [17]:
df['Institución_origen'].value_counts(normalize=True)

INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPERIOR DE JUSTICIA DE LA CIUDAD DE MÉXICO    0.533
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACULTAD DE MEDICINA                           0.331
INSTITUTO POLITÉCNICO NACIONAL - ESCUELA NACIONAL DE MEDICINA Y HOMEOPATÍA               0.058
CENTRO CULTURAL UNIVERSITARIO JUSTO SIERRA                                               0.016
UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA                                              0.015
UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE LA SALUD                                   0.013
THE AMERICAN BRITISH COWDRAY MEDICAL CENTER LA.P.                                        0.009
SECRETARÍA DE LA DEFENSA NACIONAL - ESCUELA MILITAR DE MEDICINA                          0.007
UNIVERSIDAD POPULAR AUTÓNOMA DEL ESTADO DE PUEBLA                                        0.007
UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS                  0.004
ESCUELA DE MEDICINA SAINT LUKE                    

Es posible usar la función `value_counts` sobre varias columnas a la vez.
Esto regrese un dataframe con un `multi index`.

In [30]:
df[ ['Sexo','Conocido_Desconocido'] ].value_counts()

Sexo           Conocido_Desconocido
Masculino      Conocido                440
               Desconocido             378
Femenino       Conocido                136
               Desconocido              33
Indeterminado  Desconocido              10
               Conocido                  3
dtype: int64

Como el resultado de la función `value_counts` es un dataframe podemos utilizar funciones propias de dataframe como `head` o slicing.

Por ejemplo, para ver las cinco instituciones que entregan más cadaveres obtendremos el conteo de valores con _.value_counts()_ y después seleccionaremos los cinco primeros usando un slicing de lista.

In [32]:
df['Institución_origen'].value_counts()[0:5]

INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPERIOR DE JUSTICIA DE LA CIUDAD DE MÉXICO    533
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACULTAD DE MEDICINA                           331
INSTITUTO POLITÉCNICO NACIONAL - ESCUELA NACIONAL DE MEDICINA Y HOMEOPATÍA                58
CENTRO CULTURAL UNIVERSITARIO JUSTO SIERRA                                                16
UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA                                               15
Name: Institución_origen, dtype: int64

## 3.4 Ordenar

Además de poder seleccionar los datos muchas veces es muy importante poder ordenarlos. Para eso usaremos _.sort_values()_

Para ordenar una sola columna:

In [35]:
df['Nombre(s)'].sort_values()

821      Abel
18      Adela
129    Adolfo
477    Adrian
72     Adrian
        ...  
991       NaN
992       NaN
997       NaN
998       NaN
999       NaN
Name: Nombre(s), Length: 1000, dtype: object

Por default _.sort_values()_ ordena en orden alfábetico o de menor a mayor, en caso de datos númericos. 
Para cambiar esto podemos usar el parámetro _ascending_. Por default los datos con NaN siempre van al final de la tabla.
Es importante destacar que los acentos pueden causar problemas al ordenar alfabeticamente.

In [38]:
df['Nombre(s)'].sort_values(ascending=False)

895       Ángel
594      Ándres
586      Ándres
640    Zeferino
425        Yair
         ...   
991         NaN
992         NaN
997         NaN
998         NaN
999         NaN
Name: Nombre(s), Length: 1000, dtype: object

Para ordenar todo el dataframe por una columna es necesario decir explicitamente que columna se va a usar.

In [37]:
df.sort_values('Nombre(s)')

Unnamed: 0,ID,Estado_origen,Municipio_origen,Panteón_origen,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Conocido_Desconocido,Primer apellido,Segundo Apellido,Nombre(s),Nombre completo,Institución_origen,Rdoc,Marca_temporal,Datos alternativos
821,XX-P822,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-07-07,2015-01-30 00:00:00,NaT,Restos cremados,Masculino,32,Conocido,Reyes,Vázquez,Abel,Abel Reyes Vázquez,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-02 13:45:06.218,
18,XX-P019,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-18 00:00:00,NaT,Cadáver,Femenino,,Conocido,Martínez,Hernández,Adela,Adela Martínez Hernández,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
129,XX-P130,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-12-07,2018-03-09 00:00:00,NaT,Cadáver,Masculino,89,Conocido,Méndez,Vaca,Adolfo,Adolfo Méndez Vaca,INSTITUTO POLITÉCNICO NACIONAL - ESCUELA NACIO...,Sí,2020-03-24 00:00:00.000,
477,XX-P478,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-03-30,2016-12-17 00:00:00,NaT,Restos cremados,Masculino,73,Conocido,Palafox,Muñoz,Adrian,Adrian Palafox Muñoz,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-03-30 12:15:50.000,
72,XX-P073,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-02,2017-09-20 00:00:00,NaT,Cadáver,Masculino,89,Conocido,Ramirez,Molina,Adrian,Adrian Ramirez Molina,INSTITUTO POLITÉCNICO NACIONAL - ESCUELA NACIO...,Sí,2020-03-24 00:00:00.000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
991,XX-P992,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2017-10-09 00:00:00,NaT,Cadáver,Masculino,50,Desconocido,,,,,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:03:54.636,
992,XX-P993,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2017-10-16 00:00:00,NaT,Cadáver,Masculino,50,Desconocido,,,,,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:05:50.156,
997,XX-P998,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2018-08-18 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 21:30:12.169,
998,XX-P999,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2018-05-22 00:00:00,NaT,Cadáver,Femenino,1,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 21:32:30.839,


Es posible ordenar por varias columnas especificando el nombre de las columnas en una lista y la forma de ordenarlas usando _ascending_.

In [40]:
df.sort_values(['Sexo','Conocido_Desconocido'],ascending=[True,False])

Unnamed: 0,ID,Estado_origen,Municipio_origen,Panteón_origen,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Conocido_Desconocido,Primer apellido,Segundo Apellido,Nombre(s),Nombre completo,Institución_origen,Rdoc,Marca_temporal,Datos alternativos
33,XX-P034,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-19,2018-12-04 00:00:00,NaT,Cadáver,Femenino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
93,XX-P094,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-12-08,2018-04-05 00:00:00,NaT,Cadáver,Femenino,40,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-24 00:00:00.000,
110,XX-P111,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-12-08,2018-12-11 00:00:00,NaT,Cadáver,Femenino,35,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-24 00:00:00.000,
160,XX-P161,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-11-24,2018-10-22 00:00:00,NaT,Cadáver,Femenino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-24 00:00:00.000,
167,XX-P168,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-11-24,2018-10-16 00:00:00,NaT,Feto,Femenino,26 semanas,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-24 00:00:00.000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
987,XX-P988,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-29,S/D,NaT,Miembros,Masculino,31,Conocido,Nombre de particular que se encuentra con vida...,Nombre de particular que se encuentra con vida...,Nombre de particular que se encuentra con vida...,Nombre de particular que se encuentra con vida...,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 20:52:54.974,
993,XX-P994,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,S/D,NaT,Cadáver,Masculino,65,Conocido,Ramirez,,José,José Ramirez,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:10:54.850,
994,XX-P995,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,S/D,NaT,Cadáver,Masculino,31,Conocido,,,Luciano,Luciano,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:17:19.389,
995,XX-P996,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,S/D,NaT,Cadáver,Masculino,42,Conocido,Flores,Rosette,Sergio,Sergio Flores Rosette,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:19:52.451,


## 3.5 Tipos de datos

## 3.6 Subsetting

Es posible seleccionar los datos de acuerdo a una (o más) condición. 

Por ejemplo para seleccionar todos los delitos que afectan a mujeres buscamos las filas donde el 'Sexo' es 'Femenino' con la condición:

In [None]:
df['Sexo']=='Femenino'

Esta condicion nos dice para cada fila si el valos es 'Femenino', si ponemos esto dentro de _.loc[]_ podemos usarlo para encontrar las filas de víctimas de mujeres

In [None]:
df.loc[ df['Sexo']=='Femenino' ]

Para seleccionar los delitos que NO afectan a las mujeres buscamos aquellos donde el sexo es diferenente (_!=_) a 'Femenino'

In [None]:
df[df['Sexo']!='Femenino']

Si los datos son numéricos es posible usar operaciones como mayor, menor o igual para seleccionar con esas condiciones. Por ejemplo para ver los delitos que suceden a gente menor de edad podriamos buscar todos las filas donde el valor de la edad es menor que 18.

In [None]:
df[df['Edad']<18]

En varios casos podemos ver que no hay datos sobre el edad de la victima, lo cual se representa con _NaN_. Para ver las filas con valor _NaN_ se usa la función _isna()_.

Lo anterior puede representar un problema, ya que significa que los datos son incompletos y generalmente es necesario procesarlos como veremos mas adelante.

In [None]:
df[df['Edad'].isna()]

A veces no queremos seleccionar las columnas que tienen un solo valor, sino varios. Por ejemplo, si queremos ver los delitos de alto impacto esto significa que la categoría es homicidio, violación o secuestro. Como son varios delitos los vamos a guardar en una lista llamada 'delitos_alto_impacto' y despues los buscamos con el comando _.isin()_

In [None]:
delitos_alto_impacto = ['HOMICIDIO DOLOSO','VIOLACIÓN','SECUESTRO']
df_vic[df_vic['Categoria'].isin(delitos_alto_impacto)]

Se pueden usar varias condiciones al mismo tiempo.
Para combinar varias condiciones es necesario poner cada condición entre parentesis.
Las condiciones se unen usando los operadores booleanos:
* _&_ se cumplen ambas condiciones
* _|_ se cumple al menos una de las condiciones
* _~_ negación

Por ejemplo, para seleccionar las víctimas de delitos menores de 18 años ponemos cada uno de los selectores de edades antes visto entre paréntesis y los unimos con _&_


In [None]:
# df.loc[ (seleccionar_mujeres) & (seleccionar_menores_de_edad)] 
df_vic.loc[(df_vic['Sexo']=='Femenino') & (df_vic['Edad']<18)]

#### Ejercicio 4

1. Escribe tres combinaciones de datos que te interesaria conocer y escribelas. Por ejemplo los delitos cometidos a personas morales durante enero.
2. Tratá de resolver estas combinaciones de datos usando pandas. En caso de no poder anota que datos u operaciones hacen falta.


#### Ejercicio 4

1. Escribe tres formas en las que te gustaría ordenar los datos.
2. Obten las tablas ordenadas, en caso de no poder hacerlo indica que datos te harían falta.

<a id='estadistica'></a>

#### Ejercicio 7

1. Plantea cuatro preguntas que incluyan selección de un subconjunto de datos y luego determinar cuales son los que tienen mayor o menor valor. Por ejemplo, cual es el delito que mas afecta a las mujeres o cuál es el mes en el que se cometieron mas homicidios.
2. Usando las operaciones aprendidas responde la pregunta. En caso de no ser posible escribe que dato u operación te haría falta para lograrlo.


## 2.4 Estadística

### Definiciones 

Definiciones
* Población: conjunto de todos los elementos de interés (N).
* Parámetros: métricas que obtenemos al trabajar con una población.
* Muestra: subgrupo de la población (n).
* Estadísticos: métricas que obtenemos al trabajar con poblaciones.

Una muestra debe ser
* Representativa: un subgrupo de la poblaciòn que refleja exactamente a los miembros de toda la población.
* Tomada al azar: recolectada cuando cada miembro de la muestra es elegida de la población estrictamente por casualidad

Para saber si la muestra es representativa y calcular el tamaño de la muestra es importante:
* Nivel de confianza: garantizar que los resultados no ocurrieron solo por azar. Generalmente debé de ser de 95-99%
* Porcentaje de diferencia por detectar: entre más pequeña sea la diferencia que quieres detectar, más grande debe ser la muestra
* Valor absoluto de las probabilidades en las que desea detectar diferencias
* La distribución de los datos (principalmente del resultado)



### Operaciones numéricas

Para saber cuantos valores tenemos, que no sean NaN, podemos usar la función _.count()_. Esta función puede funcionar sobre todo el dataframe o solo sobre una columna.

In [None]:
df_vic.count()

En el caso de las columnas con datos númericos hay varias operaciones que podemos usar. 

El mínimo y máximo nos dicen respectivamente el valor mas pequeño y grande de un conjunto de datos. Se obtiene usado la funcion _.min()_ y _.max()_.

In [None]:
df_vic['Edad'].max()

En este caso podemos ver que la edad máxima es irrealmente alta. Una explicación es que esto se debá a un error de captura de los datos. Hablaremos mas sobre esto en la sección de limpieza.

La sumatoria es la suma todos los valores númericos de la columna. Como esta es una operación númerica solo se puede usar en columnas con valores numéricos. Se obtiene usado la funcion _.sum()_.

In [None]:
df_vic['Edad'].sum()

### Medidas de tendencia central

* __Media__: Tambien conocida como promedio, se obtiende sumando todos los elementos de una variable y dividiéndola por el número de ellos. Es afectada por valores extremos. Se obtiene usado la funcion _.mean()_.
* __Mediana__: Número de la posición central de las observaciones (en orden ascendente). No es afectada por valores extremos. Se obtiene usado la funcion _.median()_. 
* __Moda__: El dato más común, puede existir más de una moda. Se obtiene usado la funcion _.mode()_.

<img src="extras/CP-TendenciaCentral.png">


In [None]:
df_vic['Edad'].mean()

### Disperción y asimetría

La distribución de los valores no es siempre igual. En particular podemos ver que alrededor del promedio los datos pueden distribuirse de distintas maneras.

La varianza es una medida de dispersión de un grupo de datos alrededor de la media, es decir, que tan "ancha" es la distribución. 

Una forma más fácil de “visualizar” la varianza es por medio de la __desviación estandar__, en la mayoría de los casos esta es más significativa. Se obtiene usado la funcion .std(). 

In [None]:
df_vic['Edad'].std()

El __sesgo__ indica si los datos se concentran en un lado de la curva. Se obtiene usado la funcion .skew(). 
* Si sesgo=0 significa que los datos son simétricos, 
* Si sesgo>0 es que hay mas datos hacia la derecha
* Si sesgo<0 es que hay mas datos hacia la izquierda.

In [None]:
df_vic['Edad'].skew()

#### Ejercicio 8
Calcula máximo, mínimo, las tres medidas de tendencia central, desviación estandar y sesgo y ubica cada una en la gráfica de 'Edad' que se encuentr en el [profile de victimas](./profiles/CP-victimas.html).