# Análisis y visualización de datos abiertos con python

2. __Exploración de datos__
    1. [Obtención de datos](#obtencion)
        * Descargar datos abiertos
        * ¿Qué es un dato?
        * Estructura del proyecto
        * Cargar tablas en pandas (read_csv, read_excel)
    2. [Exploración básica](#exploracion)
        * Pandas profiling
    3. [Navegando un dataframe](#navegacion)
        * ¿Qué es un dataframe?
        * Estructura de una tabla (index, columns, values, shape, dtype)
        * Slicing (head, tail, select column(s), row(s), loc, iloc)
        * Subsetting  (==, !=, isin, isna, notna, multiple statements)
    3. [Operaciones básicas](#operaciones)
        * Documentación
        * Ordenar (sort_values)
        * Únicos y conteo (unique, nunique, value_counts)
        * Conteo y suma (count, max, min, sum)
    4. [Estadística básica](#estadistica)
        * Definiciones de estadística
        * Medidas de tendencia central (mean, median, mode)
        * Disperción y asimetría (std, skew)
        * Distribuciones


El objetivo de este tutorial es llevar a cabo una exploración básica de un conjunto de datos utilizando la biblioteca de Python. Además de la biblioteca pandas, también se introducirán algunas técnicas básicas de exploración de datos de datos para ayudar a comprender mejor los datos y destacar patrones y tendencias interesantes.

Este tutorial es para aquellos que están interesados en el análisis de datos y la visualización y quieren aprender cómo usar Python y pandas para realizar esta tarea. No se requiere experiencia previa en programación o análisis de datos, pero es útil tener algún conocimiento básico de Python.


Utilizaremos el Módulo de Fosas Comunes creado por la Comisión Nacional de Búsqueda de Personas. La Comisión Nacional de Búsqueda de Personas creó en 2020 el Módulo de Fosas Comunes, una base de datos que recopila y homologa información sobre cuerpos y restos inhumados en fosas comunes. El MFC se utiliza para comparar regularmente con el Registro Nacional de Personas Desaparecidas y No Localizadas para detectar posibles coincidencias. Los posibles positivos son evaluados en CNB para eliminar falsos positivos, y aquellos que persisten se convierten en indicios que se investigan en coordinación con las autoridades locales. El MFC está en constante integración y actualización, pero su exactitud depende de la información disponible en los panteones. La CNB no asume responsabilidad por la exactitud de la información en el MFC, sino que la responsabilidad recae en las administraciones de los panteones. Sin embargo, debido a la escasez de recursos, las comisiones de búsqueda brindan apoyo técnico a los panteones para extraer y homologar sus datos.

<a id='obtencion'></a>

## 2.1. Obtención de datos

### Descargar datos abiertos
En este tutorial usaremos el [Módulo de Fosas Comunes](https://comisionacionaldebusqueda.gob.mx/modulo-de-fosas-comunes/) en su actualización del 24 de noviembre 2022.

Al final de la página web hay un botón que nos permite descargar el conjunto de datos.
![Página web del MFC](./images/MFC_descargar.png)

Al acceder al archivo, podemos ver que tiene varias hojas:
* Nota jurídica y metodológica: brinda información sobre los aspectos legales y metodológicos relacionados con un tema
* Diccionario: describe el conjunto de datos, esta sección es de suma importancia para entender los datos con los que estamos trabajando.
* MFC: la tabla con la información del Módulo de Fosas Comunes

### Ejercicio 1

Lee la página web, nota jurídica y metodológica y el diccionario de datos.
En base a esto:
1. ¿Qué información esperas encontrar en el conjunto de datos¡
2. ¿Cuáles son sus limitaciones?




### ¿Qué es un dato?

Algunas definiciones:

* Variable: una medida o un atributo. Pueden ser fecha, lugar, altura, peso, sexo, etc.
* Valor: la medida o atributo real. 10 de mayo, México, 152 cm, 80 kg, hembra, etc.
* Observación: Todos los valores miden en la misma unidad. Cada persona.
* Dato: representación simbólica de un atributo o variable cuantitativa o cualitativa.

Existen varios tipos de datos:
* Númericos: valores contables discretos o continuos
* Binarios: verdadero o falso
* Categoricos: número limitado de categorias
* Texto
* Fecha
* Coordenadas

Los datos no siempre están completos, es decir, a veces desconocemos el valor de un dato. Esto se puede representar de varias formas. En el caso de pandas se usa _NaN_ para representar los datos faltantes o desconocidos.

Las tablas que proporciona el gobierno se consideran conjuntos de [datos ordenados](http://vita.had.co.nz/papers/tidy-data.pdf), esto quiere decir que:
* Cada variable forma una columna y contiene valores
* Cada observación forma una fila
* Cada tipo de unidad de observación forma una tabla

### Ejercicio 2

Identifica cada una de las definiciones, tipos de datos y características anteriormente descritas en la tabla del MFC.

### Estructura del proyecto

Para organizar la información y nuestro espació de trabajo haremos una carpeta individual para el curso (por ejemplo, en mi computadora esta se llama _CursoPandas2023_). Dentro de esta carpeta organizaremos todos nuestros archivos en subcarpetas. De tal forma que la carpeta __CursoPandas2023__ contendrá las siguientes subcarpetas:
* __data_raw__ carpeta donde pondremos los archivos de datos originales como el excel descargado
* __data_clean__ carpeta donde colocaremos los archivos de datos que vayamos limpiando y generando
* __extras__ carpeta con las imagenes y otros archivos de referencia que queramos guardar
* __profiles__ carpeta con las descripciones automáticas de las tablas de datos

### Ejercicio 3
1. Crea una carpeta para el proyecto
2. Crea las carpetas mencionadas anteriormente
3. Colocalo el MFC en la carpeta adecuada. 

### Cargar los datos en python

Ahora que los datos ya estan en la computadora podemos abrirlos usando python para empezar a trabajar con ellos.

Necesitamos un jupyter notebook en la carpeta de trabajo y que los archivos esten en la carpeta _data-raw_. A continuación cargaremos la biblioteca de pandas para trabajar con la tabla de datos y cargaremos los archivos.

En primer lugar nos ubicaremos en la carpeta donde esta nuestro código y archivos. Esto lo podemos hacer con el navegador de archivos en la parte derecha de jupyter o con código.

In [1]:
from os import chdir, getcwd
chdir(getcwd())

Despues vamos a abrir la tabla con los datos. 

Para lograr esto en primer lugar es necesario importar la biblioteca de pandas usando _import_. Como estaremos usando constantemente esta bibliteca la importaremos con la abreviatura _pd_. 

Despues usaremos el comando _pd.read_excel()_. De esta forma podemos abrir un .csv como si fuera un dataframe de pandas.

Para abrir un archivo de excel puedes usar el comando: _pd.read_excel(filename)_.

**NOTA:** Puede ser necesario instalar paquetes adicionales para leer un archivo de formato Excel.


In [2]:
import pandas as pd

df = pd.read_excel('data_raw/Modulo-de-Fosas-Comunes_actualizacion24nov2022_VD.xlsx')

Ahora podemos acceder en la tabla.

In [3]:
df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1
0,,Nota jurídica y metodológica sobre el Módulo d...
1,,
2,,La Comisión Nacional de Búsqueda de Personas (...


Automáticamente read_excel carga la primera hoja del archivo. Sin embargo, nosotros estamos interesados en la tercera hoja, la cuál contiene los datos. Para resolver esto revisaremos la documentación de la función.

Busca en google ´pandas read_excel´ y busca el link a la documentación de la función.
![Documentación de read_excel](./images/Pandas_documentation.png)

Revisando la página web descubrimos que hay una opción que permite configurar la hoja que se lee:
´´´
sheet_namestr, int, list, or None, default 0

    Strings are used for sheet names. Integers are used in zero-indexed sheet positions (chart sheets do not count as a sheet position). Lists of strings/integers are used to request multiple sheets. Specify None to get all worksheets.
´´´

Otra opción es buscar directamente nuestra pregunta ´como seleccionar la hoja de un excel con pandas´

Modifiquemos el código para leer la hoja que nos interesa.

In [4]:
df = pd.read_excel('data_raw/Modulo-de-Fosas-Comunes_actualizacion24nov2022_VD.xlsx', sheet_name="MFC")
df

Unnamed: 0,ID,Estado_origen,Municipio_origen,Panteón_origen,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Conocido_Desconocido,Primer apellido,Segundo Apellido,Nombre(s),Nombre completo,Institución_origen,Rdoc,Marca_temporal,Datos alternativos
0,XX-P001,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-30 00:00:00,2018-03-04 00:00:00,,Restos cremados,Masculino,55,Desconocido,,,,,UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA,Sí,2020-03-23 00:00:00,
1,XX-P002,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26 00:00:00,2018-12-12 00:00:00,,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00,
2,XX-P003,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26 00:00:00,2018-12-13 00:00:00,,Cadáver,Masculino,,Conocido,Cruz,Lucero,Alberto,Alberto Cruz Lucero,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00,
3,XX-P004,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26 00:00:00,2018-12-14 00:00:00,,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00,
4,XX-P005,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26 00:00:00,2018-12-18 00:00:00,,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21014,XXII-P1780,Chiapas,San Cristóbal de las Casas,Panteón Municipal,Inhumación,2021-11-20 00:00:00,S/D,,Cadáver,Masculino,,Desconocido,,,,,PROCURADURÍA GENERAL DE JUSTICIA DEL ESTADO,Sí,2022-11-03 00:00:00,
21015,XXII-P1781,Chiapas,San Cristóbal de las Casas,Panteón Municipal,Inhumación,2021-12-15 00:00:00,S/D,,Cadáver,Masculino,,Desconocido,,,,,PROCURADURÍA GENERAL DE JUSTICIA DEL ESTADO,Sí,2022-11-03 00:00:00,
21016,XXII-P1782,Chiapas,San Cristóbal de las Casas,Panteón Municipal,Inhumación,2022-07-13 00:00:00,S/D,,Cadáver,Masculino,50-55,Desconocido,,,,,PROCURADURÍA GENERAL DE JUSTICIA DEL ESTADO,Sí,2022-11-03 00:00:00,
21017,XXII-P1783,Chiapas,San Cristóbal de las Casas,Panteón Municipal,Inhumación,2022-09-16 00:00:00,S/D,,Cadáver,Masculino,45,Desconocido,,,,,PROCURADURÍA GENERAL DE JUSTICIA DEL ESTADO,Sí,2022-11-03 00:00:00,


Esto nos muestra la tabla, pero ya que esta es muy grande solo nos muestra las primeras y últimas filas, representando las faltantes con _..._ .

Esta tabla es demasiado larga, por lo que solo trabajaremos con las primeras mil filas en este tutorial.


### Ejercicio 4

Lee la documentación de la función read_excel y carga solo las primeras mil filas de la tabla.

In [5]:
df = pd.read_excel('data_raw/Modulo-de-Fosas-Comunes_actualizacion24nov2022_VD.xlsx', 
                   sheet_name="MFC", nrows=1000)
df

Unnamed: 0,ID,Estado_origen,Municipio_origen,Panteón_origen,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Conocido_Desconocido,Primer apellido,Segundo Apellido,Nombre(s),Nombre completo,Institución_origen,Rdoc,Marca_temporal,Datos alternativos
0,XX-P001,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-30,2018-03-04 00:00:00,NaT,Restos cremados,Masculino,55,Desconocido,,,,,UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA,Sí,2020-03-23 00:00:00.000,
1,XX-P002,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-12 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
2,XX-P003,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-13 00:00:00,NaT,Cadáver,Masculino,,Conocido,Cruz,Lucero,Alberto,Alberto Cruz Lucero,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
3,XX-P004,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-14 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
4,XX-P005,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-18 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,XX-P996,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,S/D,NaT,Cadáver,Masculino,42,Conocido,Flores,Rosette,Sergio,Sergio Flores Rosette,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:19:52.451,
996,XX-P997,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2017-10-27 00:00:00,NaT,Cadáver,Masculino,64,Conocido,Juárez,Chávez,Juan Carlos,Juan Carlos Juárez Chávez,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:22:53.304,
997,XX-P998,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2018-08-18 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 21:30:12.169,
998,XX-P999,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2018-05-22 00:00:00,NaT,Cadáver,Femenino,1,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 21:32:30.839,


<a id='exploracion'></a>

## 2.2 Exploración básica

Lo primero que debemos hacer es familiarizarnos con los datos. Esto se conoce como Análisis exploratorio de los datos. 

Existe una serie de herramientas que se especializa en eso, una de las cuales es [ydata-profiling](https://ydata-profiling.ydata.ai/docs/master/index.html).

In [7]:
from ydata_profiling import ProfileReport

out_file = "profiles/MFC_profile.html"
prof = ProfileReport(df) 

Podemos ver el profile como un widget interactivo dentro del notebook.

In [8]:
prof.to_widgets()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

También podemos guardarlo como un archivo html.

In [None]:
prof.to_file(output_file=out_file)

## 2.3 Navegando un dataframe

### Estructura de una tabla 

Una tabla de pandas o dataframe consta de varios elementos:
* Nombres de columnas, las cuales pueden ser vistas como la primera fila en letras negritas. Para verlas usa _.columns_.
* Nombres de filas, las cuales pueden ser vistas como la primera columna, la cual carece de nombre. Para verlas usa _.index_.
* Valores, los datos dentro de la tabla. Para verlas usa _.values_.
* El número de filas y columnas total. Para verla usa _.shape_.
* Tipo de datos de cada columna. Para verla usa _.dtype_.

Con el fin de conocer el nombre de las columnas usaremos la opción _.columns_. Es importante notar que esta opción no tiene paréntesis no corchetes, ya que es un elemento del objeto.

In [None]:
df_vic.columns

Podemos observar que los datos contienen información sobre:
* idCarpeta: folio de la carpeta de investigación
* Tipo de delito ('Delito', 'Categoria', 'ClasificacionDelito')
* Fecha de ocurrencia del delito ('FechaHecho', 'Año_hecho', 'Mes_hecho')
* Características de la víctima ('Sexo', 'Edad', 'TipoPersona', 'CalidadJuridica')
* Lugar de ocurrencia del delito ('lon', 'lat', 'Geopoint')

### Ejercicio 3

Usa cada una de las opciones mencionadas en esta sección y describe que regresa.

### Slicing

Muchas veces no queremos trabajar sobre toda la tabla de datos, en su lugar queremos usar unicamente una fracción de ella. Para ello, existen varias formas de selecionar partes de una tabla.

Por ejemplo, la función _.head()_ devuelve las primeras filas de la tabla. Por defecto estos comandos muestran solo cinco filas, pero es posible cambiar el número de filas poniendo un número entre paréntesis.
Si queremos ver las últimas filas se puede usar el comando _.tail()_. 

In [None]:
df_vic.head()

Para ver una columna específica se pone el nombre del dataframe seguido por corchetes con el nombre de la columna. Una sola columna es del tipo _series_. Por ejemplo, para ver la columna de la categoria de los delitos ponemos su nombre 'Categoria' entre corchetes. Esto es similar a la forma en la que se seleccionan elementos en listas o diccionarios.

In [None]:
df_vic['Categoria']

Se pueden seleccionar varias columnas a la vez, poniendo sus nombres en una lista dentro de corchetes. Lo anterior significa que para seleccionar varias columnas hay que usar corchetes dobles.

In [None]:
df_vic[['Categoria','Sexo']]

La primera columna que podemos observar en la tabla y carece de nombre, es el índice de las filas. Por default, pandas asigna números de identificación a cada una de las filas, empezando por el cero . Podemos seleccionar filas con el comando _loc_ más el número de posición de la fila, sin olvidar que la numeración empieza en 0. Por ejemplo, seleccionemos la novena fila.

In [None]:
df_vic.loc[9]

De la misma manera, se pueden seleccionar varias filas usando una lista.

In [None]:
df_vic.loc[[9, 13, 62,201]]

Este comando también se puede usar para seleccionar un conjunto de filas y columnas específico. Para hacerlo se utiliza el formato: _df.loc[filas, columnas]_

In [None]:
df_vic.loc[[9, 13, 62,201], ['Categoria','Sexo']]

### Subsetting

Es posible seleccionar los datos de acuerdo a una (o más) condición. 

Por ejemplo para seleccionar todos los delitos que afectan a mujeres buscamos las filas donde el 'Sexo' es 'Femenino' con la condición:

In [None]:
df_vic['Sexo']=='Femenino'

Esta condicion nos dice para cada fila si el valos es 'Femenino', si ponemos esto dentro de _.loc[]_ podemos usarlo para encontrar las filas de víctimas de mujeres

In [None]:
df_vic.loc[ df_vic['Sexo']=='Femenino' ]

Para seleccionar los delitos que NO afectan a las mujeres buscamos aquellos donde el sexo es diferenente (_!=_) a 'Femenino'

In [None]:
df_vic[df_vic['Sexo']!='Femenino']

En varios casos podemos ver que no hay datos sobre el sexo de la victima, lo cual se representa con _NaN_. Para ver las filas con valor _NaN_ se usa la función _isna()_.

Lo anterior puede representar un problema, ya que significa que los datos son incompletos y generalmente es necesario procesarlos como veremos mas adelante.

In [None]:
df_vic[df_vic['Sexo'].isna()]

Si los datos son numéricos es posible usar operaciones como mayor, menor o igual para seleccionar con esas condiciones. Por ejemplo para ver los delitos que suceden a gente menor de edad podriamos buscar todos las filas donde el valor de la edad es menor que 18.

In [None]:
df_vic[df_vic['Edad']<18]

A veces no queremos seleccionar las columnas que tienen un solo valor, sino varios. Por ejemplo, si queremos ver los delitos de alto impacto esto significa que la categoría es homicidio, violación o secuestro. Como son varios delitos los vamos a guardar en una lista llamada 'delitos_alto_impacto' y despues los buscamos con el comando _.isin()_

In [None]:
delitos_alto_impacto = ['HOMICIDIO DOLOSO','VIOLACIÓN','SECUESTRO']
df_vic[df_vic['Categoria'].isin(delitos_alto_impacto)]

Se pueden usar varias condiciones al mismo tiempo.
Para combinar varias condiciones es necesario poner cada condición entre parentesis.
Las condiciones se unen usando los operadores booleanos:
* _&_ se cumplen ambas condiciones
* _|_ se cumple al menos una de las condiciones
* _~_ negación

Por ejemplo, para seleccionar las víctimas de delitos menores de 18 años ponemos cada uno de los selectores de edades antes visto entre paréntesis y los unimos con _&_


In [None]:
# df.loc[ (seleccionar_mujeres) & (seleccionar_menores_de_edad)] 
df_vic.loc[(df_vic['Sexo']=='Femenino') & (df_vic['Edad']<18)]

#### Ejercicio 4

1. Escribe tres combinaciones de datos que te interesaria conocer y escribelas. Por ejemplo los delitos cometidos a personas morales durante enero.
2. Tratá de resolver estas combinaciones de datos usando pandas. En caso de no poder anota que datos u operaciones hacen falta.


### Descripcion automática

Para explorar rápidamente el conjunto de datos, entender los tipos de datos y la distribución de estos esto usaremos una herramienta llamada _pandas_profiling_, la cual hace una descripción automática de un dataframe. Guardaremos el resultado como un archivo en una carpeta llamada _profiles_. 

Este análisis puede ser muy tardado, ya que tenemos 145870. Por esto en este tutorial solo sacamos el profile de los últimos mil datos debido a limitaciones de tiempo, pero puedes ver el profile de todos los datos en la carpeta de profiles.

In [None]:
import pandas_profiling

df_vic_short = df_vic.tail(1000)

profile_short = df_vic_short.profile_report(title='Víctimas de carpetas de investigación')
profile_short.to_file(output_file="profiles/CP-victimas-short.html")

El archivo resultante se puede ver en [profiles/CP-carpetas-short.html](profiles/CP-carpetas-short.html)

#### Ejercicio 5
Usando los datos de victimas realiza el pandas_profiling y analiza los resultados.

<a id='operaciones'></a>

## 2.3 Operaciones básicas

### Documentación
Muchas de las funciones tienen opciones o paramétros que pueden cambiar. Además, es muy común no saber el nombre exacto de la función aunque si tengamos una idea general de como debé de llamarse. O simplemente olvidar cual era el nombre de la función. 

En ese caso la mejor idea es googlear "pandas"o "python" y el nombre de la función o descripción de que queremos hacer. Existen dos recursos particularmente útiles:

* La documentación oficial de la biblioteca, en este caso la [documentación de pandas](https://pandas.pydata.org/pandas-docs/stable/).
* [StackOverflow](stackoverflow.com/), donde generalmente la mejor respuesta tiene la mayor cantidad de votos.

Si no puedes encontrar la respuesta recuerda [googlear antes de preguntar](https://xkcd.com/627/) y revisa [como hacer buenas preguntas en los foros ](https://stackoverflow.com/help/how-to-ask).


### Ordenar

Además de poder seleccionar los datos muchas veces es muy importante poder ordenarlos. Para eso usaremos _.sort_values()_

Para ordenar una sola columna:



In [None]:
df_vic['Sexo'].sort_values()

Por default _.sort_values()_ ordena en orden alfábetico o de menor a mayor, en caso de datos númericos. Para cambiar esto podemos usar el parámetro _ascending_. Por default los datos con NaN siempre van al final de la tabla.

In [None]:
df_vic['Sexo'].sort_values(ascending=False)

Para ordenar todo el dataframe por una columna es necesario decir explicitamente que columna se va a usar.

In [None]:
df_vic.sort_values('Sexo')

Es posible ordenar por varias columnas especificando el nombre de las columnas en una lista y la forma de ordenarlas usando _ascending_.

In [None]:
df_vic.sort_values(['Sexo','Edad'],ascending=[True,False])

#### Ejercicio 4

1. Escribe tres formas en las que te gustaría ordenar los datos.
2. Obten las tablas ordenadas, en caso de no poder hacerlo indica que datos te harían falta.

### Únicos y conteo

Se pueden hacer varias cosas con una columna. Por ejemplo, se pueden determinar los valores unicos de la columna. Esto nos permite identificar que las diferentes categorias de delitos.

In [None]:
df_vic['Categoria'].unique()

Si lo único que nos interesa saber es cuantos datos únicos hay, y no cuales son, se puede usar la función _.nunique()_.

También, se puede contabilizar cuántas veces aparece cada uno de estos valores. Esto permite saber cuantas veces aparece cada valor único. Por ejemplo, podemos usar esto para saber cual es el género que aparece mas como víctima..

In [None]:
df_vic['Sexo'].value_counts()

Cabe destacar que en este caso no se cuentan aquellas filas donde no se conoce el dato. Para incluir los NaN es necesario cambiar los parámetros de la función, de tal forma que no se ignoren los NaN por defecto usando el parámetro _dropna_.

In [None]:
df_vic['Sexo'].value_counts(dropna=False)

Para ver estos resultados como porcentaje se puede usar el parámetro _normalize_. 

Es importante usar este parámetro con cuidado de los NaN, ya que el porcentaje cambiara si estos se toman, o no, en cuenta.

In [None]:
df_vic['Sexo'].value_counts(dropna=False, normalize=True)

Para seleccionar las cinco categorias con mas víctimas podemos usar un proceso de selección muy similar al de las listas de python. Por ejemplo, para ver las cinco categorias de delito con mas victimas obtendremos el conteo de valores con _.value_counts()_ y después seleccionaremos los cinco primeros usando un slicing de lista.

In [None]:
df_vic['Categoria'].value_counts()[0:5]

#### Ejercicio 7

1. Plantea cuatro preguntas que incluyan selección de un subconjunto de datos y luego determinar cuales son los que tienen mayor o menor valor. Por ejemplo, cual es el delito que mas afecta a las mujeres o cuál es el mes en el que se cometieron mas homicidios.
2. Usando las operaciones aprendidas responde la pregunta. En caso de no ser posible escribe que dato u operación te haría falta para lograrlo.


<a id='estadistica'></a>

## 2.4 Estadística

### Definiciones 

Definiciones
* Población: conjunto de todos los elementos de interés (N).
* Parámetros: métricas que obtenemos al trabajar con una población.
* Muestra: subgrupo de la población (n).
* Estadísticos: métricas que obtenemos al trabajar con poblaciones.

Una muestra debe ser
* Representativa: un subgrupo de la poblaciòn que refleja exactamente a los miembros de toda la población.
* Tomada al azar: recolectada cuando cada miembro de la muestra es elegida de la población estrictamente por casualidad

Para saber si la muestra es representativa y calcular el tamaño de la muestra es importante:
* Nivel de confianza: garantizar que los resultados no ocurrieron solo por azar. Generalmente debé de ser de 95-99%
* Porcentaje de diferencia por detectar: entre más pequeña sea la diferencia que quieres detectar, más grande debe ser la muestra
* Valor absoluto de las probabilidades en las que desea detectar diferencias
* La distribución de los datos (principalmente del resultado)



### Operaciones numéricas

Para saber cuantos valores tenemos, que no sean NaN, podemos usar la función _.count()_. Esta función puede funcionar sobre todo el dataframe o solo sobre una columna.

In [None]:
df_vic.count()

En el caso de las columnas con datos númericos hay varias operaciones que podemos usar. 

El mínimo y máximo nos dicen respectivamente el valor mas pequeño y grande de un conjunto de datos. Se obtiene usado la funcion _.min()_ y _.max()_.

In [None]:
df_vic['Edad'].max()

En este caso podemos ver que la edad máxima es irrealmente alta. Una explicación es que esto se debá a un error de captura de los datos. Hablaremos mas sobre esto en la sección de limpieza.

La sumatoria es la suma todos los valores númericos de la columna. Como esta es una operación númerica solo se puede usar en columnas con valores numéricos. Se obtiene usado la funcion _.sum()_.

In [None]:
df_vic['Edad'].sum()

### Medidas de tendencia central

* __Media__: Tambien conocida como promedio, se obtiende sumando todos los elementos de una variable y dividiéndola por el número de ellos. Es afectada por valores extremos. Se obtiene usado la funcion _.mean()_.
* __Mediana__: Número de la posición central de las observaciones (en orden ascendente). No es afectada por valores extremos. Se obtiene usado la funcion _.median()_. 
* __Moda__: El dato más común, puede existir más de una moda. Se obtiene usado la funcion _.mode()_.

<img src="extras/CP-TendenciaCentral.png">


In [None]:
df_vic['Edad'].mean()

### Disperción y asimetría

La distribución de los valores no es siempre igual. En particular podemos ver que alrededor del promedio los datos pueden distribuirse de distintas maneras.

La varianza es una medida de dispersión de un grupo de datos alrededor de la media, es decir, que tan "ancha" es la distribución. 

Una forma más fácil de “visualizar” la varianza es por medio de la __desviación estandar__, en la mayoría de los casos esta es más significativa. Se obtiene usado la funcion .std(). 

In [None]:
df_vic['Edad'].std()

El __sesgo__ indica si los datos se concentran en un lado de la curva. Se obtiene usado la funcion .skew(). 
* Si sesgo=0 significa que los datos son simétricos, 
* Si sesgo>0 es que hay mas datos hacia la derecha
* Si sesgo<0 es que hay mas datos hacia la izquierda.

In [None]:
df_vic['Edad'].skew()

#### Ejercicio 8
Calcula máximo, mínimo, las tres medidas de tendencia central, desviación estandar y sesgo y ubica cada una en la gráfica de 'Edad' que se encuentr en el [profile de victimas](./profiles/CP-victimas.html).