<a href="https://colab.research.google.com/github/MinervaNunez/Proyecto-de-Python-BEDU/blob/Rama-Jesus/Proyecto_Equipo_8_Kevin_Nicky_Jesus.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Proyecto de Python Equipo 8** 

# Adquisición de datos


### Obtención de los datos mediante API

El gobierno de México utiliza el sistema de repositorios de datos abiertos [CKAN](https://datos.gob.mx/blog/ckan?category=api-cdn&tag=educacion) para compartir los Datos Abiertos de las dependencias de la Administración Pública Federal, así como de gobiernos locales.

Utilizando la API de CKAN es posible consultar los detalles de los conjuntos de datos que se ofrecen en el portal datos.gob.mx/busca

De esta forma, mediante peticiones a esta API podemos obtener la URL del conjunto de datos.

In [6]:
import pandas as pd
import requests
import numpy as np

El endpoint para consultar datos es:

https://datos.gob.mx/busca/api/3/action/package_search?q=BUSQUEDA 

Por lo que pasaremos el valor "desaparecidos" al parametro q, para obtener los datasets relacionados.

In [7]:
endpoint = 'https://datos.gob.mx/busca/api/3/action/package_search?'
payload = {'q': 'desaparecidos'}

In [8]:
r = requests.get(endpoint, params=payload)

In [9]:
r.status_code

200

| La petición se ha realizado con éxito

In [10]:
json = r.json()

In [11]:
json.keys()

dict_keys(['help', 'success', 'result'])

La llave *'result'* es la que nos interesa, exploraremos su contenido para identificar el conjunto de datos que buscamos.

In [12]:
for key in json['result']['results']:
    print(key['name'])

estadisticas-de-apoyo-y-proteccion-a-detenidos-y-desaparecidos
registro-nacional-de-datos-de-personas-extraviadas-o-desaparecidas-rnped
registro-nacional-de-datos-de-personas-extraviadas-o-desaparecidas-rnped-sitio-espejo-3
registro-nacional-de-datos-de-personas-extraviadas-o-desaparecidas-rnped-sitio-espejo-2
registro-nacional-de-datos-de-personas-extraviadas-o-desaparecidas-rnped-sitio-espejo-1
registro-nacional-de-datos-de-personas-extraviadas-o-desaparecidas-rnped-sitio-espejo-4
cantidad-de-derechohabientes-beneficiados-por-el-programa-integral-de-becas-para-hijos-de-milit


| El conjunto de datos que buscamos se encuentra en *'registro-nacional-de-datos-de-personas-extraviadas-o-desaparecidas-rnped'* con indice 1.

Ahora bsucaremos el conjunto de datos dentro de este diccionario.

In [13]:
for key in json['result']['results'][1]['resources']:
    print(f"Nombre del Dataset: {key['name']} \nURL: {key['url']} \n")

Nombre del Dataset: Base de datos del RNPED del fuero común 
URL: https://secretariadoejecutivo.gob.mx/transparencia/datos_abiertos/RNPEDFC.csv 

Nombre del Dataset: Base de datos del RNPED del fuero federal 
URL: https://secretariadoejecutivo.gob.mx/docs/datos_abiertos/RNPEDFF__1.csv 



| Nuestro conjunto de datos es *'Base de datos del RNPED del fuero común'* con indice 0.

**Guardamos la URL de nuestro conjunto y leemos el archivo .csv**

In [14]:
url = json['result']['results'][1]['resources'][0]['url']

In [15]:
raw = pd.read_csv(url, encoding='ISO-8859-1')

**Guardamos la versión RAW de los datos en fromato csv y leemos el archivo**

In [16]:
raw.to_csv('RNPEDFC.csv', index=False, encoding='ISO-8859-1')

In [17]:
df = pd.read_csv('RNPEDFC.csv', encoding='ISO-8859-1')

**Obtenermos como resultado nuesto data frame principal**

In [18]:
df

Unnamed: 0,Fecha en que se le vio por ultima vez,Hora en que se le vio por ultima vez,Pais en que se le vio por ultima vez,Entidad en que se le vio por ultima vez,Municipio en que se le vio por ultima vez,Localidad en que se le vio por ultima vez,Nacionalidad,Estatura,Complexion,Sexo,Edad,Descripcion de senas particulares,Etnia,Discapacidad,Dependencia que envio la informacion
0,2012-03-18,05:00:00,MEXICO,SONORA,NAVOJOA,NAVOJOA,MEXICANA,1.1,DELGADA,MUJER,7,TIENE UNA CICATRIZ EN LA RODILLA IZQUIERDA POR...,NO ESPECIFICADO,NINGUNO,FGE - SONORA
1,2007-02-05,02:00:26,MEXICO,ESTADO DE MEXICO,VALLE DE BRAVO,VALLE DE BRAVO,MEXICANA,1.1,DELGADA,MUJER,4,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
2,2009-03-14,08:30:54,MEXICO,ESTADO DE MEXICO,CHALCO,CHALCO,MEXICANA,1.1,DELGADA,HOMBRE,6,"MANCHAS, PARTE SUPERIOR DE PIERNA DERECHA, CIC...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
3,2006-12-23,08:00:28,MEXICO,ESTADO DE MEXICO,TLALNEPANTLA DE BAZ,TLALNEPANTLA DE BAZ,MEXICANA,1.1,DELGADA,HOMBRE,10,"LUNARES, A LA ALTURA DE LA CINTURAFORMA DE MAN...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
4,2008-01-11,12:00:17,MEXICO,ESTADO DE MEXICO,TOLUCA,TOLUCA,MEXICANA,1.1,DELGADA,HOMBRE,4,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
36260,2018-04-26,08:00:00,MEXICO,PUEBLA,PUEBLA,PUEBLA,MEXICANA,1.6,DELGADA,HOMBRE,22,LUNAR EN LA MEJILLA Y TATUAJE EN EL CUELLO EN ...,NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36261,2018-01-08,11:00:00,MEXICO,COLIMA,VILLA DE ALVAREZ,VILLA DE ALVAREZ,MEXICANA,1.7,ROBUSTA,MUJER,27,"EL OJO IZQUIERDO TIENE UN ENFERMEDAD COMO TIC,...",NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36262,2015-02-02,07:00:00,MEXICO,PUEBLA,CHILA,CHILAS DE LAS FLORES,MEXICANA,1.77,MEDIANA,MUJER,86,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36263,2017-08-22,04:00:00,MEXICO,COLIMA,VILLA DE ALVAREZ,VILLA DE ALVAREZ,MEXICANA,1.76,ROBUSTA,HOMBRE,41,TATUAJE EN EL BRAZO IZQUIERDO CON LA IMAGEN DE...,NO ESPECIFICADO,NINGUNO,PGJ - COLIMA


# Análisis exploratorio de datos

Seguimos la metodología vista en clase.

Primero, obtenemos las dimensiones de nuestro `DataFrame`.

In [19]:
df.shape

(36265, 15)

La celda anterior nos dice que nuestro dataframe tiene 36265 renglones (observaciones), y 15 columnas (variables).

Veamos cuáles son nuestras variables.

In [20]:
df.columns

Index(['Fecha en que se le vio por ultima vez',
       'Hora en que se le vio por ultima vez',
       'Pais en que se le vio por ultima vez',
       'Entidad en que se le vio por ultima vez',
       'Municipio en que se le vio por ultima vez',
       'Localidad en que se le vio por ultima vez', 'Nacionalidad', 'Estatura',
       'Complexion', 'Sexo', 'Edad', 'Descripcion de senas particulares',
       'Etnia', 'Discapacidad', 'Dependencia que envio la informacion'],
      dtype='object')

In [21]:
df.dtypes

Fecha en que se le vio por ultima vez        object
Hora en que se le vio por ultima vez         object
Pais en que se le vio por ultima vez         object
Entidad en que se le vio por ultima vez      object
Municipio en que se le vio por ultima vez    object
Localidad en que se le vio por ultima vez    object
Nacionalidad                                 object
Estatura                                     object
Complexion                                   object
Sexo                                         object
Edad                                         object
Descripcion de senas particulares            object
Etnia                                        object
Discapacidad                                 object
Dependencia que envio la informacion         object
dtype: object

De acuerdo con el resultado de la anterior celda, nuestras 15 variables y sus tipos de datos (por defecto) son:
    
| Variable | Tipo |
| -------  | ---- |
| Fecha en que se le vio por ultima vez        | object |
| Hora en que se le vio por ultima vez         | object |
| Pais en que se le vio por ultima vez         | object |
| Entidad en que se le vio por ultima vez      | object |
| Municipio en que se le vio por ultima vez    | object |
| Localidad en que se le vio por ultima vez    | object |
| Nacionalidad                                 | object |
| Estatura                                     | object |
| Complexion                                   | object |
| Sexo                                         | object |
| Edad                                         | object |
| Descripcion de senas particulares            | object |
| Etnia                                        | object |
| Discapacidad                                 | object |
| Dependencia que envio la informacion         | object |


In [22]:
df.index

RangeIndex(start=0, stop=36265, step=1)

Del anterior comando, `pandas` nos dice que nuestras observaciones están indizadas por valores numéricos que empiezan desde el 0 y terminan en 36265.

Finalmente, echamos un vistazo a los datos para darnos una mejor idea de cómo está compuesto nuestro `DataFrame` a analizar.

In [23]:
df.head(5)

Unnamed: 0,Fecha en que se le vio por ultima vez,Hora en que se le vio por ultima vez,Pais en que se le vio por ultima vez,Entidad en que se le vio por ultima vez,Municipio en que se le vio por ultima vez,Localidad en que se le vio por ultima vez,Nacionalidad,Estatura,Complexion,Sexo,Edad,Descripcion de senas particulares,Etnia,Discapacidad,Dependencia que envio la informacion
0,2012-03-18,05:00:00,MEXICO,SONORA,NAVOJOA,NAVOJOA,MEXICANA,1.1,DELGADA,MUJER,7,TIENE UNA CICATRIZ EN LA RODILLA IZQUIERDA POR...,NO ESPECIFICADO,NINGUNO,FGE - SONORA
1,2007-02-05,02:00:26,MEXICO,ESTADO DE MEXICO,VALLE DE BRAVO,VALLE DE BRAVO,MEXICANA,1.1,DELGADA,MUJER,4,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
2,2009-03-14,08:30:54,MEXICO,ESTADO DE MEXICO,CHALCO,CHALCO,MEXICANA,1.1,DELGADA,HOMBRE,6,"MANCHAS, PARTE SUPERIOR DE PIERNA DERECHA, CIC...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
3,2006-12-23,08:00:28,MEXICO,ESTADO DE MEXICO,TLALNEPANTLA DE BAZ,TLALNEPANTLA DE BAZ,MEXICANA,1.1,DELGADA,HOMBRE,10,"LUNARES, A LA ALTURA DE LA CINTURAFORMA DE MAN...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
4,2008-01-11,12:00:17,MEXICO,ESTADO DE MEXICO,TOLUCA,TOLUCA,MEXICANA,1.1,DELGADA,HOMBRE,4,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO


In [24]:
df.tail(10)

Unnamed: 0,Fecha en que se le vio por ultima vez,Hora en que se le vio por ultima vez,Pais en que se le vio por ultima vez,Entidad en que se le vio por ultima vez,Municipio en que se le vio por ultima vez,Localidad en que se le vio por ultima vez,Nacionalidad,Estatura,Complexion,Sexo,Edad,Descripcion de senas particulares,Etnia,Discapacidad,Dependencia que envio la informacion
36255,2018-04-25,06:30:00,MEXICO,PUEBLA,SAN MARTIN TEXMELUCAN,SAN MARTIN TEXMELUCAN,MEXICANA,1.7,DELGADA,HOMBRE,26,"PECAS EN EL ROSTRO, PERFORACION EN LA ORJA IZQ...",NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36256,2018-04-22,11:30:00,MEXICO,PUEBLA,PUEBLA,PUEBLA,MEXICANA,1.52,DELGADA,MUJER,18,PERFORACION EN LA LENGUA Y MANCHA BLANCA EN ME...,NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36257,2017-07-02,11:14:59,MEXICO,SONORA,CANANEA,CANANEA,MEXICANA,NO ESPECIFICADO,NO ESPECIFICADO,HOMBRE,NO ESPECIFICADO,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGE - SONORA
36258,2017-04-06,02:00:00,MEXICO,COLIMA,MANZANILLO,SANTIAGO,MEXICANA,1.71,ROBUSTA,HOMBRE,22,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36259,2018-04-15,06:30:00,MEXICO,COLIMA,COLIMA,COLIMA,MEXICANA,1.59,ROBUSTA,HOMBRE,57,TIENE UNA CICATRIZ EN LA PARTE BAJA DE SU ABDO...,NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36260,2018-04-26,08:00:00,MEXICO,PUEBLA,PUEBLA,PUEBLA,MEXICANA,1.6,DELGADA,HOMBRE,22,LUNAR EN LA MEJILLA Y TATUAJE EN EL CUELLO EN ...,NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36261,2018-01-08,11:00:00,MEXICO,COLIMA,VILLA DE ALVAREZ,VILLA DE ALVAREZ,MEXICANA,1.7,ROBUSTA,MUJER,27,"EL OJO IZQUIERDO TIENE UN ENFERMEDAD COMO TIC,...",NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36262,2015-02-02,07:00:00,MEXICO,PUEBLA,CHILA,CHILAS DE LAS FLORES,MEXICANA,1.77,MEDIANA,MUJER,86,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36263,2017-08-22,04:00:00,MEXICO,COLIMA,VILLA DE ALVAREZ,VILLA DE ALVAREZ,MEXICANA,1.76,ROBUSTA,HOMBRE,41,TATUAJE EN EL BRAZO IZQUIERDO CON LA IMAGEN DE...,NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36264,2018-04-11,02:00:00,MEXICO,NUEVO LEON,SAN NICOLAS DE LOS GARZA,SAN NICOLAS DE LOS GARZA,MEXICANA,1.6,DELGADA,MUJER,14,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,PGJ - NUEVO LEON


Del vistazo a los últimos 10 valores de nuestro dataset podemos observar que nuestro dataset contiene algunos datos faltantes etiquetados por el valor `NO ESPECIFICADO`.

¿Será que existe alguna observación para la cual el pais donde se le vió por última vez sea distinto de México?
Para contestar esta incógnita podemos ver si la cantidad de registros que satisfacen que `df['Pais en que se le vio por ultima vez'] != 'MEXICO']` es mayor a 0

In [25]:
len(df.loc[df['Pais en que se le vio por ultima vez'] != 'MEXICO']) > 0

False

Como la instrucción anterior retornó `False`, entonces el País en el que se le vio por última vez siempre es México.

¿Cuáles son todos los posibles valores que puede tomar la variable `Entidad en que se le vio por ultima vez`?

In [26]:
def val_unicos_col(df, col_name):
    return set(df[col_name])

col_name = 'Entidad en que se le vio por ultima vez'

val_col_entidad = val_unicos_col(df, col_name)
val_col_entidad

{'AGUASCALIENTES',
 'BAJA CALIFORNIA',
 'BAJA CALIFORNIA SUR',
 'CAMPECHE',
 'CHIAPAS',
 'CHIHUAHUA',
 'CIUDAD DE MEXICO',
 'COAHUILA DE ZARAGOZA',
 'COLIMA',
 'DURANGO',
 'ESTADO DE MEXICO',
 'GUANAJUATO',
 'GUERRERO',
 'HIDALGO',
 'JALISCO',
 'MICHOACAN',
 'MORELOS',
 'NAYARIT',
 'NO ESPECIFICADO',
 'NUEVO LEON',
 'OAXACA',
 'PUEBLA',
 'QUERETARO',
 'QUINTANA ROO',
 'SAN LUIS POTOSI',
 'SINALOA',
 'SONORA',
 'TABASCO',
 'TAMAULIPAS',
 'TLAXCALA',
 'VERACRUZ',
 'YUCATAN',
 'ZACATECAS'}

¿Cuáles son todos los posibles valores que puede tomar la variable `Municipio en que se le vio por ultima vez`?

In [27]:
col_name = 'Municipio en que se le vio por ultima vez'

val_col_municipio = val_unicos_col(df, col_name)
val_col_municipio
len(val_col_municipio)

1068

Vemos que son muchos los municipios, por lo que mejor preguntamos por la cantidad de municipios únicos. La respuesta a esta pregunta es 1068 municipios únicos.


¿Cuáles son todos los posibles valores que puede tomar la variable `Localidad en que se le vio por ultima vez`?

In [28]:
col_name = 'Localidad en que se le vio por ultima vez'

val_col_localidad = val_unicos_col(df, col_name)
val_col_localidad
len(val_col_localidad)

2676

De nuevo, vemos que son muchas las localidades, por lo que mejor preguntamos por la cantidad de valores únicos que toma la variable. La respuesta a esta pregunta es 2676 localidades únicas.


Vale la pena preguntarse si la variable `Nacionalidad` toma valores distintos de `MEXICANA`.

In [29]:
col_name = 'Nacionalidad'

val_col_nacionalidad = val_unicos_col(df, col_name)
len(val_col_nacionalidad)

26

Como la cantidad de elementos distintos en la columna es 26, entonces podemos afirmar que en efecto la variable `Nacionalidad` toma valores distintos de `MEXICANA`.

De igual forma podemos investigar qué valores únicos puede tomar la variable `Complexion`.

In [30]:
col_name = 'Complexion'
val_col_complexion = val_unicos_col(df, col_name)
val_col_complexion

{'DELGADA',
 'MEDIANA',
 'NO ESPECIFICADO',
 'No Especificado',
 'OBESA',
 'ROBUSTA'}

De lo anterior podemos observar que en particular en nuestro dataset hay dos formas de especificar que un valor es `NA`:
Puede ser escrito como `"NO ESPECIFICADO"` o como `No Especificado`. Habría que manejar estas dos formas de escribir el valor en la limpieza de los datos.

¿Hay más registros con valor `No Especificado`?

In [31]:
## TODO

## Checar si no hay "NO ESPECIFICADO"s escritos de forma distinta.

Podemos preguntarnos si el campo `Sexo` permite el registro de gente no binaria.

In [32]:
col_name = 'Sexo'
val_col_sexo = val_unicos_col(df, col_name)
val_col_sexo

{'HOMBRE', 'MUJER'}

Por lo tanto, la variable `Sexo` sólo admite dos valores: `HOMBRE` y `MUJER`.

Veamos cuál es el rango de edad:

In [33]:
col_name = 'Edad'
val_col_edad = val_unicos_col(df, col_name)
val_col_edad

lista = list(
    map(
        lambda x: int(x) if x.isdigit() else -1, 
        val_col_edad
    )
)
lista.sort()

print(f'El mínimo es {lista[1]} año(s) y el máximo es de {lista[len(lista)-1]} año(s)')

El mínimo es 1 año(s) y el máximo es de 103 año(s)


Entonces, el rango de edad va desde 1 año hasta 103 años.

Ahora investiguemos cuál es el rango de alturas:

In [34]:
def isfloat(s):
    try:
        float(s)
        
        return True
    except:
        return False

col_name = 'Estatura'
val_col_estatura = val_unicos_col(df, col_name)
val_col_estatura

lista = list(
    map(
        lambda x: float(x) if isfloat(x) else -1, 
        val_col_estatura
    )
)
lista.sort()
lista = list(
    filter(lambda x: x != -1, lista)
)

print(f'El mínimo de altura es de {lista[0]} centimetros y el máximo es de altura es de {lista[len(lista)-1]} centimetros')

El mínimo de altura es de 0.3 centimetros y el máximo es de altura es de 170.0 centimetros


Por lo tanto, el rango de altura es de 0.3 cm a 170.0 cm.

Cabe destacar que hubieron valores `NO ESPECIFICADO` (`NA`s), por lo que deben limpiarse según convenga.

Los valores que toma la variable `Etnia` son

In [35]:
col_name = 'Etnia'

val_col_etnia = val_unicos_col(df, col_name)
val_col_etnia

{'AMUZGOS OAXACA',
 'CHATINOS',
 'CHICHIMECAS',
 'CHINANTECOS',
 'CHOLES',
 'HUASTECOS',
 'HUICHOLES',
 'MAMES',
 'MAYAS',
 'MEXICANEROS',
 'MIXTECOS',
 'NAHUAS',
 'NO ESPECIFICADO',
 'OTOMIES',
 'PAMES',
 'SERIS',
 'TARAHUMARAS - RARAMURI',
 'TLALPANECOS',
 'TOTONACAS',
 'YAQUIS'}

Otra variable de interés es la variable `Discapacidad`.

In [36]:
col_name = 'Discapacidad'

val_col_discapacidad = val_unicos_col(df, col_name)
val_col_discapacidad

{'AUTISMO', 'NINGUNO', 'NO ESPECIFICADO', 'SINDROME DE DOWN'}

Del bloque anterior podemos apreciar que son 4 posibles valores: `AUTISMO`, `NINGUNO`, `NO ESPECIFICADO` y `SINDROME DE DOWN`

Finalmente, procedemos a investigar la variable `Dependencia que envio la informacion`

In [37]:
col_name = 'Dependencia que envio la informacion'

val_col_dependencia = val_unicos_col(df, col_name)
val_col_dependencia

{'FGE - AGUASCALIENTES',
 'FGE - CAMPECHE',
 'FGE - CHIAPAS',
 'FGE - CHIHUAHUA',
 'FGE - COAHUILA',
 'FGE - DURANGO',
 'FGE - GUERRERO',
 'FGE - JALISCO',
 'FGE - MORELOS',
 'FGE - NAYARIT',
 'FGE - OAXACA',
 'FGE - PUEBLA',
 'FGE - QUERETARO',
 'FGE - QUINTANA ROO',
 'FGE - SAN LUIS POTOSI',
 'FGE - SINALOA',
 'FGE - SONORA',
 'FGE - TABASCO',
 'FGE - VERACRUZ',
 'FGE - YUCATAN',
 'FGE - ZACATECAS',
 'FGJ - ESTADO DE MEXICO',
 'PGJ - BAJA CALIFORNIA',
 'PGJ - BAJA CALIFORNIA SUR',
 'PGJ - CIUDAD DE MEXICO',
 'PGJ - COLIMA',
 'PGJ - GUANAJUATO',
 'PGJ - HIDALGO',
 'PGJ - MICHOACAN',
 'PGJ - NUEVO LEON',
 'PGJ - TAMAULIPAS',
 'PGJ - TLAXCALA'}

### **Conclusiones del primer análisis exploratorio de datos**

Nuestro dataset está constituido de 36265 observaciones de 15 variables indizadas del 0 al 36264. Nuestras variables son

| Variable |
| -------  |
| Fecha en que se le vio por ultima vez        |
| Hora en que se le vio por ultima vez         |
| Pais en que se le vio por ultima vez         |
| Entidad en que se le vio por ultima vez      |
| Municipio en que se le vio por ultima vez    |
| Localidad en que se le vio por ultima vez    |
| Nacionalidad                                 |
| Estatura                                     |
| Complexion                                   |
| Sexo                                         |
| Edad                                         |
| Descripcion de senas particulares            |
| Etnia                                        |
| Discapacidad                                 |
| Dependencia que envio la informacion         |

De una observación preliminar de los primeros y últimos 10 datos podemos observar que el tipo de dato inferido por pandas es erróneo (el tipo de dato inferido fue `object`).

La propuesta es la siguiente:

| Variable | Tipo |
| -------  | ---- |
| Fecha en que se le vio por ultima vez        | Fecha con formato 'yyyy-mm-dd' |
| Hora en que se le vio por ultima vez         | Hora con formato 'hh:mm:ss' |
| Pais en que se le vio por ultima vez         | Categórico (`MEXICO`) |
| Entidad en que se le vio por ultima vez      | Categórico (valores de `val_col_entidad`) |
| Municipio en que se le vio por ultima vez    | Categórica (valores de `val_col_municipio`) |
| Localidad en que se le vio por ultima vez    | Categórica (valores de `val_col_localidad`) |
| Nacionalidad                                 | Categórica (valores de `val_col_nacionalidad`) |
| Estatura                                     | Numérico float64 (`0.3` a `170.0`) |
| Complexion                                   | Categórica (`DELGADA`, `MEDIANA`, `NO ESPECIFICADA`, `OBESA`, `ROBUSTA`) |
| Sexo                                         | Categórica (`HOMBRE`, `MUJER`) |
| Edad                                         | Numérico int64 (`1` a `103`) |
| Descripcion de senas particulares            | object (string) |
| Etnia                                        | Categórica (valores de  `val_col_etnia`)|
| Discapacidad                                 | Categórica (`AUTISMO`, `NINGUNO`, `NO ESPECIFICADO`, `SINDROME DE DOWN`) |
| Dependencia que envio la informacion         | Categórica (valores de `val_col_dependencia`) |

# **Transformación y limpieza de los datos**

Conocemo los tipos de datos del Dataframe original

In [38]:
df.dtypes

Fecha en que se le vio por ultima vez        object
Hora en que se le vio por ultima vez         object
Pais en que se le vio por ultima vez         object
Entidad en que se le vio por ultima vez      object
Municipio en que se le vio por ultima vez    object
Localidad en que se le vio por ultima vez    object
Nacionalidad                                 object
Estatura                                     object
Complexion                                   object
Sexo                                         object
Edad                                         object
Descripcion de senas particulares            object
Etnia                                        object
Discapacidad                                 object
Dependencia que envio la informacion         object
dtype: object

Buscamos NANS

In [39]:
#Exploramos NAN
df.isna().sum()

Fecha en que se le vio por ultima vez        0
Hora en que se le vio por ultima vez         0
Pais en que se le vio por ultima vez         0
Entidad en que se le vio por ultima vez      0
Municipio en que se le vio por ultima vez    0
Localidad en que se le vio por ultima vez    0
Nacionalidad                                 0
Estatura                                     0
Complexion                                   0
Sexo                                         0
Edad                                         0
Descripcion de senas particulares            0
Etnia                                        0
Discapacidad                                 0
Dependencia que envio la informacion         0
dtype: int64

Como vemos que el index empieza con 0, lo reindexamos para iniciar con 1 hasta el 36265 y se lo aplicamos a un Dataframe, conservando el original


In [40]:
fin=len(df.index)
#fin
lst = list(np.arange(1,fin+1))
#lst
len(lst)
df_2=df.reindex(lst, method='ffill')
df_2

Unnamed: 0,Fecha en que se le vio por ultima vez,Hora en que se le vio por ultima vez,Pais en que se le vio por ultima vez,Entidad en que se le vio por ultima vez,Municipio en que se le vio por ultima vez,Localidad en que se le vio por ultima vez,Nacionalidad,Estatura,Complexion,Sexo,Edad,Descripcion de senas particulares,Etnia,Discapacidad,Dependencia que envio la informacion
1,2007-02-05,02:00:26,MEXICO,ESTADO DE MEXICO,VALLE DE BRAVO,VALLE DE BRAVO,MEXICANA,1.1,DELGADA,MUJER,4,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
2,2009-03-14,08:30:54,MEXICO,ESTADO DE MEXICO,CHALCO,CHALCO,MEXICANA,1.1,DELGADA,HOMBRE,6,"MANCHAS, PARTE SUPERIOR DE PIERNA DERECHA, CIC...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
3,2006-12-23,08:00:28,MEXICO,ESTADO DE MEXICO,TLALNEPANTLA DE BAZ,TLALNEPANTLA DE BAZ,MEXICANA,1.1,DELGADA,HOMBRE,10,"LUNARES, A LA ALTURA DE LA CINTURAFORMA DE MAN...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
4,2008-01-11,12:00:17,MEXICO,ESTADO DE MEXICO,TOLUCA,TOLUCA,MEXICANA,1.1,DELGADA,HOMBRE,4,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
5,2012-05-27,12:00:43,MEXICO,ESTADO DE MEXICO,NICOLAS ROMERO,NICOLAS ROMERO,MEXICANA,1.1,DELGADA,HOMBRE,9,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
36261,2018-01-08,11:00:00,MEXICO,COLIMA,VILLA DE ALVAREZ,VILLA DE ALVAREZ,MEXICANA,1.7,ROBUSTA,MUJER,27,"EL OJO IZQUIERDO TIENE UN ENFERMEDAD COMO TIC,...",NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36262,2015-02-02,07:00:00,MEXICO,PUEBLA,CHILA,CHILAS DE LAS FLORES,MEXICANA,1.77,MEDIANA,MUJER,86,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36263,2017-08-22,04:00:00,MEXICO,COLIMA,VILLA DE ALVAREZ,VILLA DE ALVAREZ,MEXICANA,1.76,ROBUSTA,HOMBRE,41,TATUAJE EN EL BRAZO IZQUIERDO CON LA IMAGEN DE...,NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36264,2018-04-11,02:00:00,MEXICO,NUEVO LEON,SAN NICOLAS DE LOS GARZA,SAN NICOLAS DE LOS GARZA,MEXICANA,1.6,DELGADA,MUJER,14,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,PGJ - NUEVO LEON


Observamos el nombre de las columnas, las primeras 6 se pueden estandarizar y las demas para cumplir la convención

In [41]:
# Se contruye un mapeo con el nombre de las columnas esperados
column_name_mapping = {
    'Fecha en que se le vio por ultima vez': 'fecha',
    'Hora en que se le vio por ultima vez': 'hora',
    'Pais en que se le vio por ultima vez': 'pais',
    'Entidad en que se le vio por ultima vez': 'entidad',
    'Municipio en que se le vio por ultima vez': 'municipio',
    'Localidad en que se le vio por ultima vez': 'localidad',
    'Nacionalidad': 'nacionalidad',
    'Estatura': 'estatura',
    'Complexion': 'complexion',
    'Sexo': 'sexo',
    'Edad': 'edad',
    'Descripcion de senas particulares': 'senas_particulares',
    'Etnia': 'etnia',
    'Discapacidad': 'discapacidad',
    'Dependencia que envio la informacion': 'dependecia_origen'
    
}
df_2 = df_2.rename(columns=column_name_mapping)
df_2

Unnamed: 0,fecha,hora,pais,entidad,municipio,localidad,nacionalidad,estatura,complexion,sexo,edad,senas_particulares,etnia,discapacidad,dependecia_origen
1,2007-02-05,02:00:26,MEXICO,ESTADO DE MEXICO,VALLE DE BRAVO,VALLE DE BRAVO,MEXICANA,1.1,DELGADA,MUJER,4,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
2,2009-03-14,08:30:54,MEXICO,ESTADO DE MEXICO,CHALCO,CHALCO,MEXICANA,1.1,DELGADA,HOMBRE,6,"MANCHAS, PARTE SUPERIOR DE PIERNA DERECHA, CIC...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
3,2006-12-23,08:00:28,MEXICO,ESTADO DE MEXICO,TLALNEPANTLA DE BAZ,TLALNEPANTLA DE BAZ,MEXICANA,1.1,DELGADA,HOMBRE,10,"LUNARES, A LA ALTURA DE LA CINTURAFORMA DE MAN...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
4,2008-01-11,12:00:17,MEXICO,ESTADO DE MEXICO,TOLUCA,TOLUCA,MEXICANA,1.1,DELGADA,HOMBRE,4,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
5,2012-05-27,12:00:43,MEXICO,ESTADO DE MEXICO,NICOLAS ROMERO,NICOLAS ROMERO,MEXICANA,1.1,DELGADA,HOMBRE,9,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
36261,2018-01-08,11:00:00,MEXICO,COLIMA,VILLA DE ALVAREZ,VILLA DE ALVAREZ,MEXICANA,1.7,ROBUSTA,MUJER,27,"EL OJO IZQUIERDO TIENE UN ENFERMEDAD COMO TIC,...",NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36262,2015-02-02,07:00:00,MEXICO,PUEBLA,CHILA,CHILAS DE LAS FLORES,MEXICANA,1.77,MEDIANA,MUJER,86,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36263,2017-08-22,04:00:00,MEXICO,COLIMA,VILLA DE ALVAREZ,VILLA DE ALVAREZ,MEXICANA,1.76,ROBUSTA,HOMBRE,41,TATUAJE EN EL BRAZO IZQUIERDO CON LA IMAGEN DE...,NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36264,2018-04-11,02:00:00,MEXICO,NUEVO LEON,SAN NICOLAS DE LOS GARZA,SAN NICOLAS DE LOS GARZA,MEXICANA,1.6,DELGADA,MUJER,14,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,PGJ - NUEVO LEON


En nuestro Dataframe nos dimos cuenta que no tenemos NANS, sin embargo tenemos valores con la leyenda "NO ESPECIFICADO"

In [42]:
# Explorandovalores denominados "NO ESPECIFICADOS"
print(f'{("Columna"):42} =NO ESPECIFICADO= \n')
for col in df_2.columns:
    print(f'{(col):42} | {(df_2[col] == "NO ESPECIFICADO").sum()}')

Columna                                    =NO ESPECIFICADO= 

fecha                                      | 338
hora                                       | 16
pais                                       | 0
entidad                                    | 29
municipio                                  | 668
localidad                                  | 3413
nacionalidad                               | 2040
estatura                                   | 11007
complexion                                 | 10569
sexo                                       | 0
edad                                       | 3156
senas_particulares                         | 18915
etnia                                      | 36133
discapacidad                               | 1047
dependecia_origen                          | 0


In [43]:
# INICIAMOS CON LA LIMPIEZA DE DATOS
#
# Quitamos los no especificados del campo fecha, colocando en su lugar otra cadena =0000-00-00
df_2.loc[df_2['fecha'] == 'NO ESPECIFICADO', 'fecha'] = '0000-00-00'
#Revisamos de nuevo 
print(f'{("Columna"):42} =NO ESPECIFICADO= \n')
for col in df_2.columns:
    print(f'{(col):42} | {(df_2[col] == "NO ESPECIFICADO").sum()}')

Columna                                    =NO ESPECIFICADO= 

fecha                                      | 0
hora                                       | 16
pais                                       | 0
entidad                                    | 29
municipio                                  | 668
localidad                                  | 3413
nacionalidad                               | 2040
estatura                                   | 11007
complexion                                 | 10569
sexo                                       | 0
edad                                       | 3156
senas_particulares                         | 18915
etnia                                      | 36133
discapacidad                               | 1047
dependecia_origen                          | 0


In [44]:
#Convertimos el tipo de dato de fecha_ultvz especificando que si hay un error que continue
df_2['fecha']= pd.to_datetime(df_2['fecha'],errors='coerce')

#Convertimos la serie de edad a numerico con pd.to_numeric, inidicando que si encuentra error que continue, pero los pone como NAN
df_2['edad']= pd.to_numeric(df_2['edad'],errors='coerce')
#rellenamos los NAN de Edad con la media
mean_value=df_2['edad'].mean() 
mean_value=round(mean_value)
df_2["edad"].fillna(value=mean_value, inplace=True)
#Ahora si convertimos la columna edad a int
df_2["edad"]= df_2["edad"].astype(int)
df_2.dtypes

fecha                 datetime64[ns]
hora                          object
pais                          object
entidad                       object
municipio                     object
localidad                     object
nacionalidad                  object
estatura                      object
complexion                    object
sexo                          object
edad                           int64
senas_particulares            object
etnia                         object
discapacidad                  object
dependecia_origen             object
dtype: object

**Queremos saber ¿en que estado de la republica mexicana existen más sujetos extraviados?**

In [45]:
# CONSTRUIMOS NUEVOS DATA FRAMES PARA INTENTAR RESPONDER LAS PREGUNTAS PLANTEADAS
estados= pd.Series(df_2['entidad'], name='Estado')
cuenta = df_2.groupby(['entidad']).size()
df_freq_estados = pd.DataFrame(df_2.groupby(['entidad']).size())
df_freq_estados = df_freq_estados.rename(columns = {0:"frecuencia"})
# Ordenamos el Data Frame en forme descendente
df_freq_estados.sort_values('frecuencia', ascending=False, inplace=True)
print(f'El estado con más sujetos extraviados es {df_freq_estados.index[0]} con {df_freq_estados["frecuencia"][0]} ')

El estado con más sujetos extraviados es TAMAULIPAS con 5990 


Ahora presentamos completo el data frame con todas las entidades y numeros de sujetos extraviados

In [46]:
df_freq_estados

Unnamed: 0_level_0,frecuencia
entidad,Unnamed: 1_level_1
TAMAULIPAS,5990
ESTADO DE MEXICO,3890
JALISCO,3362
SINALOA,3027
NUEVO LEON,2896
CHIHUAHUA,2186
SONORA,2149
PUEBLA,2069
COAHUILA DE ZARAGOZA,1753
GUERRERO,1482


**Queremos saber si ¿en México se extravian solo mexicanos?**

In [96]:
df_nac=pd.DataFrame(pd.crosstab(df_2['nacionalidad'],  columns='recuento', colnames=['nacionalidad']))
#df_nac

print(f'En Méxio estan perdidas personas de {len(df_nac.index)} nacionalidades, dstribuidos de la siguiente manera: \n')
df_nac.sort_values('recuento', ascending=False, inplace=True)
df_nac
#df3=df_nac.merge(df_nac,left_on=f, right_on= how='left')

En Méxio estan perdidas personas de 26 nacionalidades, dstribuidos de la siguiente manera: 



nacionalidad,recuento
nacionalidad,Unnamed: 1_level_1
MEXICANA,34016
NO ESPECIFICADO,2040
ESTADOUNIDENSE,124
HONDUREÑA,24
GUATEMALTECO,12
COLOMBIANA,9
SALVADOREÑA,8
VENEZOLANA,4
ITALIANA,3
ESPAÑOLA,3
