# Adquisición de datos

Para poder leer y manipular los datos, primero debemos importar `pandas`, paquete de Python que nos permite manipular datos de forma eficiente y además nos permite leer archivos con extensión `.csv` entre otras.

In [None]:
import pandas as pd

In [None]:
# URL o PATH, dependiendo el caso, de donde cargamos el archivo a analizar
path_al_csv = 'https://raw.githubusercontent.com/MinervaNunez/Proyecto-de-Python-BEDU/main/RNPEDFC.csv'

# Almacenamos el archivo csv en una estructura de datos para su correcta manipulación y análisis
df = pd.read_csv(path_al_csv, sep = ',', encoding = 'latin-1')

# Análisis exploratorio de datos

Seguimos la metodología vista en clase.

Primero, obtenemos las dimensiones de nuestro `DataFrame`.

In [None]:
df.shape

(36265, 15)

La celda anterior nos dice que nuestro dataframe tiene 36265 renglones (observaciones), y 15 columnas (variables).

Veamos cuáles son nuestras variables.

In [None]:
df.columns

Index(['Fecha en que se le vio por ultima vez',
       'Hora en que se le vio por ultima vez',
       'Pais en que se le vio por ultima vez',
       'Entidad en que se le vio por ultima vez',
       'Municipio en que se le vio por ultima vez',
       'Localidad en que se le vio por ultima vez', 'Nacionalidad', 'Estatura',
       'Complexion', 'Sexo', 'Edad', 'Descripcion de senas particulares',
       'Etnia', 'Discapacidad', 'Dependencia que envio la informacion'],
      dtype='object')

In [None]:
df.dtypes

Fecha en que se le vio por ultima vez        object
Hora en que se le vio por ultima vez         object
Pais en que se le vio por ultima vez         object
Entidad en que se le vio por ultima vez      object
Municipio en que se le vio por ultima vez    object
Localidad en que se le vio por ultima vez    object
Nacionalidad                                 object
Estatura                                     object
Complexion                                   object
Sexo                                         object
Edad                                         object
Descripcion de senas particulares            object
Etnia                                        object
Discapacidad                                 object
Dependencia que envio la informacion         object
dtype: object

De acuerdo con el resultado de la anterior celda, nuestras 15 variables y sus tipos de datos (por defecto) son:
    
| Variable | Tipo |
| -------  | ---- |
| Fecha en que se le vio por ultima vez        | object |
| Hora en que se le vio por ultima vez         | object |
| Pais en que se le vio por ultima vez         | object |
| Entidad en que se le vio por ultima vez      | object |
| Municipio en que se le vio por ultima vez    | object |
| Localidad en que se le vio por ultima vez    | object |
| Nacionalidad                                 | object |
| Estatura                                     | object |
| Complexion                                   | object |
| Sexo                                         | object |
| Edad                                         | object |
| Descripcion de senas particulares            | object |
| Etnia                                        | object |
| Discapacidad                                 | object |
| Dependencia que envio la informacion         | object |


In [None]:
df.index

RangeIndex(start=0, stop=36265, step=1)

Del anterior comando, `pandas` nos dice que nuestras observaciones están indizadas por valores numéricos que empiezan desde el 0 y terminan en 36265.

Finalmente, echamos un vistazo a los datos para darnos una mejor idea de cómo está compuesto nuestro `DataFrame` a analizar.

In [None]:
df.head(10)

Unnamed: 0,Fecha en que se le vio por ultima vez,Hora en que se le vio por ultima vez,Pais en que se le vio por ultima vez,Entidad en que se le vio por ultima vez,Municipio en que se le vio por ultima vez,Localidad en que se le vio por ultima vez,Nacionalidad,Estatura,Complexion,Sexo,Edad,Descripcion de senas particulares,Etnia,Discapacidad,Dependencia que envio la informacion
0,2012-03-18,05:00:00,MEXICO,SONORA,NAVOJOA,NAVOJOA,MEXICANA,1.1,DELGADA,MUJER,7,TIENE UNA CICATRIZ EN LA RODILLA IZQUIERDA POR...,NO ESPECIFICADO,NINGUNO,FGE - SONORA
1,2007-02-05,02:00:26,MEXICO,ESTADO DE MEXICO,VALLE DE BRAVO,VALLE DE BRAVO,MEXICANA,1.1,DELGADA,MUJER,4,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
2,2009-03-14,08:30:54,MEXICO,ESTADO DE MEXICO,CHALCO,CHALCO,MEXICANA,1.1,DELGADA,HOMBRE,6,"MANCHAS, PARTE SUPERIOR DE PIERNA DERECHA, CIC...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
3,2006-12-23,08:00:28,MEXICO,ESTADO DE MEXICO,TLALNEPANTLA DE BAZ,TLALNEPANTLA DE BAZ,MEXICANA,1.1,DELGADA,HOMBRE,10,"LUNARES, A LA ALTURA DE LA CINTURAFORMA DE MAN...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
4,2008-01-11,12:00:17,MEXICO,ESTADO DE MEXICO,TOLUCA,TOLUCA,MEXICANA,1.1,DELGADA,HOMBRE,4,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
5,2012-05-27,12:00:43,MEXICO,ESTADO DE MEXICO,NICOLAS ROMERO,NICOLAS ROMERO,MEXICANA,1.1,DELGADA,HOMBRE,9,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
6,2010-07-05,11:00:00,MEXICO,CHIHUAHUA,BOCOYNA,CERRO LA VIRGEN,MEXICANA,1.1,DELGADA,HOMBRE,7,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGE - CHIHUAHUA
7,2011-06-13,01:00:11,MEXICO,ESTADO DE MEXICO,AMECAMECA,AMECAMECA,MEXICANA,1.15,ROBUSTA,MUJER,7,"MANCHAS, EN EL TOBILLODERECHA CAUSADA PORQUEMA...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
8,2010-04-24,01:00:47,MEXICO,ESTADO DE MEXICO,TEOLOYUCAN,TEOLOYUCAN,MEXICANA,1.15,DELGADA,HOMBRE,6,"CICATRICES, EN LA CARAVARICELA POCAS",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
9,2009-02-09,02:30:00,MEXICO,TLAXCALA,TLAXCALA,TLAXCALA,MEXICANA,1.59,MEDIANA,MUJER,13,"LUNARES EN CUELLO, EN INDICE IZQ Y ARCO DEL PI...",NO ESPECIFICADO,NINGUNO,PGJ - TLAXCALA


In [None]:
df.tail(10)

Unnamed: 0,Fecha en que se le vio por ultima vez,Hora en que se le vio por ultima vez,Pais en que se le vio por ultima vez,Entidad en que se le vio por ultima vez,Municipio en que se le vio por ultima vez,Localidad en que se le vio por ultima vez,Nacionalidad,Estatura,Complexion,Sexo,Edad,Descripcion de senas particulares,Etnia,Discapacidad,Dependencia que envio la informacion
36255,2018-04-25,06:30:00,MEXICO,PUEBLA,SAN MARTIN TEXMELUCAN,SAN MARTIN TEXMELUCAN,MEXICANA,1.7,DELGADA,HOMBRE,26,"PECAS EN EL ROSTRO, PERFORACION EN LA ORJA IZQ...",NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36256,2018-04-22,11:30:00,MEXICO,PUEBLA,PUEBLA,PUEBLA,MEXICANA,1.52,DELGADA,MUJER,18,PERFORACION EN LA LENGUA Y MANCHA BLANCA EN ME...,NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36257,2017-07-02,11:14:59,MEXICO,SONORA,CANANEA,CANANEA,MEXICANA,NO ESPECIFICADO,NO ESPECIFICADO,HOMBRE,NO ESPECIFICADO,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGE - SONORA
36258,2017-04-06,02:00:00,MEXICO,COLIMA,MANZANILLO,SANTIAGO,MEXICANA,1.71,ROBUSTA,HOMBRE,22,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36259,2018-04-15,06:30:00,MEXICO,COLIMA,COLIMA,COLIMA,MEXICANA,1.59,ROBUSTA,HOMBRE,57,TIENE UNA CICATRIZ EN LA PARTE BAJA DE SU ABDO...,NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36260,2018-04-26,08:00:00,MEXICO,PUEBLA,PUEBLA,PUEBLA,MEXICANA,1.6,DELGADA,HOMBRE,22,LUNAR EN LA MEJILLA Y TATUAJE EN EL CUELLO EN ...,NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36261,2018-01-08,11:00:00,MEXICO,COLIMA,VILLA DE ALVAREZ,VILLA DE ALVAREZ,MEXICANA,1.7,ROBUSTA,MUJER,27,"EL OJO IZQUIERDO TIENE UN ENFERMEDAD COMO TIC,...",NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36262,2015-02-02,07:00:00,MEXICO,PUEBLA,CHILA,CHILAS DE LAS FLORES,MEXICANA,1.77,MEDIANA,MUJER,86,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36263,2017-08-22,04:00:00,MEXICO,COLIMA,VILLA DE ALVAREZ,VILLA DE ALVAREZ,MEXICANA,1.76,ROBUSTA,HOMBRE,41,TATUAJE EN EL BRAZO IZQUIERDO CON LA IMAGEN DE...,NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36264,2018-04-11,02:00:00,MEXICO,NUEVO LEON,SAN NICOLAS DE LOS GARZA,SAN NICOLAS DE LOS GARZA,MEXICANA,1.6,DELGADA,MUJER,14,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,PGJ - NUEVO LEON


Del vistazo a los últimos 10 valores de nuestro dataset podemos observar que nuestro dataset contiene algunos datos faltantes etiquetados por el valor `NO ESPECIFICADO`.

¿Será que existe alguna observación para la cual el pais donde se le vió por última vez sea distinto de México?
Para contestar esta incógnita podemos ver si la cantidad de registros que satisfacen que `df['Pais en que se le vio por ultima vez'] != 'MEXICO']` es mayor a 0

In [None]:
len(df.loc[df['Pais en que se le vio por ultima vez'] != 'MEXICO']) > 0

False

Como la instrucción anterior retornó `False`, entonces el País en el que se le vio por última vez siempre es México.

¿Cuáles son todos los posibles valores que puede tomar la variable `Entidad en que se le vio por ultima vez`?

In [None]:
def val_unicos_col(df, col_name):
    return set(df[col_name])

col_name = 'Entidad en que se le vio por ultima vez'

val_col_entidad = val_unicos_col(df, col_name)
val_col_entidad

{'AGUASCALIENTES',
 'BAJA CALIFORNIA',
 'BAJA CALIFORNIA SUR',
 'CAMPECHE',
 'CHIAPAS',
 'CHIHUAHUA',
 'CIUDAD DE MEXICO',
 'COAHUILA DE ZARAGOZA',
 'COLIMA',
 'DURANGO',
 'ESTADO DE MEXICO',
 'GUANAJUATO',
 'GUERRERO',
 'HIDALGO',
 'JALISCO',
 'MICHOACAN',
 'MORELOS',
 'NAYARIT',
 'NO ESPECIFICADO',
 'NUEVO LEON',
 'OAXACA',
 'PUEBLA',
 'QUERETARO',
 'QUINTANA ROO',
 'SAN LUIS POTOSI',
 'SINALOA',
 'SONORA',
 'TABASCO',
 'TAMAULIPAS',
 'TLAXCALA',
 'VERACRUZ',
 'YUCATAN',
 'ZACATECAS'}

¿Cuáles son todos los posibles valores que puede tomar la variable `Municipio en que se le vio por ultima vez`?

In [None]:
col_name = 'Municipio en que se le vio por ultima vez'

val_col_municipio = val_unicos_col(df, col_name)
val_col_municipio
len(val_col_municipio)

1068

Vemos que son muchos los municipios, por lo que mejor preguntamos por la cantidad de municipios únicos. La respuesta a esta pregunta es 1068 municipios únicos.


¿Cuáles son todos los posibles valores que puede tomar la variable `Localidad en que se le vio por ultima vez`?

In [None]:
col_name = 'Localidad en que se le vio por ultima vez'

val_col_localidad = val_unicos_col(df, col_name)
val_col_localidad
len(val_col_localidad)

2676

De nuevo, vemos que son muchas las localidades, por lo que mejor preguntamos por la cantidad de valores únicos que toma la variable. La respuesta a esta pregunta es 2676 localidades únicas.


Vale la pena preguntarse si la variable `Nacionalidad` toma valores distintos de `MEXICANA`.

In [None]:
col_name = 'Nacionalidad'

val_col_nacionalidad = val_unicos_col(df, col_name)
len(val_col_nacionalidad)

26

Como la cantidad de elementos distintos en la columna es 26, entonces podemos afirmar que en efecto la variable `Nacionalidad` toma valores distintos de `MEXICANA`.

De igual forma podemos investigar qué valores únicos puede tomar la variable `Complexion`.

In [None]:
col_name = 'Complexion'
val_col_complexion = val_unicos_col(df, col_name)
val_col_complexion

{'DELGADA',
 'MEDIANA',
 'NO ESPECIFICADO',
 'No Especificado',
 'OBESA',
 'ROBUSTA'}

De lo anterior podemos observar que en particular en nuestro dataset hay dos formas de especificar que un valor es `NA`:
Puede ser escrito como `"NO ESPECIFICADO"` o como `No Especificado`. Habría que manejar estas dos formas de escribir el valor en la limpieza de los datos.

¿Hay más registros con valor `No Especificado`?

In [None]:
## TODO

## Checar si no hay "NO ESPECIFICADO"s escritos de forma distinta.

{'Fecha en que se le vio por ultima vez': {'2014-10-14', '2018-03-13', '2017-03-28', '2011-06-18', '2008-12-16', '2014-07-09', '2015-12-05', '2014-01-26', '2013-05-02', '2015-09-23', '2018-04-12', '2007-02-27', '2014-05-30', '2011-05-12', '2017-11-22', '2012-02-17', '2014-04-12', '2014-04-14', '2017-02-27', '2011-05-26', '2009-06-24', '2011-07-28', '2011-06-05', '2013-08-04', '2012-08-22', '2012-11-17', '2012-05-24', '2013-04-21', '2013-06-28', '2010-06-01', '2014-04-16', '2016-03-11', '2010-03-26', '2014-07-05', '2015-10-11', '2007-06-27', '2018-01-24', '2009-01-29', '2017-05-30', '2015-03-08', '2012-04-05', '2010-12-12', '2015-09-02', '2009-02-06', '2010-10-26', '2016-01-07', '2014-05-18', '2008-12-11', '2009-11-02', '2004-06-30', '2015-08-31', '2014-01-18', '2009-08-28', '2015-02-01', '2012-11-02', '2011-09-16', '2014-11-06', '2014-10-30', '2016-02-09', '2011-12-18', '2010-03-20', '2010-03-22', '2017-10-10', '2010-11-14', '2014-09-27', '2014-12-13', '2008-12-06', '2011-09-23', '2010

Podemos preguntarnos si el campo `Sexo` permite el registro de gente no binaria.

In [None]:
col_name = 'Sexo'
val_col_sexo = val_unicos_col(df, col_name)
val_col_sexo

{'HOMBRE', 'MUJER'}

Por lo tanto, la variable `Sexo` sólo admite dos valores: `HOMBRE` y `MUJER`.

Veamos cuál es el rango de edad:

In [None]:
col_name = 'Edad'
val_col_edad = val_unicos_col(df, col_name)
val_col_edad

lista = list(
    map(
        lambda x: int(x) if x.isdigit() else -1, 
        val_col_edad
    )
)
lista.sort()

print(f'El mínimo es {lista[1]} año(s) y el máximo es de {lista[len(lista)-1]} año(s)')

El mínimo es 1 año(s) y el máximo es de 103 año(s)


Entonces, el rango de edad va desde 1 año hasta 103 años.

Ahora investiguemos cuál es el rango de alturas:

In [None]:
def isfloat(s):
    try:
        float(s)
        
        return True
    except:
        return False

col_name = 'Estatura'
val_col_estatura = val_unicos_col(df, col_name)
val_col_estatura

lista = list(
    map(
        lambda x: float(x) if isfloat(x) else -1, 
        val_col_estatura
    )
)
lista.sort()
lista = list(
    filter(lambda x: x != -1, lista)
)

print(f'El mínimo de altura es de {lista[0]} centimetros y el máximo es de altura es de {lista[len(lista)-1]} centimetros')

El mínimo de altura es de 0.3 centimetros y el máximo es de altura es de 170.0 centimetros


Por lo tanto, el rango de altura es de 0.3 cm a 170.0 cm.

Cabe destacar que hubieron valores `NO ESPECIFICADO` (`NA`s), por lo que deben limpiarse según convenga.

Los valores que toma la variable `Etnia` son

In [None]:
col_name = 'Etnia'

val_col_etnia = val_unicos_col(df, col_name)
val_col_etnia

{'AMUZGOS OAXACA',
 'CHATINOS',
 'CHICHIMECAS',
 'CHINANTECOS',
 'CHOLES',
 'HUASTECOS',
 'HUICHOLES',
 'MAMES',
 'MAYAS',
 'MEXICANEROS',
 'MIXTECOS',
 'NAHUAS',
 'NO ESPECIFICADO',
 'OTOMIES',
 'PAMES',
 'SERIS',
 'TARAHUMARAS - RARAMURI',
 'TLALPANECOS',
 'TOTONACAS',
 'YAQUIS'}

Otra variable de interés es la variable `Discapacidad`.

In [None]:
col_name = 'Discapacidad'

val_col_discapacidad = val_unicos_col(df, col_name)
val_col_discapacidad

{'AUTISMO', 'NINGUNO', 'NO ESPECIFICADO', 'SINDROME DE DOWN'}

Del bloque anterior podemos apreciar que son 4 posibles valores: `AUTISMO`, `NINGUNO`, `NO ESPECIFICADO` y `SINDROME DE DOWN`

Finalmente, procedemos a investigar la variable `Dependencia que envio la informacion`

In [None]:
col_name = 'Dependencia que envio la informacion'

val_col_dependencia = val_unicos_col(df, col_name)
val_col_dependencia

{'FGE - AGUASCALIENTES',
 'FGE - CAMPECHE',
 'FGE - CHIAPAS',
 'FGE - CHIHUAHUA',
 'FGE - COAHUILA',
 'FGE - DURANGO',
 'FGE - GUERRERO',
 'FGE - JALISCO',
 'FGE - MORELOS',
 'FGE - NAYARIT',
 'FGE - OAXACA',
 'FGE - PUEBLA',
 'FGE - QUERETARO',
 'FGE - QUINTANA ROO',
 'FGE - SAN LUIS POTOSI',
 'FGE - SINALOA',
 'FGE - SONORA',
 'FGE - TABASCO',
 'FGE - VERACRUZ',
 'FGE - YUCATAN',
 'FGE - ZACATECAS',
 'FGJ - ESTADO DE MEXICO',
 'PGJ - BAJA CALIFORNIA',
 'PGJ - BAJA CALIFORNIA SUR',
 'PGJ - CIUDAD DE MEXICO',
 'PGJ - COLIMA',
 'PGJ - GUANAJUATO',
 'PGJ - HIDALGO',
 'PGJ - MICHOACAN',
 'PGJ - NUEVO LEON',
 'PGJ - TAMAULIPAS',
 'PGJ - TLAXCALA'}

# Conclusiones del primer análisis exploratorio de datos

Nuestro dataset está constituido de 36265 observaciones de 15 variables indizadas del 0 al 36264. Nuestras variables son

| Variable |
| -------  |
| Fecha en que se le vio por ultima vez        |
| Hora en que se le vio por ultima vez         |
| Pais en que se le vio por ultima vez         |
| Entidad en que se le vio por ultima vez      |
| Municipio en que se le vio por ultima vez    |
| Localidad en que se le vio por ultima vez    |
| Nacionalidad                                 |
| Estatura                                     |
| Complexion                                   |
| Sexo                                         |
| Edad                                         |
| Descripcion de senas particulares            |
| Etnia                                        |
| Discapacidad                                 |
| Dependencia que envio la informacion         |

De una observación preliminar de los primeros y últimos 10 datos podemos observar que el tipo de dato inferido por pandas es erróneo (el tipo de dato inferido fue `object`).

La propuesta es la siguiente:

| Variable | Tipo |
| -------  | ---- |
| Fecha en que se le vio por ultima vez        | Fecha con formato 'yyyy-mm-dd' |
| Hora en que se le vio por ultima vez         | Hora con formato 'hh:mm:ss' |
| Pais en que se le vio por ultima vez         | Categórico (`MEXICO`) |
| Entidad en que se le vio por ultima vez      | Categórico (valores de `val_col_entidad`) |
| Municipio en que se le vio por ultima vez    | Categórica (valores de `val_col_municipio`) |
| Localidad en que se le vio por ultima vez    | Categórica (valores de `val_col_localidad`) |
| Nacionalidad                                 | Categórica (valores de `val_col_nacionalidad`) |
| Estatura                                     | Numérico float64 (`0.3` a `170.0`) |
| Complexion                                   | Categórica (`DELGADA`, `MEDIANA`, `NO ESPECIFICADA`, `OBESA`, `ROBUSTA`) |
| Sexo                                         | Categórica (`HOMBRE`, `MUJER`) |
| Edad                                         | Numérico int64 (`1` a `103`) |
| Descripcion de senas particulares            | object (string) |
| Etnia                                        | Categórica (valores de  `val_col_etnia`)|
| Discapacidad                                 | Categórica (`AUTISMO`, `NINGUNO`, `NO ESPECIFICADO`, `SINDROME DE DOWN`) |
| Dependencia que envio la informacion         | Categórica (valores de `val_col_dependencia`) |