# Adquisición de datos

Para poder leer y manipular los datos, primero debemos importar `pandas`, paquete de Python que nos permite manipular datos de forma eficiente y además nos permite leer archivos con extensión `.csv` entre otras.

In [None]:
import pandas as pd

In [50]:
# URL o PATH, dependiendo el caso, de donde cargamos el archivo a analizar
path_al_csv = 'https://raw.githubusercontent.com/MinervaNunez/Proyecto-de-Python-BEDU/main/RNPEDFC.csv'

# Almacenamos el archivo csv en una estructura de datos para su correcta manipulación y análisis
df = pd.read_csv(path_al_csv, sep = ',', encoding = 'latin-1')

# Análisis exploratorio de datos

Seguimos la metodología vista en clase.

Primero, obtenemos las dimensiones de nuestro `DataFrame`.

In [51]:
df.shape

(36265, 15)

La celda anterior nos dice que nuestro dataframe tiene 36265 renglones (observaciones), y 15 columnas (variables).

Veamos cuáles son nuestras variables.

In [57]:
df.columns

Index(['Fecha en que se le vio por ultima vez',
       'Hora en que se le vio por ultima vez',
       'Pais en que se le vio por ultima vez',
       'Entidad en que se le vio por ultima vez',
       'Municipio en que se le vio por ultima vez',
       'Localidad en que se le vio por ultima vez', 'Nacionalidad', 'Estatura',
       'Complexion', 'Sexo', 'Edad', 'Descripcion de senas particulares',
       'Etnia', 'Discapacidad', 'Dependencia que envio la informacion'],
      dtype='object')

In [64]:
df.dtypes

Fecha en que se le vio por ultima vez        object
Hora en que se le vio por ultima vez         object
Pais en que se le vio por ultima vez         object
Entidad en que se le vio por ultima vez      object
Municipio en que se le vio por ultima vez    object
Localidad en que se le vio por ultima vez    object
Nacionalidad                                 object
Estatura                                     object
Complexion                                   object
Sexo                                         object
Edad                                         object
Descripcion de senas particulares            object
Etnia                                        object
Discapacidad                                 object
Dependencia que envio la informacion         object
dtype: object

De acuerdo con el resultado de la anterior celda, nuestras 15 variables y sus tipos de datos (por defecto) son:
    
| Variable | Tipo |
| -------  | ---- |
| Fecha en que se le vio por ultima vez        | object |
| Hora en que se le vio por ultima vez         | object |
| Pais en que se le vio por ultima vez         | object |
| Entidad en que se le vio por ultima vez      | object |
| Municipio en que se le vio por ultima vez    | object |
| Localidad en que se le vio por ultima vez    | object |
| Nacionalidad                                 | object |
| Estatura                                     | object |
| Complexion                                   | object |
| Sexo                                         | object |
| Edad                                         | object |
| Descripcion de senas particulares            | object |
| Etnia                                        | object |
| Discapacidad                                 | object |
| Dependencia que envio la informacion         | object |


In [65]:
df.index

RangeIndex(start=0, stop=36265, step=1)

Del anterior comando, `pandas` nos dice que nuestras observaciones están indizadas por valores numéricos que empiezan desde el 0 y terminan en 36265.

Finalmente, echamos un vistazo a los datos para darnos una mejor idea de cómo está compuesto nuestro `DataFrame` a analizar.

In [68]:
df.head(10)

Unnamed: 0,Fecha en que se le vio por ultima vez,Hora en que se le vio por ultima vez,Pais en que se le vio por ultima vez,Entidad en que se le vio por ultima vez,Municipio en que se le vio por ultima vez,Localidad en que se le vio por ultima vez,Nacionalidad,Estatura,Complexion,Sexo,Edad,Descripcion de senas particulares,Etnia,Discapacidad,Dependencia que envio la informacion
0,2012-03-18,05:00:00,MEXICO,SONORA,NAVOJOA,NAVOJOA,MEXICANA,1.1,DELGADA,MUJER,7,TIENE UNA CICATRIZ EN LA RODILLA IZQUIERDA POR...,NO ESPECIFICADO,NINGUNO,FGE - SONORA
1,2007-02-05,02:00:26,MEXICO,ESTADO DE MEXICO,VALLE DE BRAVO,VALLE DE BRAVO,MEXICANA,1.1,DELGADA,MUJER,4,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
2,2009-03-14,08:30:54,MEXICO,ESTADO DE MEXICO,CHALCO,CHALCO,MEXICANA,1.1,DELGADA,HOMBRE,6,"MANCHAS, PARTE SUPERIOR DE PIERNA DERECHA, CIC...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
3,2006-12-23,08:00:28,MEXICO,ESTADO DE MEXICO,TLALNEPANTLA DE BAZ,TLALNEPANTLA DE BAZ,MEXICANA,1.1,DELGADA,HOMBRE,10,"LUNARES, A LA ALTURA DE LA CINTURAFORMA DE MAN...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
4,2008-01-11,12:00:17,MEXICO,ESTADO DE MEXICO,TOLUCA,TOLUCA,MEXICANA,1.1,DELGADA,HOMBRE,4,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
5,2012-05-27,12:00:43,MEXICO,ESTADO DE MEXICO,NICOLAS ROMERO,NICOLAS ROMERO,MEXICANA,1.1,DELGADA,HOMBRE,9,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
6,2010-07-05,11:00:00,MEXICO,CHIHUAHUA,BOCOYNA,CERRO LA VIRGEN,MEXICANA,1.1,DELGADA,HOMBRE,7,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGE - CHIHUAHUA
7,2011-06-13,01:00:11,MEXICO,ESTADO DE MEXICO,AMECAMECA,AMECAMECA,MEXICANA,1.15,ROBUSTA,MUJER,7,"MANCHAS, EN EL TOBILLODERECHA CAUSADA PORQUEMA...",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
8,2010-04-24,01:00:47,MEXICO,ESTADO DE MEXICO,TEOLOYUCAN,TEOLOYUCAN,MEXICANA,1.15,DELGADA,HOMBRE,6,"CICATRICES, EN LA CARAVARICELA POCAS",NO ESPECIFICADO,NINGUNO,FGJ - ESTADO DE MEXICO
9,2009-02-09,02:30:00,MEXICO,TLAXCALA,TLAXCALA,TLAXCALA,MEXICANA,1.59,MEDIANA,MUJER,13,"LUNARES EN CUELLO, EN INDICE IZQ Y ARCO DEL PI...",NO ESPECIFICADO,NINGUNO,PGJ - TLAXCALA


In [69]:
df.tail(10)

Unnamed: 0,Fecha en que se le vio por ultima vez,Hora en que se le vio por ultima vez,Pais en que se le vio por ultima vez,Entidad en que se le vio por ultima vez,Municipio en que se le vio por ultima vez,Localidad en que se le vio por ultima vez,Nacionalidad,Estatura,Complexion,Sexo,Edad,Descripcion de senas particulares,Etnia,Discapacidad,Dependencia que envio la informacion
36255,2018-04-25,06:30:00,MEXICO,PUEBLA,SAN MARTIN TEXMELUCAN,SAN MARTIN TEXMELUCAN,MEXICANA,1.7,DELGADA,HOMBRE,26,"PECAS EN EL ROSTRO, PERFORACION EN LA ORJA IZQ...",NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36256,2018-04-22,11:30:00,MEXICO,PUEBLA,PUEBLA,PUEBLA,MEXICANA,1.52,DELGADA,MUJER,18,PERFORACION EN LA LENGUA Y MANCHA BLANCA EN ME...,NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36257,2017-07-02,11:14:59,MEXICO,SONORA,CANANEA,CANANEA,MEXICANA,NO ESPECIFICADO,NO ESPECIFICADO,HOMBRE,NO ESPECIFICADO,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGE - SONORA
36258,2017-04-06,02:00:00,MEXICO,COLIMA,MANZANILLO,SANTIAGO,MEXICANA,1.71,ROBUSTA,HOMBRE,22,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36259,2018-04-15,06:30:00,MEXICO,COLIMA,COLIMA,COLIMA,MEXICANA,1.59,ROBUSTA,HOMBRE,57,TIENE UNA CICATRIZ EN LA PARTE BAJA DE SU ABDO...,NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36260,2018-04-26,08:00:00,MEXICO,PUEBLA,PUEBLA,PUEBLA,MEXICANA,1.6,DELGADA,HOMBRE,22,LUNAR EN LA MEJILLA Y TATUAJE EN EL CUELLO EN ...,NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36261,2018-01-08,11:00:00,MEXICO,COLIMA,VILLA DE ALVAREZ,VILLA DE ALVAREZ,MEXICANA,1.7,ROBUSTA,MUJER,27,"EL OJO IZQUIERDO TIENE UN ENFERMEDAD COMO TIC,...",NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36262,2015-02-02,07:00:00,MEXICO,PUEBLA,CHILA,CHILAS DE LAS FLORES,MEXICANA,1.77,MEDIANA,MUJER,86,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,FGE - PUEBLA
36263,2017-08-22,04:00:00,MEXICO,COLIMA,VILLA DE ALVAREZ,VILLA DE ALVAREZ,MEXICANA,1.76,ROBUSTA,HOMBRE,41,TATUAJE EN EL BRAZO IZQUIERDO CON LA IMAGEN DE...,NO ESPECIFICADO,NINGUNO,PGJ - COLIMA
36264,2018-04-11,02:00:00,MEXICO,NUEVO LEON,SAN NICOLAS DE LOS GARZA,SAN NICOLAS DE LOS GARZA,MEXICANA,1.6,DELGADA,MUJER,14,NO ESPECIFICADO,NO ESPECIFICADO,NINGUNO,PGJ - NUEVO LEON


# Conclusiones del primer análisis exploratorio de datos

Nuestro dataset está constituido de 36265 observaciones de 15 variables indizadas del 0 al 36264. Nuestras variables son

| Variable |
| -------  |
| Fecha en que se le vio por ultima vez        |
| Hora en que se le vio por ultima vez         |
| Pais en que se le vio por ultima vez         |
| Entidad en que se le vio por ultima vez      |
| Municipio en que se le vio por ultima vez    |
| Localidad en que se le vio por ultima vez    |
| Nacionalidad                                 |
| Estatura                                     |
| Complexion                                   |
| Sexo                                         |
| Edad                                         |
| Descripcion de senas particulares            |
| Etnia                                        |
| Discapacidad                                 |
| Dependencia que envio la informacion         |

Observamos que el tipo de dato inferido por pandas es err