# Soluciones al examen de OPI 

1. Los datos son de calidad cuando sirven para una finalidad prevista, basados en las siguientes características:
* No debe haber huecos, ni variables repetidas.
* La información debe ser relevante para cumplir los objetivos, por ejemplo, si estoy haciendo un análisis sobre los delitos en la ciudad de México, no me sirve tener información sobre el peso de los habitantes de la ciudad.
* Confiabilidad: hay que asegurarse que los datos no sean ambiguos, vagos o que contengan información contradictoria, por ejemplo, si tengo información sobre los delitos de una alcaldía en dos columnas y cada una con información diferente.
* Los datos tienen que ser colectados en el tiempo correcto, hay que asegurarse que no sean obsoletos, tomando de nuevo el análisis de los delitos de la CDMX, no tendría sentido que sólo tenga información de hace 30 años.

2. Datos a la alza y a la baja.

In [25]:
# importamos la base de datos
# encoding='utf-8' es para que al importarse la base de datos, reconozca caracteres 
# como la ñ.
# dtype='unicode' es para evitar un warning por low_memory ya que python estaba 
# adivinando el tipo de objeto (dtype) de cada columna
import pandas as pd
from datetime import datetime # para que Python reconozca las fechas
datos = pd.read_csv('/home/lorena/Escritorio/OPI/carpetas_completa_febrero_2022.csv', encoding='utf-8', dtype='unicode')

Para que las columnas fecha_hechos y fecha_inicia tal cual sean reconocidas como fechas, se utiliza la función de pandas **to_datetime**.

In [30]:
datos['fecha_hechos'] = pd.to_datetime(datos['fecha_hechos'], format = "%Y %m %d %H:%M:%S")
datos['fecha_inicio'] = pd.to_datetime(datos['fecha_inicio'], format = "%Y %m %d %H:%M:%S")

In [29]:
datos['fecha_hechos']

0         2016-01-31 22:16:00
1         2016-01-31 20:50:00
2         2016-02-01 00:30:00
3         2016-01-31 22:00:00
4         2015-12-25 12:00:00
                  ...        
1401326   2022-02-28 06:26:00
1401327   2022-02-28 12:00:00
1401328   2021-05-05 09:00:00
1401329   2022-02-20 15:50:00
1401330   2022-02-02 12:40:00
Name: fecha_hechos, Length: 1401331, dtype: datetime64[ns]

In [28]:
datos.columns

Index(['ao_hechos', 'mes_hechos', 'fecha_hechos', 'ao_inicio', 'mes_inicio',
       'fecha_inicio', 'delito', 'fiscalia', 'agencia', 'unidad_investigacion',
       'categoria_delito', 'calle_hechos', 'calle_hechos2', 'colonia_hechos',
       'alcaldia_hechos', 'competencia', 'longitud', 'latitud', 'tempo'],
      dtype='object')

In [31]:
datos.dtypes

ao_hechos                       object
mes_hechos                      object
fecha_hechos            datetime64[ns]
ao_inicio                       object
mes_inicio                      object
fecha_inicio            datetime64[ns]
delito                          object
fiscalia                        object
agencia                         object
unidad_investigacion            object
categoria_delito                object
calle_hechos                    object
calle_hechos2                   object
colonia_hechos                  object
alcaldia_hechos                 object
competencia                     object
longitud                        object
latitud                         object
tempo                           object
dtype: object