<a href="https://colab.research.google.com/github/nathalyAlarconT/mod_datasources/blob/master/Structured_Data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exploración de datos estructurados


In [0]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [0]:
# Dataset Source
# https://www.kaggle.com/AnalyzeBoston/crimes-in-boston/
# Descarga los datos, se encuentran en formato zip y despues cargalos en tu ambiente de colab

In [0]:
!unzip crimes-in-boston.zip

In [0]:
!ls -lh

In [0]:
source_file = 'crime.csv'

In [0]:
# Creamos un dataframe a partir del archivo csv descargado
df_crimes = pd.read_csv(source_file,  encoding='latin-1')

In [0]:
# Cuál es el tamaño del dataset?
df_crimes.shape

In [0]:
df_crimes.describe()

In [0]:
# Exploremos el dataset, observemos los primeros registros
df_crimes.head(5)

In [0]:
# Exploremos el dataset, observemos los últimos registros
df_crimes.tail(5)

In [0]:
# Exploremos el dataset, tomemos una muestra aleatoria
df_crimes.sample(5)

In [0]:
# De qué columnas disponemos?
df_crimes.columns

# Ejercicio 1:
######################################################## 
- ¿Qué preguntas plantearías sobre el dataset?

########################################################

In [0]:
# Procedamos a cargar el segundo dataset que contiene el detalle "offense_codes"
df_offenses = pd.read_csv('offense_codes.csv', encoding='latin-1')
# Veamos el tamaño del dataset
print (df_offenses.shape)
# Examinemos las primeras filas 
df_offenses.head()

In [0]:
# Renombremos la columna 'NAME' 
df_offenses.rename(columns={'NAME': 'OFFENSE_NAME', 'CODE': 'OFFENSE_CODE' }, inplace=True)

In [0]:
# Observen que el nombre de la columna ha cambiado.
df_offenses.head()

In [0]:
# Ordenamos el dataset por el código... observen que existen códigos duplicados
df_offenses.sort_values(by='OFFENSE_CODE',  inplace=True)
df_offenses.head(15)


In [0]:
# Vamos a eliminar los registros duplicados
df_offenses.drop_duplicates(subset=["OFFENSE_CODE"], keep='first', inplace=True)
# Verifiquemos nuevamente las dimensiones del dataset
print(df_offenses.shape)
# Veamos el dataset nuevamente , para comprobar que se eliminaron los duplicados
df_offenses.head(15)

In [0]:
# Vamos a unir el dataset de crime y el dataset de offenses
# df_crimes    con    df_ofenses haciendo uso de la columna: OFFENSE_CODE

df_crimes = df_crimes.merge(df_offenses, how='left', on='OFFENSE_CODE')
df_crimes.head()

In [0]:
# La nueva columna ha sido adicionada al final del dataset.
# Ahora comprobemos las nuevas dimensiones de nuestro dataset
df_crimes.shape 

In [0]:
# Observemos los tipos de datos con los que cuenta el dataset
df_crimes.dtypes

In [0]:
# Transformemos la columna OCCURRED_ON_DATE a formato fecha 
df_crimes['OCCURRED_ON_DATE'] = pd.to_datetime(df_crimes['OCCURRED_ON_DATE'])
df_crimes.head()

In [0]:
# Qué día de la semana ocurren más incidentes?
df_crimes['DAY_OF_WEEK'].value_counts()

# Ejercicio 2:
######################################################## 
- ¿En cuál hora del día ocurren más incidentes ?

########################################################

In [0]:
# Qué tipo de crimenes se cometen más?
df_crimes.groupby(['OFFENSE_NAME']).count()['INCIDENT_NUMBER'].sort_values(ascending=False )

In [0]:
# Qué días desaparecieron más las personas
df_crimes.loc[df_crimes['OFFENSE_NAME'] == 'MISSING PERSON', 'DAY_OF_WEEK'].value_counts().plot.bar()

In [0]:
df_crimes.describe()

In [0]:
df_crimes.info()

In [0]:
# Cuáles son los delitos que implican tiroteos?
df_crimes['SHOOTING'].unique()

In [0]:
# Los registros que tengan el valor de nan ahora les asignaremos el valor de "N"
df_crimes['SHOOTING'].fillna('N', inplace=True)
df_crimes['SHOOTING'].unique()

In [0]:
df_crimes.loc[df_crimes['OFFENSE_NAME'] == 'MISSING PERSON'].groupby('DISTRICT').count()['INCIDENT_NUMBER']

In [0]:
# Vamos a crear una columna de la fecha del incidente en un nuevo formato que solo contenga la fecha del incidente y no la hora 
df_crimes['OCCURRED_ON_DATE_DAY'] = pd.to_datetime(df_crimes['OCCURRED_ON_DATE'].dt.strftime('%Y-%m-%d'))
df_crimes.head()

In [0]:
df_crimes_per_day = df_crimes.groupby(by=['OCCURRED_ON_DATE_DAY']).count()['INCIDENT_NUMBER'].reset_index()
df_crimes_per_day

In [0]:

df_crimes_per_day.plot(x='OCCURRED_ON_DATE_DAY', y='INCIDENT_NUMBER'  )

In [0]:
import plotly.express as px

In [0]:
px.line(df_crimes_per_day, x='OCCURRED_ON_DATE_DAY', y='INCIDENT_NUMBER',   )

https://plot.ly/python/plotly-express/

In [0]:
# Vamos a guardar el dataset resultante en un nuevo archivo csv
df_crimes_per_day.to_csv('resultado_crimes_per_day.csv')

# Ejercicio 3:
######################################################## 
- ¿Encuentras alguna tendencia/patrón en el gráfico?

########################################################