# 07 - Manipulando datos con Pandas<br/> 

por Kevin Martinez-Folgar, MD.<br/>
*<kmartinezfolgar@gmail.com>*<br/>
*<kmartinez@incap.int>*

<hr/>

# Accidentes de Transito en Guatemala

!["GT"](https://s3.amazonaws.com/lahora.prod/file/2015/02/Nac8_1a1.jpg)

El dia de hoy vamos a analizar la base de datos de accidentes de transito del año 2016 publicada por el Instituto Nacional de Estadistica (INE).  Disponible en : https://ine.gob.gt/index.php/estadisticas-continuas/accidentes-de-transito

### Abriendo la base de datos con pandas

Primero, vamos a abrir la base de datos e importarla en pandas, en la clase anterior utilizamos una opcion de la libreria TKINTER para abrir la base de datos

In [None]:
from tkinter import filedialog as fd # para encontrar nuestra base de datos

In [None]:
#Direccion_De_Base_De_Datos = fd.askopenfilename()
Direccion_De_Base_De_Datos = 'C:/Users/Kevin/Documents/GitHub/CursoDatosPython/Dia 3/data/database - Hechos de Transito 2016.xlsx'
Direccion_De_Base_De_Datos

Ahora que ya tenemos la direcciòn de nuestra base de datos en una variable vamos a importar pandas y abrir el archivo de excel

In [None]:
import pandas as pd

In [None]:
BaseDeDatos = pd.read_excel(Direccion_De_Base_De_Datos)

Vamos a explorar un poco nuestra base de datos

In [None]:
BaseDeDatos.head()

Si se dan cuenta tuvimos suerte en el momento de importar nuestros datos, pues Pandas se encarga de adecuarlos, sin embargo recuerden todas la opciones que pueden usar para importar su base de datos en Pandas

In [None]:
pd.read_excel?

### Veamos el tamaño de nuestra base de datos

In [None]:
BaseDeDatos.shape

Ok, tenemos 18 columnas y 7964 filas, osea 18 variables y 7965 "accidentes"

### Veamos las primeras 10 filas de nuestra base de datos

In [None]:
BaseDeDatos.head(10)

### Veamos las últimas 10 filas de nuestra base de datos

In [None]:
BaseDeDatos.tail(10)

### Veamos el formato en el que estan nuestras variables 

In [None]:
BaseDeDatos.info()

Esta es una base de datos bastante limpia, por lo que todas las variables fueron importadas como numeros enteros, no tenemos texto 
sin embargo no todas las variables son de caracteristicas continuas, hay variables como el municipio o el area de ocurrencia que son variables categoricas, motivo por el cual tenemos que transformarlas

Vamos a revisar cada una de las variables empecemos por `núm_corre`

In [None]:
BaseDeDatos["núm_corre"]

Parecen ser números de correlativos, verifiquemos utilizando estadisticas descriptivas. 

In [None]:
BaseDeDatos["núm_corre"].describe()

Ok, segun nuestro index, tenemos 7963 casos y segun el describe tenemos 7964, si recordamos que en Python los conteos empiezan en 0 concluimos que tenemos numeros de 1 en 1, por lo que podemos definir esto como nuestro ID (index) 

In [None]:
BaseDeDatos.index

In [None]:
BaseDeDatos.index = BaseDeDatos["núm_corre"]

In [None]:
BaseDeDatos.head()

In [None]:
BaseDeDatos.drop("núm_corre", 1)

In [None]:
BaseDeDatos.head()

In [None]:
BaseDeDatos.drop("núm_corre", axis=1, inplace=True)
BaseDeDatos.head()

###  Columnas (Variables)

In [None]:
## BaseDeDatos["mes_ocu"]
## BaseDeDatos.mes_ocu

In [None]:
BaseDeDatos.describe()

## Quitando los "missings"

In [None]:
# %load sol/load.py
BaseDeDatos = pd.read_excel(Direccion_De_Base_De_Datos)
BaseDeDatos.index = BaseDeDatos["núm_corre"]
BaseDeDatos.drop("núm_corre", axis=1, inplace=True)
BaseDeDatos.head()

In [None]:
import numpy as np

BaseDeDatos["zona_ocu"].replace(to_replace=99, value=np.nan, inplace=True)
BaseDeDatos["tipo_veh"].replace(to_replace=99, value=np.nan, inplace=True)
BaseDeDatos["marca_veh"].replace(to_replace=999, value=np.nan, inplace=True)
BaseDeDatos["color_veh"].replace(to_replace=99, value=np.nan, inplace=True)
BaseDeDatos["modelo_veh"].replace(to_replace=9999, value=np.nan, inplace=True)
BaseDeDatos["tipo_eve"].replace(to_replace=99, value=np.nan, inplace=True)

In [None]:
BaseDeDatos.describe()

In [None]:
BaseDeDatos.info()

Bien que ya clasificamos los missings, vamos a cambiar las siguientes variables como `categorias`

Pero lo podemos solucionar con un loop. 

In [None]:
## Creamos nuestra lista de variables que vamos a cambiar. 
categoricas = ["mupio_ocu", "depto_ocu", "área_geo_ocu", "zona_ocu", "tipo_veh", "marca_veh", "color_veh", "tipo_eve", "g_hora", "g_hora_5", "g_modelo_veh"]
## y utilizamos nuestra lista dentro de un loop
for variables in categoricas:
    BaseDeDatos[variables] = pd.Categorical(BaseDeDatos[variables])

In [None]:
BaseDeDatos.info()

### a.	Crear Nuevas columnas

In [None]:
BaseDeDatos.nueva_columna = 1900

In [None]:
BaseDeDatos.head()

In [None]:
BaseDeDatos.nueva_columna 

In [None]:
BaseDeDatos["Nueva Columna"] = "INCAP"

In [None]:
BaseDeDatos.head()

In [None]:
BaseDeDatos.Nueva Columna

In [None]:
BaseDeDatos["Nueva_Columna"] = np.nan

In [None]:
BaseDeDatos.head()

In [None]:
BaseDeDatos.Nueva_Columna

### b.	Renombrar columnas

In [None]:
BaseDeDatos.rename(columns={'Nueva Columna':'Valor 1'}, inplace=True)
BaseDeDatos.rename(columns={'Nueva_Columna':'Valor 2'}, inplace=True)

In [None]:
BaseDeDatos.head()

In [None]:
BaseDeDatos.rename(columns={"Valor 1":"Columna 1", "Valor 2":"Columna 2"}, inplace=True)

In [None]:
BaseDeDatos.head()

### Filas (Observaciones)

In [None]:
BaseDeDatos.iloc[5]

In [None]:
BaseDeDatos.loc[5]

### Eliminar observaciones

In [None]:
## Vamos a crear una copia de la base de datos para asegurarnos de no dañar la base original
BaseDeDatos2 = BaseDeDatos.copy()

In [None]:
BaseDeDatos2.drop(5, axis=0, inplace=True)

b.	Etiquetar variables categóricas

## Tarea para la siguiente clase!

**Ejercicio No. 1** Codificar variables categóricas

Supongamos que estas aprendiendo Python por tu propia cuenta, y necesitas codificar unas variables que tienes en formato texto a valores numericos, ósea el proceso de "codificación", 

¿Comó lo buscarias en Google?

¿Crees que encontraste la respuesta? , Ok convierte los meses  de la base de datos a texto utilizando un diccionario y luego codificalas, deja tu codigo para poder verlo

**Ejercicio No. 2** Utilizar el comando Group By 

Utilizando el comando GROUP BY ("https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html") y value_counts, hagan una tabla de frecuencias de accidentes por departamento (depto_ocu)

***Ejercicio No. 3*** Tablas de Variables Cruzadas

Utilizando el comando CROSSTAB (pd.crosstab) ("https://pandas.pydata.org/pandas-docs/stable/generated/pandas.crosstab.html"), realicen una tabla cruzada entre dia de la semana en que ocurrio el evento y el tipo de evento 

***Ejercicio No. 4*** Segmentar bases de datos

Utilizando una mascara (BasedeDatos[BaseDeDatos["var"]== X]) donde var es la variable y X es el valor, creen una base de datos de accidentes solo del municipio de guatemala 

*** Ejercicio No. 5*** Unir bases de datos (Merge/Join)

Dentro de la carpeta `data` esta la base de datos del año 2015  une las base de datos utilizando Merge o Join (psst: revisa la diferencia entre merge o join)
y guarda la base de datos que lograste unir como un archivo de Excel (utilzando ExcelWriter, "https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_excel.html")

## Fin de la clase, nos vemos pronto! :) 