# Clase #2 (script 1)

En este script se ejecutan procedimientos de carga de librerías, carga de datos y generación de tablas de frecuencias. Para este ejemplo se utilizará una base de datos llamada `razas.txt` la cual contiene información categórica sobre razas de perros y sus características.

Este script supone que el directorio donde se encuentra almacenado es `C:\`. Si no es así, recuerde cambiar el valor de la variable `path` para que corresponda con la ubicación del script, y este se encuentre a la misma altura que la carpeta que la carpeta `data`. La carpeta data contiene la base de datos `razas.txt`. 

Se inicia con la carga de librerías `os` para obtener información del espacio de trabajo y `pandas` para manipular estructuras de datos y analizarlas.

In [1]:
import os
import pandas as pd

## Cambiando el valor de la variable `path`

El comando `os.getcwd()` retorna la ruta donde se encuentra el directorio de trabajo actual.

In [2]:
os.getcwd()

'C:\\Users\\maorj\\Documents\\Miguel Orjuela\\dcd clase2-20181019T051430Z-001\\dcd clase2'

Las siguientes instrucciones cambian la ruta del directorio de trabajo actual a la que se especifica en la variable `path`.

In [3]:
path = "C:\\dcd2018"
os.chdir(path)

El comando `os.listdir(path)` muestra los archivos que se encuentran dentro de la ruta que entra como parámetro.

In [4]:
os.listdir(path)

['.ipynb_checkpoints',
 'clase2 ex1.py',
 'clase2 ex2.py',
 'clase2_script1.ipynb',
 'clase2_script2.ipynb',
 'data']

## Carga de datos en memoria

Verificando que la ruta de la base de datos es accesible, se procede a cargar los datos en Python mediante el uso de la función `read_csv()` de la librería `pandas`.

In [5]:
data_path = "data\\razas.txt"
perros_data =  pd.read_csv(data_path, header=0, sep="\s+")

Se verifica que la base de datos haya cargado correctamente imprimiendo su contenido.

In [6]:
print(perros_data)

    RAZA  TAM  PES  VEL  INT  AFE  AGR  FUN
0   bass  peq  liv  len  baj  baj  alt  caz
1   beau  gra  med  alt  med  alt  alt  uti
2   boxe  med  med  med  med  alt  alt  com
3   buld  peq  liv  len  med  alt  baj  com
4   bulm  gra  pes  len  alt  baj  alt  uti
5   cani  peq  liv  med  alt  alt  baj  com
6   chih  peq  liv  len  baj  alt  baj  com
7   cock  med  liv  len  med  alt  alt  com
8   coll  gra  med  alt  med  alt  baj  com
9   dalm  med  med  med  med  alt  baj  com
10  dobe  gra  med  alt  alt  baj  alt  uti
11  dogo  gra  pes  alt  baj  baj  alt  uti
12  foxh  gra  med  alt  baj  baj  alt  caz
13  foxt  peq  liv  med  med  alt  alt  com
14  galg  gra  med  alt  baj  baj  baj  caz
15  gasc  gra  med  med  baj  baj  alt  caz
16  labr  med  med  med  med  alt  baj  caz
17  masa  gra  med  alt  alt  alt  alt  uti
18  mast  gra  pes  len  baj  baj  alt  uti
19  peki  peq  liv  len  baj  alt  baj  com
20  podb  med  med  med  alt  alt  baj  caz
21  podf  gra  med  med  med  ba

## Creando tablas de frecuencia

Como se observa, la base de datos contiene 27 razas de perros y sus características. Es de notar que las variables son cualitativas. Es de importancia conocer el número de razas que hay en cada clasificación de peso, pues sabemos que la variable `PES` contiene esta información clasificada en tres categorías: `liv` para livianos, `med` para peso medio, y `pes` para razas pesadas. La función de `pandas` que nos permite hacer esta operación se llama `crosstab`.

In [7]:
tabla_peso = pd.crosstab(index = perros_data["PES"], columns = "count")
print(tabla_peso)

col_0  count
PES         
liv        8
med       14
pes        5


Si sumamos el total de observaciones por categoría obtenemos el total de datos.

In [8]:
tabla_peso.sum()

col_0
count    27
dtype: int64

SI se divide cada valor de la tabla por el total de observaciones se obtiene la frecuencia relativa.

In [9]:
tabla_peso/tabla_peso.sum()

col_0,count
PES,Unnamed: 1_level_1
liv,0.296296
med,0.518519
pes,0.185185


Ahora se hacen conteos por dos variables de interés. Esta vez es de interés elaborar una tabla de contingencia entre la variable que mide la agresividad de los perros `AGR` contra su inteligecia `INT`. El resultado se muestra a continuación:

In [10]:
tabla_ag_int = pd.crosstab(index = perros_data["AGR"], columns = perros_data["INT"])
print(tabla_ag_int)

INT  alt  baj  med
AGR               
alt    3    5    5
baj    3    3    8


Se intenta contruir una tabla de frecuencias relativas para la tabla de contingencia. Note que la sumatoria de valores o total **por columna** es 1 (100%).

In [11]:
tabla_ag_int/tabla_ag_int.sum() #Note que la agregación se realiza por columnas

INT,alt,baj,med
AGR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
alt,0.5,0.625,0.384615
baj,0.5,0.375,0.615385


Para hacer los conteos marginales de las tablas de contingencia, se le agrega la opcion `margins = True`

In [12]:
tabla_marginal = pd.crosstab(index = perros_data["AGR"], columns = perros_data["INT"], margins = True)

Si se desea generar una tabla de contingencia para tres variables, se agrega la siguiente columna como parámetro y si se desea seleccionar la tabla de contingencia de dos variables para una categoria de la tercera variable se selecciona con corchetes cuadrados y el nombre de la categoría

In [13]:
tabla_marginal1 = pd.crosstab(index = perros_data["AGR"], columns = [perros_data["INT"],perros_data["FUN"]], margins = True)
tabla_marginal1

INT,alt,alt,alt,baj,baj,baj,med,med,med,All
FUN,caz,com,uti,caz,com,uti,caz,com,uti,Unnamed: 10_level_1
AGR,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
alt,0,0,3,3,0,2,0,3,2,13
baj,2,1,0,1,2,0,3,4,1,14
All,2,1,3,4,2,2,3,7,3,27


In [14]:
tabla_marginal1["baj"]

FUN,caz,com,uti
AGR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
alt,3,0,2
baj,1,2,0
All,4,2,2
