# Lectura de datos


Python, al igual que otros lenguajes de programación, tiene una gran cantidad de módulos o bibliotecas 
que extienden la funcionalidad del lenguaje.

Una biblioteca puede verse como una colección de funciones a las que se puede acceder para realizar ciertas tareas, tales
funciones estadísticas, de aprendizaje automático y muchas otras.

Las siguientes son las bibliotecas mas comunes para visualización de datos:

*  **Numpy** es una biblioteca para trabajar con matrices de datos.

*  **Pandas** proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar.

*  **Scipy** es una biblioteca de técnicas para computación numérica y científica.

*  **Matplotlib** es una biblioteca para hacer gráficos.

*  **Seaborn** es una interfaz de nivel superior para Matplotlib que se puede utilizar para simplificar muchas tareas gráficas.

*  **Statsmodels** es una biblioteca que implementa muchas técnicas estadísticas.


### Importando bibliotecas

Para usar una biblioteca es necesario importarla. Esto se hace al inicio del programa.

En este caso, importamos las bibliotecas numpy y pandas y les damos nombres cortos. El nombre corto es para evitar 
tener que escribir repetidamente el nombre de la biblioteca. Por ejemplo, la biblioteca 'numpy' generalmente se abrevia como 'np'. 
De igual manera, la biblioteca Pandas se puede abreviar como 'pd'.

In [1]:
import numpy as np
import pandas as pd


La estructura de datos principal que se usa en la biblioteca Pandas se llama DataFrame. Un DataFrame es un conjunto ordenado
de columnas (cada una con sus nombres) de forma análoga a una tabla de Excel, en donde un renglón representa un elemento 
en el conjunto de datos.

Muchos conjuntos datos se guardan como ficheros '`csv`', que significa valores separados por comas. 

Estaremos usando el fichero antropometria-dataset.csv que proviene de la encuesta nacional de salud y nutrición 2012. Para
leer este fichero usaremos la función '`read_csv()`'.

La documentación de '`read_csv`' la puedes consultar aquí: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html.

In [8]:
# Primero guardamos la cadena que representa la ubicación donde se encuentra el fichero .csv
ubicacion = "datasets/antropometria-dataset.csv"

# Luego leemos el fichero .csv y lo guardamos como un DataFrame de pandas
df = pd.read_csv(ubicacion)


## Viendo el contenido
Podemos usar la función '`head()`' para ver algunos renglones de datos.

In [9]:
# La función head() sin argumentos muestra los primeros cinco renglones de datos
df.head()

Unnamed: 0,folio,intp,entidad,desc_ent,sexo,edad,meses,peso,ropa,talla,...,hpresion,tbrazo,htension,PrimaryLast,code_upm,est_dis,est_urb,est_marg,pondef,est_var
0,210295,2,21,PUEBLA,2,38,8,73.7,2,146.4,...,16:30,2,16:35,1,R2101,5,3,1,3470.002176,215
1,101655,3,10,DURANGO,2,11,11,35.65,2,145.1,...,15:25,3,15:25,1,M1041,1,1,1,417.946672,101
2,10287,6,1,AGUASCALIENTES,2,18,8,54.8,1,162.0,...,9:40,1,9:40,1,M0108,5,3,1,472.980811,15
3,91526,4,9,DISTRITO FEDERAL,1,10,8,33.4,2,146.5,...,7:40,3,7:45,1,M0931,4,3,2,1832.581391,94
4,210939,3,21,PUEBLA,2,19,3,97.95,2,161.0,...,6:00,2,6:00,1,M2123,5,3,1,7622.066564,215


In [14]:
# La función head(n) con un argumento entero muestra los primeros n renglones de datos
df.head(3)

Unnamed: 0,folio,intp,entidad,desc_ent,sexo,edad,meses,peso,ropa,talla,...,hpresion,tbrazo,htension,PrimaryLast,code_upm,est_dis,est_urb,est_marg,pondef,est_var
0,210295.0,2.0,21.0,PUEBLA,2.0,38.0,8.0,73.7,2.0,146.4,...,16:30,2,16:35,1.0,R2101,5.0,3.0,1.0,3470.002176,215.0
1,101655.0,3.0,10.0,DURANGO,2.0,11.0,11.0,35.65,2.0,145.1,...,15:25,3,15:25,1.0,M1041,1.0,1.0,1.0,417.946672,101.0
2,10287.0,6.0,1.0,AGUASCALIENTES,2.0,18.0,8.0,54.8,1.0,162.0,...,9:40,1,9:40,1.0,M0108,5.0,3.0,1.0,472.980811,15.0


Los tipos de datos que contiene el conjunto de datos podemos se almacenan en dtypes

In [7]:
df.dtypes

folio            int64
intp             int64
entidad          int64
munici           int64
locali           int64
ageb            object
maq             object
sexo             int64
edad_i          object
edad             int64
meses            int64
intsel           int64
intsel2          int64
peso           float64
ropa             int64
rpeso            int64
talla          float64
rtalla           int64
emb             object
temb            object
cintura        float64
rcintura        object
cadera         float64
rcadera         object
rpresion         int64
sistol         float64
diastol        float64
hpresion        object
rtension         int64
tbrazo          object
htension        object
PrimaryLast      int64
code_upm        object
est_dis          int64
est_urb          int64
est_marg         int64
pondef         float64
est_var          int64
dtype: object

Los resultados muestran que hay enteros (int), reales (float) y valores únicos (object).

Veamos la correspondencia entre los valores únicos en desc_ent y entidad:

In [11]:
df.groupby(['entidad','desc_ent']).size()

entidad  desc_ent                       
1.0      AGUASCALIENTES                     655
2.0      BAJA CALIFORNIA                    564
3.0      BAJA CALIFORNIA SUR                530
4.0      CAMPECHE                           541
5.0      COAHUILA DE ZARAGOZA               612
6.0      COLIMA                             599
7.0      CHIAPAS                            608
8.0      CHIHUAHUA                          587
9.0      DISTRITO FEDERAL                   392
10.0     DURANGO                            580
11.0     GUANAJUATO                         662
12.0     GUERRERO                           635
13.0     HIDALGO                            518
14.0     JALISCO                            533
15.0     MEXICO                             453
16.0     MICHOACAN DE OCAMPO                599
17.0     MORELOS                            556
18.0     NAYARIT                            550
19.0     NUEVO LEON                         648
20.0     OAXACA                             600