# Analizando Datos Censales con Pandas

### Sergio Sánchez Zavala

# ¿Quién soy?

Mi nombre es Sergio Sánchez y soy investigador asociado en el PPIC (Instituto de Políticas Públicas de California) en el Centro de Educación Superior. El trabajo que hago allí cubre reformas de la educación de desarrollo en los colegios comunitarios de California, la movilidad económica y algunas cuestiones de inmigración.

# ¿Quién soy? (parte 2)

Estoy muy interesado en la visualización de datos. Soy un facilitador en la recién formada [Sociedad de Visualización de Datos](https://www.datavisualizationsociety.com/the-team). Mi proyecto más reciente es [@tacosdedatos](https://twitter.com/tacosdedatos) - [tacosdedatos.com](https://tacosdedatos.com/) donde espero construir un lugar para aprender mejor el análisis de datos y la visualización de datos. Mejores prácticas, técnicas y conocimientos en español.

# Antes de empezar

Los materiales se encuentran en GitHub en https://github.com/chekos/analizando-datos-censales
```bash
git clone https://github.com/chekos/analizando-datos-censales
cd analizando-datos-censales
```
Solo necesitas Jupyter y Pandas si deseas seguir el taller desde tu computadora personal.

Estaremos utilizando Jupyter Lab pero puedes seguirnos en Jupyter Notebooks si lo prefieres.

# MyBinder.org 
Estaremos utilizando [mybinder.org](https://mybinder.org/) para este tutorial.

>_Binder te permite crear entornos informáticos/computacionales personalizados que pueden ser compartidos y utilizados por muchos usuarios remotos. BinderHub es la tecnología que lo mantiene, la cual es una herramienta de código abierto que implementa el servicio Binder en la nube. Uno de esos despliegues vive aquí, en mybinder.org, y es de uso gratuito. Para obtener más información sobre la implementación de mybinder.org y el equipo que la ejecuta, consulte Acerca de mybinder.org._

# Datos Censales (de Estados Unidos)

El Censo de Estados Unidos implementa más de 130 encuestas cada año. Tienen encuestas de hogares con datos sobre educación, salúd, empleo, migración y muchos más temas.

En el siguiente vínculo puedes ver una lista completa de las encuestas para el hogar: https://www.census.gov/programs-surveys/are-you-in-a-survey/survey-list/household-survey-list.html

También tienen encuestas comerciales sobre comercios minoristas, mayoristas, importaciones / exportaciones, emprendimientos y [bibliotecas públicas](https://www.imls.gov/research-evaluation/data-collection/public-libraries-survey) entre muchas, muchas otras cosas.

En el siguiente vínculo puedes ver una lista completa de las encuestas comerciales: https://www.census.gov/programs-surveys/are-you-in-a-survey/survey-list/business-survey-list.html

Una de las encuestas de hogares más populares es American Community Survey o ACS, que utilizaremos hoy para nuestro análisis.

>_La Encuesta sobre la Comunidad Estadounidense (ACS) ayuda a los funcionarios locales, líderes comunitarios y empresas a comprender los cambios que se están produciendo en sus comunidades. Es la principal fuente de información detallada sobre población y vivienda sobre nuestra nación._

# ¿Cómo obtenerlos?
El sitio web del Censo provee **muchas** maneras de acceder sus datos.

[**AmericanFactFinder**](https://factfinder.census.gov/faces/nav/jsf/pages/index.xhtml)
  - American FactFinder proporciona acceso a datos sobre los Estados Unidos, Puerto Rico y las Áreas de la Isla. Los datos en American FactFinder provienen de varios censos y encuestas.

# ¿Cómo obtenerlos?

**Tablas Pre-computadas** 

También proporcionan tablas pre-computadas para temas populares como logros educativos o ingresos medios en varios niveles geográficos (región, área metropolitana, estado, condado, etc.)

https://www.census.gov/data/tables.html

# ¿Cómo obtenerlos?

**IPUMS**

>_IPUMS proporciona datos de censos y encuestas de todo el mundo integrados en el tiempo y el espacio. La integración y documentación de IPUMS facilita el estudio del cambio, la realización de investigaciones comparativas, la combinación de información entre los tipos de datos y el análisis de individuos dentro del contexto familiar y comunitario. Datos y servicios disponibles de forma gratuita._

IPUMS son las siglas de **Integrated Public Microdata Series**
![ipums](static/ipums.gif)

# ¿Cómo obtenerlos utilizando `python`?
Hay algunos paquetes de python en pypi.org relacionados con los datos del Censo. Aquí hay cuatro notables:

`census` - [pypi](https://pypi.org/project/census/)

> Un envoltorio simple para la API de la Oficina del Censo de los Estados Unidos.
Proporciona acceso a los conjuntos de datos ACS, SF1 y SF3.

```python
from census import Census
from us import states

c = Census("MY_API_KEY")
c.acs5.get(('NAME', 'B25034_010E'),
          {'for': 'state:{}'.format(states.MD.fips)})
```

`cenpy` - [pypi](https://pypi.org/project/cenpy/)

>Una interfaz para explorar y consultar la API del censo de EE. UU. Y devolver los marcos de datos (DataFrames) de Pandas. Idealmente, este paquete está destinado para el análisis de datos exploratorios y se inspira en las interfaces y acs.R. 

La documentación incluye un [notebook introductorio](https://nbviewer.jupyter.org/github/ljwolf/cenpy/blob/master/demo.ipynb)

`census-data-downloader` - [GitHub](https://github.com/datadesk/census-data-downloader) también es instalable por `pip`

census-data-downloader es una interfaz de línea de comandos desarrollada por Los Angeles Times para descargar datos de censos y reformatearlos para humanos.

```bash
export CENSUS_API_KEY='<your API key>'
censusdatadownloader --year 2010 medianage states
```

`censusdata` - [pypi](https://pypi.org/project/censusdata/)

>Este paquete maneja los detalles de la interacción con la API de Census, para que pueda concentrarse en trabajar con los datos. Proporciona una clase para representar geografías del censo. También proporciona funciones para obtener más información sobre variables y tablas específicas y para buscar variables.

# ¡Analicemos algunos datos del censo!