# Proyecto 1: Brecha Digital
### Análisis de datos

#### Basado en el reporte ["La Brecha Digital en California"](https://www.ppic.org/wp-content/uploads/jtf-californias-digital-divide-in-spanish.pdf)

## Pregunta(s) de Investigación:
1. ¿Qué porcentaje de hogares en el estado X tiene acceso a internet de alta velocidad?
2. ¿Varía este número según los grupos demográficos? (en este caso raza/etnia).

## Meta:
* Usar nuestro conjunto de datos `datos_analisis` (creado en el [notebook Preparación de Datos](00_BrechaDigital_PrepDatos.ipynb)) para contestar nuestras preguntas de investación.

## Contexto:
* Escribe tu propia descripción del contexto: En que parte del proyecto encaja este notebook, una pequeña descripción de los datos que vas a utilizar (_este conjunto de datos contiene información de X estado para el año YYYY)_.

***

#### Paso 1: Prepara tu entorno de trabajo.

**Import**a las bibliotecas necesarias y crea objetos `Path` (ruta de archivo). Esto grarantiza reproducibilidad en distintos sistemas operativos (Windows utiliza `\` en lugar de `/` para separar los nombres de archivos.

Necesitamos: 
1. `pandas` para trabajar con los datos.
2. `pathlib`, y más específicamente su objeto `Path`, para trabajar con rutas de archivos. Esto asegura que nuestro código funcione en Windows (que utiliza `\` en sus rutas) y MacOS/Linux (los cuales utilizan `/`).
3. `datetime` - tip: Existen sistemas de control de versiones para datos pero etiquetar tus archivos de datos (cuando no son masivos) no es un mal primer paso si estás comenzando.
4. `arbol` - para mostrar el árbol de directorios.

In [1]:
# Preparando tu entorno de trabajo
import _____ as pd
from _____ import Path
from herramientas import _________
from ______ import _______ as dt
hoy = dt.______()._______("%_-%_-%_")

print(hoy)

06-05-19


In [2]:
# Directorio de datos y rutas
RUTA_DATOS_EN_BRUTO = ____("../datos/brutos/")
RUTA_DATOS_________ = ____("../datos/interinos/")
RUTA_______________ = ____("../datos/procesados/")
___________________ = ____("../datos/finales/")

In [None]:
arbol(RUTA_DATOS_INTERINOS)

In [None]:
datos = pd.read_stata(RUTA_DATOS_INTERINOS / f'datos_para_analisis-{hoy}.dta')

In [5]:
datos._______

(44816, 14)

In [6]:
datos._______()

Unnamed: 0,year,serial,hhwt,stateicp,countyfip,cinethh,cihispeed,pernum,perwt,relate,sex,age,race,hispan
0,2017,953662,57,ohio,0,"yes, with a subscription to an internet service","yes (cable modem, fiber optic or dsl service)",1,58,head/householder,female,48,white,not hispanic
1,2017,953662,57,ohio,0,"yes, with a subscription to an internet service","yes (cable modem, fiber optic or dsl service)",2,62,child,male,20,white,not hispanic
2,2017,953662,57,ohio,0,"yes, with a subscription to an internet service","yes (cable modem, fiber optic or dsl service)",3,78,child,female,9,white,not hispanic
3,2017,953668,140,ohio,61,"yes, with a subscription to an internet service","yes (cable modem, fiber optic or dsl service)",1,140,head/householder,male,28,black/african american/negro,not hispanic
4,2017,953668,140,ohio,61,"yes, with a subscription to an internet service","yes (cable modem, fiber optic or dsl service)",2,192,sibling,female,16,black/african american/negro,not hispanic


In [7]:
datos._____()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 44816 entries, 0 to 44815
Data columns (total 14 columns):
year         44816 non-null category
serial       44816 non-null int32
hhwt         44816 non-null int16
stateicp     44816 non-null category
countyfip    44816 non-null int16
cinethh      44816 non-null category
cihispeed    44816 non-null category
pernum       44816 non-null int8
perwt        44816 non-null int16
relate       44816 non-null category
sex          44816 non-null category
age          44816 non-null category
race         44816 non-null category
hispan       44816 non-null category
dtypes: category(9), int16(3), int32(1), int8(1)
memory usage: 1.2 MB


Nuestra **unidad de observación** es todavía una persona (ponderada) pero nos interesa datos a nivel **hogar**.

De la [documentación](https://usa.ipums.org/usa-action/variables/HHWT#description_section) de IPUMS:
>HHWT indica cuantos hogares de la población de EEUU estan siendo representados por cada hogar en una muestra de IPUMS.<br><br>
>Es generalmente una buena idea usar HHWT cuando se está llevando a cabo análisis a nivel hogar de cualquier muestra de IPUMS. El uso de HHWT es opcional cuando se están analizando uno de las muestras "planas" o no ponderados de IPUMS. Muestras planas de IPUMS incluyen las muestras 1% de 1850-1930, todas las muestras de 1960, 1970 y 1980, las muestras no ponderadas 1% de 1990 y 2000, la muestra 10% de 2010, y cualquiera de los conjuntos de datos del censo de cuentas totales 100%. HHWT debe ser utilizada para obtener estadísticas representativas a nivel nacional para análisis a nivel hogar de cualquier muestra fuera de esas. <br><br>
>**Usuarios deberían también asegurarse de seleccionar una persona (por ejemplo, PERNUM = 1) para representar el hogar entero.**

***

#### Paso 2: Elimina todas las observaciones donde `pernum` no sea igual a 1

In [None]:
mascara_pernum = (________ _= 1)

In [None]:
datos[mascara_pernum].shape

Guarda tus datos en una variable con un nombre apropiado.

In [None]:
hogares_del_estado = ____[_________]

***

#### Paso 3: Familiarizate con tus variables de interés

De la [documentación](https://usa.ipums.org/usa-action/variables/CINETHH#description_section) de IPUMS:
>CINETHH reporta si algún miembro del hogar accede al internet. Aquí, "acceso" se refiere a si alguien en el hogar usa o se conecta al internet o no, sin importar si paga por el servicio o no.

In [None]:
# encuentra los totales de los valores de CINETHH


De la [documentación](https://usa.ipums.org/usa-action/variables/CIHISPEED#description_section) de IPUMS:
>CIHISPEED reporta si la persona respondiendo o cualquier miembro de su hogar se subscribió al internet utilizando servicios de banda ancha (alta velocidad) tales como cable, fibra optica, o servicio DSL. <br><br>
>Nota al usuario: La ACS de 2016 introdujo cambios a las preguntas que pertienen al uso de computadoras y acceso al internet. Mira la sección comparabilidad y el texto del cuestionario para más información. Información adicional proveniente del Buró del Censo sobre la alteración de estas preguntas esta disponible en su reporte: **ACS Content Test Shows Need to Update Terminology**.

In [None]:
# encuentra los totales de los valores de CIHISPEED


<details>
    <summary>¿Adivina que puede hacer <span style="font-family:monospace">.value_counts()</span></summary>
    Tiene la opción de activar su parametro <span style="font-family:monospace">normalize</span> que normaliza tus series.
</details>

In [13]:
pd.Series.value_counts?

[0;31mSignature:[0m
[0mpd[0m[0;34m.[0m[0mSeries[0m[0;34m.[0m[0mvalue_counts[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mself[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mnormalize[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msort[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mascending[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mbins[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdropna[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Return a Series containing counts of unique values.

The resulting object will be in descending order so that the
first element is the most frequently-occurring element.
Excludes NA values by default.

Parameters
----------
normalize : boolean, default False
    If True then the object returned will contain the relative
    frequencies of the unique values.

In [None]:
# pruebalo en la serie cinethh


In [None]:
# ahora en cihispeed


***

Esto sería el final de nuestro análisis si no estuvieramos trabajando con datos **ponderados**. Datos **ponderados** significa que cada una de nuestras observaciones representa más de una persona u hogar.

`perwt` = "Peso de persona"

`hhwt` = "Peso del hogar"

`.value_counts(normalize=True)` cuenta el número de observaciones de cada valor de tu Serie y lo divide por el total. Si cada una de nuestras observaciones fuera una persona/hogar, esta sería la respuesta a nuestra pregunta de investigación 1.

Lo que necesitamos hacer es **agregar** datos.

***

#### Paso 4: Agrupando y agregando datos

La mecánica es más o menos la misma:
1. Cuenta el número total de observaciones de cada uno de los valores de la Serie.
2. Sumas **no el número de observaciones** sino el _peso_ de cada observación.
3. Divide por el total.

#### Paso 4.1: Agrupa tus datos por sus valores correspondientes

In [17]:
hogares_del_estado.groupby("_________")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x114b5a710>

De la [documentación](http://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html) de `Pandas`:

> Una operación grupal (`groupby`) implica una combinación de dividir el
objeto, **aplicar una función**, y combinar los resultados. Esto se puede usar 
para agrupar grandes cantidades de datos y operaciones de cómputo en estos grupos.

Lo que nos falta es **aplicar una función**.

Prueba lo siguiente:
```python
hogares_del_estado.groupby("countyfip").sum()
```

Podemos aplicar *casi* cualquier función.

Prueba `.mean()`, `.max()`, `.min()`, `.std()`.

También puedes seleccionar columnas como lo harías en cualquier otro DataFrame.

In [None]:
hogares_del_estado.groupby("________")['hhwt']._____()

***

In [None]:
n_hogares = hogares_del_estado.groupby("cihispeed")['hhwt'].sum()[2]
_estado = hogares_del_estado['statefip'].unique()[0]
print(f"""
Podemos ver ahora que {n_hogares:,} los hogares en {_estado} tienen acceso a Internet de alta velocidad. Pero, ¿de cuántos?

Para hacer esto más fácil de seguir, guardemos nuestros resultados en una variable:
""")

In [None]:
hogares_con_acceso_internet_alta_velocidad = ____________._____("_____")["____"].___()

hogares_con_acceso_internet_alta_velocidad

Esto se parece a cualquier 'pandas.Series' regular, ¿cómo encontramos la _suma_ total de una serie de elementos?

![math](../../static/math.png)

<details>
    <summary>respuesta</summary>
    <pre>.sum()</pre>
</details>

¡Ese es nuestro denominador! 

![nice](../../static/nooice.gif)

***

Cuando _aplicas_ una operación a una Serie de `pandas` esta se le aplica a cada uno de sus elementos.

Prueba lo siguiente:
```python
hogares_con_acceso_internet_alta_velocidad * 1_000_000
```

```python
hogares_con_acceso_internet_alta_velocidad + 1_000_000
```

```python
hogares_con_acceso_internet_alta_velocidad / 1_000_000
```

<details>
    <summary>tip</summary>
    recuerda que puedes usar la tecla <strong>tab</strong> para autocompletar tus variables. Así no tienes que escribir todas las letras hogares_con_acceso_internet_alta_velocidad cada que lo necesites.
</details>

Ahora que tienes el denominador de nuestra ecuación (¿cuántos hogares hay en total en el estado X), cómo encontraría cada uno de los 3 valores en su participación `hogares_con_acceso_internet_alta_velocidad` del total?

***
***

### Parte 2 del análisis: Creando variables derivadas

Ahora que tienes la respuesta a la **Pregunta de Investigación 1**, podemos movernos a PI2:
>_¿Varía este número según los grupos demográficos? (en este caso raza/etnia)._

La función `.groupby()` de `pandas` puede tomar una lista de columnas por las cuales agrupar tu DataFrame.

Prueba lo siguiente:
```python
hogares_del_estado.groupby(['race', 'cihispeed'])[['hhwt']].sum()
```

_Notese que estoy utilizando_ `[[hhwt]]` _(una lista de un elemento) y no solo_ `[hhwt]` _prueba ambos tu y discutamos cual es la diferencia._

<details>
    <summary>La diferencia</summary>
    Cuando pasas una lista de elementos (aunque sea de un solo elemento - <span style='font-family:monospace;background-color:#EEE'>[[hhwt]]</span>) a un objeto <span style='font-family:monospace;background-color:#EEE'>.groupby()</span> recibes de regreso un DataFrame. Si pasas una sola columna <span style='font-family:monospace;background-color:#EEE'>[hhwt]</span>, recibes una Serie.
</details>

***

#### Paso 1: Define tus grupos

El indexador `.loc` de Pandas no solo sirve para dividir DataFrames, sino también para asignar nuevos valores a ciertos segmentos de DataFrames.

Por ejemplo,
```python
mascara_datos_inventados = (data['columna_1'] == 'Sin Respuesta')
datos.loc[mascara_datos_inventados, 'nueva_columna'] = 'esta fila no existia'
```

El código de arriba toma todas las filas que satisfacen la condición y luego busca `'nueva_columna'`, si no existe, lo creará y le asignará el valor `'esta fila no existia'` a todas las filas que satisfagan con la condición. El resto se rellenará con valores nulos (NaNs).

##### Creemos nuestras máscaras

In [None]:
mascara_latino = 


In [None]:
mascara_blanco = 


In [None]:
mascara_negro = 


In [None]:
mascara______ = 


In [None]:
mascara______ = 


In [None]:
mascara______ =


<details>
    <summary>Los 6 valores</summary>
    En los círculos de investigación de Estados Unidos es común tener 5 grupos principales de raza/etnia: Latinos, Negros/Africano-Americanos, Blancos, Asiaticos/Isleños del Pacífico y Indio-Americanos/Nativos. <br>
    Esto obviamente es una sobre-simplificación. Tu puedes utilizar los grupos que quieras pero para este análisis vamos a utilizar estos 5 grupos y un grupo "Otros" para capturar todos los hogares en nuestro conjunto de datos.
</details>

Asignemos estos valores a una nueva columna `'razet'` por Raza/Etnia

In [None]:
hogares_del_estado.loc[mascara_latino, 'razet'] = 'Latino'
hogares_del_estado.loc[mascara_blanco, 'razet'] = 'Blanco'
hogares_del_estado.loc[mascara_negro, 'razet'] = 'Negro/Africano-Americano'
hogares_del_estado.loc[mascara______, 'razet'] = '_______'
hogares_del_estado.loc[mascara______, 'razet'] = '_______'
hogares_del_estado.loc[mascara______, 'razet'] = '_______'


Revisa tus resultados.

Bajo tu nueva lógica, todos los valores de `race` deberían haber sido capturados en `razet` y no debería haber valores nulos, ¿verdad?

La función `.isna()` de Pandas regresa una Serie que contiene o True o False (verdadero / falso) correspondiendo a cada valor de la Serie dependiendo de si es un valor nulo o no.

Y además en `python`, True es igual a 1 y False a 0.

¿Qué crees que pasaría si `.sum`as los valores de una Serie de pandas booleana?

***

##### Multiples maneras de agrupar/agregar datos

Ahora que ha derivado una variable de trabajo por raza/etnia, puedes agregar tus datos para responder **PI2**. En pandas, hay muchas maneras de hacer esto, algunas de ellas son:
1. `.groupby()` como lo hemos hecho hasta ahora.
2. `.pivot_table()`
3. `pd.crosstabs()` <- este es un método `pandas`, no un método DataFrame. Más información más tarde.

##### GroupBy

In [None]:
hogares_del_estado.groupby(['razet', '______'])[['______']]._____()

Guardemos eso en una variable con nombre apropiado ya que la usaremos más adelante.

In [None]:
cihispeed_por_razet = hogares_del_estado.groupby(['razet', '______'])[['______']]._____()

Ahora, este DataFrame agrupado tiene el número total de hogares en cada uno de estos grupos razet-cihispeed.

Necesitamos la proporción de los valores de `cihispeed` por grupo de razet.

En nuestra ecuación,

$$ \frac{hogares\ con\ internet\ de\ alta\ velocidad}{total\ de\ hogares\ en\ grupo\ razet}$$

Necesitamos encontrar nuestro denominador.

In [None]:
# encuentra el denominador


In [None]:
# divide los grupos razet-cihispeed por el denominador


In [None]:
# guardalo en una variable de nombre apropiado
proporcion_cihispeed_por_razet = 

Este es un marco de datos de índice de múltiples niveles y hay algunas maneras de dividirlo. Probemos 3:
1. un segmento clásico `.loc`
2. una sección transversal (`.xs()`)
3. El método `.reset_index()`

**Clásico `.loc`**

In [None]:
proporcion_cihispeed_por_razet.loc[FILTRO_PARA_LAS_FILAS, COLUMNAS]

**Sección transversal**

In [59]:
proporcion_cihispeed_por_razet.xs?

[0;31mSignature:[0m [0mshares_cihispeed_by_racen[0m[0;34m.[0m[0mxs[0m[0;34m([0m[0mkey[0m[0;34m,[0m [0maxis[0m[0;34m=[0m[0;36m0[0m[0;34m,[0m [0mlevel[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mdrop_level[0m[0;34m=[0m[0;32mTrue[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Return cross-section from the Series/DataFrame.

This method takes a `key` argument to select data at a particular
level of a MultiIndex.

Parameters
----------
key : label or tuple of label
    Label contained in the index, or partially in a MultiIndex.
axis : {0 or 'index', 1 or 'columns'}, default 0
    Axis to retrieve cross-section on.
level : object, defaults to first n levels (n=1 or len(key))
    In case of a key partially contained in a MultiIndex, indicate
    which levels are used. Levels can be referred by label or position.
drop_level : bool, default True
    If False, returns object with same levels as self.

Returns
-------
Series or DataFrame
    Cross-se

Solo necesitas una **key**, que es el valor que te interesa (por ejemplo "yes (cable modem, fiber optic or dsl service)" que es una respuesta "Si" a la pregunta "Tienes acceso al internet" del censo), y el nivel en el cual buscar esta **key** (en python empezamos a contar en 0).

In [None]:
proporcion_cihispeed_por_razet.xs(key = '________', level = _)

**`.reset_index()`**

Otra forma de dividir un DataFrame de índice multinivel es convertirlo en un DataFrame de índice no multinivel. Para hacer eso necesitas _resetear_ tu índice. Después de eso, podemos dividirlo en la forma en que hemos estado segmentando nuestros DataFrames anteriormente.

In [None]:
__________ = ____________._________()

In [None]:
__________

In [None]:
mascara_si_cihispeed = (____________[_________] == '___________')
_______[mascara_si_cihispeed]

***

##### Tablas dinámicas (pivot tables)

El segundo método para agregar nuestros datos es `.pivot_table()`s (tablas dinámicas).

Si ha trabajado con Excel, es posible que ya esté familiarizado con lo que es una tabla dinámica.

De [Wikipedia](https://es.wikipedia.org/wiki/Tabla_din%C3%A1mica):
>las tablas dinámicas pueden de forma automática clasificar, contar, totalizar o dar la media de los datos almacenados en una tabla o una hoja de cálculo. Se muestran los resultados en una segunda tabla (llamada "tabla dinámica" o "tabla pivote") que muestra los datos resumidos.

In [66]:
hogares_del_estado.pivot_table?

[0;31mSignature:[0m
[0mstate_households[0m[0;34m.[0m[0mpivot_table[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mvalues[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcolumns[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0maggfunc[0m[0;34m=[0m[0;34m'mean'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mfill_value[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mmargins[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdropna[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mmargins_name[0m[0;34m=[0m[0;34m'All'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Create a spreadsheet-style pivot table as a DataFrame. The levels in
the pivot table will be stored in MultiIndex objects (hierarchical
indexes) on the index and columns o

What we need are four things:
1. What variable will become our `index`?
2. What variable will become our `columns`?
3. What variable will become our `values`?
4. How will we aggregate our values?

Pandas is going to grab each unique value in the variables you choose and use those as rows in your `.index` or separate columns in your `.columns`. The `values` variable should be _quantitative_ in this case (but it doesn't have to be, necessarily). `.pivot_table` will by default find the `mean` of your `values` variable for each cell in your new table, in this case we don't care about the `mean`, we want to `sum` up the total number of households.

Prueba lo siguiente:

```python
hogares_del_estado.pivot_table(
    index = '______',
    columns = '______', 
    values = 'hhwt',
    aggfunc = '___',
    margins = True,
)
```

Guárdalo en una variable apropiadamente nombrada.

In [None]:
hogares_tabla_pivote = hogares_del_estado.pivot_table(
    index = '_____',
    columns = '______',
    ______ = '______',
    ______ = '____',
    _______ = True,
)

¿Cúal crees que es el siguiente paso?