# Homeless
Inteligencia Artificial - Facundo A. Lucianna - CEIA - FIUBA

Para este trabajo, se incorpora un csv (*homeless2021.csv*) con información de estimaciones de falta de vivienda en los estados de EE UU en 2021. Se presenta para 6 columnas, 3 con información de cuantos el número de vagabundos individuales (*individuals*) que no forman parte de una familia, y otra 3 con el número de vagabundos que son parte de una familia con hijos (*family*). Son tres para cada una, correspondiendo a la separación por género (masculino y femenino) y una sin discriminar el género. Además, *state_pop* presenta el total de la población del estado.

La información la obtuvimos de [endhomelessness.org](https://endhomelessness.org/homelessness-in-america/homelessness-statistics/state-of-homelessness-2021/)

OBS: En las celdas de procesamiento si ves ___ es para que reemplaces.

----
## Primeros pasos exploratorios

Una de las primeras cosas que podemos hacer cuando tenemos un DataFrame nuevo, es explorarlo y ver que contiene. Entre las herramientas de Pandas que nos permite hacer eso son:

- `.head()`
- `.info()`
- `.shape`
- `.describe()`

Por lo que pongamos manos a la obra:

1. Importa `pandas` como `pd` 

In [None]:
import pandas as ___

2. Lea el csv en un DataFrame y llame al DataFrame `homeless`

In [None]:
___ = pd.____("./homeless2021.csv")

3. Muestre la cabecera del DataFrame con las primeras 7 filas.

In [None]:
homeless.head(___)

4. Muestre información sobre los tipos de columna y los valores faltantes  

5. Muestre la cantidad de filas y columnas que posee el DataFrame.

6. Imprima algunas estadísticas resumidas del DataFrame.

Siguiendo explorando nuestro DataFrame, es útil saber siempre que sea posible, analizar las columnas, índices y elementos de nuestro DataFrame. Para ello tenemos tres atributos:

- `.values`: Nos devuelve un array de Numpy de dos dimensiones con los valores.
- `.columns`: Un índice de columnas con los nombres de las columnas.
- `.index`: Un índice de filas, ya sea números de fila o nombres de fila.

Siguiendo con el mismo DataFrame del punto anterior (`homeless`):

1. Imprima una matriz Numpy con los valores de `homeless`

2. Imprima los nombres de la columna de `homeless`

3. Imprima el índice de `homeless`

---

## Ordenando valores

Una forma rápida de encontrar pedazos de datos interesantes en un DataFrame es reordenando el orden de las filas. En un DataFrame, se puede ordenar usando `.sort_values()`. En los casos en que las filas tengan el mismo valor, es posible que desee ordenar en más de una columna. Puede ordenar varias columnas de esta manera pasando una lista de nombres de columnas.

| Ordenar usando... | Sintaxis  |
|---|---|
| una columna.   | `df.sort_values("sexo")`   |
| múltiples columnas.  | `df.sort_values(["sexo", "peso"])`  |

`.sort_values()` por defecto ordena de menor a mayor (ascendente), pero es posible cambiarlo para que sea descendente, usando el parámetro opcional `ascending=False`.

| Ordenar... | Sintaxis  |
|---|---|
| de menor a mayor.   | `df.sort_values("sexo")`   |
| de mayor a menor.  | `df.sort_values("sexo", ascending=False)`  |
| con múltiples columnas.  | `df.sort_values(["sexo", "peso"], ascending=[False, True])`  |

Al combinar `.sort_values()` con `.head()`, podés responder preguntas del tipo "¿Cuáles son los casos principales donde...?".

Siguiendo con el mismo DataFrame del punto anterior (`homeless`):

1. Ordene `homeless` por el número de personas sin hogar inviduales (`individuals`), de menor a mayor, y guárdelo como `homelessness_ind`. 

In [None]:
___ = homeless.sort_values(___)

2. Imprima el encabezado del DataFrame ordenado.

In [None]:
___.head()

3. Ordene `homeless` por el número de personas sin hogar con familias (`family_members`), de mayor a menor, y guárdelo como `homelessness_fam`. 

In [None]:
___ = homeless.sort_values(___, ascending=___)

4. Imprima el encabezado del DataFrame ordenado.

Responda con estos puntos:

1. ¿Qué estado posee menos personas sin hogar inviduales?
2. ¿Cuál es el tercer  estado con más personas sin hogar con familias?

---

## Slicing de columnas 

Cuando trabaja con un dataset, es posible que no se necesiten todas las columnas. Los corchetes ([]) se pueden usar para seleccionar solo las columnas que interesan, además en un orden que tenga sentido. Para seleccionar solamente la columna `"col_a"` del DataFrame `df`, se debe usar:

``` Python
df["col_a"]
``` 

Para seleccionar `"col_a"` y `"col_b"` de `df`, usar

``` Python
df[["col_a", "col_b"]]
```

Obsérvese, que si se cambia el orden de  `"col_a"` y `"col_b"` , el DataFrame va a mostrar las columnas en ese orden.

Siguiendo con el mismo DataFrame del punto anterior (`homeless`):

1. Cree un DataFrame llamado `individuals` que contiene solo la columna de `homeless` asociada a la medición de vagabundo inviduales sin discriminar genero (`individuals`).

In [None]:
___ = homeless[[___]]

2. Muestre la cabecera del resultado.

3. Cree un DataFrame llamado `state_fam` que contiene solo las columnas de `homeless`  con el nombre de estado (`state`) y el número de vagabundo con familia sin discriminar género (`family_members`).

4. Muestre la cabecera del resultado.

5. Cree un DataFrame llamado `ind_state_by_sex` que contenga a los estados (`state`), el número de vagabundos individuales que se identifican como mujer (`individuals female`)  y el número de vagabundos individuales que se identifican como hombres (`individuals male`). En ese orden.

6. Muestre la cabecera del resultado.

---

## Filtros avanzados

Una gran parte del trabajo en ciencias de datos es encontrar que partes de tu dataset son interesantes. Una de las técnicas más simples para esto es encontrar un subconjunto de filas que coincidan con algunos criterios.

Hay muchas maneras de crear subconjuntos de un DataFrame, quizás la más común, tal como vimos en clase, es usar operadores relacionales para devolver `True` o `False` para cada fila, luego pasar eso entre corchetes:

``` Python
df[df["sexo" == "Female"]]
df[df["peso" > 80]]
``` 

Recordar también que se puede filtrar combinando los filtros con operadores bitwise:

``` Python
df[(df["sexo" == "Female"]) & (df["peso" > 80])]
``` 

Siguiendo con el mismo DataFrame de los puntos anteriores (`homeless`):

1. Filtre  `homeless` para los estados (`state`) en donde posee el numero número de vagabundos individuales (`individuals`) sea mayor a 5000, guardándolo en `ind_gt_5k`. Y muestre el resultado.

In [None]:
ind_gt_5k = ___[___["individuals"] > 5000]

ind_gt_5k

2. Filtre `homeless` en donde las región es `"Mountain"`, guardándolo en `mountain_reg`. Muestre el resultado.

3. Filtre `homeless` para los estados en donde el número de personas sin hogar con familias se menor o igual a 1000 y que la región sea `“Pacific”`, asignelo a `fam_lt_1k_pac`. Muestre el resultado.

---

## Filtros más avanzados

La creación de un subconjunto de datos basados en una variable categórica, en general implica utilizar el operador “or” (`|`) para seleccionar filas de varias categorias. Por ejemplo,

``` Python
df[(df["estado" == "soltero"]) | (df["estado" == "divorciado"])]
```

Esto puede volverse tedioso cuando se quiere filtrar multiples valores. En su lugar, se puede utilizar el método `.isin()`, que permite abordar este problema escribiendo una condición en lugar de tres separadas.

``` Python
estados_filtrados = ["soltero", "divorciado"]
condition = df["estado"].isin(estados_filtrados)
df[condition]
```

Siguiendo con el mismo DataFrame de los puntos anteriores (`homeless`):

1. Filtre  `homeless` para los casos en que la región es `"South Atlantic"` o es `"Mid-Atlantic"`, asignelo a `south_mid_atlantic`. Muestre el resultado.

In [None]:
___ = homeless[homeless[___].isin([___, ___])]

2. Filtre  `homeless` para los casos para los estados que comparten el desierto Mojave, asignelo a `mojave_homelessness`. Muestre el resultado.

Los estados que comparten el [desierto Mojave](https://en.wikipedia.org/wiki/Mojave_Desert) son Arizona, California, Nevada y Utah

---

## Transformaciones

Uno no está atascado únicamente con los datos que provienen del Dataset. Se puede crear nuevas columnas, lo que llamamos como transformaciones o también ingeniería de características.

Se pueden crear columnas desde cero, pero también, tal como vimos de clase, es común obtenerlas de otras columnas. 

Siguiendo con el mismo DataFrame de los puntos anteriores (`homeless`),

1. Agregue una nueva columna a `homeless`, llamada `"total"`, que contenga la suma de `"individuals"` y `"family_members"`.

In [None]:
homeless["total"] = homeless[___] + ___

2. Agregue otra columna a `homeless`, llamada `p_female`, que contiene la proporción de  personas sin hogar individuales en cada estado que son mujeres. 

In [None]:
___ = homeless[___] / homeless["individuals"]

3. Agregue una columna a `homeless`, llamada `"family_members non binary"` con el número de personas sin hogar con familia que no se definen como male o female.

---

## Combinando lo aprendido

Usando las herramientas que se han usado hasta ahora, responda la siguiente pregunta 

¿Qué estado tiene el mayor número de personas sin hogar individuales por cada 10.000 personas en el estado?

Pistas:

- Agregue a `homeless` una columna llamada `"indiv_per_10k"` conteniendo el número de personas sin hogar individuales dividido la población del estado. Multiplique esta division por `10000`.
- Filtre las filas en donde `"indiv_per_10k"` es mayor a `10`, asignalo a `homelessness_high`.
- Ordene `homelessness_high` de forma descendente usando la columna `"indiv_per_10k"`. asignalo a `homelessness_high_sorted`.
- Seleccione únicamente la columna `state` e `indiv_per_10k` de `homelessness_high_sorted` y asignalo a `result`.
- Imprima `result`.

In [None]:
homeless[___] = (homeless[___] / homeless[___]) * 10000

___ = homeless[homeless[___] > 10]

___ = ___.sort_values(___, ascending=___)

result = ___[["state", ___]]

# Mostramos el resultado
result