# Transformación de Dataframes

## Inspeccionar un dataframe
 

In [None]:
# Importa la libreria de Pandas
import pandas as pd

In [None]:
homelessness = pd.read_csv('./datasets/homelessness.csv', index_col=0)

In [None]:
# Imprimir los primeros datos con head
homelessness.head()

In [None]:
# Imprimir información acerca de homleness 
print(homelessness.info())

In [None]:
print(homelessness.shape)

In [None]:
# print la descripción de  homeleness
print(homelessness.describe())

In [None]:
# Partes de un dataframe 
print(homelessness.values)

In [None]:
# Imprimir los indices de las columnas
print(homelessness.columns)


In [None]:
# Imprimir los indices de las filas homeleness
print(homelessness.index) 

## Ordenar filas
| Ordenar en ... | Sintaxis |
|----------------|----------------------------|
| Una columna    |`df-sort_values("bread")`   |
| Varias columnas    |`df-sort_values(["bread", "weight_kg"])`   |

1. Ordena homelessness por el número de personas sin hogar de la columna individuals, de menor a mayor y guardarlo como gomelessness_ind
2. Ordena homeleness por el número de personas sin hogar family_members en orden descendente y guardarlo como homelessness_fam 
3. Ordena por región y de forma ascendente, por número de miembros de la familia pero de forma descendente y almacenar como homelessness_reg_fam



In [None]:
homelessness_ind = homelessness.sort_values('individuals')
print(homelessness_ind.head(10))



In [None]:
# Ordenar homelessness por family_members de forma descendente
homelessness_fam = homelessness.sort_values("family_members", ascending=False)
print(homelessness_fam.head(10))

In [None]:
homelessness_re_fam = homelessness.sort_values(['Region', 'family_members']. ascending=[True, False])
print(homelessness_re_fam.head(10))



## Subconjuntos de columnas
Hay muchas formas de subconjuntar un dataframe. Quizá la más común sea utilizar operadores relacionales para devolver `True` o `False` para cada fila y luego pasasrlo entre corchetes.

**Ejemplo**
`dogs[dogs['height_cm'] > 60]`
`dogs[dogs['color'] == "tan"]`


También puedes filtrar por varias condiciones a la vez utilizando el operador 

`dogs[(dogs['height_cm'] > 60) & (dogs['color'] == 'tan')]`

**Instrucciones**
1. Filtra homelessness para los casos en los que el número individual sea superior o diez mil, `asignándosele ind_gt_10k`. Visualizar el resultado
2. Filtra homelessness para los casos en los que la region es Mountain asignando a mountain_reg. Visualiza el resultado
3. Filtra homelessness para los casos en los que el número de family_members sea inferior a mil y la región sea 'Pacifico', asignandolo a fam_lt_1k
4. 

In [None]:
mountain_reg = homelessness [homelessness['region'] == 'Mountain']
mountain_reg.sort_values('region', ascending=True)
print(mountain_reg.head())

In [None]:
ind_gt_10k = homelessness [homelessness['individuals'] > 10000]
print(ind_gt_10k)

In [None]:
fam_lt_1k_pac = homelessness[(homelessness['family_members'] < 1000) & (homelessness['region'] == 'Pacific')  ]
print(fam_lt_1k_pac)

# Subconjunto de filas por variables categóricas
Utiliza el método `.isIn()` que permitirá abordar el problema escribiendo en una sola condición en lugar de varias porque para segmentar variables categóricas se utilizan el operador | 

`colors = ['brown', 'black', 'tan']`

`condition = dogs['color'].isin(colors)`

`dogs ['condition']`

**Instrucciones**
1. Filtra homelessness para los casos en los que el censo para los estados California, Arizona, Nevada, Utha, asignándolo a Mojave_homelessness


In [None]:
canu = ['California', 'Arizona', 'Nevada', 'Utah']
mojave_homelessness = homelessness[homelessness['state'].isin(canu)]
mojave_homelessness

wha

In [None]:
# Agregar una columna total como la suma de individuals y family_members.homelessness['total'] = homelessness['individuals'] + homelessness['family_members']

# Agregar una columna llamada P_homelessness como una proporción del total de homelessnessde la población para el estado de la población
homelessness['p_homeless'] = homelessness['total'] / homelessness['state_pop']
print(homelessness.head(10))




In [None]:
columnas = ['state', 'individuals', 'state_pop', 'total', 'p_homelessness']
homelessness[columnas].head(10)



## Práctica - combo ataque
Hasta ahora, se han visto los cuatro tipos más comunes de manipulación de datos: `Ordenar filas`, `Subconjuntar columnas`, `subconjuntar filas`, `añadir nuevas columnas`.
En un análisis de la vida real, puedes mezclar y combinar estas cuatro manipulaciones para responder a múltiples preguntas. En este ejercicio responderás la pregunta: `¿Que estado tiene el mayor número de personas sin hogar por cada 10,000 habitantes?`. Combina las nuevas habilidades en Pandas para averiguarlo.

**Instrucciones**
- Añade una columna a homelessness, indiv_per_10k, que contenga el número de personas sin hogar por cada 10,000 de personas en cada estado, utilizando state_pop para la población del estado

- Subconjunta las filas en las que indiv_per_10k sea superior a 20, asignandolas a high_homelessness

- Ordena high_homelessness en orden descendente ndiv_per_10k, asignando a high_homelessness_srt seleccionando solo las columnas statee ind_per_10k de high_homelessness_srt y guárdalas como result y visualiza result


In [None]:
# Crear la columna indiv_per_10k como homeless indiv
homelessness [indiv_per_10k] = homelessness['individuals'] / homelessness ['state_pop'] * 10000

high_homelessness = homelessness[homelessness['indiv_per_10k'] > 20]

result  = high_homelessness.sort_values('indiv_per_10k', ascending=False)

# Visualizar el resultado
result 


El District of Columbia tiene el mayor número de individuos sin hogar - casi 54 por cada diez mil personas. Esto es casi el doble del número del siguiente estado con más casos. Hawaii