# **Introducción a los DataFrames**

## **Inspeccionando un DataFrame**  

Cuando trabajas con un nuevo **DataFrame**, lo primero que debes hacer es explorarlo para entender qué información contiene. Para ello, existen varios métodos y atributos útiles en Pandas:  

- **`.head()`**: Devuelve las primeras filas del DataFrame (la "cabeza" del DataFrame).  
- **`.info()`**: Muestra información sobre cada columna, como el tipo de dato y la cantidad de valores faltantes.  
- **`.shape`**: Retorna el número de filas y columnas del DataFrame.  
- **`.describe()`**: Calcula estadísticas resumidas para cada columna.  

El **DataFrame `homelessness`** contiene estimaciones sobre la población sin hogar en cada estado de EE. UU. en el año 2018.  

- La columna **`individual`** representa el número de personas sin hogar que no forman parte de una familia con niños.  
- La columna **`family_members`** representa el número de personas sin hogar que sí forman parte de una familia con niños.  
- La columna **`state_pop`** representa la población total del estado.  

In [11]:
import pandas as pd

In [12]:
homelessness = (pd
    .read_csv('../../datasets/homelessness.csv')
)

Imprimir el encabezado de los datos `homelessness`.

In [None]:
(
    homelessness
    .head()
)

### **Imprimir el número de filas y columnas en `homelessness`**  

Imprime información sobre los tipos de columnas y los valores faltantes en el DataFrame `homelessness`.  

In [None]:
( 
    homelessness
    .info()
)

Muestra la cantidad de filas y columnas en el DataFrame `homelessness`.  

In [None]:
(
    homelessness
    .shape
)

### **Imprimir estadísticas resumidas del DataFrame `homelessness`**  

Muestra algunas estadísticas descriptivas que resumen los datos en el DataFrame `homelessness`.  

In [None]:

(
    homelessness
    .describe()
)


## **Partes de un DataFrame**  

Para comprender mejor los objetos **DataFrame**, es útil saber que están compuestos por tres elementos principales, almacenados como atributos:  

- **`.values`**: Un array bidimensional de NumPy que contiene los valores.  
- **`.columns`**: Un índice de columnas que almacena los nombres de las columnas.  
- **`.index`**: Un índice para las filas, que puede ser una numeración de filas o nombres de filas.  

Por lo general, puedes pensar en los **índices** como una lista de cadenas o números, aunque el tipo de dato **Index de Pandas** permite opciones más avanzadas. (Estos conceptos se explicarán más adelante en el curso).  

### **Explorar los atributos de `homelessness`**  

1. **Imprimir un array bidimensional de NumPy** con los valores en `homelessness`.  
2. **Imprimir los nombres de las columnas** en `homelessness`.  
3. **Imprimir el índice** del DataFrame `homelessness`.  

In [None]:
(
    homelessness
    .values
)


In [None]:
(
    homelessness
    .columns
)


In [None]:
(
    homelessness
    .index
)

# **Ordenamiento y filtrado**

## **Ordenar filas**

Encontrar información relevante en un **DataFrame** suele ser más fácil si cambiamos el orden de las filas. Puedes ordenarlas utilizando el método `.sort_values()`, pasando el nombre de la columna como argumento.  

En casos donde varias filas tienen el mismo valor en la columna de ordenamiento (situación común en variables categóricas), puedes **desempatar** ordenando por otra columna adicional. Para ello, simplemente pasa una lista de nombres de columnas a `.sort_values()`.  

| Ordenar por… | Sintaxis |
| --- | --- |
| Una columna | `df.sort_values("breed")` |
| Varias columnas | `df.sort_values(["breed", "weight_kg"])` |

Combinando `.sort_values()` con `.head()`, puedes responder preguntas del tipo:  
**"¿Cuáles son los principales casos en los que…?"**  


### **Ordenar `homelessness` por el número de personas sin hogar**

1. Ordena el DataFrame `homelessness` por el número de personas sin hogar (`individual`), de menor a mayor, y guarda el resultado en `homelessness_ind`.  
2. Imprime las primeras filas del DataFrame ordenado utilizando `.head()`.  

In [None]:
homelessness_ind = (
    homelessness
    .sort_values('individuals')
)

print(homelessness_ind.head())

### **Ordenar `homelessness` por el número de miembros de familias sin hogar**

1. Ordena el DataFrame `homelessness` por el número de **miembros de familias sin hogar** (`family_members`) en **orden descendente** y guarda el resultado en `homelessness_fam`.  
2. Imprime las primeras filas del DataFrame ordenado utilizando `.head()`.  

In [None]:
homelessness_fam = (
    homelessness
    .sort_values(
        'family_members', 
        ascending=False
    )
)

print(homelessness_fam.head())

### **Ordenar `homelessness` por región y número de miembros de familias sin hogar**

1. Ordena el DataFrame `homelessness` primero por **región** en **orden ascendente**, y luego por el número de **miembros de familias sin hogar** (`family_members`) en **orden descendente**.  
2. Guarda el resultado en `homelessness_reg_fam`.  
3. Imprime las primeras filas del DataFrame ordenado utilizando `.head()`.  

In [None]:
homelessness_reg_fam = (
    homelessness
    .sort_values(
        ['region', 'family_members'], 
        ascending=[True, False]
    )
)

print(homelessness_reg_fam.head())

Aquí tienes la traducción en formato Markdown:

# **Filtrado de columnas**

Al trabajar con datos, es posible que no necesites todas las variables de tu conjunto de datos. Puedes utilizar corchetes (`[]`) para seleccionar únicamente las columnas que te interesan, en el orden que prefieras.  

Para seleccionar solo la columna `"col_a"` del DataFrame `df`, usa:  

```python
df["col_a"]

Para seleccionar las columnas "col_a" y "col_b" de df, usa:

df[["col_a", "col_b"]]

### **Seleccionar la columna `individuals` del DataFrame `homelessness`**

1. Crea un nuevo DataFrame llamado `individuals` que contenga solo la columna `individuals` del DataFrame `homelessness`.  
2. Imprime las primeras filas del resultado utilizando `.head()`.  

In [None]:
individuals = (
    homelessness[['individuals']]
)

print(individuals.head())

### **Seleccionar las columnas `state` y `family_members` del DataFrame `homelessness`**

1. Crea un nuevo DataFrame llamado `state_fam` que contenga únicamente las columnas `state` y `family_members` del DataFrame `homelessness`, en ese orden.  
2. Imprime las primeras filas del resultado utilizando `.head()`.  

In [None]:
state_fam = (
    homelessness[['state', 'family_members']]
)

print(state_fam.head())

### **Seleccionar las columnas `individuals` y `state` del DataFrame `homelessness`**

1. Crea un nuevo DataFrame llamado `ind_state` que contenga únicamente las columnas `individuals` y `state` del DataFrame `homelessness`, en ese orden.  
2. Imprime las primeras filas del resultado utilizando `.head()`.  

In [None]:
ind_state = (
    homelessness[
        [
            'individuals', 
            'state'
        ]
    ]
)

print(ind_state.head())

## **Filtrado de filas (Subsetting rows)**  

Una gran parte de la ciencia de datos consiste en identificar qué partes del conjunto de datos son **interesantes**. Una de las técnicas más simples para esto es encontrar un **subconjunto de filas** que cumplan con ciertos criterios. A este proceso también se le conoce como **filtrado de filas** o **selección de filas**.  

Existen varias formas de filtrar un DataFrame, pero la más común es utilizar **operadores relacionales** para obtener valores `True` o `False` para cada fila, y luego pasar este resultado dentro de corchetes (`[]`).  

```python
dogs[dogs["height_cm"] > 60]
dogs[dogs["color"] == "tan"]

Si deseas filtrar múltiples condiciones al mismo tiempo, puedes utilizar el operador “bitwise and” (&):

dogs[(dogs["height_cm"] > 60) & (dogs["color"] == "tan")]



### **Filtrar `homelessness` para casos con más de 10,000 individuos sin hogar**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde la columna `individuals` sea **mayor a 10,000**.  
2. Guarda el resultado en un nuevo DataFrame llamado `ind_gt_10k`.  
3. Imprime el resultado para visualizar los datos filtrados.  

In [None]:
ind_gt_10k = (
    homelessness[homelessness['individuals'] > 10000]
)

print(ind_gt_10k)

### **Filtrar `homelessness` para la región del censo de EE. UU. `"Mountain"`**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde la columna `region` sea `"Mountain"`.  
2. Guarda el resultado en un nuevo DataFrame llamado `mountain_reg`.  
3. Imprime el resultado para visualizar los datos filtrados.  

In [None]:
mountain_reg = (
    homelessness[
        homelessness['region'] == 'Mountain'
    ]
)

print(mountain_reg)

### **Filtrar `homelessness` para casos con menos de 1,000 miembros de familia en la región "Pacific"**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde:  
   - La columna `family_members` sea **menor a 1,000**.  
   - La columna `region` sea **"Pacific"**.  
2. Guarda el resultado en un nuevo DataFrame llamado `fam_lt_1k_pac`.  
3. Imprime el resultado para visualizar los datos filtrados.  

In [None]:
fam_lt_1k_pac = (
    homelessness[(homelessness['family_members'] < 1000) & (homelessness['region'] == 'Pacific')]
)

print(fam_lt_1k_pac)

## **Filtrado de filas por variables categóricas**

Filtrar datos basados en una variable categórica a menudo implica usar el operador **"or"** (`|`) para seleccionar filas de múltiples categorías. Sin embargo, esto puede volverse tedioso cuando deseas incluir varias categorías al mismo tiempo.  

Para simplificar el proceso, puedes utilizar el método `.isin()`, el cual permite aplicar una única condición en lugar de escribir varias condiciones separadas.  

```python
colors = ["brown", "black", "tan"]
condition = dogs["color"].isin(colors)
dogs[condition]

Esto seleccionará todas las filas donde la columna "color" tenga uno de los valores en la lista ["brown", "black", "tan"].

### **Filtrar `homelessness` para las regiones "South Atlantic" o "Mid-Atlantic"**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde la columna `region` sea **"South Atlantic"** o **"Mid-Atlantic"**.  
2. Guarda el resultado en un nuevo DataFrame llamado `south_mid_atlantic`.  
3. Imprime el resultado para visualizar los datos filtrados.  

In [None]:
south_mid_atlantic = (
    homelessness[(homelessness['region'] == 'South Atlantic') | (homelessness['region'] == 'Mid-Atlantic')]
)

print(south_mid_atlantic)

### **Filtrar `homelessness` para los estados de Mojave (`canu`)**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde la columna `state` esté en la lista de **estados de Mojave**, denominada `canu`.  
2. Guarda el resultado en un nuevo DataFrame llamado `mojave_homelessness`.  
3. Imprime el resultado para visualizar los datos filtrados. 

In [None]:
canu = ["California", "Arizona", "Nevada", "Utah"]

mojave_homelessness = (
    homelessness[homelessness['state'].isin(canu)]
)

print(mojave_homelessness)

## **Agregar nuevas columnas**

No estás limitado a los datos que te proporcionan. En su lugar, puedes agregar nuevas columnas a un **DataFrame**. Este proceso tiene varios nombres, como **transformación**, **mutación** y **ingeniería de características (feature engineering)**.  

Puedes crear nuevas columnas desde cero, pero también es común derivarlas a partir de otras columnas, por ejemplo, sumando valores de diferentes columnas o cambiando sus unidades.  

### **Agregar nuevas columnas a `homelessness`**  

1. **Agregar una nueva columna llamada `total`**  
   - Contendrá la suma de las columnas `individuals` y `family_members`, representando el total de personas sin hogar en cada estado.  

2. **Agregar otra columna llamada `p_individuals`**  
   - Contendrá la proporción de personas sin hogar que son individuos, calculada como:  

In [None]:
homelessness['total'] = (
    homelessness['individuals'] 
    + homelessness['family_members']
)

homelessness['p_individuals'] = (
    homelessness['individuals'] / homelessness['total']
)

print(homelessness)