# **Introducción a los DataFrames**

## **Inspeccionando un DataFrame**  

Cuando trabajas con un nuevo **DataFrame**, lo primero que debes hacer es explorarlo para entender qué información contiene. Para ello, existen varios métodos y atributos útiles en Pandas:  

- **`.head()`**: Devuelve las primeras filas del DataFrame (la "cabeza" del DataFrame).  
- **`.info()`**: Muestra información sobre cada columna, como el tipo de dato y la cantidad de valores faltantes.  
- **`.shape`**: Retorna el número de filas y columnas del DataFrame.  
- **`.describe()`**: Calcula estadísticas resumidas para cada columna.  

El **DataFrame `homelessness`** contiene estimaciones sobre la población sin hogar en cada estado de EE. UU. en el año 2018.  

- La columna **`individual`** representa el número de personas sin hogar que no forman parte de una familia con niños.  
- La columna **`family_members`** representa el número de personas sin hogar que sí forman parte de una familia con niños.  
- La columna **`state_pop`** representa la población total del estado.  

In [11]:
import pandas as pd

In [12]:
homelessness = (pd
    .read_csv('../../datasets/homelessness.csv')
)

Imprimir el encabezado de los datos `homelessness`.

In [15]:
(
    homelessness
    .head()
)

Unnamed: 0,region,state,individuals,family_members,state_pop
0,East South Central,Alabama,2570.0,864.0,4887681
1,Pacific,Alaska,1434.0,582.0,735139
2,Mountain,Arizona,7259.0,2606.0,7158024
3,West South Central,Arkansas,2280.0,432.0,3009733
4,Pacific,California,109008.0,20964.0,39461588


### **Imprimir el número de filas y columnas en `homelessness`**  

Imprime información sobre los tipos de columnas y los valores faltantes en el DataFrame `homelessness`.  

In [14]:
( 
    homelessness
    .info()
)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51 entries, 0 to 50
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   region          51 non-null     object 
 1   state           51 non-null     object 
 2   individuals     51 non-null     float64
 3   family_members  51 non-null     float64
 4   state_pop       51 non-null     int64  
dtypes: float64(2), int64(1), object(2)
memory usage: 2.1+ KB


Muestra la cantidad de filas y columnas en el DataFrame `homelessness`.  

In [16]:
(
    homelessness
    .shape
)

(51, 5)

### **Imprimir estadísticas resumidas del DataFrame `homelessness`**  

Muestra algunas estadísticas descriptivas que resumen los datos en el DataFrame `homelessness`.  

In [17]:

(
    homelessness
    .describe()
)


Unnamed: 0,individuals,family_members,state_pop
count,51.0,51.0,51.0
mean,7225.784314,3504.882353,6405637.0
std,15991.025083,7805.411811,7327258.0
min,434.0,75.0,577601.0
25%,1446.5,592.0,1777414.0
50%,3082.0,1482.0,4461153.0
75%,6781.5,3196.0,7340946.0
max,109008.0,52070.0,39461590.0


## **Partes de un DataFrame**  

Para comprender mejor los objetos **DataFrame**, es útil saber que están compuestos por tres elementos principales, almacenados como atributos:  

- **`.values`**: Un array bidimensional de NumPy que contiene los valores.  
- **`.columns`**: Un índice de columnas que almacena los nombres de las columnas.  
- **`.index`**: Un índice para las filas, que puede ser una numeración de filas o nombres de filas.  

Por lo general, puedes pensar en los **índices** como una lista de cadenas o números, aunque el tipo de dato **Index de Pandas** permite opciones más avanzadas. (Estos conceptos se explicarán más adelante en el curso).  

### **Explorar los atributos de `homelessness`**  

1. **Imprimir un array bidimensional de NumPy** con los valores en `homelessness`.  
2. **Imprimir los nombres de las columnas** en `homelessness`.  
3. **Imprimir el índice** del DataFrame `homelessness`.  

In [20]:
(
    homelessness
    .values
)


array([['East South Central', 'Alabama', 2570.0, 864.0, 4887681],
       ['Pacific', 'Alaska', 1434.0, 582.0, 735139],
       ['Mountain', 'Arizona', 7259.0, 2606.0, 7158024],
       ['West South Central', 'Arkansas', 2280.0, 432.0, 3009733],
       ['Pacific', 'California', 109008.0, 20964.0, 39461588],
       ['Mountain', 'Colorado', 7607.0, 3250.0, 5691287],
       ['New England', 'Connecticut', 2280.0, 1696.0, 3571520],
       ['South Atlantic', 'Delaware', 708.0, 374.0, 965479],
       ['South Atlantic', 'District of Columbia', 3770.0, 3134.0, 701547],
       ['South Atlantic', 'Florida', 21443.0, 9587.0, 21244317],
       ['South Atlantic', 'Georgia', 6943.0, 2556.0, 10511131],
       ['Pacific', 'Hawaii', 4131.0, 2399.0, 1420593],
       ['Mountain', 'Idaho', 1297.0, 715.0, 1750536],
       ['East North Central', 'Illinois', 6752.0, 3891.0, 12723071],
       ['East North Central', 'Indiana', 3776.0, 1482.0, 6695497],
       ['West North Central', 'Iowa', 1711.0, 1038.0, 3148618]

In [21]:
(
    homelessness
    .columns
)


Index(['region', 'state', 'individuals', 'family_members', 'state_pop'], dtype='object')

In [22]:
(
    homelessness
    .index
)

RangeIndex(start=0, stop=51, step=1)

# **Ordenamiento y filtrado**

## **Ordenar filas**

Encontrar información relevante en un **DataFrame** suele ser más fácil si cambiamos el orden de las filas. Puedes ordenarlas utilizando el método `.sort_values()`, pasando el nombre de la columna como argumento.  

En casos donde varias filas tienen el mismo valor en la columna de ordenamiento (situación común en variables categóricas), puedes **desempatar** ordenando por otra columna adicional. Para ello, simplemente pasa una lista de nombres de columnas a `.sort_values()`.  

| Ordenar por… | Sintaxis |
| --- | --- |
| Una columna | `df.sort_values("breed")` |
| Varias columnas | `df.sort_values(["breed", "weight_kg"])` |

Combinando `.sort_values()` con `.head()`, puedes responder preguntas del tipo:  
**"¿Cuáles son los principales casos en los que…?"**  


### **Ordenar `homelessness` por el número de personas sin hogar**

1. Ordena el DataFrame `homelessness` por el número de personas sin hogar (`individual`), de menor a mayor, y guarda el resultado en `homelessness_ind`.  
2. Imprime las primeras filas del DataFrame ordenado utilizando `.head()`.  

In [25]:
homelessness_ind = (
    homelessness
    .sort_values('individuals')
)

print(homelessness_ind.head())

Unnamed: 0,region,state,individuals,family_members,state_pop
50,Mountain,Wyoming,434.0,205.0,577601
34,West North Central,North Dakota,467.0,75.0,758080
7,South Atlantic,Delaware,708.0,374.0,965479
39,New England,Rhode Island,747.0,354.0,1058287
45,New England,Vermont,780.0,511.0,624358


### **Ordenar `homelessness` por el número de miembros de familias sin hogar**

1. Ordena el DataFrame `homelessness` por el número de **miembros de familias sin hogar** (`family_members`) en **orden descendente** y guarda el resultado en `homelessness_fam`.  
2. Imprime las primeras filas del DataFrame ordenado utilizando `.head()`.  

In [27]:
homelessness_fam = (
    homelessness
    .sort_values(
        'family_members', 
        ascending=False
    )
)

print(homelessness_fam.head())

Unnamed: 0,region,state,individuals,family_members,state_pop
32,Mid-Atlantic,New York,39827.0,52070.0,19530351
4,Pacific,California,109008.0,20964.0,39461588
21,New England,Massachusetts,6811.0,13257.0,6882635
9,South Atlantic,Florida,21443.0,9587.0,21244317
43,West South Central,Texas,19199.0,6111.0,28628666


### **Ordenar `homelessness` por región y número de miembros de familias sin hogar**

1. Ordena el DataFrame `homelessness` primero por **región** en **orden ascendente**, y luego por el número de **miembros de familias sin hogar** (`family_members`) en **orden descendente**.  
2. Guarda el resultado en `homelessness_reg_fam`.  
3. Imprime las primeras filas del DataFrame ordenado utilizando `.head()`.  

In [28]:
homelessness_reg_fam = (
    homelessness
    .sort_values(
        ['region', 'family_members'], 
        ascending=[True, False]
    )
)

print(homelessness_reg_fam.head())

                region      state  individuals  family_members  state_pop
13  East North Central   Illinois       6752.0          3891.0   12723071
35  East North Central       Ohio       6929.0          3320.0   11676341
22  East North Central   Michigan       5209.0          3142.0    9984072
49  East North Central  Wisconsin       2740.0          2167.0    5807406
14  East North Central    Indiana       3776.0          1482.0    6695497


Aquí tienes la traducción en formato Markdown:

# **Filtrado de columnas**

Al trabajar con datos, es posible que no necesites todas las variables de tu conjunto de datos. Puedes utilizar corchetes (`[]`) para seleccionar únicamente las columnas que te interesan, en el orden que prefieras.  

Para seleccionar solo la columna `"col_a"` del DataFrame `df`, usa:  

```python
df["col_a"]

Para seleccionar las columnas "col_a" y "col_b" de df, usa:

df[["col_a", "col_b"]]

### **Seleccionar la columna `individuals` del DataFrame `homelessness`**

1. Crea un nuevo DataFrame llamado `individuals` que contenga solo la columna `individuals` del DataFrame `homelessness`.  
2. Imprime las primeras filas del resultado utilizando `.head()`.  

In [29]:
individuals = (
    homelessness[['individuals']]
)

print(individuals.head())

   individuals
0       2570.0
1       1434.0
2       7259.0
3       2280.0
4     109008.0


### **Seleccionar las columnas `state` y `family_members` del DataFrame `homelessness`**

1. Crea un nuevo DataFrame llamado `state_fam` que contenga únicamente las columnas `state` y `family_members` del DataFrame `homelessness`, en ese orden.  
2. Imprime las primeras filas del resultado utilizando `.head()`.  

In [30]:
state_fam = (
    homelessness[['state', 'family_members']]
)

print(state_fam.head())

        state  family_members
0     Alabama           864.0
1      Alaska           582.0
2     Arizona          2606.0
3    Arkansas           432.0
4  California         20964.0


### **Seleccionar las columnas `individuals` y `state` del DataFrame `homelessness`**

1. Crea un nuevo DataFrame llamado `ind_state` que contenga únicamente las columnas `individuals` y `state` del DataFrame `homelessness`, en ese orden.  
2. Imprime las primeras filas del resultado utilizando `.head()`.  

In [31]:
ind_state = (
    homelessness[
        [
            'individuals', 
            'state'
        ]
    ]
)

print(ind_state.head())

   individuals       state
0       2570.0     Alabama
1       1434.0      Alaska
2       7259.0     Arizona
3       2280.0    Arkansas
4     109008.0  California


## **Filtrado de filas (Subsetting rows)**  

Una gran parte de la ciencia de datos consiste en identificar qué partes del conjunto de datos son **interesantes**. Una de las técnicas más simples para esto es encontrar un **subconjunto de filas** que cumplan con ciertos criterios. A este proceso también se le conoce como **filtrado de filas** o **selección de filas**.  

Existen varias formas de filtrar un DataFrame, pero la más común es utilizar **operadores relacionales** para obtener valores `True` o `False` para cada fila, y luego pasar este resultado dentro de corchetes (`[]`).  

```python
dogs[dogs["height_cm"] > 60]
dogs[dogs["color"] == "tan"]

Si deseas filtrar múltiples condiciones al mismo tiempo, puedes utilizar el operador “bitwise and” (&):

dogs[(dogs["height_cm"] > 60) & (dogs["color"] == "tan")]



### **Filtrar `homelessness` para casos con más de 10,000 individuos sin hogar**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde la columna `individuals` sea **mayor a 10,000**.  
2. Guarda el resultado en un nuevo DataFrame llamado `ind_gt_10k`.  
3. Imprime el resultado para visualizar los datos filtrados.  

In [32]:
ind_gt_10k = (
    homelessness[homelessness['individuals'] > 10000]
)

print(ind_gt_10k)

                region       state  individuals  family_members  state_pop
4              Pacific  California     109008.0         20964.0   39461588
9       South Atlantic     Florida      21443.0          9587.0   21244317
32        Mid-Atlantic    New York      39827.0         52070.0   19530351
37             Pacific      Oregon      11139.0          3337.0    4181886
43  West South Central       Texas      19199.0          6111.0   28628666
47             Pacific  Washington      16424.0          5880.0    7523869


### **Filtrar `homelessness` para la región del censo de EE. UU. `"Mountain"`**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde la columna `region` sea `"Mountain"`.  
2. Guarda el resultado en un nuevo DataFrame llamado `mountain_reg`.  
3. Imprime el resultado para visualizar los datos filtrados.  

In [33]:
mountain_reg = (
    homelessness[
        homelessness['region'] == 'Mountain'
    ]
)

print(mountain_reg)

      region       state  individuals  family_members  state_pop
2   Mountain     Arizona       7259.0          2606.0    7158024
5   Mountain    Colorado       7607.0          3250.0    5691287
12  Mountain       Idaho       1297.0           715.0    1750536
26  Mountain     Montana        983.0           422.0    1060665
28  Mountain      Nevada       7058.0           486.0    3027341
31  Mountain  New Mexico       1949.0           602.0    2092741
44  Mountain        Utah       1904.0           972.0    3153550
50  Mountain     Wyoming        434.0           205.0     577601


### **Filtrar `homelessness` para casos con menos de 1,000 miembros de familia en la región "Pacific"**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde:  
   - La columna `family_members` sea **menor a 1,000**.  
   - La columna `region` sea **"Pacific"**.  
2. Guarda el resultado en un nuevo DataFrame llamado `fam_lt_1k_pac`.  
3. Imprime el resultado para visualizar los datos filtrados.  

In [34]:
fam_lt_1k_pac = (
    homelessness[(homelessness['family_members'] < 1000) & (homelessness['region'] == 'Pacific')]
)

print(fam_lt_1k_pac)

    region   state  individuals  family_members  state_pop
1  Pacific  Alaska       1434.0           582.0     735139


## **Filtrado de filas por variables categóricas**

Filtrar datos basados en una variable categórica a menudo implica usar el operador **"or"** (`|`) para seleccionar filas de múltiples categorías. Sin embargo, esto puede volverse tedioso cuando deseas incluir varias categorías al mismo tiempo.  

Para simplificar el proceso, puedes utilizar el método `.isin()`, el cual permite aplicar una única condición en lugar de escribir varias condiciones separadas.  

```python
colors = ["brown", "black", "tan"]
condition = dogs["color"].isin(colors)
dogs[condition]

Esto seleccionará todas las filas donde la columna "color" tenga uno de los valores en la lista ["brown", "black", "tan"].

### **Filtrar `homelessness` para las regiones "South Atlantic" o "Mid-Atlantic"**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde la columna `region` sea **"South Atlantic"** o **"Mid-Atlantic"**.  
2. Guarda el resultado en un nuevo DataFrame llamado `south_mid_atlantic`.  
3. Imprime el resultado para visualizar los datos filtrados.  

In [35]:
south_mid_atlantic = (
    homelessness[(homelessness['region'] == 'South Atlantic') | (homelessness['region'] == 'Mid-Atlantic')]
)

print(south_mid_atlantic)

            region                 state  individuals  family_members  \
7   South Atlantic              Delaware        708.0           374.0   
8   South Atlantic  District of Columbia       3770.0          3134.0   
9   South Atlantic               Florida      21443.0          9587.0   
10  South Atlantic               Georgia       6943.0          2556.0   
20  South Atlantic              Maryland       4914.0          2230.0   
30    Mid-Atlantic            New Jersey       6048.0          3350.0   
32    Mid-Atlantic              New York      39827.0         52070.0   
33  South Atlantic        North Carolina       6451.0          2817.0   
38    Mid-Atlantic          Pennsylvania       8163.0          5349.0   
40  South Atlantic        South Carolina       3082.0           851.0   
46  South Atlantic              Virginia       3928.0          2047.0   
48  South Atlantic         West Virginia       1021.0           222.0   

    state_pop  
7      965479  
8      701547  
9 

### **Filtrar `homelessness` para los estados de Mojave (`canu`)**  

1. Filtra el DataFrame `homelessness` para incluir solo los casos donde la columna `state` esté en la lista de **estados de Mojave**, denominada `canu`.  
2. Guarda el resultado en un nuevo DataFrame llamado `mojave_homelessness`.  
3. Imprime el resultado para visualizar los datos filtrados. 

In [36]:
canu = ["California", "Arizona", "Nevada", "Utah"]

mojave_homelessness = (
    homelessness[homelessness['state'].isin(canu)]
)

print(mojave_homelessness)

      region       state  individuals  family_members  state_pop
2   Mountain     Arizona       7259.0          2606.0    7158024
4    Pacific  California     109008.0         20964.0   39461588
28  Mountain      Nevada       7058.0           486.0    3027341
44  Mountain        Utah       1904.0           972.0    3153550


## **Agregar nuevas columnas**

No estás limitado a los datos que te proporcionan. En su lugar, puedes agregar nuevas columnas a un **DataFrame**. Este proceso tiene varios nombres, como **transformación**, **mutación** y **ingeniería de características (feature engineering)**.  

Puedes crear nuevas columnas desde cero, pero también es común derivarlas a partir de otras columnas, por ejemplo, sumando valores de diferentes columnas o cambiando sus unidades.  

### **Agregar nuevas columnas a `homelessness`**  

1. **Agregar una nueva columna llamada `total`**  
   - Contendrá la suma de las columnas `individuals` y `family_members`, representando el total de personas sin hogar en cada estado.  

2. **Agregar otra columna llamada `p_individuals`**  
   - Contendrá la proporción de personas sin hogar que son individuos, calculada como:  

In [37]:
homelessness['total'] = (
    homelessness['individuals'] 
    + homelessness['family_members']
)

homelessness['p_individuals'] = (
    homelessness['individuals'] / homelessness['total']
)

print(homelessness)

                region                 state  individuals  family_members  \
0   East South Central               Alabama       2570.0           864.0   
1              Pacific                Alaska       1434.0           582.0   
2             Mountain               Arizona       7259.0          2606.0   
3   West South Central              Arkansas       2280.0           432.0   
4              Pacific            California     109008.0         20964.0   
5             Mountain              Colorado       7607.0          3250.0   
6          New England           Connecticut       2280.0          1696.0   
7       South Atlantic              Delaware        708.0           374.0   
8       South Atlantic  District of Columbia       3770.0          3134.0   
9       South Atlantic               Florida      21443.0          9587.0   
10      South Atlantic               Georgia       6943.0          2556.0   
11             Pacific                Hawaii       4131.0          2399.0   