# Manipulación de datos con pandas

Basado en DataCamp

# 1 Transformación de DataFrames

Vamos a dominar los fundamentos de pandas. Aprenda a inspeccionar DataFrames y a realizar manipulaciones fundamentales, incluyendo la ordenación de filas, el subconjunto y la adición de nuevas columnas.

## Introducción a DataFrames

### Explorando DataFrames

- **.head()** devuelve las primeras filas del DataFrame
- **.info()** muestra información sobre cada una de las columnas, como el tipo de datos y el número de valores que faltan.
- **.shape** devuelve el número de filas y columnas del DataFrame.
- **.describe()** calcula algunas estadísticas de resumen para cada columna.

In [None]:
# Imprima los primeros elementos del DataFrame homelessness
print(homelessness.head())

# Imprima la información del DataFrame homelessness 
print(homelessness.info())

# Imprima el número de columnas y filas de homelessness
print(homelessness.shape)

# Imprima algunos estadísticos de resumen del DataFrame homelessness
print(homelessness.describe()) 

### Partes de un DataFrame

Para entender mejor los objetos DataFrame, es útil saber que constan de tres componentes, almacenados como atributos:

- **.values**: Un array bidimensional de valores NumPy.
- **.columns**: Un índice de columnas: los nombres de las columnas.
- **.index**: Un índice de las filas: los números de las filas o los nombres de las filas.

Normalmente se puede pensar en los índices como una lista de cadenas o números, aunque el tipo de datos Index de 
pandas permite opciones más sofisticadas.

In [None]:
# Importar pandas usando el alias pd
import pandas as pd

#  Imprime un array 2D de NumPy con los valores de homelessness.
print(homelessness.values)

# Imprime los nombres de las columnas de homelessness
print(homelessness.columns)

# Imprime el índice de las filas de homelessness
print(homelessness.index)

## Ordenación y subconjuntos
### Ordenando renglones

Ordenar las filas

Encontrar datos interesantes en un DataFrame suele ser más fácil si se cambia el orden de las filas. Puede ordenar las filas pasando un nombre de columna a .sort_values().

En los casos en los que las filas tienen el mismo valor (esto es común si se ordena en una variable categórica), es posible que desee romper los empates ordenando en otra columna. Puede ordenar en múltiples columnas de esta manera pasando una lista de nombres de columnas.

- una columna	df.sort_values("breed")
- múltiples columnas	df.sort_values(["breed", "weight_kg"])

Para ordenar de manera descendendiente se agrega el argumento ascendinding=False

In [None]:
# Ordenar homelessness por la variable "individuals"
homelessness_ind = homelessness.sort_values('individuals')

# Ordenar homelessness de manera descendiente por la variable "family_members"
homelessness_fam = homelessness.sort_values('family_members',ascending=False)

# Ordenar homelessness por "region", luego de manera descendiente por "family_members"
homelessness_reg_fam = homelessness.sort_values(['region','family_members'], ascending = [True, False])


### Subconjunto de columnas
Al trabajar con datos, es posible que no necesite todas las variables de su conjunto de datos. Los corchetes ([]) pueden utilizarse para seleccionar sólo las columnas que le interesan en un orden que tenga sentido para usted. 

Para seleccionar sólo la "col_a" del DataFrame df, utilice

df["col_a"]

Para seleccionar "col_a" y "col_b" de df, utilice

df[["col_a", "col_b"]]

In [None]:
# Seleccione la columna individuals 
individuals = homelessness['individuals']

# Seleccione las columnas state y family_members 
state_fam = homelessness[['state','family_members']]

# Seleccione las columnas individuals y state, en ese orden
ind_state = homelessness[['individuals','state']]

### Subconjunto de renglones
Una gran parte de la ciencia de los datos consiste en encontrar qué partes del conjunto de datos son interesantes. Una de las técnicas más sencillas para ello es encontrar un subconjunto de filas que coincidan con algún criterio. Esto se conoce a veces como filtrado de filas o selección de filas.

Hay muchas maneras de hacer un subconjunto de un DataFrame, quizás la más común es usar operadores relacionales para devolver **True** o **False** para cada fila, y luego pasar eso dentro de corchetes.

dogs[dogs["height_cm"] > 60]
dogs[dogs["color"] == "tan"]


Puede filtrar varias condiciones a la vez utilizando el operador "bitwise and", &.

dogs[(dogs["height_cm"] > 60) & (dogs["color"] == "tan")]

In [None]:
# Filtre las filas de individuals más grandes que 10000
ind_gt_10k = homelessness[homelessness['individuals']>10000]

# Filtre las filas de la region donde es Mountain
mountain_reg = homelessness[homelessness['region']=="Mountain"]

# Filre los renglones de donde family_members es menor a 1000 
# y region es Pacific
fam_lt_1k_pac = homelessness[(homelessness['family_members']<1000) & (homelessness['region']=="Pacific")]

### Subconjunto de filas por variables categóricas
|, .isin()

El subconjunto de datos basado en una variable categórica a menudo implica el uso del operador "or" (|) para seleccionar filas de múltiples categorías. Esto puede resultar tedioso cuando, por ejemplo, desea que todos los estados se encuentren en una de las tres regiones diferentes. En su lugar, utilice el método .isin(), que le permitirá abordar este problema escribiendo una condición en lugar de tres por separado.

In [None]:
# Subconjunto de renglones en las regiones South Atlantic o Mid-Atlantic 
south_mid_atlantic = homelessness[(homelessness['region']=="South Atlantic") | (homelessness['region']=="Mid-Atlantic")]

# Lo estados del desierto de Mojave 
canu = ["California", "Arizona", "Nevada", "Utah"]

# Filtre las filas de los estados del desierto de Mojave
mojave_homelessness = homelessness[homelessness['state'].isin(canu)]

### Nuevas columnas
Puede añadir nuevas columnas a un DataFrame. Esto tiene muchos nombres, transforming, mutating, y feature engineering.

Puedes crear nuevas columnas desde cero, pero también es común derivarlas de otras columnas, por ejemplo, sumando columnas o cambiando sus unidades.

In [None]:
# Añada la columna "total" como suma de los individuos y family_members
homelessness['total'] = homelessness['individuals'] + homelessness['family_members']

# Añada la columna p_individuals como proporción de individuos
homelessness['p_individuals'] = homelessness['individuals'] / homelessness['total']

# Vea el resultado
print(homelessness)

# 2 Agregar DataFrames