#Introducción a Pandas

En esta clase se examina en detalle las estructuras de datos proporcionadas por la biblioteca Pandas. Pandas es un paquete más reciente construido sobre NumPy, y proporciona una implementación eficiente de un DataFrame. Los DataFrames son esencialmente matrices multidimensionales con etiquetas de filas y columnas adjuntas, y a menudo con tipos heterogéneos y/o datos ausentes. Además de ofrecer una cómoda interfaz de almacenamiento para los datos etiquetados, Pandas implementa una serie de potentes operaciones de datos que resultan familiares a los usuarios tanto de marcos de bases de datos como de programas de hojas de cálculo.

Como se viò, la estructura de datos ndarray de NumPy proporciona características esenciales para el tipo de datos limpios y bien organizados que se ven típicamente en las tareas de cálculo numérico. Aunque sirve muy bien para este propósito, sus limitaciones se hacen evidentes cuando necesitamos más flexibilidad (por ejemplo, adjuntar etiquetas a los datos, trabajar con datos que faltan, etc.) y cuando intentamos realizar operaciones que no se ajustan bien a la transmisión por elementos (por ejemplo, agrupaciones, pivotes, etc.), cada una de las cuales es una pieza importante para analizar los datos menos estructurados disponibles en muchas formas en el mundo que nos rodea. Pandas, y en particular sus objetos Series y DataFrame, se basa en la estructura de arrays de NumPy y proporciona un acceso eficiente a este tipo de tareas de "manipulación de datos" que ocupan gran parte del tiempo de un científico de datos.

## Instalación y uso de Pandas
La instalación de Pandas en su sistema requiere la instalación de NumPy, y si se construye la librería desde el código fuente, requiere las herramientas apropiadas para compilar las fuentes C y Cython sobre las que se construye Pandas. Los detalles de esta instalación se pueden encontrar en la documentación de Pandas.

Una vez instalado Pandas, puede importarlo y comprobar la versión:

In [1]:
import pandas
pandas.__version__

'1.4.2'

Así como generalmente importamos NumPy bajo el alias np, importaremos Pandas bajo el alias pd:

In [2]:
import pandas as pd

## Introduciendo objetos Pandas

A un nivel muy básico, los objetos de Pandas pueden considerarse como versiones mejoradas de los arrays estructurados de NumPy en los que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros. Como veremos a lo largo de esta sesión, Pandas proporciona una gran cantidad de herramientas, métodos y funcionalidades útiles sobre las estructuras de datos básicas, pero casi todo lo que sigue requerirá una comprensión de lo que son estas estructuras. Por lo tanto, antes de seguir adelante, vamos a introducir estas tres estructuras de datos fundamentales de Pandas: la Serie, DataFrame, y el Índice.

Comenzaremos nuestras sesiones de código con las importaciones estándar de NumPy y Pandas:

In [3]:
import numpy as np
import pandas as pd

## El objeto Pandas Series

Una ``Serie`` de Pandas es un array unidimensional de datos indexados.
Se puede crear a partir de una lista o un array de la siguiente manera:

In [4]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Como vemos en la salida, la Serie envuelve tanto una secuencia de valores como una secuencia de índices, a los que podemos acceder con los atributos values e index. Los valores son simplemente una matriz NumPy familiar:

In [5]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

El índice es un objeto tipo array del tipo pd.Index.

In [6]:
data.index

RangeIndex(start=0, stop=4, step=1)

Al igual que con un array de NumPy, se puede acceder a los datos por el índice asociado mediante la conocida notación de corchetes de Python:

In [None]:
lista_ejemplo = ["casa","Carro","perro","gato"]

In [None]:
lista_ejemplo[0]

'casa'

In [None]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [None]:
data[1]

0.5

In [None]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Sin embargo, como veremos, la serie Pandas es mucho más general y flexible que el array unidimensional de NumPy que emula.

## Series como un array de NumPy generalizado

Por lo que hemos visto hasta ahora, puede parecer que el objeto ``Series`` es básicamente intercambiable con un array unidimensional de NumPy.
La diferencia esencial es la presencia del índice: mientras que el array de Numpy tiene un índice entero *implícitamente definido* que se utiliza para acceder a los valores, las ``Series`` de Pandas tienen un índice *explícitamente definido* asociado a los valores.

Esta definición explícita del índice da al objeto ``Series`` capacidades adicionales. Por ejemplo, el índice no tiene por qué ser un entero, sino que puede estar formado por valores de cualquier tipo que se desee.
Por ejemplo, si lo deseamos, podemos utilizar cadenas como índice:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [None]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

Y el acceso al artículo funciona como se esperaba:

In [None]:
diccionario_ejemplo = {"casa":"Apartamento","Carro":"moto","perro":"gato","perro":"raton"}

In [None]:
diccionario_ejemplo["perro"]

'raton'

In [None]:
diccionario_ejemplo["casa"]

'Apartamento'

In [None]:
data['b']

0.5

Incluso podemos utilizar índices no contiguos o no secuenciales:

In [None]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0, 5.3],
                 index=[2, 5, 3, 7, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
7    5.30
dtype: float64

In [None]:
data[7]

7    1.0
7    5.3
dtype: float64

## Series como diccionario especializado
De esta manera, se puede pensar en una Serie de Pandas como una especie de  diccionario de Python. Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios, y una serie es una estructura que asigna claves tipificadas a un conjunto de valores tipificados. Esta tipificación es importante: al igual que el código compilado de tipo específico detrás de un array de NumPy lo hace más eficiente que una lista de Python para ciertas operaciones, la información de tipo de una Serie de Pandas la hace mucho más eficiente que los diccionarios de Python para ciertas operaciones.

La analogía Serie-como-Diccionario se puede hacer aún más clara construyendo un objeto Serie directamente desde un diccionario Python:

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

In [None]:
population_dict

{'California': 38332521,
 'Florida': 19552860,
 'Illinois': 12882135,
 'New York': 19651127,
 'Texas': 26448193}

In [None]:
population_dict["Texas"]

26448193

In [None]:
import pandas as pd
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [None]:
type(population)

pandas.core.series.Series

Por defecto, se creará una Serie donde el índice se extrae de las claves ordenadas. A partir de aquí, se puede realizar el típico acceso a los elementos de tipo diccionario:

In [None]:
population['California']

38332521

In [None]:
population['Utah'] = 563335

In [None]:
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Utah            563335
dtype: int64

Sin embargo, a diferencia de un diccionario, la serie también admite operaciones de tipo matriz, como el rebanado:

In [None]:
type(population)

pandas.core.series.Series

In [None]:
population['Texas']

26448193

## El objeto Pandas DataFrame

La siguiente estructura fundamental en Pandas es el ``DataFrame``.
Al igual que el objeto ``Series`` discutido  anteriormente, el ``DataFrame`` puede ser considerado como una generalización de un array de NumPy, o como una especialización de un diccionario de Python.
Ahora echaremos un vistazo a cada una de estas perspectivas.


### DataFrame como una matriz generalizada de NumPy
Si una ``Serie`` es un análogo de un array unidimensional con índices flexibles, un ``DataFrame`` es un análogo de un array bidimensional con índices de fila y nombres de columna flexibles.
Al igual que se puede pensar en una matriz bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, se puede pensar en un ``DataFrame`` como una secuencia de objetos ``Series`` alineados.
Por "alineados" entendemos que comparten el mismo índice.

Para demostrarlo, construyamos primero una nueva ``Serie`` con el área de cada uno de los cinco estados mencionados anteriormente:

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'New Mexico': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
New Mexico    149995
dtype: int64

Ahora que tenemos esto junto con las series de población de antes, podemos utilizar un diccionario para construir un único objeto bidimensional que contenga esta información:

In [None]:
area

California    423967
Texas         695662
New York      141297
Florida       170312
New Mexico    149995
dtype: int64

In [None]:
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Utah            563335
dtype: int64

In [None]:
states = pd.DataFrame({'Poblacion': population,
                       'Area': area})
states

Unnamed: 0,Poblacion,Area
California,38332521.0,423967.0
Florida,19552860.0,170312.0
Illinois,12882135.0,
New Mexico,,149995.0
New York,19651127.0,141297.0
Texas,26448193.0,695662.0
Utah,563335.0,


In [None]:
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [None]:
area

California    423967
Texas         695662
New York      141297
Florida       170312
New Mexico    149995
dtype: int64

 Al igual que el objeto Serie, el DataFrame tiene un atributo de índice que da acceso a las etiquetas de índice:

In [None]:
states

Unnamed: 0,population,area
California,38332521.0,423967.0
Florida,19552860.0,170312.0
Illinois,12882135.0,
New Mexico,,149995.0
New York,19651127.0,141297.0
Texas,26448193.0,695662.0
Utah,563335.0,


In [None]:
states.index

Index(['California', 'Florida', 'Illinois', 'New Mexico', 'New York', 'Texas',
       'Utah'],
      dtype='object')

Además, el DataFrame tiene un atributo columns, que es un objeto Index que contiene las etiquetas de las columnas:

In [None]:
states.columns

Index(['population', 'area'], dtype='object')

### DataFrame como diccionario especializado

Del mismo modo, también podemos pensar en un ``DataFrame`` como una especialización de un diccionario.
Mientras que un diccionario asigna una clave a un valor, un ``DataFrame`` asigna un nombre de columna a una ``Serie`` de datos de columna.
Por ejemplo, pedir el atributo ``'área`` devuelve el objeto ``Series`` que contiene las áreas que vimos anteriormente:

In [None]:
states['area']

California    423967.0
Florida       170312.0
Illinois           NaN
New Mexico    149995.0
New York      141297.0
Texas         695662.0
Name: area, dtype: float64

In [None]:
 pd.DataFrame({'population': [1,2,3], "area":[5,6,8]})


Unnamed: 0,population,area
0,1,5
1,2,6
2,3,8


Fíjate en el posible punto de confusión aquí: en un array NumPy de dos dimensiones, data[0] devolverá la primera fila. Para un DataFrame, data['col0'] devolverá la primera columna. Por ello, probablemente sea mejor pensar en los DataFrames como diccionarios generalizados en lugar de arrays generalizados, aunque ambas formas de ver la situación pueden ser útiles. Exploraremos medios más flexibles de indexar DataFrames en Indexación y selección de datos.


### Construcción de objetos DataFrame



Un ``DataFrame`` es una colección de objetos ``Series``, y un ``DataFrame`` de una sola columna se puede construir a partir de una sola ``Series``:

In [None]:
pd.DataFrame( columns=['population'],data = population)

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135
Utah,563335


#### A partir de una lista de diccioanrios

Cualquier lista de diccionarios puede convertirse en un ``DataFrame``.
Utilizaremos una simple comprensión de la lista para crear algunos datos:

In [None]:
import pandas as pd
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Incluso si faltan algunas claves en el diccionario, Pandas las rellenará con valores NaN (es decir, "no un número"):

In [None]:
import pandas as pd
pd.DataFrame([{'a': 1, 'b': 2}, {"a":5,'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1,2,
1,5,3,4.0


#### A partir de un diccionario de objetos Series

Como vimos antes, un ``DataFrame`` puede construirse también a partir de un diccionario de objetos ``Series``:

In [None]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521.0,423967.0
Florida,19552860.0,170312.0
Illinois,12882135.0,
New Mexico,,149995.0
New York,19651127.0,141297.0
Texas,26448193.0,695662.0
Utah,563335.0,


## El objeto índice de Pandas

Hemos visto aquí que tanto los objetos ``Series`` como ``DataFrame`` contienen un *índice* explícito que permite referenciar y modificar los datos.
Este objeto ``Index`` es una estructura interesante en sí misma, y puede ser considerada como un *array inmutable* o como un *conjunto ordenado* (técnicamente un multi-conjunto, ya que los objetos ``Index`` pueden contener valores repetidos).
Estos puntos de vista tienen algunas consecuencias interesantes en las operaciones disponibles en los objetos ``Index``.
Como ejemplo sencillo, construyamos un ``Index`` a partir de una lista de enteros:



In [None]:
import pandas as pd
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### Índice como array inmutable

El ``Index`` en muchos aspectos funciona como un array.
Por ejemplo, podemos utilizar la notación de indexación estándar de Python para recuperar valores o trozos:

In [None]:
ind[1]

3

In [None]:
ind[::3]

Int64Index([2, 7], dtype='int64')

Los objetos ``Index`` también tienen muchos de los atributos conocidos de las matrices de NumPy:

In [None]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Una diferencia entre los objetos Index y los arrays de NumPy es que los índices son inmutables, es decir, no pueden ser modificados por los medios normales:

In [None]:
ind[1] = 0

TypeError: ignored

Esta inmutabilidad hace que sea más seguro compartir índices entre múltiples DataFrames y arrays, sin el potencial de efectos secundarios por la modificación inadvertida de los índices.

## Selección de datos en DataFrame

Recordemos que un ``DataFrame`` actúa en muchos aspectos como un array bidimensional o estructurado, y en otros como un diccionario de estructuras ``Series`` que comparten el mismo índice.
Estas analogías pueden ser útiles para tener en cuenta mientras exploramos la selección de datos dentro de esta estructura.

### DataFrame como diccionario

La primera analogía que consideraremos es el ``DataFrame`` como diccionario de objetos ``Series`` relacionados.
Volvamos a nuestro ejemplo de áreas y poblaciones de los estados:

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Se puede acceder a las series individuales que componen las columnas del DataFrame a través de la indexación de estilo diccionario del nombre de la columna:

In [None]:
data[["pop"]]

Unnamed: 0,pop
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [None]:
data["pop"]

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: pop, dtype: int64

In [None]:
print(type(data[["pop"]]) )
print(type(data["pop"]))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


De forma equivalente, podemos utilizar un acceso de tipo atributo con nombres de columna que sean cadenas:

In [None]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Este acceso a la columna de estilo atributo accede en realidad al mismo objeto que el acceso de estilo diccionario:

In [None]:
data["area"]

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [None]:
data.area is data['area']

True

In [None]:
data[['area']]

Unnamed: 0,area
California,423967
Texas,695662
New York,141297
Florida,170312
Illinois,149995


Aunque se trata de una abreviatura útil, tenga en cuenta que no funciona en todos los casos. Por ejemplo, si los nombres de las columnas no son cadenas, o si los nombres de las columnas entran en conflicto con los métodos del DataFrame, este acceso tipo atributo no es posible. Por ejemplo, el DataFrame tiene un método pop(), por lo que data.pop apuntará a éste en lugar de a la columna "pop":

In [None]:
data.pop is data['pop']

False

In [None]:
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [None]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,cte,density
California,423967,38332521,5,90.413926
Texas,695662,26448193,5,38.01874
New York,141297,19651127,5,139.076746
Florida,170312,19552860,5,114.806121
Illinois,149995,12882135,5,85.883763


In [None]:
data["cte"] = 5

In [None]:
data[["area","density"]][data["area"]>170312]

Unnamed: 0,area,density
California,423967,90.413926
Texas,695662,38.01874


In [None]:
salary = pd.Series({'California': 3000, 'Texas': 5000,
                 'New York': 2800, 'Florida': 3500,
                 'Illinois': 4800,"New Mexico":2980})

In [None]:
data["new_columns"] =  salary

In [None]:
data

Unnamed: 0,area,pop,cte,density,new_columns
California,423967,38332521,5,90.413926,3000
Texas,695662,26448193,5,38.01874,5000
New York,141297,19651127,5,139.076746,2800
Florida,170312,19552860,5,114.806121,3500
Illinois,149995,12882135,5,85.883763,4800


### DataFrame como array bidimensional

Como se ha mencionado anteriormente, también podemos ver el ``DataFrame`` como un array bidimensional mejorado.
Podemos examinar la matriz de datos subyacente utilizando el atributo ``values``:

In [None]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 5.00000000e+00, 9.04139261e+01,
        3.00000000e+03],
       [6.95662000e+05, 2.64481930e+07, 5.00000000e+00, 3.80187404e+01,
        5.00000000e+03],
       [1.41297000e+05, 1.96511270e+07, 5.00000000e+00, 1.39076746e+02,
        2.80000000e+03],
       [1.70312000e+05, 1.95528600e+07, 5.00000000e+00, 1.14806121e+02,
        3.50000000e+03],
       [1.49995000e+05, 1.28821350e+07, 5.00000000e+00, 8.58837628e+01,
        4.80000000e+03]])

Con esta imagen en mente, se pueden hacer muchas observaciones familiares de tipo array en el propio ``DataFrame``.
Por ejemplo, podemos transponer el ``DataFrame`` completo para intercambiar filas y columnas:

In [None]:
data

Unnamed: 0,area,pop,cte,density,new_columns
California,423967,38332521,5,90.413926,3000
Texas,695662,26448193,5,38.01874,5000
New York,141297,19651127,5,139.076746,2800
Florida,170312,19552860,5,114.806121,3500
Illinois,149995,12882135,5,85.883763,4800


In [None]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
cte,5.0,5.0,5.0,5.0,5.0
density,90.41393,38.01874,139.0767,114.8061,85.88376
new_columns,3000.0,5000.0,2800.0,3500.0,4800.0


Sin embargo, cuando se trata de la indexación de los objetos ``DataFrame``, está claro que la indexación de las columnas al estilo de un diccionario impide nuestra capacidad de tratarlo simplemente como un array de NumPy.
En particular, al pasar un solo índice a un array se accede a una fila:

In [None]:
data["column test"] = ["EEUU","Panamda","5",5,2]

In [None]:
data

Unnamed: 0,area,pop,cte,density,new_columns,column test
California,423967,38332521,5,90.413926,3000,EEUU
Texas,695662,26448193,5,38.01874,5000,Panamda
New York,141297,19651127,5,139.076746,2800,5
Florida,170312,19552860,5,114.806121,3500,5
Illinois,149995,12882135,5,85.883763,4800,2


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, California to Illinois
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   area         5 non-null      int64  
 1   pop          5 non-null      int64  
 2   cte          5 non-null      int64  
 3   density      5 non-null      float64
 4   new_columns  5 non-null      int64  
 5   column test  5 non-null      object 
dtypes: float64(1), int64(4), object(1)
memory usage: 452.0+ bytes


In [None]:
type(data.values[3][5])

int

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, California to Illinois
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   area         5 non-null      int64  
 1   pop          5 non-null      int64  
 2   cte          5 non-null      int64  
 3   density      5 non-null      float64
 4   new_columns  5 non-null      int64  
 5   column test  5 non-null      object 
dtypes: float64(1), int64(4), object(1)
memory usage: 452.0+ bytes


In [None]:
data.values[1][1]

26448193.0

y pasando un único "índice" a un ``DataFrame`` se accede a una columna:

In [None]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Por lo tanto, para la indexación estilo array, necesitamos otra convención. Aquí Pandas vuelve a utilizar los indexadores loc, iloc e ix mencionados anteriormente. Usando el indexador iloc, podemos indexar el array subyacente como si fuera un simple array de NumPy (usando el índice implícito de estilo Python), pero el índice de DataFrame y las etiquetas de las columnas se mantienen en el resultado:



In [None]:
data

Unnamed: 0,area,pop,cte,density,new_columns,column test
California,423967,38332521,5,90.413926,3000,EEUU
Texas,695662,26448193,5,38.01874,5000,Panamda
New York,141297,19651127,5,139.076746,2800,5
Florida,170312,19552860,5,114.806121,3500,5
Illinois,149995,12882135,5,85.883763,4800,2


In [None]:
data.iloc[3:, 2:]

Unnamed: 0,cte,density,new_columns,column test
Florida,5,114.806121,3500,5
Illinois,5,85.883763,4800,2


In [None]:
data

Unnamed: 0,area,pop,cte,density,new_columns,column test
California,423967,38332521,5,90.413926,3000,EEUU
Texas,695662,26448193,5,38.01874,5000,Panamda
New York,141297,19651127,5,139.076746,2800,5
Florida,170312,19552860,5,114.806121,3500,5
Illinois,149995,12882135,5,85.883763,4800,2


Del mismo modo, utilizando el indexador ``loc`` podemos indexar los datos subyacentes en un estilo similar al de los arrays pero utilizando el índice explícito y los nombres de las columnas:

In [None]:
data.loc[:'New York', "area":'density']

Unnamed: 0,area,pop,cte,density
California,423967,38332521,5,90.413926
Texas,695662,26448193,5,38.01874
New York,141297,19651127,5,139.076746


El indexador ``ix'' permite un híbrido de estos dos enfoques:

In [None]:
#data.ix[:3, :'pop']

In [None]:
data

Unnamed: 0,area,pop,cte,density,new_columns,column test
California,423967,38332521,5,90.413926,3000,EEUU
Texas,695662,26448193,5,38.01874,5000,Panamda
New York,141297,19651127,5,139.076746,2800,5
Florida,170312,19552860,5,114.806121,3500,5
Illinois,149995,12882135,5,85.883763,4800,2


In [None]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


Cualquiera de estas convenciones de indexación también se puede utilizar para establecer o modificar valores; esto se hace de la manera estándar a la que podría estar acostumbrado de trabajar con NumPy:

In [None]:
data

Unnamed: 0,area,pop,cte,density,new_columns,column test
California,423967,38332521,prueba,prueba,prueba,prueba
Texas,695662,26448193,prueba,prueba,prueba,prueba
New York,141297,19651127,prueba,prueba,prueba,prueba
Florida,170312,19552860,prueba,prueba,prueba,prueba
Illinois,149995,12882135,prueba,prueba,prueba,prueba


In [None]:
data.iloc[3:, 2:] = "casa"
data

Unnamed: 0,area,pop,cte,density,new_columns,column test
California,423967,38332521,prueba,prueba,prueba,prueba
Texas,695662,26448193,prueba,prueba,prueba,prueba
New York,141297,19651127,prueba,prueba,prueba,prueba
Florida,170312,19552860,casa,casa,casa,casa
Illinois,149995,12882135,casa,casa,casa,casa


### Algunas Operaciones

In [None]:
df1 = pd.DataFrame({"A":[1,2],"B":[3,4]})
df2 = pd.DataFrame({"A":[5,6],"B":[7,8]})

In [None]:
print(df1)
print("+++++++++++++++")
print(df2)

   A  B
0  1  3
1  2  4
+++++++++++++++
   A  B
0  5  7
1  6  8


In [None]:
df3 = pd.concat([df1, df2])
print(df3)

   A  B
0  1  3
1  2  4
0  5  7
1  6  8


In [None]:
df4 = pd.concat([df1, df2], ignore_index=True)
print(df4)

   A  B
0  1  3
1  2  4
2  5  7
3  6  8


In [None]:
df1 = pd.DataFrame({"A":[1,2],"B":[3,4]})
df2 = pd.DataFrame({"A":[5,6],"B":[7,8]})
df3 = pd.concat([df1, df2])
df4 = pd.concat([df1, df2], ignore_index=True)



In [None]:
print("++++++")
print(df1)
print("++++++")
print(df2)
print("++++++")
print(df3)
print("++++++")
print(df4)
print("++++++")

++++++
   A  B
0  1  3
1  2  4
++++++
   A  B
0  5  7
1  6  8
++++++
   A  B
0  1  3
1  2  4
0  5  7
1  6  8
++++++
   A  B
0  1  3
1  2  4
2  5  7
3  6  8
++++++


In [None]:
df3 = pd.DataFrame({"A":[1,2],"B":[3,4]})
print(df3)
print("++++++++")
df4 = pd.DataFrame({"C":[5,6],"D":[7,8]})
print(df4)

   A  B
0  1  3
1  2  4
++++++++
   C  D
0  5  7
1  6  8


In [None]:
df5 = pd.concat([df3, df4], axis=1)
print(df5)

   A  B  C  D
0  1  3  5  7
1  2  4  6  8


In [None]:
df5 = pd.concat([df3, df4])
print(df5)

     A    B    C    D
0  1.0  3.0  NaN  NaN
1  2.0  4.0  NaN  NaN
0  NaN  NaN  5.0  7.0
1  NaN  NaN  6.0  8.0


In [None]:
df3 = pd.DataFrame({"A":[1,2],"B":[3,4]})
df4 = pd.DataFrame({"C":[5,6],"D":[7,8]})
df5 = pd.concat([df3, df4], axis=1)
print(df5)

   A  B  C  D
0  1  3  5  7
1  2  4  6  8
