---------------------------------
# **PANDAS**
---------------------

Biblioteca de código abierto para el lenguaje de programación Python, especializada en el manejo y análisis de datos.

Características principales de Pandas:

* Estructuras de datos potentes: Define nuevas estructuras de datos como DataFrames y Series, basadas en los arrays de NumPy.

* Manipulación flexible de datos: Permite leer y escribir datos de diversos formatos comunes, como CSV, Excel, bases de datos SQL y archivos JSON.

* Operaciones de análisis avanzadas: Ofrece una amplia gama de funciones para filtrar, ordenar, agrupar, agregar, combinar y transformar datos de manera eficiente.

* Análisis de series temporales: Brinda herramientas específicas para trabajar con datos de series temporales.

* Visualización de datos

In [1]:
#Importo librerías 
import numpy as np 
import pandas as pd 

In [2]:
psg_players = pd.Series(['Navas', 'Mbape', 'Neymar', 'Messi'], index=[1,7,10,30])
psg_players

1      Navas
7      Mbape
10    Neymar
30     Messi
dtype: object

In [3]:
#Pandas, al crear una Series si no se la dan índices los asigna de forma automática:
ingredientes = pd.Series(['Jamón', 'Aceitunas', 'Pan', 'Queso'])
ingredientes

0        Jamón
1    Aceitunas
2          Pan
3        Queso
dtype: object

In [4]:
# Vamos a usar esta vez diccionarios
dict = {1:'Navas', 7:'Mbappe', 10:'Neymar', 30: 'Messi'}
pd.Series(dict)

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

Que pasa si quiero definir un array con mas valores?

In [5]:
dict_1 = {'Jugador': ['Navas', 'Mbappe', 'Neymar', 'Messi'],
          'Posición': ['Portero', 'Defensa', 'Mediocampo', 'Delantero'],
          'Nacionalidad': ['Argentina', 'Brasileña', 'Argentina', 'Brasileña']}

In [6]:
pd.DataFrame(dict_1, index = [1,7,10,30]) #Asigno index 

Unnamed: 0,Jugador,Posición,Nacionalidad
1,Navas,Portero,Argentina
7,Mbappe,Defensa,Brasileña
10,Neymar,Mediocampo,Argentina
30,Messi,Delantero,Brasileña


In [7]:
pd.DataFrame(dict_1) # no defino índice

Unnamed: 0,Jugador,Posición,Nacionalidad
0,Navas,Portero,Argentina
1,Mbappe,Defensa,Brasileña
2,Neymar,Mediocampo,Argentina
3,Messi,Delantero,Brasileña


In [8]:
df_Players = pd.DataFrame(dict_1)
df_Players

Unnamed: 0,Jugador,Posición,Nacionalidad
0,Navas,Portero,Argentina
1,Mbappe,Defensa,Brasileña
2,Neymar,Mediocampo,Argentina
3,Messi,Delantero,Brasileña


In [9]:
df_Players.columns

Index(['Jugador', 'Posición', 'Nacionalidad'], dtype='object')

In [10]:
df_Players.index

RangeIndex(start=0, stop=4, step=1)

In [11]:
df_Players

Unnamed: 0,Jugador,Posición,Nacionalidad
0,Navas,Portero,Argentina
1,Mbappe,Defensa,Brasileña
2,Neymar,Mediocampo,Argentina
3,Messi,Delantero,Brasileña


Si tienes datos contenidos en un diccionario de Python, puedes crear una Series a partir de ellos pasándole el diccionario:


In [12]:
sdata = {'Ohio':35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Una `Series` puede convertirse de nuevo en un diccionario con su método `to_dict`:

In [13]:
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

Cuando sólo se pasa un diccionario, el índice de la Series resultante respetará el orden de las claves según el método
keys del diccionario, que depende del orden de inserción de las claves.

Puede anular esto pasando un índice con las claves del diccionario en el orden en que desea que aparezcan en la Series resultante:

In [14]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
states = ['California', 'Ohio', 'Oregon', 'Texas'] #array
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [15]:
""" sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000, 'new york': 23000}
states = ['California', 'Ohio', 'Oregon', 'Texas', 'New York'.lower()] #array
obj4 = pd.Series(sdata, index=states)
obj4 """

" sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000, 'new york': 23000}\nstates = ['California', 'Ohio', 'Oregon', 'Texas', 'New York'.lower()] #array\nobj4 = pd.Series(sdata, index=states)\nobj4 "

Las funciones `isna` y `notna `de pandas deben utilizarse para detectar datos omitidos: 

In [16]:
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [17]:
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

## `Series` también los tiene como métodos de instancia:

In [18]:
obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

Una característica de Series útil para muchas aplicaciones es que alinea automáticamente por etiqueta de índice en operaciones aritméticas:


In [19]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [20]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [21]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Tanto el propio objeto Series como su índice tienen un atributo name , que se integra con otras áreas de funcionalidad de pandas:


In [22]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

El índice de una Series puede modificarse "in situ" mediante asignación.

Defino un objeto: 

In [23]:
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [24]:
#Asignamos "in situ" los indices:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

## DataFrame

Un DataFrame representa una tabla rectangular de datos y contiene una colección ordenada y nombrada de columnas, cada una de las cuales puede ser un tipo de valor diferente (numérico, cadena, booleano, etc.). El DataFrame tiene tanto un índice de fila como de
columna; puede considerarse como un diccionario de Series que comparten el mismo índice.

Hay muchas maneras de construir un DataFrame, aunque una de las más comunes es a partir de un diccionario de listas de igual longitud o arrays de NumPy:

In [25]:
data    = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
            "year": [2000, 2001, 2002, 2001, 2002, 2003],
            "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

frame #Asigna automáticamente los índices 


Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [26]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [27]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Si especifica una secuencia de columnas, las columnas del DataFrame se ordenarán en ese orden

In [28]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Si se pasa una columna que no está contenida en el diccionario, aparecerá con valores ausentes en el resultado:

In [29]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [30]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Una columna de un DataFrame puede recuperarse como una Serie mediante notación tipo diccionario o utilizando la notación de atributo . (dot notation):

In [31]:
frame2['state']

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [32]:
frame2.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

frame2[column] funciona para cualquier nombre de columna, pero frame2.column sólo funciona cuando el nombre de la columna es un nombre de variable Python válido y no entra en conflicto con ninguno de los nombres de método de DataFrame. Por ejemplo, si el
nombre de una columna contiene espacios en blanco o símbolos que no sean guiones bajos, no se puede acceder a ella con el método de atributo dot.

Observe que las Series devueltas tienen el mismo índice que el DataFrame, y su atributo name se ha configurado adecuadamente.

Las filas también pueden recuperarse por posición o nombre con los atributos especiales  `iloc` y `loc`.

In [33]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


`.loc`

* .loc se utiliza para la indexación basada en etiquetas.
* Selecciona filas y columnas usando las etiquetas de los ejes.
* Si el índice del DataFrame es numérico y continuo, frame.loc[2] seleccionará la fila cuyo índice es 2.
* .loc puede aceptar etiquetas de fila y nombres de columna, así como listas de etiquetas, slices (rebanadas) y booleanos.

In [34]:
frame2.loc[1] #loc selecciona la FILA 

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object

`.iloc`
* .iloc se utiliza para la indexación basada en la posición entera.
* Selecciona filas y columnas por posición (número entero).
* frame2.iloc[2] seleccionará la tercera fila del DataFrame (recordando que la indexación comienza en 0).
* .iloc puede aceptar números enteros, listas de números enteros y slices.

In [35]:
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object

Las columnas pueden modificarse por asignación. Por ejemplo, a la columna debt vacía se le puede asignar un valor escalar o un array de valores:

In [36]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


Cuando asigne listas o arrays a una columna, la longitud del valor debe coincidir con la longitud del DataFrame. Si asigna una Series , sus etiquetas se realinearán exactamente con el índice del DataFrame, insertando los valores que falten en cualquier valor del índice que no esté presente:

In [37]:
val = pd.Series([-1.2, -1.5, -1.7], index=[2,4,5])
print(val)

print('---------------------')
frame2['debt'] = val #Inserta los valores dependiendo de la posición del índice
print(frame2)

2   -1.2
4   -1.5
5   -1.7
dtype: float64
---------------------
   year   state  pop  debt
0  2000    Ohio  1.5   NaN
1  2001    Ohio  1.7   NaN
2  2002    Ohio  3.6  -1.2
3  2001  Nevada  2.4   NaN
4  2002  Nevada  2.9  -1.5
5  2003  Nevada  3.2  -1.7


Al asignar una columna que no existe se creará una columna nueva. La palabra clave del borrará columnas como con un diccionario. Como ejemplo, primero añado una nueva columna de valores booleanos donde la columna state es igual a "Ohio" :

In [38]:
frame2['eastern'] = frame2['state'] == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,-1.2,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,-1.5,False
5,2003,Nevada,3.2,-1.7,False


El método `del` se puede utilizar para eliminar esta columna:

In [39]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [40]:
populations = {
    "Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}, 
    "Nevada": {2001: 2.4, 2002: 2.9}
    }

In [41]:
frame3 = pd.DataFrame(populations)
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [42]:
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


Las claves de los diccionarios internos se combinan para formar el índice del resultado. Esto no es cierto si se especifica un índice explícito:


In [43]:
pd.DataFrame(populations, index=[2001, 2002, 2003])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


Los diccionarios de `Series` reciben un tratamiento muy similar: 

In [44]:
pdata = {'Ohio': frame3['Ohio'][:-1], 'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


Los diccionarios de Series reciben un tratamiento muy similar:

In [45]:
frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


A diferencia de Series , DataFrame no tiene atributo name. El método to_numpy de DataFrame devuelve los datos contenidos en el DataFrame como un `ndarray` bidimensional:

In [46]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

Si las columnas del DataFrame son de diferentes tipos de datos, el tipo de datos del array
devuelto se elegirá para acomodar todas las columnas:

In [47]:
frame2.to_numpy()

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, -1.2],
       [2001, 'Nevada', 2.4, nan],
       [2002, 'Nevada', 2.9, -1.5],
       [2003, 'Nevada', 3.2, -1.7]], dtype=object)

## Objeto índice

Los objetos Index de pandas son responsables de mantener las etiquetas de los ejes (incluyendo los nombres de las columnas de un DataFrame) y otros metadatos (como enombre o nombres de los ejes). Cualquier array u otra secuencia de etiquetas que se utilice
al construir una Series o DataFrame se convierte internamente en un Índice:


In [48]:
obj = pd.Series(np.arange(3), index=["a", "b", "c"])
obj

a    0
b    1
c    2
dtype: int32

In [49]:
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [50]:
index[1:]

Index(['b', 'c'], dtype='object')

In [51]:
# Los índices son inmutables  ---> por eso tengo ERROR
# index[1] = 'd'

In [52]:
labels = pd.Index(np.arange(3))
labels

Index([0, 1, 2], dtype='int32')

In [53]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [54]:
obj2.index is labels

True

In [55]:
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [56]:
frame3.columns

Index(['Ohio', 'Nevada'], dtype='object', name='state')

In [57]:
'Ohio' in frame3.columns

True

In [58]:
'2001' in frame3.index

False

In [59]:
#A diferencia de los conjuntos ( set() ) de Python, un índice de pandas puede contener  etiquetas duplicadas

pd.Index(["foo", "foo", "bar", "bar"])

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

Las elecciones con etiquetas duplicadas tomarán todas las apariciones de esa etiqueta. Cada Índice tiene una serie de métodos y propiedades para la lógica de conjuntos, que responden a otras preguntas habituales sobre los datos que contiene. Algunas de las más útiles se resumen en: 

# Funciones esenciales 

## Reindexación (Reindexing)

`reindex` , que significa crear un nuevo objeto con los valores reordenados para alinearlos con el nuevo índice. 

In [60]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])
obj


d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [61]:
#e llama a reindex en esta Series , los datos se reordenan de acuerdo con el nuevo índice

obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

Método como `ffill` , que rellena los valores hacia delante:

In [62]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [63]:
obj3.reindex(np.arange(13), method='ffill')

0       blue
1       blue
2     purple
3     purple
4     yellow
5     yellow
6     yellow
7     yellow
8     yellow
9     yellow
10    yellow
11    yellow
12    yellow
dtype: object

Con `DataFrame`, `reindex` puede alterar el índice (de filas), las columnas o ambos. Si sólo se le pasa una secuencia, reindexa las filas del resultado:

In [64]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)), index=["a", "c", "d"],columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [65]:
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [66]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [67]:
# Las columnas tiene reindex con la palabra clave:  `columns`
states = ["Texas", "Utah", "California"]
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [68]:
frame.reindex(states, axis="columns")

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


En un DataFrame tambien se puede usar `loc` e `iloc` , para reindexar, y muchos usuarios prefieren hacerlo siempre de esta manera. Esto sólo funciona si todas las nuevas etiquetas de índice ya existen en el DataFrame (mientras que reindex insertará los datos que falten para las nuevas etiquetas:

In [69]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [70]:
frame.loc[['a', 'd', 'c'], ['California', 'Texas']]

Unnamed: 0,California,Texas
a,2,1
d,8,7
c,5,4


## Eliminar entradas de un eje

Eliminar una o más entradas de un eje es sencillo si ya tienes un array o una lista de índices sin esas entradas, ya que puedes utilizar el método `reindex` o la indexación basada en `.loc` . Como eso puede requerir un poco de lógica el método drop devolverá un nuevo objeto con el valor o valores indicados eliminados de un eje:

In [71]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [72]:
new_obj = obj.drop("c")
new_obj


a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [73]:
obj.drop(["d", "c"])

a    0.0
b    1.0
e    4.0
dtype: float64

In [74]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
 index=["Ohio", "Colorado", "Utah", "New York"],
 columns=["one", "two", "three", "four"])
data



Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [75]:
data.drop(index=['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [76]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [77]:
data.drop(columns=['two'])

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


También puede eliminar valores de las columnas pasando `axis=1` ( como en NumPy) o `axis="columns"` :

In [78]:
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


## Indexación, selección y filtrado:

La indexación de series ( obj[...] ) funciona de forma análoga a la indexación de arrays de NumPy, con la diferencia de que puedes utilizar los valores índice de la serie en lugar de sólo enteros. He aquí algunos ejemplos:

In [79]:
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])
obj



a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [80]:
obj['b']

1.0

In [81]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [82]:
obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [83]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [84]:
obj[[1,3]]

  obj[[1,3]]


b    1.0
d    3.0
dtype: float64

In [85]:
obj.loc[['b','a','d']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [86]:
obj1 = pd.Series([10, 20, 30], index=[2, 0, 1])
obj2 = pd.Series([10, 20, 30], index=["a", "b", "c"])

In [87]:
obj1

2    10
0    20
1    30
dtype: int64

In [88]:
obj2

a    10
b    20
c    30
dtype: int64

In [89]:
obj2.loc[['a','b']]

a    10
b    20
dtype: int64

In [90]:
obj1.iloc[[1,0]]

0    20
2    10
dtype: int64

La indexación en un DataFrame recupera una o más columnas, ya sea con un único valor o con una secuencia:


In [91]:
dta = pd.DataFrame(np.arange(16).reshape((4, 4)),
 index=["Ohio", "Colorado", "Utah", "New York"],
 columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [92]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [93]:
data[['two', 'one']]

Unnamed: 0,two,one
Ohio,1,0
Colorado,5,4
Utah,9,8
New York,13,12


In [94]:
data.loc[['Ohio', 'Colorado']]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [95]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [96]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [97]:
data[data['three']>5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [98]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [99]:
data[data <5 ] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


## Selección en un DataFrame con loc e iloc

Al igual que Series , los DataFrame tiene atributos especiales loc e iloc para la indexación basada en etiquetas y en enteros, respectivamente. Como un DataFrame es bidimensional, puede seleccionar un subconjunto de filas y columnas con notación tipo NumPy utilizando etiquetas de eje (loc) o enteros (iloc)

In [100]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [101]:
data.loc['Colorado']

one      0
two      5
three    6
four     7
Name: Colorado, dtype: int32

In [102]:
data[1:2]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7


In [103]:
data.loc['Colorado',['three', 'four']]

three    6
four     7
Name: Colorado, dtype: int32

In [104]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [105]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [106]:
data.iloc[3, [3,0]]

four    15
one     12
Name: New York, dtype: int32

In [107]:
data.loc[:"Utah", "two"]


Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [108]:
data.iloc[:,:3][data.three>5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [109]:
data.three >=2

Ohio        False
Colorado     True
Utah         True
New York     True
Name: three, dtype: bool

In [110]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [111]:
data.loc[:, 'one'] = 1
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,1,5,6,7
Utah,1,9,10,11
New York,1,13,14,15


In [112]:
data.iloc[2]=5
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,1,5,6,7
Utah,5,5,5,5
New York,1,13,14,15


In [113]:
data.loc[data['four']>5]=3
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utah,5,5,5,5
New York,3,3,3,3
