In [1]:
import pandas as pd
import numpy as np

**El objeto Serie de Pandas**

Una Serie Pandas es un array unidimensional de datos indexados. Se puede crear a partir de una lista o array de la siguiente forma:

In [2]:
data = pd.Series(np.linspace(0.25,1.0,4))
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
data[1:3]

1    0.50
2    0.75
dtype: float64

In [6]:
data = pd.Series(np.linspace(0.25,1.0,4),
                 index=["a","b","c","d"])

data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [7]:
data["b"]

0.5

Series como diccionario especializado

De esta manera, se puede pensar en una Serie Pandas un poco como una especialización de un diccionario Python. Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios.

y una Serie es una estructura que asigna claves tipadas a un conjunto de valores tipados. Esta tipificación es importante: al igual que el código compilado de tipo específico detrás de una matriz NumPy hace que sea más eficiente que una lista de Python para ciertas operaciones, la información de tipo de una serie de Pandas hace que sea mucho más eficiente que los diccionarios de Python para ciertas operaciones.

In [8]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

In [9]:
for key in population_dict.keys():
    print(f"{key} : {population_dict[key]}")

California : 38332521
Texas : 26448193
New York : 19651127
Florida : 19552860
Illinois : 12882135


In [10]:
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Por defecto, se creará una Serie donde el índice se extrae de las claves ordenadas. A partir de aquí, se puede realizar un acceso a los elementos típico de diccionario:

In [11]:
#totmamos la key para pasarla por indice y tener el value
population["California"]

38332521

Sin embargo, a diferencia de un diccionario, la serie también admite operaciones de tipo matriz, como el corte en rodajas

In [12]:
population["California":"New York"]

California    38332521
Texas         26448193
New York      19651127
dtype: int64

Constructing Series objects

In [13]:
#pd.Series(data,index=index)

pd.Series(np.arange(2,7,2))

0    2
1    4
2    6
dtype: int32

In [14]:
pd.Series(5,index=[(np.arange(100,400,100))])

100    5
200    5
300    5
dtype: int64

Los datos pueden ser un diccionario, en el que el índice por defecto son las claves ordenadas del diccionario:

In [15]:
pd.Series({i+1:v for i,v in enumerate(["a","b","c"])})

1    a
2    b
3    c
dtype: object

In [16]:
pd.Series({i+1:v for i,v in enumerate(["a","b","c"])},index=[3,2])

3    c
2    b
dtype: object

**El objeto DataFrame de Pandas**

* La siguiente estructura fundamental en Pandas es el DataFrame. Al igual que el objeto Series discutido en la sección anterior, el DataFrame se puede considerar como una generalización de un array NumPy, o como una especialización de un diccionario Python. A continuación cada una de estas perspectivas.

In [17]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
 'Florida': 170312, 'Illinois': 149995}

In [18]:
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [19]:
states = pd.DataFrame(
    {
        "Population" : population,
        "area" : area
    }
)

states

Unnamed: 0,Population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


 Ahora que tenemos esto junto con las Series de población de antes, podemos utilizar un para construir un único objeto bidimensional que contenga esta información:

In [20]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [21]:
states.columns

Index(['Population', 'area'], dtype='object')

DataFrame as specialized dictionary

In [22]:
states["area"]

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Constructing DataFrame objects

Un DataFrame es una colección de objetos Series.
columna puede construirse a partir de una única Serie:

In [23]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


From a two-dimensional NumPy array.

In [24]:
pd.DataFrame(np.random.rand(3,2),
             columns=["foo","bar"],
             index=["a","b","c"])

Unnamed: 0,foo,bar
a,0.367834,0.679063
b,0.107421,0.66874
c,0.673891,0.507929


Data Indexing and Selection

Aquí veremos formas similares de acceder y modificar valores en los objetos Series y DataFrame de Pandas. Si has usado los patrones de NumPy, los patrones correspondientes en Pandas te resultarán muy familiares, aunque hay algunas peculiaridades que debes tener en cuenta.

 Empezaremos con el caso simple del objeto Series unidimensional, y luego pasaremos al más complicado objeto DataFrame bidimensional.

In [25]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
 index=['a', 'b', 'c', 'd'])

data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [26]:
data["b"]

0.5

In [27]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [28]:
item = [x for _,x in data.items()]
item

[0.25, 0.5, 0.75, 1.0]

In [29]:
#asignamos un nuevo indice y valor
data["e"] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

**Series como matriz unidimensional**

 Una serie se basa en esta interfaz tipo diccionario y proporciona una selección de elementos tipo array mediante los mismos mecanismos básicos que los arrays de NumPy, es decir, cortes, enmascaramiento e indexación de fantasía. Algunos ejemplos son los siguientes:

In [30]:
data["b":"c"]

b    0.50
c    0.75
dtype: float64

In [31]:
data[:]

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [32]:
data[::-1]

e    1.25
d    1.00
c    0.75
b    0.50
a    0.25
dtype: float64

1: Indica el índice inicial desde donde comenzar la selección. En este caso, 1 corresponde al índice 'b'.

::3: Indica el paso de la selección. 3 significa que selecciona cada tercer elemento a partir del índice inicial.

In [33]:
data[1::3]

b    0.50
e    1.25
dtype: float64

In [34]:
data[1::-1]

b    0.50
a    0.25
dtype: float64

In [35]:
data[(data>0.3) & (data<0.8)]

b    0.50
c    0.75
dtype: float64

In [36]:
data[["a","e"]]

a    0.25
e    1.25
dtype: float64

 Indexadores: loc, iloc e ix

Estas convenciones de corte e indexación pueden ser fuente de confusión. Por ejemplo, si tu Serie tiene un índice entero explícito, una operación de indexación como data[1] usará los índices explícitos, mientras que una operación de corte como data[1:3] usará el índice implícito estilo Python.

In [37]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])

data

1    a
3    b
5    c
dtype: object

 Data Selection in DataFrame

In [38]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})

pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})

data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [39]:
data["area"]

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Creacion nueva columna

In [40]:
data["density"] = data["pop"] / data["area"]
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


**DataFrame como matriz bidimensional**

 Como se mencionó anteriormente, también podemos ver el DataFrame como una matriz bidimensional mejorada. Podemos examinar la matriz de datos subyacente utilizando el atributo values:

In [41]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [42]:
#Se transpuso el dataframe
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [43]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [44]:
#columna indice 0 todos los valores de fila
data.values[:,0]

array([423967., 695662., 141297., 170312., 149995.])

In [45]:
#fila con indice 0 todos los valores de columna
data.values[0,:]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [46]:
data.values[1::3,1::]

array([[2.64481930e+07, 3.80187404e+01],
       [1.28821350e+07, 8.58837628e+01]])

In [47]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [48]:
data["area"]

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

**Filtrando por iloc**

* Este metodo acepta los indices de las filas y columnas

In [49]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [50]:
data.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [51]:
[x for x in enumerate(data.index)]

[(0, 'California'),
 (1, 'Texas'),
 (2, 'New York'),
 (3, 'Florida'),
 (4, 'Illinois')]

In [52]:
#de la fila 0 a la 2 y de la columna 0 a 1
data.iloc[:3,:2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


**Metodo Loc**

* Acepta el nombre de la columnas para el filtrado del DataFrame

In [53]:
data.loc[:,["area","density"]]

Unnamed: 0,area,density
California,423967,90.413926
Texas,695662,38.01874
New York,141297,139.076746
Florida,170312,114.806121
Illinois,149995,85.883763


En estos indexadores se puede utilizar cualquiera de los patrones de acceso a datos conocidos del estilo NumPy. Por ejemplo, en el indexador loc podemos combinar enmascaramiento e indexación de fantasía como en lo siguiente

In [54]:
data.loc[data["density"] > 100,["pop","density"]]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [55]:
data.loc[data["density"] < 100,["pop","density"]]

Unnamed: 0,pop,density
California,38332521,90.413926
Texas,26448193,38.01874
Illinois,12882135,85.883763


In [56]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [57]:
data.iloc[0,2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [58]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


**Operando con datos en Pandas**

* Una de las piezas esenciales de NumPy es la posibilidad de realizar operaciones rápidas entre elementos, tanto con aritmética básica (suma, resta, multiplicación, etc.) como
 con operaciones más sofisticadas (funciones trigonométricas, funciones exponenciales y logarítmicas, etc.).

In [59]:
import pandas as pd
import numpy as np

rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0,10,4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [60]:
df = pd.DataFrame(rng.randint(0,10,(3,4)),
                  columns=['A','B','C','D'])

df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


 Si aplicamos un NumPy ufunc sobre cualquiera de estos objetos, el resultado será otro objeto Pandas con los índices conservados:

In [61]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

Algo más complejo

In [62]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


**UFuncs: Alineación de Índices**
* Para operaciones binarias sobre dos objetos Series o DataFrame, Pandas alineará los índices en el proceso de realizar la operación. Esto es muy conveniente cuando datos incompletos, como veremos en algunos de los ejemplos que siguen.

**Alineación de índices en series**

* Por ejemplo, supongamos que combinamos dos fuentes de datos diferentes y sólo encontramos los tres primeros estados de EE.UU. por superficie y los tres primeros estados de EE.UU. 

In [63]:
area = pd.Series(
 {
  'Alaska': 1723337,
  'Texas': 695662,
  'California': 423967
  },name='area')

population = pd.Series(
    {
        'California': 38332521,
        'Texas': 26448193,
        'New York': 19651127
        },name='population')

 El array resultante contiene la unión de los índices de los dos arrays de entrada, que podríamos podemos determinar usando la aritmética de conjuntos estándar de Python en estos índices:

In [64]:
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [65]:
# Convertir los índices a conjuntos y realizar la unión
set(area.index) | set(population.index)

{'Alaska', 'California', 'New York', 'Texas'}

Otro ejemplo

In [66]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
print(A)
print(B)
A + B

0    2
1    4
2    6
dtype: int64
1    1
2    3
3    5
dtype: int64


0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

Si utilizar valores NaN no es el comportamiento deseado, podemos modificar el valor de relleno utilizando métodos de objeto apropiados en lugar de los operadores. Por ejemplo, llamar a A.add(B)
 es equivalente a llamar a A + B, pero permite la especificación explícita opcional del valor de relleno para cualquier elemento de A o B que pueda faltar

In [67]:
A.add(B,fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

**Alineación de índices en DataFrame**
* Un tipo similar de alineación tiene lugar tanto para las columnas como para los índices cuando se realizan operaciones en DataFrames. operaciones en DataFrames

In [68]:
A = pd.DataFrame(rng.randint(0,20,(2,2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [69]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [70]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


* Observe que los índices se alinean correctamente independientemente de su orden en los dos objetos, y que los índices del resultado están ordenados. Como en el caso de Series, podemos utilizar el método aritmético del objeto asociado y pasarle cualquier valor_de_relleno que deseemos para que se utilice en lugar de las entradas que falten.

* Aquí rellenaremos con la media de todos los valores de A (que calculamos apilando primero las filas de A):

**Metodo Stack** 

* el método stack se utiliza para apilar los niveles de un DataFrame de tal manera que las columnas se conviertan en índices, resultando en una Series con un índice de múltiples niveles (o jerárquico). Este método es útil para transformar los datos de un formato ancho a un formato largo.

In [71]:
A.stack()

0  A     1
   B    11
1  A     5
   B     1
dtype: int32

In [72]:
fill = A.stack().mean()
print(fill)
A.add(B,fill_value=fill)

4.5


Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


**Ufuncs: Operaciones entre DataFrame y Series**

* Cuando se realizan operaciones entre un DataFrame y una Serie, la alineación de índices y columnas se mantiene de forma similar. Las operaciones entre un DataFrame y una Serie son similares a las operaciones entre un array NumPy bidimensional y unidimensional. Consideremos una operación común, donde encontramos la diferencia de un array bidimensional y una de sus filas:

In [73]:
A = rng.randint(10,size=(3,4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [74]:
#De la matriz A le resto la fila 0 a la misma matriz
A- A[0]

array([[ 0,  0,  0,  0],
       [-1, -2,  2,  4],
       [ 3, -7,  1,  4]])

En pandas las operaciones son parecidas

In [75]:
df = pd.DataFrame(A, columns=list('QRST'))
print(df)
print('\n')
print(df - df.iloc[0])

   Q  R  S  T
0  3  8  2  4
1  2  6  4  8
2  6  1  3  8


   Q  R  S  T
0  0  0  0  0
1 -1 -2  2  4
2  3 -7  1  4


 Si, por el contrario, desea operar por columnas, puede utilizar los métodos de objeto mencionados anteriormente, especificando la palabra clave axis

**El metodo subtract** 

* Me permite restale a cualquier columna del dataframe entre si misma al nivel de axis que se indique 

* axis = 0 : "Columna"
* axis = 1 : "Fila"

In [76]:
#resta por columna
df.subtract(df['R'],axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [77]:
#resta seleccionando la fila  0
df.subtract(df.iloc[0],axis=1)

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


In [78]:
#resta seleccionado todas las filas  pero restando la columna 0
df.subtract(df.iloc[:,0],axis=0)

Unnamed: 0,Q,R,S,T
0,0,5,-1,1
1,0,4,2,6
2,0,-5,-3,2


In [79]:
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [80]:
columnaQ = A[:,0]
A - columnaQ[:,np.newaxis]

array([[ 0,  5, -1,  1],
       [ 0,  4,  2,  6],
       [ 0, -5, -3,  2]])

 Tenga en cuenta que estas operaciones DataFrame/Series, al igual que las operaciones comentadas anteriormente, alinearán automáticamente los índices entre los dos elementos:

In [81]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [82]:
halfrow = df.iloc[0, ::2]
halfrow

Q    3
S    2
Name: 0, dtype: int32

In [83]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,2.0,
2,3.0,,1.0,
