In [188]:
import pandas as pd
import numpy as np

**El objeto Serie de Pandas**

Una Serie Pandas es un array unidimensional de datos indexados. Se puede crear a partir de una lista o array de la siguiente forma:

In [189]:
data = pd.Series(np.linspace(0.25,1.0,4))
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [190]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [191]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [192]:
data[1:3]

1    0.50
2    0.75
dtype: float64

In [193]:
data = pd.Series(np.linspace(0.25,1.0,4),
                 index=["a","b","c","d"])

data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [194]:
data["b"]

0.5

Series como diccionario especializado

De esta manera, se puede pensar en una Serie Pandas un poco como una especialización de un diccionario Python. Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios.

y una Serie es una estructura que asigna claves tipadas a un conjunto de valores tipados. Esta tipificación es importante: al igual que el código compilado de tipo específico detrás de una matriz NumPy hace que sea más eficiente que una lista de Python para ciertas operaciones, la información de tipo de una serie de Pandas hace que sea mucho más eficiente que los diccionarios de Python para ciertas operaciones.

In [195]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

In [196]:
for key in population_dict.keys():
    print(f"{key} : {population_dict[key]}")

California : 38332521
Texas : 26448193
New York : 19651127
Florida : 19552860
Illinois : 12882135


In [197]:
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Por defecto, se creará una Serie donde el índice se extrae de las claves ordenadas. A partir de aquí, se puede realizar un acceso a los elementos típico de diccionario:

In [198]:
#totmamos la key para pasarla por indice y tener el value
population["California"]

38332521

Sin embargo, a diferencia de un diccionario, la serie también admite operaciones de tipo matriz, como el corte en rodajas

In [199]:
population["California":"New York"]

California    38332521
Texas         26448193
New York      19651127
dtype: int64

Constructing Series objects

In [200]:
#pd.Series(data,index=index)

pd.Series(np.arange(2,7,2))

0    2
1    4
2    6
dtype: int32

In [201]:
pd.Series(5,index=[(np.arange(100,400,100))])

100    5
200    5
300    5
dtype: int64

Los datos pueden ser un diccionario, en el que el índice por defecto son las claves ordenadas del diccionario:

In [202]:
pd.Series({i+1:v for i,v in enumerate(["a","b","c"])})

1    a
2    b
3    c
dtype: object

In [203]:
pd.Series({i+1:v for i,v in enumerate(["a","b","c"])},index=[3,2])

3    c
2    b
dtype: object

**El objeto DataFrame de Pandas**

* La siguiente estructura fundamental en Pandas es el DataFrame. Al igual que el objeto Series discutido en la sección anterior, el DataFrame se puede considerar como una generalización de un array NumPy, o como una especialización de un diccionario Python. A continuación cada una de estas perspectivas.

In [204]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
 'Florida': 170312, 'Illinois': 149995}

In [205]:
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [206]:
states = pd.DataFrame(
    {
        "Population" : population,
        "area" : area
    }
)

states

Unnamed: 0,Population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


 Ahora que tenemos esto junto con las Series de población de antes, podemos utilizar un para construir un único objeto bidimensional que contenga esta información:

In [207]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [208]:
states.columns

Index(['Population', 'area'], dtype='object')

DataFrame as specialized dictionary

In [209]:
states["area"]

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Constructing DataFrame objects

Un DataFrame es una colección de objetos Series.
columna puede construirse a partir de una única Serie:

In [210]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


From a two-dimensional NumPy array.

In [211]:
pd.DataFrame(np.random.rand(3,2),
             columns=["foo","bar"],
             index=["a","b","c"])

Unnamed: 0,foo,bar
a,0.366408,0.590521
b,0.158706,0.176452
c,0.73336,0.688135


Data Indexing and Selection

Aquí veremos formas similares de acceder y modificar valores en los objetos Series y DataFrame de Pandas. Si has usado los patrones de NumPy, los patrones correspondientes en Pandas te resultarán muy familiares, aunque hay algunas peculiaridades que debes tener en cuenta.

 Empezaremos con el caso simple del objeto Series unidimensional, y luego pasaremos al más complicado objeto DataFrame bidimensional.

In [212]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
 index=['a', 'b', 'c', 'd'])

data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [213]:
data["b"]

0.5

In [214]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [215]:
item = [x for _,x in data.items()]
item

[0.25, 0.5, 0.75, 1.0]

In [216]:
#asignamos un nuevo indice y valor
data["e"] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

**Series como matriz unidimensional**

 Una serie se basa en esta interfaz tipo diccionario y proporciona una selección de elementos tipo array mediante los mismos mecanismos básicos que los arrays de NumPy, es decir, cortes, enmascaramiento e indexación de fantasía. Algunos ejemplos son los siguientes:

In [217]:
data["b":"c"]

b    0.50
c    0.75
dtype: float64

In [218]:
data[:]

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [219]:
data[::-1]

e    1.25
d    1.00
c    0.75
b    0.50
a    0.25
dtype: float64

1: Indica el índice inicial desde donde comenzar la selección. En este caso, 1 corresponde al índice 'b'.

::3: Indica el paso de la selección. 3 significa que selecciona cada tercer elemento a partir del índice inicial.

In [220]:
data[1::3]

b    0.50
e    1.25
dtype: float64

In [221]:
data[1::-1]

b    0.50
a    0.25
dtype: float64

In [222]:
data[(data>0.3) & (data<0.8)]

b    0.50
c    0.75
dtype: float64

In [223]:
data[["a","e"]]

a    0.25
e    1.25
dtype: float64

 Indexadores: loc, iloc e ix

Estas convenciones de corte e indexación pueden ser fuente de confusión. Por ejemplo, si tu Serie tiene un índice entero explícito, una operación de indexación como data[1] usará los índices explícitos, mientras que una operación de corte como data[1:3] usará el índice implícito estilo Python.

In [224]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])

data

1    a
3    b
5    c
dtype: object

 Data Selection in DataFrame

In [225]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})

pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})

data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [226]:
data["area"]

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Creacion nueva columna

In [227]:
data["density"] = data["pop"] / data["area"]
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


**DataFrame como matriz bidimensional**

 Como se mencionó anteriormente, también podemos ver el DataFrame como una matriz bidimensional mejorada. Podemos examinar la matriz de datos subyacente utilizando el atributo values:

In [228]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [229]:
#Se transpuso el dataframe
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [230]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [231]:
#columna indice 0 todos los valores de fila
data.values[:,0]

array([423967., 695662., 141297., 170312., 149995.])

In [232]:
#fila con indice 0 todos los valores de columna
data.values[0,:]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [233]:
data.values[1::3,1::]

array([[2.64481930e+07, 3.80187404e+01],
       [1.28821350e+07, 8.58837628e+01]])

In [234]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [235]:
data["area"]

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

**Filtrando por iloc**

* Este metodo acepta los indices de las filas y columnas

In [236]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [239]:
data.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [237]:
data.iloc[:3,:2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [242]:
data.loc[:,["area","density"]]

Unnamed: 0,area,density
California,423967,90.413926
Texas,695662,38.01874
New York,141297,139.076746
Florida,170312,114.806121
Illinois,149995,85.883763


En estos indexadores se puede utilizar cualquiera de los patrones de acceso a datos conocidos del estilo NumPy. Por ejemplo, en el indexador loc podemos combinar enmascaramiento e indexación de fantasía como en lo siguiente

In [244]:
data.loc[data["density"] > 100,["pop","density"]]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [245]:
data.loc[data["density"] < 100,["pop","density"]]

Unnamed: 0,pop,density
California,38332521,90.413926
Texas,26448193,38.01874
Illinois,12882135,85.883763


In [247]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [251]:
data.iloc[0,2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [255]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


pag 133