In [19]:
import numpy as np
import pandas as pd

# Series

In [20]:
# Series. Indexación y valores
ls_data = [3.0, 6.0, 9.0, 12.0]
series = pd.Series(ls_data)
series

0     3.0
1     6.0
2     9.0
3    12.0
dtype: float64

In [21]:
# Coger valores. Devuelve un array de numpy
series.values

array([ 3.,  6.,  9., 12.])

In [22]:
# Información de los índices de la serie
series.index

RangeIndex(start=0, stop=4, step=1)

In [23]:
# Coger valores según posición del índice
print(series[1])
print(series[0:2])

6.0
0    3.0
1    6.0
dtype: float64


In [24]:
# Definición explícita de los índices.
# A diferencia de Numpy, se pueden definir valores de cualquier otro tipo.
ls_data = [3.0, 6.0, 9.0, 12.0, 15.0, 18.0]
ls_index = ['enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio']
series2 = pd.Series(ls_data, index=ls_index)

In [25]:
# Recuperar información
series2['enero']

3.0

In [26]:
# Podemos recuperar igualmente porciones.
# Es importante el orden de la lista que define el índice
series2['enero':'junio']

enero       3.0
febrero     6.0
marzo       9.0
abril      12.0
mayo       15.0
junio      18.0
dtype: float64

###  Diferencias entre Pandas Series y diccionario
* Diccionario, es una estructura que relaciona las claves y los valores de forma arbitraria.
* Series, estructura de forma estricta listas de valores con listas de índice asignado en la posición.
* Series, es más eficiente para ciertas operaciones que los dicionarios.
* En las Series los valores de entrada pueden ser listas o Numpy arrays.
* En Series los índices pueden ser integers o caracteres, en los valores igual.
* Series se podría entender entre una lista y in diccionario Python, pero es de una dimensión.

In [27]:
# Creamos un diccionario con los valores al cubo y cargamos en un tipo Series
dc_cubed = {x: x**3 for x in range(1, 11)}
cubed_value = pd.Series(dc_cubed)
cubed_value

1        1
2        8
3       27
4       64
5      125
6      216
7      343
8      512
9      729
10    1000
dtype: int64

# Data Frame

In [28]:
ls_ciudades = ['Madrid', 'Valencia', 'Barcelona', 'Sevilla']
ls_poblacion = [3100000, 791000, 1600000, 690000]
ls_area = [604, 134, 101, 140]
dc_ciudades = {'nombre': ls_ciudades, 'poblacion':ls_poblacion, 'area':ls_area}

# definimos un dataframe
df_ciudades = pd.DataFrame(dc_ciudades)
# mirar los índices
df_ciudades

Unnamed: 0,nombre,poblacion,area
0,Madrid,3100000,604
1,Valencia,791000,134
2,Barcelona,1600000,101
3,Sevilla,690000,140


In [29]:
# definimos según Series
population = pd.Series(ls_poblacion, index=ls_ciudades)
area = pd.Series(ls_area, index=ls_ciudades)
area

Madrid       604
Valencia     134
Barcelona    101
Sevilla      140
dtype: int64

In [30]:
# definimos df y los campos de las series
df_ciudades2 = pd.DataFrame({'poblacion':population, 'area':area})
# mirar los índices
df_ciudades2

Unnamed: 0,poblacion,area
Madrid,3100000,604
Valencia,791000,134
Barcelona,1600000,101
Sevilla,690000,140


In [31]:
df_ciudades2.index

Index(['Madrid', 'Valencia', 'Barcelona', 'Sevilla'], dtype='object')

In [32]:
# Se definen las columnas como la segunda dimensión
df_ciudades.columns

Index(['nombre', 'poblacion', 'area'], dtype='object')

In [33]:
# Como en un dicionario, se pueden acceder a los valores a partir del nombre de la columna
df_ciudades['poblacion']

0    3100000
1     791000
2    1600000
3     690000
Name: poblacion, dtype: int64

In [35]:
# Otra forma de acceder a las columnas en con un índice en lugar del nombre explícito
df_ciudades.iloc[:,1]

0    3100000
1     791000
2    1600000
3     690000
Name: poblacion, dtype: int64

### Formas de crear un DataFrame
* Con una Serie de pandas
* Lista de diccionarios
* Dicionario de Series de Pandas
* Con un array de Numpy de dos dimensiones
* Con array estructurado de Numpy 

In [36]:
# Construir un DataFrame con diccionarios. Como si fueran registros con diccionarios Python
d1 = {'ciudad':'Valencia', 'temperatura':10}
d2 = {'ciudad':'Barcelona', 'temperatura':8}
d3 = {'ciudad':'Valencia', 'temperatura':9}
d4 = {'ciudad':'Madrid', 'temperatura':10, 'humedad':80}
d5 = {'ciudad':'Sevilla', 'temperatura':15, 'humedad':50, 'co2':6}
d6 = {'ciudad':'Valencia', 'temperatura':10, 'humedad':90, 'co2':10}
ls_data = [d1, d2, d3, d4, d5, d6]
df_data = pd.DataFrame(ls_data)
# fijarse que se crea el df y los valores sin datos se quedan en NaN
df_data

Unnamed: 0,ciudad,temperatura,humedad,co2
0,Valencia,10,,
1,Barcelona,8,,
2,Valencia,9,,
3,Madrid,10,80.0,
4,Sevilla,15,50.0,6.0
5,Valencia,10,90.0,10.0


In [37]:
# Construcción de DataFrame con listas

# Objeto Index de Pandas

In [38]:
# Contrucción de índices
ind = pd.Index([2, 3, 5, 7, 11])
# recuperar datos
print(ind[3])
print(ind[::2])

7
Int64Index([2, 5, 11], dtype='int64')


In [39]:
# Son inmutables! No se modifican los datos. 
ind[3] = 8

TypeError: Index does not support mutable operations

In [40]:
indA = pd.Index([2, 3, 5, 7, 11])
indB = pd.Index([2, 4, 5, 8, 9, 10, 11])
# Intersección
print(indA & indB)
# Unión
print(indA | indB)
# diferencia simétrica
print(indA ^ indB)
# estas operaciones también tienen sus propios métodos
indA.union(indB)

Int64Index([2, 5, 11], dtype='int64')
Int64Index([2, 3, 4, 5, 7, 8, 9, 10, 11], dtype='int64')
Int64Index([3, 4, 7, 8, 9, 10], dtype='int64')


Int64Index([2, 3, 4, 5, 7, 8, 9, 10, 11], dtype='int64')