# Instalacion de Pandas en Anaconda

In [1]:
import pandas as pd

In [None]:
# Tenemos que meternos en esta pagina antes (https://anaconda.org/anaconda/pandas) y ejecutar esto
# (conda install -c anaconda pandas) en el cmd desde la ventana de inicio de anaconda

In [2]:
# Verificacion de la version instalada

pd.__version__

'1.0.5'

# Series

In [3]:
# A series is a one dimension array object containing a sequence of values (of similar types to NumPy types) and 
# an associated 

In [5]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [6]:
# Mostrar la serie en formato array. Me dice lo que contiene la serie

obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [7]:
obj_a = pd.Series(['Hola', 'Mundo'])
obj_a

0     Hola
1    Mundo
dtype: object

In [8]:
# Obtencion del indice de una serie. Los datos de esta serie estan numerados de 0 al 4 y van de uno en uno

obj.index

RangeIndex(start=0, stop=4, step=1)

In [17]:
# Creacion de una serie especificando el indice. Nosotros le asignamos el indice (en vez de 1, 2, etc 
# automaticamente, le metemos letras)

obj2 = pd.Series([4, 7, -5, 3], index = ['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [10]:
# Comprobar la representacion y el tipo de dato del indice

obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [12]:
objA = pd.Series([4, 7, -5, 3], index = [1, 2, 3, 4])
objA

1    4
2    7
3   -5
4    3
dtype: int64

# Acceso a datos de series a traves de etiquetas

In [13]:
# Consultamos en el indice. Como si decimos ¿que hay en la pagina 27? por ejemplo
obj2['a']

-5

In [14]:
objA[3]

-5

In [20]:
# Acceso a varios datos de forma simultanea, mediante sus indices (lista de indices)

objA[[2, 3, 4]]

2    7
3   -5
4    3
dtype: int64

In [21]:
obj2[['a', 'b', 'c', 'd']]

a   -5
b    7
c    3
d    4
dtype: int64

In [24]:
# Filtrado de datos

obj2[obj2 > 3]

d    4
b    7
dtype: int64

In [23]:
# Operaciones con datos de series

obj2 * 2

d     8
b    14
a   -10
c     6
dtype: int64

In [25]:
obj * -1

0   -4
1   -7
2    5
3   -3
dtype: int64

In [26]:
# pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pow.html

# Funcion que te eleva la lista a una potencia en este caso 2. Es lo mismo que poner **

obj2.pow(2) 

d    16
b    49
a    25
c     9
dtype: int64

In [27]:
# Relleno de valores inexistentes NaN con ceros u otro valor
# En el caso de que xista un valor que no haya nada, le ponemos un 0

obj2.pow(2, fill_value = 0)

d    16
b    49
a    25
c     9
dtype: int64

In [29]:
# axis{0 or 'row', 1 or 'columns'} 
# axis = 0 son las filas y axis = 1 son las columnas

obj2.pow(2, axis = 0)

d    16
b    49
a    25
c     9
dtype: int64

In [30]:
# Comprobacion de indices de forma similar al uso de diccionarios
# Comprobamos si existe un indice

'b' in obj2

True

In [31]:
1 in objA

True

In [32]:
'e' in obj2

False

# Creacion de series a partir de un diccionario

In [33]:
# Creamos un diccionario

sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [34]:
# Creamos la serie a partir del diccionario

obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [35]:
# Cuando se usa un diccionario como entrada de una serie, esta toamra como indice las claves del diciconario
# Se puede cambiar esto, es decir, podemos crear nuestro propio indice en el momento de la ejecicion
# Que los podemos ordenar como quereamos, basicamente

states = ['Utah', 'Ohio', 'Oregon', 'Texas']

In [36]:
obj4 = pd.Series(sdata, index = states)
obj4

Utah       5000
Ohio      35000
Oregon    16000
Texas     71000
dtype: int64

In [37]:
# Ahora tenemos una clave que no tiene asignado un valor en el dicionario (California)

states_A = ['Texas' , 'Ohio', 'Oregon', 'California']

In [39]:
obj4_A = pd.Series(sdata, index = states_A)
obj4_A

Texas         71000.0
Ohio          35000.0
Oregon        16000.0
California        NaN
dtype: float64

In [40]:
# Como no metemos Utah en el nuevo indice, este valor se excluye del objeto

states_AB = ['California', 'Ohio', 'Oregon', 'Texas']
obj4_AB = pd.Series(sdata, index = states_AB)
obj4_AB

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [41]:
# Comprobamos los valores inexistentes de Pandas con isnull o notnull
# isnull te dice que los valores que son nulos son True

pd.isnull(obj4)

Utah      False
Ohio      False
Oregon    False
Texas     False
dtype: bool

In [42]:
pd.isnull(obj4_AB)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [43]:
# notnull te dice que los valores que son nulos son False

pd.notnull(obj4)

Utah      True
Ohio      True
Oregon    True
Texas     True
dtype: bool

In [44]:
pd.notnull(obj4_AB)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [45]:
# En el caso de las series, las funciones isnull y notnull se pueden aplicar de la siguiente manera

obj4.isnull()

Utah      False
Ohio      False
Oregon    False
Texas     False
dtype: bool

# Operaciones arirmeticas

In [46]:
# Si sumo dos listas, se me ordenan automaticamente segun su indice
# No tienen por que estar ordenadas

obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [47]:
obj4

Utah       5000
Ohio      35000
Oregon    16000
Texas     71000
dtype: int64

In [48]:
obj3 + obj4

Ohio       70000
Oregon     32000
Texas     142000
Utah       10000
dtype: int64

# Asignacion de un nombre a la serie y a su indice

In [49]:
obj4.name = 'Population'
obj4.index.name = 'State'

In [51]:
obj4

State
Utah       5000
Ohio      35000
Oregon    16000
Texas     71000
Name: Population, dtype: int64

# Modificacion del indice de una serie en el momento de la ejecucion

In [52]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [53]:
# Reindexamos el indice de la lista obj

obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

# Dataframes

In [54]:
data = {'state': ['Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003,],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [55]:
frame = pd.DataFrame(data)
frame

ValueError: arrays must all be same length