In [2]:
import pandas as pd

# Series y DataFrames
Objetos principales de la librerian `Pandas`, son escenciales para una mejor exploración y análisis de datos.

## Series

Son similares a los arrays de una dimensión o vectores en Numpy.
<br>
Caacterísticas:
- Arreglo unidimensional indexado
- Búsqueda por índice
- Soporte de operaciones aritméticas
- Manejo de distintos tipos de datos
<br>

Al igual que cualquier array o lista sus indices comienzan en 0 hasta la cantidad de elementos totales menos uno, sin embargo con las Series de Pandas podemos asignar manualmente los indices, esa es una diferencia con los arrays convencionales.

Creación de una `Serie` sin asignar indices.

In [6]:
hp_serie = pd.Series(['Harry Potter y el prosionero de azkaban', 'Harry Potter y la orden del fenix',
                     'Harry Potter y el misterio del principe', 'Harry Potter y las reliquias de la muerte'])
hp_serie


0      Harry Potter y el prosionero de azkaban
1            Harry Potter y la orden del fenix
2      Harry Potter y el misterio del principe
3    Harry Potter y las reliquias de la muerte
dtype: object

Por default los indices empiezan en 0 hasta el total de elementos menos uno.

Creando una `Serie` con iíndices preestablecidos

In [8]:
hp_serie = pd.Series(['Harry Potter y el prosionero de azkaban', 'Harry Potter y la orden del fenix',
                     'Harry Potter y el misterio del principe', 'Harry Potter y las reliquias de la muerte'],
                     index=[3, 5, 6, 7])
hp_serie

3      Harry Potter y el prosionero de azkaban
5            Harry Potter y la orden del fenix
6      Harry Potter y el misterio del principe
7    Harry Potter y las reliquias de la muerte
dtype: object

En el ejemplo anterior el índice corresponde al número de libro, y el orden de los indices en el array `index` es el correspondiente al de los datos del primer parametro.

Otra forma de crear series es por medio de diccionarios.

In [31]:
hp_dict = {
    3: 'Harry Potter y el prosionero de azkaban',
    5: 'Harry Potter y la orden del fenix',
    6: 'Harry Potter y el misterio del principe',
    7: 'Harry Potter y las reliquias de la muerte'
}
hp_serie = pd.Series(hp_dict)
hp_serie

3      Harry Potter y el prosionero de azkaban
5            Harry Potter y la orden del fenix
6      Harry Potter y el misterio del principe
7    Harry Potter y las reliquias de la muerte
dtype: object

Obtenemos elementos de la serie por índice

In [10]:
hp_serie[5]

'Harry Potter y la orden del fenix'

Obtenemos elementos de la serie con slicing

In [18]:
hp_serie[0:7]

3      Harry Potter y el prosionero de azkaban
5            Harry Potter y la orden del fenix
6      Harry Potter y el misterio del principe
7    Harry Potter y las reliquias de la muerte
dtype: object

In [19]:
hp_serie.index

Int64Index([3, 5, 6, 7], dtype='int64')

In [20]:
hp_serie.T # Al ser una estructura unidimencional la Transpuesta es el vector/serie en si mismo.

3      Harry Potter y el prosionero de azkaban
5            Harry Potter y la orden del fenix
6      Harry Potter y el misterio del principe
7    Harry Potter y las reliquias de la muerte
dtype: object

## DataFrames

Es la estructura principal de `Pandas`, son similares a las estructuras matriciales en Numpy, encontramos los datos en filas y columnas.
<br>
Características:
- Arreglo de dos dimensiones
- Búsqueda por indices de filas y columnas, en el caso de las columnas su nombre corresponde al indice.
- Obtención de datos con slicing
- Soporta operaciones aritméticas
- Menojo de varios tipos de datos
- Su tamaño es variable
<br>
Igual que con las `Series` a los `DataFrames` podemos indicarle manualmente los ídices de cada elemento, sino lo hacemos por default comienza en 0 y termina en el total de los elementos menos uno.

Creando un `DataFrame` sin indices preestablecidos.

In [32]:
hp_df = pd.DataFrame(['Harry Potter y el prosionero de azkaban', 'Harry Potter y la orden del fenix',
                     'Harry Potter y el misterio del principe', 'Harry Potter y las reliquias de la muerte'])
hp_df

Unnamed: 0,0
0,Harry Potter y el prosionero de azkaban
1,Harry Potter y la orden del fenix
2,Harry Potter y el misterio del principe
3,Harry Potter y las reliquias de la muerte


Por default el nombre de la columna lo deja con el ídice `0`, para asignarle un nombre utilizamos el parámetro `columns` que recibe un arreglo con el nombre de las columnas.

In [44]:
hp_df = pd.DataFrame(['Harry Potter y el prosionero de azkaban', 'Harry Potter y la orden del fenix',
                     'Harry Potter y el misterio del principe', 'Harry Potter y las reliquias de la muerte'], 
                     columns=['libro'])
hp_df

Unnamed: 0,libro
0,Harry Potter y el prosionero de azkaban
1,Harry Potter y la orden del fenix
2,Harry Potter y el misterio del principe
3,Harry Potter y las reliquias de la muerte


Creando un `DataFrame` con indices preestablecidos.

In [45]:
hp_df = pd.DataFrame(['Harry Potter y el prosionero de azkaban', 'Harry Potter y la orden del fenix',
                     'Harry Potter y el misterio del principe', 'Harry Potter y las reliquias de la muerte'],
                     index=[3, 5, 6, 7],
                     columns=['libro'])
hp_df

Unnamed: 0,libro
3,Harry Potter y el prosionero de azkaban
5,Harry Potter y la orden del fenix
6,Harry Potter y el misterio del principe
7,Harry Potter y las reliquias de la muerte


También podemos crearlos a partir de un diccionario de Python.

In [46]:
hp_dict = {
    'book': ['Harry Potter y el prosionero de azkaban', 'Harry Potter y la orden del fenix','Harry Potter y el misterio del principe', 'Harry Potter y las reliquias de la muerte'],
    'pages': [360, 896, 608, 640],
    'year': [1999, 2003, 2005, 2007]
}
hp_df = pd.DataFrame(hp_dict, index=[3, 5, 6, 7])
hp_df

Unnamed: 0,book,pages,year
3,Harry Potter y el prosionero de azkaban,360,1999
5,Harry Potter y la orden del fenix,896,2003
6,Harry Potter y el misterio del principe,608,2005
7,Harry Potter y las reliquias de la muerte,640,2007


Obteniendo datos por indices de columnas.

In [47]:
hp_df['pages']

3    360
5    896
6    608
7    640
Name: pages, dtype: int64

In [50]:
hp_df[['pages', 'book']]

Unnamed: 0,pages,book
3,360,Harry Potter y el prosionero de azkaban
5,896,Harry Potter y la orden del fenix
6,608,Harry Potter y el misterio del principe
7,640,Harry Potter y las reliquias de la muerte


In [55]:
hp_df.columns

Index(['book', 'pages', 'year'], dtype='object')

In [56]:
hp_df.values

array([['Harry Potter y el prosionero de azkaban', 360, 1999],
       ['Harry Potter y la orden del fenix', 896, 2003],
       ['Harry Potter y el misterio del principe', 608, 2005],
       ['Harry Potter y las reliquias de la muerte', 640, 2007]],
      dtype=object)

In [57]:
hp_df.axes

[Int64Index([3, 5, 6, 7], dtype='int64'),
 Index(['book', 'pages', 'year'], dtype='object')]

[Documentación de Series](https://pandas.pydata.org/docs/reference/series.html)
<br>
[Documentación de DataFrames](https://pandas.pydata.org/docs/reference/frame.html)