 # Creación de series y dataframes
 
La creación de series y dataframes: **pd.Series y pd.DataFrames**, respectivamente. Estos constructores permiten crear estas estructuras a partir de diferentes tipos de variables: diccionarios, listas... También permiten personalizar las etiquetas de los índices, y filtrar y reordenar las etiquetas de columnas. Veamos los métodos principales.

In [2]:
import pandas as pd
import numpy as np 

## Creacion de Series

Se utiliza el constructor **pandas.Series**, el cual acepta 3 argumentos principales:

- **data**: estructura de datos tipo array, iterable, diccionario o valor escalar que contendrá los valores a introducir en la serie.
- **index**: estructura tipo array con la misma longitud que los datos. Si este argumento no se añade al crear la serie, se agregará un índice por defecto formado por números enteros desde 0 hasta n-1, siendo n el número de datos.
- **dtype**: tipo de datos para la serie. Si no se especifica, se inferirá a partir de los datos.

### Creacion de una serie a partir de una lista

In [3]:
#Creacion de una serie a parti de una lista o de un array de NumPY
s = pd.Series([7, 5, 3])
s
#Como se especifico un indice, se cre uno por defecto de 0 a n-1

0    7
1    5
2    3
dtype: int64

In [4]:
s = pd.Series([10, 89, 100], index= ["Ene", "Feb", "Mar"])
s
#Ahora observamos que el indice especificado sustituye al por defecto
#La longitud del indice debera coincidir con el numero de elementos


Ene     10
Feb     89
Mar    100
dtype: int64

### Creación de una serie a partir de un diccionario

In [5]:
d = {"Ene":7, "Feb":5, "Mar":3}
s = pd.Series(d)
s

Ene    7
Feb    5
Mar    3
dtype: int64

In [7]:

d = {"Ene":7, "Feb":5, "Mar":3}
s = pd.Series(d, index = ["Abr", "Mar", "Feb", "Ene"])
s
#Si especificamos el objeto index, lo que va a pasar es que
#Se tomaran estas nuevas etiqueas en el orden que aparecen, pero si alguna de ellas
#NO EXISTE en el diccionario definido previamente, entonces se le establecera un valor NaN,
#Este valor hace que el tipo de la serie sea float

Abr    NaN
Mar    3.0
Feb    5.0
Ene    7.0
dtype: float64

### Creación de una Serie a partir de un escalar

Si los datos son solo un escalar como 7 o 4.3, sera necesario especificar el indice, esto producira una serie con un numero de elementos igual al numero de etiquetas o indice espcifica y el valor de cada indice sera el escalar

In [9]:
s = pd.Series(7, index = ["Ene", "Feb", "Marz","Abr"])
s

Ene     7
Feb     7
Marz    7
Abr     7
dtype: int64

## Creación de DataFrames

El constructor de dataframes es pandas.DataFrame, el cual acepta cuatro parametros principales
* **data**: estructura de datos ndarray (array NumPy), diccionario u otro DataFrame
* **index**: indice aplicar a las filas. Si no se especifica, se asignara uno por defecto formado por numeros enteros entre 0 y n-1, siendo n el numero de filas del dataframe.
* **columns**: etiquetas a palicar a las columnas. Al que ocurre con el indice de filas, si no se añade se asignara uno automatico formado por numeros enteros entre 0 y n-1, siendo n el numero de columnas.
* **dtype**: tipo a aplicar a los datos. Solo se permite uno. Si no se especifica, se infiere el tipo de cada columna a partir de los datos que contengan.

### Creación de DataFrame a partir de un diccionario de listas




In [11]:
#Definimos un diccionario

elementos = {
    "Numero atomico" : [1, 6, 47, 88],
    "Masa atomica" : [1.008, 12.011, 107.87, 226],
    "Familia": ["No metal", "No metal", "Metal", "Metal"]
}
elementos

{'Numero atomico': [1, 6, 47, 88],
 'Masa atomica': [1.008, 12.011, 107.87, 226],
 'Familia': ['No metal', 'No metal', 'Metal', 'Metal']}

In [12]:
#Creamos un DataFrame pasando el diccionario anterior como argumento
tabla_periodica = pd.DataFrame(elementos)
tabla_periodica
#Observe que al especificar indice de filas, este se forma en automatico con valores de 0 a n-1

Unnamed: 0,Numero atomico,Masa atomica,Familia
0,1,1.008,No metal
1,6,12.011,No metal
2,47,107.87,Metal
3,88,226.0,Metal


Acontinuación volvemos a crear el dataframe, pasando 3 argumentos: elementos, index, columns

**Nota**: Recordar que con el parametro columns podemos especificar el orden en el que se mostraran las columnas O tambien filtrar aquellas (Es decir aquellas columnas que no queremos mostrar, nos referimos a las claves presentes en el diccionario)

In [14]:
#Creamos un DataFrame pasando el diccionario anterior como argumento y los indices de las filas y columnas
tabla_periodica = pd.DataFrame(elementos,
                               index = ["H", "C", "Ag", "Ra"],
                               columns = ["Familia", "Numero atomico", "Masa atomica"]
                              )
tabla_periodica

Unnamed: 0,Familia,Numero atomico,Masa atomica
H,No metal,1,1.008
C,No metal,6,12.011
Ag,Metal,47,107.87
Ra,Metal,88,226.0


In [16]:
tabla_periodica = pd.DataFrame(elementos,
                               index = ["H", "C", "Ag", "Ra"],
                               columns = ["Familia", "Numero atomico"] #Filtramos la Masa ATOMICA
                              )
tabla_periodica
#No se muestra la columna masa atomica

Unnamed: 0,Familia,Numero atomico
H,No metal,1
C,No metal,6
Ag,Metal,47
Ra,Metal,88


### Creación de un dataframe a partir de un array NumPy

Si no se especifican las etiquetas de las filas y columnas, se asignan por defecto

In [17]:
unidades_datos = np.array([[2, 5, 3, 2],
                           [4, 6, 7, 2],
                           [3, 2, 4, 1]])
unidades_datos

array([[2, 5, 3, 2],
       [4, 6, 7, 2],
       [3, 2, 4, 1]])

In [18]:
unidades = pd.DataFrame(unidades_datos)
unidades

Unnamed: 0,0,1,2,3
0,2,5,3,2
1,4,6,7,2
2,3,2,4,1


In [20]:
#Si se especifican las etiquetas de las filas y columnas, el resultado es diferente
unidades = pd.DataFrame(unidades_datos,
                        index = [2015, 2016, 2017],
                        columns = ["Ag", "Au", "Cu", "Pt"]
                       )
unidades

Unnamed: 0,Ag,Au,Cu,Pt
2015,2,5,3,2
2016,4,6,7,2
2017,3,2,4,1


### Creación de un dataframe a partir de una lista de diccionarios
Tambien se puede partir de un conjunto de diccionarios, cada uno definiendo el contenido de lo que sera una fila del dataframe.

In [21]:
unidades_2015 = {"Ag": 2, "Au":5, "Cu":3, "Pt": 2}
unidades_2016 = {"Ag": 4, "Au":6, "Cu":7, "Pt":2}
unidades_2017 = {"Ag":3, "Au":2, "Cu":4, "Pt": 1}
unidades = pd.DataFrame([unidades_2015, unidades_2016, unidades_2017],
                        index = [2015, 2016, 2017])
unidades

Unnamed: 0,Ag,Au,Cu,Pt
2015,2,5,3,2
2016,4,6,7,2
2017,3,2,4,1


Se debe tener en cuenta que si los diccionarios no comparten el mismo conjunto de claves, esto provocara que todas las columnas se crearan pero se asignara NaN a los valores desconocidos

In [23]:
unidades_2015 = {"Ag": 2, "Au":5, "Cu":3, "Pt": 2}
unidades_2016 = {"Ag": 4, "Au":6, "Cu":7, "Pt":2}
unidades_2017 = {"Ag":3, "Pb":2, "Cu":4, "Pt": 1}
unidades = pd.DataFrame([unidades_2015, unidades_2016, unidades_2017],
                        index = [2015, 2016, 2017])
unidades
#El año 2017 carece de Au y los años 2015 y 2016 carece de Pb

Unnamed: 0,Ag,Au,Cu,Pt,Pb
2015,2,5.0,3,2,
2016,4,6.0,7,2,
2017,3,,4,1,2.0
