# ESTRUCTURA DE DATOS

El pilar basico de la libreria pandas, al igual que como ocurria con Numpy, son las estructuras de datos que pone a nuestra disposicion. En este caso, dispondremos de dos estructuras de datos relacionadas, pero con su funcionamiento especifico:
* Series: para informacion unidimensional
* DataFrame: para informacion tabular

Son estructuras muy similares a las ofrecidas por R: vectores (con nombre) y data.frame

### UTILIZACION BASICA DE PANDAS

Al igual que en Numpy, pandas no pertenece al core de Python, por lo que SIEMPRE habra que importarlo en un programa antes de poder usarlo:

In [None]:
import numpy as np
import pandas as pd

### SERIES

Una serie es una estructura de datos unidimensionales que contiene:
* Un array de datos: que pueden tener cualquier tipo de dato de los ofrecidos por Numpy
* Un array de etiquetas/labels: asociando una etiqueta a cada dato de array anterior y que se denomina "indice", aunque no es obligatorio que el desarrollador especifique el mismo.

CREACION DE SERIES

Para la creacion de Series contamos con una funcion "constructor" (series) que pueden recibir, principalmente, los siguientes paramentros;
* data: Es obligatorio, contiene losd atos que queremos cargar en la Serie y podra ser un valor escalar, una secuencia de Python o un ndarray unidimensional de Numpy
* index: Es opcional, contiene las etiquetas que queremos asignar a los valores de la serie y podra ser una secuencia de Python o una ndarray unidimensional de Numpy. En caso de no suministrarse el valor por defecto es np.arange(0, tam_datos)
* dtype: Que podra ser cualquier tipo de dato de Numpy

In [None]:
# FUNCION DE SERIES; (DATOS, INDIXE O CLAVE, TIPO DE DATO)
#SERIE DESDE ESCALAR
serie = pd.Series(5)
serie

0    5
dtype: int64

In [None]:
#SERIE DESDE SECUENCIA
serie = pd.Series([1, 2, 3, 4, 5], dtype=np.string_) #INDICAMOS LOS VALORES Y TIPO DE VALORES
serie

0    b'1'
1    b'2'
2    b'3'
3    b'4'
4    b'5'
dtype: bytes8

In [None]:
#SERIE DESDE N.D.ARRAY
array = np.array([2, 4, 6, 8, 10])
serie = pd.Series(array)
serie

0     2
1     4
2     6
3     8
4    10
dtype: int64

In [None]:
#SERIE CON INDICE PREESTABLECIDO
serie = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"])
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [None]:
#SERIE DESDE UN DICCIONARIO (ESTABLCE EL INDICE DESDE LAS CLAVES)
serie = pd.Series({"a":1, "b":2, "c":3, "d":4}, dtype=float)
serie

a    1.0
b    2.0
c    3.0
d    4.0
dtype: float64

ELEMENTOS DE UNA SERIE

Disponemos de dos atributos para recuperar los datos y el indice de una Serie de forma independiente

In [None]:
serie = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"], dtype=np.float64)

In [None]:
#VALORES DE UNA SERIE #ARROJA SOLO LOS VALORES
serie.values

In [None]:
#INDICE DE UNA SERIE #ARROJA SOLO LA CLAVE
serie.index

Los indices son inmutalbes, lo que impide que cambiamos un valor de indice de forma independiente. Sin embargo, podemos modificar un indice completo por otro.

In [None]:
serie = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"], dtype=np.float64)

In [None]:
#MODIFICAR UN ELEMENTO DEL INDICE DE UNA SERIE
serie.index[0] = 4 #NO PUEDES MODIFICA UNA COSA EN CONCRETO

In [None]:
#MODIFICAR EL INDICE DE UNA SERIE
serie.index = ["f", "g", "h", "i", "j"]
serie # PERO PUEDES CAMBIAR TODO EL RANGO 

f    1.0
g    2.0
h    3.0
i    4.0
j    5.0
dtype: float64

### DATAFRAME

Un DataFrame es una estructura tabular (bidimensional) de informacion con las siguientes propiedades:
* Esta compuesta por una serie ordenada de filas y una serie ordenada de columnas
* Tiene, por tanto, un indice para las filas y otro para las columnas
* Cada columna puede tener un tipo de Numpy diferente
* Puede ser visto, por tanto, como un diccionario de Series, todas ellas compartiendo el mismo indice 

CREACION DE DATAFRAME

Para la creacion de DataFrame contamos con una funcion "contructor" (DataFrame) que puede recibir, principalmente, los siguientes parametros:
* data: es oblogatorio, contiene los datos que queremos cargar en el DataFrame y podra ser un diccionario de Series, un diccionario de secuencias, un ndarray bidimensionales, una Series y otro DataFrame
* index: es opcional, contiene las etiquetas que queremos asignar a las filas del DataFrame y podra ser una secuencia de Python o un ndarray unidimensionales de Numpy. En caso de no suministrarse el valor por defecto es np.arange(0, num_filas)
* columns: es opcional, contiene las etiquetas que queremos asignar a las columnas de DataFrame y podra ser una secuancia de Python o un ndarray, unidimensional de Numpy- En caso de no suministrase el valor por defecto es np.arange(0, num_columnas)
* dtype: es opcional, fijara el tipo de todas las columnas y podra ser cualquier tipo de dato de Numpy

IMPORTANTE: Si el tamaño de cada columna no coincide, se creara un DataFrame lo suficientemente grande como para contener al mayor y se asignara NaN en los huecos.

In [None]:
# DATAFRAME DESDE DICCIONARIO DE SECUENCIAS
dataframe = pd.DataFrame({"var1":[1, 2, 3], "var2": ["uno", "dos", "tres"], "var3":[1.0, 2.0, 30.]})
dataframe

Unnamed: 0,var1,var2,var3
0,1,uno,1.0
1,2,dos,2.0
2,3,tres,30.0


In [None]:
# DATAFRAME DESDE DICCIONARIO DE SERIES
dataframe = pd.DataFrame({"var1": pd.Series([1, 2, 3], dtype=np.float64), "var2": pd.Series(["a", "b"])})
dataframe #UN DATAFRAME PUEDE SER VISTO COMO UNA CONCATENACION DE VARIAS COLUMNAS DE SERIES

Unnamed: 0,var1,var2
0,1.0,a
1,2.0,b
2,3.0,


In [None]:
#DATAFRAME DESDE NDARRAY CON INDICES PARA FILAS Y COLUMNAS
dataframes = pd.DataFrame(np.arange(16).reshape(4, 4), index=["f1", "f2", "f3", "f4"], columns=["c1", "c2", "c3", "c4"])
dataframes

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [None]:
#DATAFRAME DESDE NDARRAY CON UN TIPO FIJO PARA TODAS
dataframes = pd.DataFrame(np.arange(16).reshape(4, 4), dtype=np.float64)
dataframes

Unnamed: 0,0,1,2,3
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0
3,12.0,13.0,14.0,15.0


ELEMENTOS DE UN DATAFRAME

Disponemos de tres atributos para recuperar los datos, el indice y las columnas de un DataFrame de forma independiente

In [None]:
dataframe = pd.DataFrame({"var1": [1, 2, 3], "var2": ["uno", "dos", "tres"], "var3": [1.0, 2.0, 3.0]})

In [None]:
#VALORES DE UN DATAFRAME
dataframe.values #obtenemos una matriz con los valores

array([[1, 'uno', 1.0],
       [2, 'dos', 2.0],
       [3, 'tres', 3.0]], dtype=object)

In [None]:
#INDICE DE UN DATAFRAME
dataframe.index # comienz en el 0 termina en el 3 y va de uno en uno

RangeIndex(start=0, stop=3, step=1)

In [None]:
#COLUMNAS DE UN DATAFRAME
dataframe.columns #nombre de las columnas

De nuevo, los indices (tanto el de la filas como el de columnas) son inmutables, pero de nuevom se pueden modificar de forma completa

In [None]:
dataframe = pd.DataFrame({"var1":[1, 2, 3], "var2": ["uno", "dos", "tres"], "var3":[1.0, 2.0, 3.0]})
dataframe

In [None]:
#MODIFICAR UN ELEMENTO DEL INDICE DE FILAS DE UN DATAFRAME
dataframe.index[0] = 4 #no podemos modificar valores

In [None]:
#MODIFICAR UN ELEMENTO DEL INDICE DE COLUMNAS DE UN DATAFRAME
dataframe.columns[0] = 4 # ni modicar el valor de una columna

In [None]:
#MODIFICAR EL INDICE DE FILAS DE UN DATAFRAME
dataframe.index = ["f1", "f2", "f3"]
dataframe #si podemos cambiar el valor de todos los valores de una columna

In [None]:
#MODIFICAR EL INDICE DE FILAS DE UN DATAFRAME
dataframe.columns = ["c1", "c2", "c3"]
dataframe  # y podemos cambiar los valores de una fila

In [None]:
# PARA CAMBIAR EL NOMBRE DE UNA COLUMAN SE UTILIZA LA FUCNION RENAME
dataframe.rename(columns = {"c2":"co12"})  # se utiliza un diccionario para identificar la columna y despues el valor que queremos asignar

Unnamed: 0,c1,co12,c3
f1,1,uno,1.0
f2,2,dos,2.0
f3,3,tres,3.0


### TRATAMIENTO DE SERIES Y DATAFRAME COMO DICCIONARIOS

Dado que internamente las Series como los DataFrames pueden verse como diccionarios, podemos aplicar sobre los mismos cualquier funcionalidad que aplicariamos sobre diccionarios basicos del core de Python

IMPORTANTE_: Hay que tener en cuenta que en DataFrame el diccionario es un diccionario de "columna"

In [None]:
serie = pd.Series([1, 2, 3, 4], index=["a", "b", "c", "d"])
serie

In [None]:
dataframe = pd.DataFrame({"var1": serie, "var2":serie})
dataframe

INDEXACION POR CLAVE

In [None]:
#INDEXACION MEDIANTE CLAVE DEL INDICE EN SERIE
serie["a"]

In [None]:
# INDEXACION POR NOMBRE DE COLUMNA EN DATAFRAME
dataframe["var2"]

COMPROBACION DE LA EXISTENCIA DE UNA CLAVE

In [None]:
# COMPROBACION DE LA EXISTENCIA DE UN CLAVE EN EL INDICE EN SERIES
"b" in serie

In [None]:
# COMPROBACION DE LA EXISTENCIA DE UN CLAVE EN EL INDICE EN SERIES
"b" in dataframe

In [None]:
# COMPROBACION DE LA EXISTENCIA DE UN CLAVE EN EL INDICE EN SERIES
"var1" in dataframe

ADICION DE ELEMENTOS

IMPORTANTE: Al añadir columnas a un DataFrame, el tamaño del vector añadido debera coincidir con el del DataFrame original. En caso contrario se recibira un error

In [None]:
#ADICION DE ELEMENTOS A SERIES
serie["e"] = 5
serie

In [None]:
dataframe["var3"] = [5, 6, 7, 4]
dataframe

ELIMINACION DE ELEMENTOS

In [None]:
#ELIMINACION DE ELEMENTOS EN SERIE
del serie["e"]
serie

In [None]:
#ELIMINACION DE COLUMNAS EN DATAFRAME
del dataframe["var3"]
dataframe

TRATAMIENTO DE SERIES Y DATAFRAME COMO N.D.ARRAYS

Dado que, internamente, cualquier esetructura de pandas esta implementada sobre ndarrays de Numpy, es posible realizar sobre Series y DataFrame todas las opereaciones que se pueden realizar sobre un ndarrays

IMPORTANTE: Dado que un ndarrays no pude mezclar elementos de diferentes tipos y un DataFrame si, algunas de las operaciones  sobre DataFrame estaran suspenditadas a que todas sus columnas tengan el mismo tipo

In [None]:
serie = pd.Series([1, 2, 3, 4], index=["a", "b", "c", "d"])
serie

In [None]:
dataframe = pd.DataFrame({"var1": pd.Series(serie, dtype=np.int32), "var2": pd.Series(serie, dtype=string_)})
dataframe

CONSULTA DE LA COMPOSICION

Disponemos de los mismos atributos de consulta que en ndarryas, si bien hay que tener en cuenta que:

* El atributo dtype sera styoe en DataFrame dada la posibilidad de multiples tipos
* El atributo ndim en Series valdra 1 dado que siempre son estructuras unidimensionales y 2 en DataFramen dado que siempre son estructuras bidimensionales

In [None]:
#CONSULTA DEL TIPO ALMACENADO EN UNA SERIE

In [None]:
#CONSULTA DE LOS TIPOS ALMACENADOS EN UN DATAFRAME

In [None]:
#CONSULTA DEL NUMERO DE DIMESNIONES EN UNA SERIE

In [None]:
#CONSULTA DEL NUMERO DE DIMENSIONES EN UN DATAFRAME