## **FUNDAMENTOS DE PANDAS**

**Pandas** es una librería especializada en la limpieza y análisis de datos, esta diseñada para trabajar con tados tabulares o heterogeneos, veremos que es muy útil para trabajar en colaboracion con Numpy.
Pandas tiene varios múdulos útiles tales como **Series** y **DataFrame** por lo que tambien estaremos trabajando con éstos, de hecho para empezar a trabajar con Pandas es importante conocer éstas dos estructuras principales:


### **SERIES**

Una series es un objeto unidimensional de estilo array, que contiene una secuencia de valores del mismo tipo (dtype) y un array asociado a *etiquetas* de datos, que corresponde a su índice.
La sintaxis completa de la funcion ``Series`` es:

``pd.Series(data, index=None, dtype=None, name=None, copy=False)``

El único parámetro que no toma un valor determinado es ``data``, y qui es justamente donde debemos ingresar los datos que van a componer la serie.
La forma más sencilla de una serie es un único array:

In [1]:
import pandas as pd

obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

Cuando creamos una serie, se puede visualizar una columna del lado izquierdo que muestra en índice de cada elemento en la serie, mientras que los valores se encuentran en el lado derecho. Éste índice se crea de manera predeterminada, es decir que podemos especificar un índice distinto, crear series con índices para identificar datos con una etiqueta es muy utilizado en el enálisis de datos:

In [2]:
obj2 = pd.Series([4, 7, -5, 3], index=["a", "b", "c", "d"])
obj2


a    4
b    7
c   -5
d    3
dtype: int64

El parámetro ``data`` puede ser una lista de elementos o un array unidimensional, lo mismo con el parámetro ``index``, siempre y cuando éste tenga la misma cantidad de elementos que data, y no necesariamente tienen que ser del mismo dtype:

In [3]:
fruits = ["manzanas", "naranjas", "cerezas", "peras"]
quantities = [20, 33, 52, 10]
obj3 = pd.Series(quantities, index=fruits)
obj3

manzanas    20
naranjas    33
cerezas     52
peras       10
dtype: int64

Tambien se pueden crear Series a partir de Diccionarios:

In [4]:
data = {"manzanas": 5, "bananas": 8, "naranjas": 12}
serie = pd.Series(data)
print(serie)

manzanas     5
bananas      8
naranjas    12
dtype: int64


Y a su vez, una serie se puede convertir en un diccionario utilizando el método ``.to_dict``.

El vínculo *indice-valor* se mantiene incluso al aplicar operaciones sobre la Serie:

In [5]:
obj2[obj2>2]

a    4
b    7
d    3
dtype: int64

In [6]:
obj2*2

a     8
b    14
c   -10
d     6
dtype: int64

En ocasiones podemos tener series con grandes volúmenes de datos, y puede pasar que haya *faltantes*, una forma fácil y rápida de visualizar estos faltantes es utilizando las funciones ``pd.isna`` y ``pd.notna``, el cual nos devuelve una Serie con valores booleanos, True va a representar valores faltantes en el primer caso, o valores presentes en el segundo, y False, al contrario, valores presentes en el primero y valores ausentes en el segundo:

In [7]:
data = {"manzanas": 5, "bananas": 8, "naranjas": 12, "peras": 2, "ciruelas": 10}

frutas = ["manzanas", "bananas", "naranjas", "peras", "ciruelas", "sandias"]
obj4 = pd.Series(data, index=frutas)
obj4

manzanas     5.0
bananas      8.0
naranjas    12.0
peras        2.0
ciruelas    10.0
sandias      NaN
dtype: float64

Aqui, creamos una Serie a partir de un Diccionario, que tiene 5 elementos, pero se utilizó un ``index`` con una lista de 6 elementos, es decir que va a haber más índices con datos, por eso vemos que "sandias" figura como NaN (No a Number), muchas veces cuando exportamos datos puede pasar ésto, veamos cómo se puede visualizar con las funciones ``isna`` y ``notna``:

In [8]:
pd.isna(obj4)

manzanas    False
bananas     False
naranjas    False
peras       False
ciruelas    False
sandias      True
dtype: bool

In [9]:
pd.notna(obj4)

manzanas     True
bananas      True
naranjas     True
peras        True
ciruelas     True
sandias     False
dtype: bool

### **DATAFRAME** 

Un DataFrame representa una **tabla de datos**, y contiene una coleccion de columnas ordenadas con nombres, y en cada columna se puede tener datos con tipos y valores distintos (numéricos, cadenas de texto, booleanos, etc). Un DataFrame, a diferencia de las Series, tiene, no solo un índice de filas, sino tambien uno de columnas.

La sintaxis completa de ``DataFrame`` es:

``pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)``

``data`` recibe los datos de las columnas, incluidas las etiquetas de éstas, mientras que ``index``, al igual que las Series, recibe las especificaciones de las etiquetas de las filas, si no se especifica nada se usan enteros consecutivos (0, 1, 2, ...), lo mismo con el parámetro ``columns``.

Existen distintas formas de construir un DataFrame, usualmente se parte de un Diciconario, Lista o Array:

In [26]:
data = {"Organismos": ["E.coli", "S.aureus", "Shigella", "S.pneumoniae", "Salmonella", "P.aeruginosa"], "Tiempo": [1.2, 10, 5.6, 7.2, 15, 3.4], "Resistencia a amp": ["Si", "Si", "No", "Si", "No", "No"]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,Organismos,Tiempo,Resistencia a amp
0,E.coli,1.2,Si
1,S.aureus,10.0,Si
2,Shigella,5.6,No
3,S.pneumoniae,7.2,Si
4,Salmonella,15.0,No
5,P.aeruginosa,3.4,No


Algunos frames puede contener grandes volúmenes de datos, existen distintos modods de **VISUALIZACION DE DATAFRAMES** como por ejemplo el método ``.head()``, que muestra de manera predeterminada los primeros 5 elementos, pero se puede especificar la cantidad entre paréntesis:

In [11]:
frame.head(2)

Unnamed: 0,Organismos,Tiempo,Resistencia a amp
0,E.coli,1.2,Si
1,S.aureus,10.0,Si


O ``tail()`` que funciona de la misma manera pero mostrando los últimos elementos:

In [12]:
frame.tail(2)

Unnamed: 0,Organismos,Tiempo,Resistencia a amp
4,Salmonella,15.0,No
5,P.aeruginosa,3.4,No


Si agregamos una columna no contenida en el diccionario, figurará con valores faltantes (NaN):

In [16]:
frame2 = pd.DataFrame(data, columns=["Organismos", "Tiempo", "Resistencia a amp", "Resist. a Clo"])
frame2

Unnamed: 0,Organismos,Tiempo,Resistencia a amp,Resist. a Clo
0,E.coli,1.2,Si,
1,S.aureus,10.0,Si,
2,Shigella,5.6,No,
3,S.pneumoniae,7.2,Si,
4,Salmonella,15.0,No,
5,P.aeruginosa,3.4,No,


Es posible *extraer* o recuperar una columna de un Dataframe en forma de Serie, usando el nombre del Dataframe y especificando entre corchetes el nombre de la columna, o simplemente con un punto y el nombre de la columna (``Frame.columna``):

In [None]:
frame2["Tiempo"]

0     1.2
1    10.0
2     5.6
3     7.2
4    15.0
5     3.4
Name: Tiempo, dtype: float64

In [24]:
frame2.Organismos

0          E.coli
1        S.aureus
2        Shigella
3    S.pneumoniae
4      Salmonella
5    P.aeruginosa
Name: Organismos, dtype: object

Tambien se pueden utilizar los atributos especiales ``.loc[]`` e ``iloc[]`` para seleccionar datos más específicos dentro de un Dataframe.

**``.loc[]``** permite seleccionar datos usando las etiquetas las **filas, columnas**, aquí es importante aclarar que siempre recibe primero una fila y luego una columna, si no se quiere especificar ninguna fila debemos poner en su lugar dos puntos (:):

In [39]:
frame2.loc[:, "Organismos"]  # Selecciona toda la columna "Organismos"



0          E.coli
1        S.aureus
2        Shigella
3    S.pneumoniae
4      Salmonella
5    P.aeruginosa
Name: Organismos, dtype: object

In [40]:
frame2.loc[2] # Selecciona todos los datos de la fila 2, convirtiendolos en una Serie

Organismos           Shigella
Tiempo                    5.6
Resistencia a amp          No
Resist. a Clo             NaN
Name: 2, dtype: object

In [None]:
frame2.loc[2, "Organismos"] # Selecciona el dato de la fila 2 correspondiente a la columna "Organismos"

'Shigella'

``.loc[]`` tambien puede selleccionar datos utilizando condiciones, por ejemplo:

In [None]:
frame2.loc[frame2["Tiempo"]>5] #Selecciona todos los datos que tengan un tiempo >5

Unnamed: 0,Organismos,Tiempo,Resistencia a amp,Resist. a Clo
1,S.aureus,10.0,Si,
2,Shigella,5.6,No,
3,S.pneumoniae,7.2,Si,
4,Salmonella,15.0,No,


**``.iloc[]``** en cambio es más útil para seleccionar datos por su posición, utilizando índices numéricos si no conocemos el nombre de los índices:

In [44]:
frame2.iloc[1, 1] #selecciona fila 1 columna 1

10.0

In [None]:
frame2.iloc[[0, 2], 0] #selecciona la fila 0 y 2, de la columna 0

0      E.coli
2    Shigella
Name: Organismos, dtype: object

In [None]:
frame2.iloc[:, 1] #selecciona la columna 1 (tiempo)

0     1.2
1    10.0
2     5.6
3     7.2
4    15.0
5     3.4
Name: Tiempo, dtype: float64

En el caso de no conocer el nombre de las columnas, de todas forma podemos utilizar el método ``.columns`` que nos da una lista con los nombres de las columnas.

**MODIFICAR COLUMNAS**: Las columnas se pueden modificar directamente por asignacion, es decir utilizando el operador ``=``:

In [49]:
frame2["Resist. a Clo"] = "No" #Se le asiga "No" a toda la columna "Resist. a Clo"
frame2

Unnamed: 0,Organismos,Tiempo,Resistencia a amp,Resist. a Clo
0,E.coli,1.2,Si,No
1,S.aureus,10.0,Si,No
2,Shigella,5.6,No,No
3,S.pneumoniae,7.2,Si,No
4,Salmonella,15.0,No,No
5,P.aeruginosa,3.4,No,No


Tambien se puede asignar una lista o un array, siempre y cuando tengan la misma longitud que el dataframe:

In [50]:
cloranfenicol = ["No", "No", "Si", "Si", "No", "No"]
frame2["Resist. a Clo"] = cloranfenicol
frame2

Unnamed: 0,Organismos,Tiempo,Resistencia a amp,Resist. a Clo
0,E.coli,1.2,Si,No
1,S.aureus,10.0,Si,No
2,Shigella,5.6,No,Si
3,S.pneumoniae,7.2,Si,Si
4,Salmonella,15.0,No,No
5,P.aeruginosa,3.4,No,No


Si se utiliza una Serie se puede especificar el índice de los valores que se quieren asignar en la couma, aquellos índices que no se les asigne nada figurarán como NaN:

In [53]:
ampicilina = pd.Series(["Si", "Si", "No"], index=[1, 3, 5])
frame2["Resistencia a amp"] = ampicilina #se asignan solo los índices 1, 3 y 5
frame2

Unnamed: 0,Organismos,Tiempo,Resistencia a amp,Resist. a Clo
0,E.coli,1.2,,No
1,S.aureus,10.0,Si,No
2,Shigella,5.6,,Si
3,S.pneumoniae,7.2,Si,Si
4,Salmonella,15.0,,No
5,P.aeruginosa,3.4,No,No


Asignar una columna que no existe **creará una nueva**:

In [55]:
amoxicilina = ["No", "No", "No", "Sí", "No", "No"]
frame2["Resist. a amox"] = amoxicilina
frame2

Unnamed: 0,Organismos,Tiempo,Resistencia a amp,Resist. a Clo,Resist. a amox
0,E.coli,1.2,,No,No
1,S.aureus,10.0,Si,No,No
2,Shigella,5.6,,Si,No
3,S.pneumoniae,7.2,Si,Si,Sí
4,Salmonella,15.0,,No,No
5,P.aeruginosa,3.4,No,No,No


Y utilizando la palabra clave ``del`` se puede eliminar una columna:

In [56]:
del frame2["Resistencia a amp"]
frame2

Unnamed: 0,Organismos,Tiempo,Resist. a Clo,Resist. a amox
0,E.coli,1.2,No,No
1,S.aureus,10.0,No,No
2,Shigella,5.6,Si,No
3,S.pneumoniae,7.2,Si,Sí
4,Salmonella,15.0,No,No
5,P.aeruginosa,3.4,No,No


Otra forma habitual de crear Dataframes es utilizando **diccionarios anidados**, Pandas interpreta clas *keys externas* como columnas, y las internas como los índices de filas:

In [57]:
data1 = {"Organismos": {"control": "E.coli", "T1": "E.coli", "T2": "E.coli", "T3": "E.coli"}, "Crecimiento": {"control": 3, "T1": 6.3, "T2": 9.8, "T3": 10}}
frame3 = pd.DataFrame(data1)
frame3

Unnamed: 0,Organismos,Crecimiento
control,E.coli,3.0
T1,E.coli,6.3
T2,E.coli,9.8
T3,E.coli,10.0


Es posible **intercambiar** las filas y columnas de un dataframe utilizando una sintaxis similar a la de un array en NumPy:

In [58]:
frame3.T

Unnamed: 0,control,T1,T2,T3
Organismos,E.coli,E.coli,E.coli,E.coli
Crecimiento,3.0,6.3,9.8,10.0


Los **arrays de 2 dimensiones** tambien pueden servir para crear un Dataframe, en éste caso en data va el array y pedomos, o no, especificar las etiquetas de filas y columnas, en caso de no hacerlo se le asignan numeros enteros a ambos:

In [62]:
import numpy as np

data2 = np.array([[3.0, 6.3, 9.8, 10],[5.1, 3.2, 1.5, 1.3], [16.0, 29.5, 34.4, 35]])
frame4 = pd.DataFrame(data2, columns=["control", "T1", "T2", "T3"], index=["Crecimiento", "velocidad", "DO"])
frame4

Unnamed: 0,control,T1,T2,T3
Crecimiento,3.0,6.3,9.8,10.0
velocidad,5.1,3.2,1.5,1.3
DO,16.0,29.5,34.4,35.0


Se le puede además especificar un atributo a las columnas y los índices, usando el atributo ``.name``:

In [63]:
frame4.index.name = "Medidas"
frame4.columns.name = "Cepa"
frame4

Cepa,control,T1,T2,T3
Medidas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Crecimiento,3.0,6.3,9.8,10.0
velocidad,5.1,3.2,1.5,1.3
DO,16.0,29.5,34.4,35.0
