## **FUNDAMENTOS DE PANDAS**

**Pandas** es una librería especializada en la limpieza y análisis de datos, esta diseñada para trabajar con tados tabulares o heterogeneos, veremos que es muy útil para trabajar en colaboracion con Numpy.
Pandas tiene varios múdulos útiles tales como **Series** y **DataFrame** por lo que tambien estaremos trabajando con éstos, de hecho para empezar a trabajar con Pandas es importante conocer éstas dos estructuras principales:


**SERIES**

Una series es un objeto unidimensional de estilo array, que contiene una secuencia de valores del mismo tipo (dtype) y un array asociado a *etiquetas* de datos, que corresponde a su índice.
La sintaxis completa de la funcion ``Series`` es:

``pd.Series(data, index=None, dtype=None, name=None, copy=False)``

El único parámetro que no toma un valor determinado es ``data``, y qui es justamente donde debemos ingresar los datos que van a componer la serie.
La forma más sencilla de una serie es un único array:

In [2]:
import pandas as pd

obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

Cuando creamos una serie, se puede visualizar una columna del lado izquierdo que muestra en índice de cada elemento en la serie, mientras que los valores se encuentran en el lado derecho. Éste índice se crea de manera predeterminada, es decir que podemos especificar un índice distinto, crear series con índices para identificar datos con una etiqueta es muy utilizado en el enálisis de datos:

In [3]:
obj2 = pd.Series([4, 7, -5, 3], index=["a", "b", "c", "d"])
obj2


a    4
b    7
c   -5
d    3
dtype: int64

El parámetro ``data`` puede ser una lista de elementos o un array unidimensional, lo mismo con el parámetro ``index``, siempre y cuando éste tenga la misma cantidad de elementos que data, y no necesariamente tienen que ser del mismo dtype:

In [17]:
fruits = ['manzanas', 'naranjas', 'cerezas', 'peras']
quantities = [20, 33, 52, 10]
S = pd.Series(quantities, index=fruits)
S

manzanas    20
naranjas    33
cerezas     52
peras       10
dtype: int64

Tambien se pueden crear Series a partir de Diccionarios:

In [5]:
data = {"manzanas": 5, "bananas": 8, "naranjas": 12}
serie = pd.Series(data)
print(serie)

manzanas     5
bananas      8
naranjas    12
dtype: int64


Y a su vez, una serie se puede convertir en un diccionario utilizando el método ``.to_dict``.

El vínculo *indice-valor* se mantiene incluso al aplicar operaciones sobre la Serie:

In [6]:
obj2[obj2>2]

a    4
b    7
d    3
dtype: int64

In [7]:
obj2*2

a     8
b    14
c   -10
d     6
dtype: int64

En ocasiones podemos tener series con grandes volúmenes de datos, y puede pasar que haya *faltantes*, una forma fácil y rápida de visualizar estos faltantes es utilizando las funciones ``pd.isna`` y ``pd.notna``, el cual nos devuelve una Serie con valores booleanos, True va a representar valores faltantes en el primer caso, o valores presentes en el segundo, y False, al contrario, valores presentes en el primero y valores ausentes en el segundo:

In [14]:
data = {"manzanas": 5, "bananas": 8, "naranjas": 12, "peras": 2, "ciruelas": 10}

frutas = ["manzanas", "bananas", "naranjas", "peras", "ciruelas", "sandias"]
obj4 = pd.Series(data, index=frutas)
obj4

manzanas     5.0
bananas      8.0
naranjas    12.0
peras        2.0
ciruelas    10.0
sandias      NaN
dtype: float64

Aqui, creamos una Serie a partir de un Diccionario, que tiene 5 elementos, pero se utilizó un ``index`` con una lista de 6 elementos, es decir que va a haber más índices con datos, por eso vemos que "sandias" figura como NaN (No a Number), muchas veces cuando exportamos datos puede pasar ésto, veamos cómo se puede visualizar con las funciones ``isna`` y ``notna``:

In [15]:
pd.isna(obj4)

manzanas    False
bananas     False
naranjas    False
peras       False
ciruelas    False
sandias      True
dtype: bool

In [16]:
pd.notna(obj4)

manzanas     True
bananas      True
naranjas     True
peras        True
ciruelas     True
sandias     False
dtype: bool

Veamos que pasa cuando sumamos dos Series: