# 4.1 Introducción a Pandas

Pandas es una muy popular librería de código abierto dentro de los desarrolladores de Python, y sobre todo dentro del ámbito de Data Science y Machine Learning, ya que ofrece unas estructuras muy poderosas y flexibles que facilitan la manipulación y tratamiento de datos.

Puedes encontrar la documentación de pandas en https://pandas.pydata.org/docs/index.html

# Estructuras de datos en Pandas

Las dos __estructuras de datos__ en pandas son:

-__Series__: array unidimensional que permite almacenar todo tipo de datos de numpy con un índice

-__Dataframe__: array bidimensional con columnas y un índice. Cada una de las columnas es una serie

<center>
<img src="./imgs/series+pandas.png"  alt="drawing" width="50%"/>
</center>

Para poder utilizar la librería, primero hay que instalarla:

- conda install -c anaconda pandas  as pd        ##### Si usas anaconda

- pip install pandas as pd

In [2]:
import numpy as np
import pandas as pd

__OJO: pandas utiliza por debajo numpy__

### Series

Una serie es:

- un array de datos unidimensional

- Un array de etiquetas que se denomina __índice__. No es obligatorio añadir el índice

Podemos crear una serie con índice o sin índice. Los parámetros que se pueden pasar al constructor pd.Series() son:

- __data__: contiene los datos de la series. Puede ser un escalar, una secuencia de Python o un ndarray unidimensional de numpy
- __index__: OPCIONAL. Son las etiquetas que se asignan a cada dato
- __dtype__: OPCIONAL: indica el tipo de los datos y puede ser cualquier tipo de dato de Numpy.


In [5]:
# crear una serie sin índice
serie1 = pd.Series([0, 1, 2, 3, 4, 5, 6])

#crear una serie con índice
serie2 = pd.Series([0, 1, 2, 3, 4, 5, 6], index = ['a', 'b', 'c', 'd', 'f', 'g', 'h'])

In [16]:
serie1

0    0
1    1
2    2
3    3
4    4
5    5
6    6
dtype: int64

In [17]:
serie2

a    0
b    1
c    2
d    3
f    4
g    5
h    6
dtype: int64

Si no se indica, el índice son enteros empiezando en 0

Con values obtenemos los valores y con index los índices

In [12]:
serie2.values

array([0, 1, 2, 3, 4, 5, 6])

In [15]:
serie2.index

Index(['a', 'b', 'c', 'd', 'f', 'g', 'h'], dtype='object')

Crear una serie usando un diccionario

In [3]:
dict = {
    'peras': 2500,
    'manzanas': 3400,
    'naranjas': 8700
}
serie3 = pd.Series(dict)
serie3

peras       2500
manzanas    3400
naranjas    8700
dtype: int64

Seleccionamos elementos de una lista empleando el índice

In [18]:
# un elemento
print(serie2['b'])
serie1[1]

1


1

In [21]:
# varios elementos
print(serie2[['b', 'a', 'f']])
serie1[1:3]

b    1
a    0
f    4
dtype: int64


1    1
2    2
dtype: int64

Seleccionamos elementos empleando un índice booleano

In [22]:
serie1[serie1>3]

4    4
5    5
6    6
dtype: int64

Operaciones con las series

In [28]:
2 * serie1

0     0
1     2
2     4
3     6
4     8
5    10
6    12
dtype: int64

In [27]:
print(serie1.mean())
np.mean(serie1)

3.0


3.0

In [7]:
'peras' in serie3

True

Podemos cambiar el índice a una serie (pero todo, no uno solo)

In [9]:
serie3.index = ['melocotones', 'sandias', 'melones']
serie3

melocotones    2500
sandias        3400
melones        8700
dtype: int64

Se le puede asignar el nombre a una serie:
- Si se hace el gráfico saldrá el nombre
- Si se genera un dataframe, será el nombre de la columna

In [10]:
serie3.name = 'frutas'