# Intro a Pandas

Pandas es una librería de Python especializada en el manej y análisis de estructuras de datos

Las principales **características** de esta librería son:

- Define nuevas estructuras de datos basadas en los arrays de la librería NumPy pero con nuevas funcionalidades.


- Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL entre otros


- Permite acceder a los datos mediante índices o nombres para filas y columnas.


- Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.


- Permite trabajar con series temporales.


- Realiza todas estas operaciones de manera muy eficiente.

**Pandas tiene tres estructuras de datos diferentes**:

- `Series`: estructuras en una dimensión.

- `DataFrame`: estructura en dos dimensiones (tablas).

- `Panel`: estructura en tres dimensiones (cubos). 

Todas estas estructuras se constuyen a partir de *arrays* de la librería NumPy, añadiendo nuevas funcionalidades. 


📌 Por convención todos los `import` van al inicio del jupyter. 

In [2]:
import pandas as pd
import numpy as np

# Series


## ¿Qué es una Serie? 

Es la estructura más simple que proporciona Pandas, y se asemeja a una columna en una hoja de cálculo de Excel. 

Son estructuras unidimensionales que contienen un *array* de datos (de cualquier tipo soportado por NumPy). iUn objeto `Series`tiene dos componentes principales: 

- `índice`: contiene valores únicos y, por lo general ordenados. Se usan para acceder a valores individuales de los datos. 


- `vector`: contiene los datos. 

Ambos componentes deben tener la misma longitud. 
 

## Creación de Series

Podemos crear Series de distintas formas: 

- Series vacías


- Series a partir de un *array*. Recordamos, las Series son unidimensionales, por lo tanto solo le podremos pasar *arrays* unidimensionales


- Series a partir de listas


- Series a partir de un valor escalar



- Series a partir de un diccionario

### Series vacías

In [3]:
serie_1 = pd.Series()
serie_1

  serie_1 = pd.Series()


Series([], dtype: float64)

### Series a partir de un *array*  

In [4]:
# supongamos que tenemos el siguiente array

array = np.array([1,2,3,4,5,6,7,8,9])
array

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
serie_2 = pd.Series(array)
serie_2

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64

📌 Si nos fijamos el método `pd.Series` nos va a generar automáticamente el índice y lo crea con números consecutivos, empezando por el 0. Sin embargo, también le podemos pasar los índices que queramos usando el parámetro `index` 

In [6]:
serie_3 = pd.Series(array, index = [3,4,5,6,7,8,9,1,2])
serie_3

3    1
4    2
5    3
6    4
7    5
8    6
9    7
1    8
2    9
dtype: int64

Lo que hemos hecho ha sido definir nuestro propio índice. Pero importante! El índice tiene que ser de la misma longitud que nuestro *array* y se lo tenemos que pasar en forma de lista. Si no es así nos devolverá un error: 

In [7]:
serie_4 = pd.Series(array, index = [3,4,5,6,7,8,9])
serie_4

ValueError: Length of values (9) does not match length of index (7)

Los índices también pueden ser `strings`

In [8]:
serie_4 = pd.Series(array, index = ["ana", "laura", "maria", "alicia", "monica", "irene", "ester", "lydia", "bea"])
serie_4

ana       1
laura     2
maria     3
alicia    4
monica    5
irene     6
ester     7
lydia     8
bea       9
dtype: int64

### Series a partir de listas 

In [9]:
lista = [23,45,17,83, 67]

In [10]:
serie_5 = pd.Series(lista)
serie_5

0    23
1    45
2    17
3    83
4    67
dtype: int64

### Series a partir de un escalar

In [11]:
numero = 10

In [12]:
serie_6 = pd.Series(numero)
serie_6

0    10
dtype: int64

Al no inicarle un índice nos genera automáticamente una Serie con un único valor. 

Si quisieramos que nuestra Serie sea más larga, tendremos que especificarle un índice. Lo que ocurrirá es que se nos creará una Serie con una longitud igual al número de índices que le pasemos. 

In [13]:
serie_7 = pd.Series(numero, index = [0,1,2,3])
serie_7

0    10
1    10
2    10
3    10
dtype: int64

### Series a partir de un diccionario

En este caso, las claves o *keys* del diccionario se convertirán en el índice. 

In [14]:
dicc = {'lorena' : 10, 
        'marta' : 20, 
        'pilar' : 30, 
        'laura': 50, 
       'ana': 86, 
        'maria': 28} 

In [15]:
serie_8 = pd.Series(dicc)
serie_8

lorena    10
marta     20
pilar     30
laura     50
ana       86
maria     28
dtype: int64

## Propiedades de las Series 

1️⃣ `index` y `values`: nos devuelve  los índices y los valores de nuestra Serie respectivamente.

In [16]:
serie_8.index

Index(['lorena', 'marta', 'pilar', 'laura', 'ana', 'maria'], dtype='object')

In [18]:
serie_8.values

array([10, 20, 30, 50, 86, 28])

2️⃣ `shape`: nos devuelve la **forma** de nuestra Serie 

In [17]:
# nos dice que tiene 6 filas

serie_8.shape

(6,)

3️⃣ `size`: nos devuelve el número de elementos de nuestra Serie

In [19]:
# nuestra Serie tiene 6 elementos

serie_8.size

6

4️⃣ `dtypes`: nos devueve el tipo de dato que tenemos en nuestra Serie

In [20]:
serie_8.dtypes

dtype('int64')

Estos son solo algunas de las propiedades de las Series, para ver el listado completo de las propiedades de las Series podeís verlas [aquí](https://pandas.pydata.org/pandas-docs/stable/reference/series.html)

## Indexación en las Series

Tenemos dos formas de acceder a los valores de nuestra serie: 

- Usando corchetes y el índice (posición) del elemento


- Usando su etiqueta, si la tiene, como en el caso del diccionario que vimos anteriormente. 

In [21]:
# para este ejemplo usaremos la Serie creada a partir de un diccionario

serie_8

lorena    10
marta     20
pilar     30
laura     50
ana       86
maria     28
dtype: int64

In [22]:
# usando corchetes y la posición.

## Si quiero acceder al elemento que esta en la posición 2 

serie_8[2]

30

In [23]:
# también podemos acceder con una lista de índices. Accedemos a los 
## elementos 1 y 2

serie_8[[1,2]]

marta    20
pilar    30
dtype: int64

In [24]:
# accedemos a los elementos 1 y 5

serie_8[[1,5]]

marta    20
maria    28
dtype: int64

In [25]:
# accedemos a los elementos del 1 al 5

serie_8[1:5]

marta    20
pilar    30
laura    50
ana      86
dtype: int64

In [26]:
# usando su etiqueta

# como en este caso tenemos etiquetas definidas, puedo acceder a través 
## de ella. En este caso sería "pilar"

serie_8["pilar"]

30

In [27]:
# podemos usar también comillas simples

serie_8['pilar']


30

Es importante destacar que lo índices son inmutables a no ser que los modifiquemos explícitamente. 

Esto quiere decir que, si eliminamos un elemento de una serie no va modificar las etiquetas asignadas a cada valor. 

In [28]:
# trabajemos ahora con la Serie 7
serie_7

0    10
1    10
2    10
3    10
dtype: int64

In [29]:
# imaginemos que queremos quitar el elemento que tiene el índice 0. Podemos usar el método "drop"

serie_7.drop([0])

1    10
2    10
3    10
dtype: int64

Si nos fijamos, se ha eliminado el primer elemento, pero no ha cambiado el valor de los índices. Es decir, podríamos esperar que se "reorganizaran" lo índices y que siempre empezaran por 0. Pero esto no ocurre, y esto es lo que significa que los índices son inmutables. 

## Operaciones con Series 

A lo largo de esta parte del jupyter trabajaremos con las siguientes series:

In [31]:
serie_9 = pd.Series([1,2,3,4], index = ['a', 'b', 'c', 'd'])
serie_10 = pd.Series([5,6,7,8], index = ['d', 'e', 'b', 'g'])

In [32]:
serie_9

a    1
b    2
c    3
d    4
dtype: int64

In [33]:
serie_10

d    5
e    6
b    7
g    8
dtype: int64

🚨 **NOTA** cuando hacemos cualquier operación aritmética entre dos Series solo se hará la operación de aquellas filas que tengan el mismo índice. 

Para aquellos valores cuyos índices no están en todas las Series nos devolverá un NaN

Basándonos en lo anterior, cuando realicemos cualquier operación con la serie_9 y la serie_10 solo se calculará para las filas con los índices `d` y `b` que son los que tenemos en las dos series. 

### Suma


Se puede hacer de dos formas:

- Con el operador `+`


- Con el método propio `add()`

In [34]:
# 1️⃣ Usando el operador +

serie_9 +  serie_10

a    NaN
b    9.0
c    NaN
d    9.0
e    NaN
g    NaN
dtype: float64

Si nos fijamos solo nos devolvió el resultado de la suma de las filas con los índices comunes entre las dos series, es decir, la `b` y la `d`. 

In [35]:
# 2️⃣ usando el método "add()"

serie_9.add(serie_10)

a    NaN
b    9.0
c    NaN
d    9.0
e    NaN
g    NaN
dtype: float64

La ventaja de usar este método es que podemos pasar el parámetro `fill_value`, este método nos va a permitir rellenar los elementos desconocidos o NaN. 

In [36]:
serie_9.add(serie_10, fill_value = 0)

a    1.0
b    9.0
c    3.0
d    9.0
e    6.0
g    8.0
dtype: float64

¿Qué es lo que hace `fill_value`?

Nos autocompletará los NaN con los valores originales de nuestra Serie. El valor de `fill_value` lo que hará es sumarse al valor de nuestro elemento. Por ejemplo:

- Si el valor de `fill_value` es 0, y el valor del índice es 6, después de hacer la operación se rellenará con un 6. 


- Si el valor de `fill_value` es 2, y el valor del índice es 6, después de hacer la operación se rellenará con un 8. 


In [37]:
serie_9.add(serie_10, fill_value = 3)

a     4.0
b     9.0
c     6.0
d     9.0
e     9.0
g    11.0
dtype: float64

Si nos fijamos el valor original de "a" era 1. Al poner `fill_value = 3` lo que ha pasado es que se ha sumado 3 al valor del orginal, devolviendonos 4.

### Resta 

De la misma forma que con la suma, podemo usar:

- Operador `-`


- Método propio "sub()"

In [38]:
# 1️⃣ con el operador "-"

serie_9 - serie_10

a    NaN
b   -5.0
c    NaN
d   -1.0
e    NaN
g    NaN
dtype: float64

In [39]:
# 2️⃣ con el metodo "sub()". También le podremos pasar el parámetro "fill_value"

serie_9.sub(serie_10, fill_value = 0)

a    1.0
b   -5.0
c    3.0
d   -1.0
e   -6.0
g   -8.0
dtype: float64

⚠️ Atención, por que aquí el orden importa!!!!!

In [41]:
serie_10.sub(serie_9, fill_value = 0)

a   -1.0
b    5.0
c   -3.0
d    1.0
e    6.0
g    8.0
dtype: float64

### Multiplicación 

Podemos usar:

- operador `*`


- método propio `mul()`

In [43]:
# 1️⃣ con el operador "*"

serie_9 * serie_10

a     NaN
b    14.0
c     NaN
d    20.0
e     NaN
g     NaN
dtype: float64

In [42]:
# 2️⃣ con el metodo "mul()" al que también le podemos pasar fill_value

serie_9.mul(serie_10, fill_value = 1)

a     1.0
b    14.0
c     3.0
d    20.0
e     6.0
g     8.0
dtype: float64

⚠️ Ojo aquí, por que si al `fill_value` le pasamos un 0 nos devolverá todo 0, estamos multiplicando por 0. En este caso, `fill_value` deberá ser 1 si queremos conservar los valores originales. 

### División

Usaremos:

- operador `/`


- método propio `div()`

In [44]:
# 1️⃣ con el operador "/"

serie_9 / serie_10

a         NaN
b    0.285714
c         NaN
d    0.800000
e         NaN
g         NaN
dtype: float64

In [45]:
# 2️⃣ con el metodo "div()" con el parámetro fill_value

serie_9.div(serie_10, fill_value = 1)

a    1.000000
b    0.285714
c    3.000000
d    0.800000
e    0.166667
g    0.125000
dtype: float64

⚠️ Aquí el orden vuelve a importar

In [46]:
serie_10.div(serie_9, fill_value = 1)

a    1.000000
b    3.500000
c    0.333333
d    1.250000
e    6.000000
g    8.000000
dtype: float64

### Otros métodos para realizar operaciones aritméticas

`mod`: nos devuelve el módulo

In [47]:
serie_9.mod(serie_10, fill_value = 1)

a    0.0
b    2.0
c    0.0
d    4.0
e    1.0
g    1.0
dtype: float64

`pow`: nos calcula el exponencial

In [47]:
serie_9.pow(serie_10, fill_value = 1)

a       1.0
b     128.0
c       3.0
d    1024.0
e       1.0
g       1.0
dtype: float64

`ge`: nos devuelve un valor booleano comparando chequeando si cada elmento de la serie1 es mayor que el de la serie2

In [48]:
serie_9.ge(serie_10)

a    False
b    False
c    False
d    False
e    False
g    False
dtype: bool

`le`: nos devuelve un valor booleano comparando chequeando si cada elmento de la serie1 es menor que el de la serie2

In [50]:
serie_9.le(serie_10)


a    False
b     True
c    False
d     True
e    False
g    False
dtype: bool

Estos son solo algunos ejemplos, para conocer más métodos podeís curiosearlos [aquí](https://pandas.pydata.org/pandas-docs/stable/reference/series.html)

###  Filtrado booleanos 

Con las Series podemos hacer filtrado de datos usando los operadores de comparación `<`, `>`, `>=`, `<=`, `==`. 

Nos va a devolver una Serie de booleanos donde:

- True: si la condición se cumple

- False: si la condición no se cumple


Veamos algunos ejemplos:


In [50]:
serie_9

a    1
b    2
c    3
d    4
dtype: int64

In [51]:
# busquemos si hay algún valor en nuestra serie mayor que 2

serie_9 > 2

a    False
b    False
c     True
d     True
dtype: bool

In [52]:
# hay algún valor igual a 2 

serie_9 == 2

a    False
b     True
c    False
d    False
dtype: bool

Pero... ¿qué pasa si solo queremos que nos devuelva las filas donde se cumpla la condión que pasamos?

Tendremos que usar los corchetes. Veamos un ejemplo 👇🏽

In [53]:
serie_9[serie_9 == 2]

b    2
dtype: int64

## Búsqueda de NaN

Podemos usar: 

- `isnull()`:  detecta los valores que faltan en la Serie. Devuelve un objeto booleano del mismo tamaño que indica si los valores son NA. 

    - True: **es** un valor nulo
    
    - False: **no** es un valor nulo


- `notnull()`: detecta los valores existentes (no ausentes). Esta función devuelve un objeto booleano con el mismo tamaño que el objeto, indicando si los valores son valores ausentes o no.

    - True: valores que no faltan Los valores que no faltan se asignan a True. Los caracteres como los strings vacíos o numpy.inf no se consideran valores ausentes
    - False: los valores NA, como None o np.nan

Lo primero que vamos a hacer es crear una Serie con valores nulos (NaN). Para ello vamos a usar la librería numpy y su método `np.nan` que nos va a permitir crear valores nulos

In [54]:
serie_11 = pd.Series([np.nan, 3, 5, 6, np.nan, 4, np.nan, ""])
serie_11

0    NaN
1      3
2      5
3      6
4    NaN
5      4
6    NaN
7       
dtype: object

In [55]:
# 1️⃣ isnull

serie_11.isnull()

0     True
1    False
2    False
3    False
4     True
5    False
6     True
7    False
dtype: bool

In [56]:
#  2️⃣ notnull

serie_11.notnull()

0    False
1     True
2     True
3     True
4    False
5     True
6    False
7     True
dtype: bool

**EJERCICIO 1** 

- 1️⃣ Crea dos Series que cumplan las siguientes condiciones: 

    - Serie 1: 
        - Provenga de un diccionario donde las keys sean números
        - Que sus índices vayan del 5-11

    - Serie 1:     
        - A partir de una lista
        - Tiene que tener al menos un valor nulo (NaN)
        - Que sus índices se generen automáticamente
        
- 2️⃣ Realiza tres operaciones (a tu elección) con las dos Series que has creado. Importante, el resultado de las operaciones no nos debe devolver ningún valor nulo, a excepción de los nulos que nosotras hemos creado.  


- 3️⃣ ¿Alguna de nuestras Series tiene algún valor nulo?


- 4️⃣ ¿Hay algún valor mayor a 10 en la primera serie que hemos definido (la del diccionario)? Extrae solo aquellos valores que cumplan la condición. 

In [57]:
diccionario = {5:4, 6:8, 7:12, 8:15, 9:17, 10:11, 11:13}

In [58]:
ser1 = pd.Series(diccionario)
ser1

5      4
6      8
7     12
8     15
9     17
10    11
11    13
dtype: int64

In [59]:
ser2 = pd.Series([np.nan, 3, 5, 6, np.nan, 4, np.nan,])

In [64]:
#suma
print (ser1.add(ser2, fill_value = 0))
print ('----------')
#division
print (ser1.div(ser2, fill_value = 1))
print ('----------')
#resta
print (ser2.sub(ser1, fill_value = 1))
print ('----------')


0      NaN
1      3.0
2      5.0
3      6.0
4      NaN
5      8.0
6      8.0
7     12.0
8     15.0
9     17.0
10    11.0
11    13.0
dtype: float64
----------
0           NaN
1      0.333333
2      0.200000
3      0.166667
4           NaN
5      1.000000
6      8.000000
7     12.000000
8     15.000000
9     17.000000
10    11.000000
11    13.000000
dtype: float64
----------
0      NaN
1      2.0
2      4.0
3      5.0
4      NaN
5      0.0
6     -7.0
7    -11.0
8    -14.0
9    -16.0
10   -10.0
11   -12.0
dtype: float64
----------


In [65]:
ser1[ser1>10]

7     12
8     15
9     17
10    11
11    13
dtype: int64

In [66]:
ser2[ser2>10]

Series([], dtype: float64)