# Intro a Pandas

Pandas es una librer√≠a de Python especializada en el manejo y an√°lisis de estructuras de datos.

Las principales **caracter√≠sticas** de esta librer√≠a son:

- Define nuevas estructuras de datos basadas en los arrays de la librer√≠a NumPy pero con nuevas funcionalidades.
- Permite leer y escribir f√°cilmente ficheros en formato CSV, Excel y bases de datos SQL entre otros.
- Permite acceder a los datos mediante √≠ndices o nombres para filas y columnas.
- Ofrece m√©todos para reordenar, dividir y combinar conjuntos de datos.
- Permite trabajar con series temporales.
- Realiza todas estas operaciones de manera muy eficiente.

Pandas tiene tres estructuras de datos diferentes:

- `Series`: estructuras en una dimensi√≥n.
- `DataFrame`: estructura en dos dimensiones (tablas).
- `Panel`: estructura en tres dimensiones (cubos). 

Todas estas estructuras se construyen a partir de *arrays* de la librer√≠a NumPy, a√±adiendo nuevas funcionalidades. 


üìå Por convenci√≥n todos los `import` van al inicio del jupyter. 

In [1]:
import pandas as pd
import numpy as np

# Series


## ¬øQu√© es una Serie? 

Es la estructura m√°s simple que proporciona Pandas, y se asemeja a una columna en una hoja de c√°lculo de Excel. 

Son estructuras unidimensionales que contienen un *array* de datos (de cualquier tipo soportado por NumPy). Un objeto `Series` tiene dos componentes principales: 

- `√≠ndice`: contiene valores √∫nicos y, por lo general ordenados. Se usan para acceder a valores individuales de los datos. 
- `vector`: contiene los datos. 

![image.png](https://github.com/Adalab/data_imagenes/blob/main/Modulo-2/Pandas/series.png?raw=true)

Ambos componentes deben tener la misma longitud. 
 

## Creaci√≥n de Series

Podemos crear Series de distintas formas: 

- Series vac√≠as.
- Series a partir de un *array*. Recordamos, las Series son unidimensionales, por lo tanto solo le podremos pasar *arrays* unidimensionales.
- Series a partir de listas.
- Series a partir de un valor escalar.
- Series a partir de un diccionario.

### Series vac√≠as

In [7]:
serie_1 = pd.Series()
serie_1

  serie_1 = pd.Series()


Series([], dtype: float64)

### Series a partir de un *array*  

In [8]:
# supongamos que tenemos el siguiente array

array = np.array([1,2,3,4,5,6,7,8,9])
array

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [9]:
serie_2 = pd.Series(array)
serie_2

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64

üìå Si nos fijamos la funci√≥n `pd.Series` nos va a generar autom√°ticamente el √≠ndice y lo crea con n√∫meros consecutivos, empezando por el 0. Sin embargo, tambi√©n le podemos pasar los √≠ndices que queramos usando el par√°metro `index`.

In [10]:
serie_3 = pd.Series(array, index = [3,4,5,6,7,8,9,1,2])
serie_3

3    1
4    2
5    3
6    4
7    5
8    6
9    7
1    8
2    9
dtype: int64

Lo que hemos hecho ha sido definir nuestro propio √≠ndice. Pero importante! El √≠ndice tiene que ser de la misma longitud que nuestro *array* y se lo tenemos que pasar en forma de lista. Si no es as√≠ nos devolver√° un error: 

In [11]:
serie_4 = pd.Series(array, index = [3,4,5,6,7,8,9])
serie_4

ValueError: Length of values (9) does not match length of index (7)

Los √≠ndices tambi√©n pueden ser `strings`

In [12]:
serie_4 = pd.Series(array, index = ["ana", "laura", "maria", "alicia", "monica", "irene", "ester", "lydia", "bea"])
serie_4

ana       1
laura     2
maria     3
alicia    4
monica    5
irene     6
ester     7
lydia     8
bea       9
dtype: int64

### Series a partir de listas 

In [13]:
lista = [23,45,17,83,67]

In [14]:
serie_5 = pd.Series(lista)
serie_5

0    23
1    45
2    17
3    83
4    67
dtype: int64

### Series a partir de un escalar

In [15]:
numero = 10

In [None]:
serie_6 = pd.Series(numero)
serie_6

0    10
dtype: int64

Al no indicarle un √≠ndice nos genera autom√°ticamente una *Serie* con un √∫nico valor. 

Si quisieramos que nuestra *Serie* sea m√°s larga, tendremos que especificarle un √≠ndice. Lo que ocurrir√° es que se nos crear√° una *Serie* con una longitud igual al n√∫mero de √≠ndices que le pasemos. 

In [16]:
serie_7 = pd.Series(numero, index = [0,1,2,3])
serie_7

0    10
1    10
2    10
3    10
dtype: int64

### Series a partir de un diccionario

En este caso, las claves o *keys* del diccionario se convertir√°n en el √≠ndice. 

In [17]:
dicc = {'lorena' : 10, 
        'marta' : 20, 
        'pilar' : 30, 
        'laura': 50, 
       'ana': 86, 
        'maria': 28} 

In [18]:
serie_8 = pd.Series(dicc)
serie_8

lorena    10
marta     20
pilar     30
laura     50
ana       86
maria     28
dtype: int64

## Propiedades de las Series 

1Ô∏è‚É£ `index` y `values`: nos devuelve  los √≠ndices y los valores de nuestra Serie respectivamente.

In [19]:
serie_8.index

Index(['lorena', 'marta', 'pilar', 'laura', 'ana', 'maria'], dtype='object')

In [20]:
serie_8.values

array([10, 20, 30, 50, 86, 28])

2Ô∏è‚É£ `shape`: nos devuelve la forma de nuestra Serie 

In [21]:
# nos dice que tiene 6 filas

serie_8.shape

(6,)

3Ô∏è‚É£ `size`: nos devuelve el n√∫mero de elementos de nuestra Serie

In [22]:
# nuestra Serie tiene 6 elementos

serie_8.size

6

4Ô∏è‚É£ `dtypes`: nos devuelve el tipo de dato que tenemos en nuestra Serie

In [23]:
serie_8.dtypes

dtype('int64')

Estos son solo algunas de las propiedades de las Series, para ver el listado completo de las propiedades de las Series pode√≠s verlas [aqu√≠](https://pandas.pydata.org/pandas-docs/stable/reference/series.html).

## Indexaci√≥n en las Series

Tenemos dos formas de acceder a los valores de nuestra serie: 

- Usando corchetes y el √≠ndice (posici√≥n) del elemento


- Usando su etiqueta, si la tiene, como en el caso del diccionario que vimos anteriormente. 

In [24]:
# para este ejemplo usaremos la Serie creada a partir de un diccionario

serie_8

lorena    10
marta     20
pilar     30
laura     50
ana       86
maria     28
dtype: int64

In [25]:
# usando corchetes y la posici√≥n

# si quiero acceder al elemento que esta en la posici√≥n 2 
serie_8[2]

30

In [26]:
# tambi√©n podemos acceder con una lista de √≠ndices

# accedemos a los elementos 1 y 2
serie_8[[1,2]]

marta    20
pilar    30
dtype: int64

In [27]:
# accedemos a los elementos 1 y 5
serie_8[[1,5]]

marta    20
maria    28
dtype: int64

In [28]:
# accedemos a los elementos del 1 al 5
serie_8[1:5]

marta    20
pilar    30
laura    50
ana      86
dtype: int64

In [29]:
# usando su etiqueta

# Como en este caso tenemos etiquetas definidas, 
# puedo acceder a trav√©s de ella. 
# En este caso ser√≠a "pilar"

serie_8["pilar"]

30

In [30]:
# podemos usar tambi√©n comillas simples

serie_8['pilar']

30

Es importante destacar que los √≠ndices son inmutables a no ser que los modifiquemos expl√≠citamente. 

Esto quiere decir que, si eliminamos un elemento de una serie no va a modificar las etiquetas asignadas a cada valor. 

In [31]:
# trabajemos ahora con la Serie 7
serie_7

0    10
1    10
2    10
3    10
dtype: int64

In [32]:
# imaginemos que queremos quitar el elemento que tiene el √≠ndice 0. Podemos usar el m√©todo "drop"

serie_7.drop([0])

1    10
2    10
3    10
dtype: int64

Si nos fijamos, se ha eliminado el primer elemento, pero no ha cambiado el valor de los √≠ndices. Es decir, podr√≠amos esperar que se "reorganizaran" los √≠ndices y que siempre empezaran por 0. Pero esto no ocurre, y esto es lo que significa que los √≠ndices son inmutables. 

## Operaciones con Series 

A lo largo de esta parte del jupyter trabajaremos con las siguientes series:

In [33]:
serie_9 = pd.Series([1,2,3,4], index = ['a', 'b', 'c', 'd'])
serie_10 = pd.Series([5,6,7,8], index = ['d', 'e', 'b', 'g'])

In [34]:
serie_9

a    1
b    2
c    3
d    4
dtype: int64

In [35]:
serie_10

d    5
e    6
b    7
g    8
dtype: int64

üö® **NOTA** cuando hacemos cualquier operaci√≥n aritm√©tica entre dos *Series* solo se har√° la operaci√≥n de aquellas filas que tengan el mismo √≠ndice. 

Para aquellos valores cuyos √≠ndices no est√°n en todas las *Series* nos devolver√° un `NaN`

Bas√°ndonos en lo anterior, cuando realicemos cualquier operaci√≥n con la `serie_9` y la `serie_10` solo se calcular√° para las filas con los √≠ndices `d` y `b` que son los que tenemos en las dos series. 

### Suma


Se puede hacer de dos formas:

- Con el operador `+`
- Con el m√©todo propio `add()`

In [36]:
# 1Ô∏è‚É£ Usando el operador +

serie_9 + serie_10

a    NaN
b    9.0
c    NaN
d    9.0
e    NaN
g    NaN
dtype: float64

Si nos fijamos solo nos devolvi√≥ el resultado de la suma de las filas con los √≠ndices comunes entre las dos series, es decir, la `b` y la `d`. 

In [37]:
# 2Ô∏è‚É£ usando el m√©todo "add()"

serie_9.add(serie_10)

a    NaN
b    9.0
c    NaN
d    9.0
e    NaN
g    NaN
dtype: float64

La ventaja de usar este m√©todo es que podemos pasar el par√°metro `fill_value`, este m√©todo nos va a permitir rellenar los elementos desconocidos o `NaN`. 

In [None]:
serie_9.add(serie_10, fill_value = 0)

a    1.0
b    9.0
c    3.0
d    9.0
e    6.0
g    8.0
dtype: float64

¬øQu√© es lo que hace `fill_value`?

Nos autocompletar√° los NaN con los valores originales de nuestra Serie. El valor de `fill_value` lo que har√° es sumarse al valor de nuestro elemento. Por ejemplo:

- Si el valor de `fill_value` es 0, y el valor del √≠ndice es 6, despu√©s de hacer la operaci√≥n se rellenar√° con un 6. 


- Si el valor de `fill_value` es 2, y el valor del √≠ndice es 6, despu√©s de hacer la operaci√≥n se rellenar√° con un 8. 


In [40]:
serie_9.add(serie_10, fill_value = 3)

a     4.0
b     9.0
c     6.0
d     9.0
e     9.0
g    11.0
dtype: float64

Si nos fijamos el valor original de `a` era `1`. Al poner `fill_value = 3` lo que ha pasado es que se ha sumado `3` al valor del orginal, devolviendonos `4`.

### Resta 

De la misma forma que con la suma, podemo usar:

- Operador `-`
- M√©todo propio `sub()`

In [41]:
# 1Ô∏è‚É£ con el operador "-"

serie_9 - serie_10

a    NaN
b   -5.0
c    NaN
d   -1.0
e    NaN
g    NaN
dtype: float64

In [42]:
# 2Ô∏è‚É£ con el metodo "sub()". Tambi√©n le podremos pasar el par√°metro "fill_value"

serie_9.sub(serie_10, fill_value = 0)

a    1.0
b   -5.0
c    3.0
d   -1.0
e   -6.0
g   -8.0
dtype: float64

‚ö†Ô∏è Atenci√≥n, porque aqu√≠ el orden importa!!!!!

In [43]:
serie_10.sub(serie_9, fill_value = 0)

a   -1.0
b    5.0
c   -3.0
d    1.0
e    6.0
g    8.0
dtype: float64

### Multiplicaci√≥n 

Podemos usar:

- operador `*`
- m√©todo propio `mul()`

In [44]:
# 1Ô∏è‚É£ con el operador "*"

serie_9 * serie_10

a     NaN
b    14.0
c     NaN
d    20.0
e     NaN
g     NaN
dtype: float64

In [45]:
# 2Ô∏è‚É£ con el metodo "mul()" al que tambi√©n le podemos pasar fill_value

serie_9.mul(serie_10, fill_value = 1)

a     1.0
b    14.0
c     3.0
d    20.0
e     6.0
g     8.0
dtype: float64

‚ö†Ô∏è Ojo aqu√≠, porque si al `fill_value` le pasamos un 0 nos devolver√° todo 0, estamos multiplicando por 0. En este caso, `fill_value` deber√° ser 1 si queremos conservar los valores originales. 

### Divisi√≥n

Usaremos:

- operador `/`
- m√©todo propio `div()`

In [46]:
# 1Ô∏è‚É£ con el operador "/"

serie_9 / serie_10

a         NaN
b    0.285714
c         NaN
d    0.800000
e         NaN
g         NaN
dtype: float64

In [47]:
# 2Ô∏è‚É£ con el metodo "div()" con el par√°metro fill_value

serie_9.div(serie_10, fill_value = 1)

a    1.000000
b    0.285714
c    3.000000
d    0.800000
e    0.166667
g    0.125000
dtype: float64

‚ö†Ô∏è Aqu√≠ el orden vuelve a importar

In [48]:
serie_10.div(serie_9, fill_value = 1)

a    1.000000
b    3.500000
c    0.333333
d    1.250000
e    6.000000
g    8.000000
dtype: float64

### Otros m√©todos para realizar operaciones aritm√©ticas

`mod`: nos devuelve el m√≥dulo

In [49]:
serie_9.mod(serie_10, fill_value = 1)

a    0.0
b    2.0
c    0.0
d    4.0
e    1.0
g    1.0
dtype: float64

`pow`: nos calcula el exponencial

In [50]:
serie_9.pow(serie_10, fill_value = 1)

a       1.0
b     128.0
c       3.0
d    1024.0
e       1.0
g       1.0
dtype: float64

`ge`: nos devuelve un valor booleano comparando si cada elmento de la *serie1* es mayor que el de la *serie2*

In [51]:
serie_9.ge(serie_10)

a    False
b    False
c    False
d    False
e    False
g    False
dtype: bool

`le`: nos devuelve un valor booleano comparando si cada elmento de la *serie1* es menor que el de la *serie2*

In [52]:
serie_9.le(serie_10)

a    False
b     True
c    False
d     True
e    False
g    False
dtype: bool

Estos son solo algunos ejemplos, para conocer m√°s m√©todos pode√≠s curiosearlos [aqu√≠](https://pandas.pydata.org/pandas-docs/stable/reference/series.html).

###  Filtrado booleanos 

Con las Series podemos hacer filtrado de datos usando los operadores de comparaci√≥n `<`, `>`, `>=`, `<=`, `==`. 

Nos va a devolver una Serie de booleanos donde:

- True: si la condici√≥n se cumple

- False: si la condici√≥n no se cumple


Veamos algunos ejemplos:


In [53]:
serie_9

a    1
b    2
c    3
d    4
dtype: int64

In [None]:
# busquemos si hay alg√∫n valor en nuestra serie mayor que 2

serie_9 > 2

a    False
b    False
c     True
d     True
dtype: bool

In [None]:
# hay alg√∫n valor igual a 2 

serie_9 == 2

a    False
b     True
c    False
d    False
dtype: bool

Pero... ¬øqu√© pasa si solo queremos que nos devuelva las filas donde se cumpla la condici√≥n que pasamos?

Tendremos que usar los corchetes. Veamos un ejemplo üëáüèΩ

In [None]:
serie_9[serie_9 == 2]

b    2
dtype: int64

## B√∫squeda de NaN

Podemos usar: 

- `isnull()`:  detecta los valores que faltan en la Serie. Devuelve un objeto booleano del mismo tama√±o que indica si los valores son NA. 

    - `True`: es un valor nulo.
    
    - `False`: *no* es un valor nulo.


- `notnull()`: detecta los valores existentes (no ausentes). Esta funci√≥n devuelve un objeto booleano con el mismo tama√±o que el objeto, indicando si los valores son valores ausentes o no.

    - `True`: valores que no faltan. Los valores que no faltan se asignan a `True`. Los caracteres como los strings vac√≠os o `numpy.inf` no se consideran valores ausentes.
    - `False`: los valores `NA`, como `None` o `np.nan`.

Lo primero que vamos a hacer es crear una Serie con valores nulos (`NaN`). Para ello vamos a usar la librer√≠a numpy y su m√©todo `np.nan` que nos va a permitir crear valores nulos.

In [None]:
serie_11 = pd.Series([np.nan, 3, 5, 6, np.nan, 4, np.nan, ""])
serie_11

0    NaN
1      3
2      5
3      6
4    NaN
5      4
6    NaN
7       
dtype: object

In [None]:
# 1Ô∏è‚É£ isnull

serie_11.isnull()

0     True
1    False
2    False
3    False
4     True
5    False
6     True
7    False
dtype: bool

In [None]:
# 2Ô∏è‚É£ notnull

serie_11.notnull()

0    False
1     True
2     True
3     True
4    False
5     True
6    False
7     True
dtype: bool

---

**EJERCICIO 1** 

- 1Ô∏è‚É£ Crea dos Series *num√©ricas* que cumplan las siguientes condiciones: 

    - Serie 1: 
        - Provenga de un diccionario donde las keys sean n√∫meros
        - Que sus √≠ndices vayan del 5-11

    - Serie 2:     
        - A partir de una lista
        - Tiene que tener al menos un valor nulo (NaN)
        - Que sus √≠ndices se generen autom√°ticamente
        
- 2Ô∏è‚É£ Realiza tres operaciones (a tu elecci√≥n) con las dos Series que has creado. Importante, el resultado de las operaciones no nos debe devolver ning√∫n valor nulo, a excepci√≥n de los nulos que nosotras hemos creado.  


- 3Ô∏è‚É£ ¬øAlguna de nuestras Series tiene alg√∫n valor nulo?


- 4Ô∏è‚É£ ¬øHay alg√∫n valor mayor a 10 en la primera serie que hemos definido (la del diccionario)? Extrae solo aquellos valores que cumplan la condici√≥n. 

---

In [66]:
#ejercicio 1:
diccionario = {12:'11', 13: '32', 11:'14', 23:'30', 21: '32'}
series1 = pd.Series(diccionario, index = [5,6,7,8,9,10,11])
series1

5     NaN
6     NaN
7     NaN
8     NaN
9     NaN
10    NaN
11     14
dtype: object

In [56]:
import numpy as np

In [59]:
nulo = np.nan

In [None]:
lista_serie = [12,23,34,45,12,23, nulo]
series2 = pd.Series(lista_serie)
series2

---

In [62]:
#operaciones con series
series1 + series2

NameError: name 'series1' is not defined