![Nuclio logo](https://nuclio.school/wp-content/uploads/2018/12/nucleoDS-newBlack.png)

# Introducción

Pandas es una librería open source Python para realizar análisis de datos. 
Aunque que Python es ya de por si un buen lenguaje para la preparación de datos, nunca ha sido excelente para realizar análisis (tendencia de usar R, SQL o incluso Excel para realizar este tipo de tareas), hasta la llegada de Pandas!

Pandas ofrece:
- Alta performance, 
- Estructura de datos fácil de usar, en formato tablas (parecido a Series y Data Frames en R)
- Excelentes herramientas para realizar análisis de datos: reformatear, concatenar, agregar, ordenar, segmentar etc.
- Tratamiento para missing data (o valores nulos)

Para más info, visitar la web oficial

[Pandas webpage](http://pandas.pydata.org)

## Importar pandas

In [None]:
import pandas as pd

## Estructuras de datos en Pandas

Pandas introduce dos nuevas estructura de datos a Python:
- Series - estructuras 1d
- DataFrames - estructuras nd
ambas construidas sobre NumPy; lo que las hace dos estructura de datos rápidas.

Las Series son esencialmente una columna,  
y un DataFrame es una tabla multi-dimensional generada a partir de un conjunto de Series.

![title](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)

Los DataFrames y las Series son parecidos en el sentido de que la mayoría de operaciones se pueden realizar sobre ambos, como rellenar los valores nulos o calcular una media. 

|Estructura de Datos|Dimensiones|Descripción|
|---|---|:---| 
|Series	|1|Array homogéneo 1D etiquetado, inmutable en tamaño|
|Data Frames|2|Estructura tabular 2D etiquetada, modificable en tamaño y con columnas potencialmente heterogéneas|

# Series en Pandas

**Definición**
Una Serie es un array 1-d que contiene todo tipo de datos (enteros, texto, decimals, objetos de Python, etc.). Vendría a ser una columna de un excel. 

Las etiquetas de los elementos reciben el nombre de índice y cada elemento de una serie tienen asignado un índice etiquetado. 

Por default, cada elemento tiene una etiqueta de índice numérica, de 0 a N.

\begin{equation*}
Índices\_Serie= 0, 1, ..., N
\end{equation*}


Por lo que N, último índice de la serie expresa:

\begin{equation*}
N = longitud(Series) - 1
\end{equation*}


**Parámetros en una Serie de Pandas**:

- *data*: El valor o valores que tenga tu serie
- *index*: El índice asignado al valor que contiene tu Serie
- *dtype*: El tipo de valores de la Serie
- *copy*: Este parámetro permite copiar los datos que introdujiste

## Generación de Series: pd.Series()

El método básico para crear una serie con Pandas es llamar la función:

In [None]:
import pandas as pd

In [None]:
pd.Series

pandas.core.series.Series

El primer argumento, **data**, puede contener diferentes tipos de datos:
- un *diccionario* de Python (dict)
- un *ndarray* de NumPy (ndarray)
- un valor escalar 

El segundo elemento, **index**, es una lista de etiquetas para cada elemento de la lista. 

Según el tipo de **data** que le pasamos a la lista, tenemos distintos casos de Series

Existen muchas maneras de crear una Serie, pero nos encontraremos con las tres más comunes:
-  A partir de una lista ([ ])
- A partir de un NumPy array (ndarray)
- A partir de un Diccionario de Python 

### Generar una Serie a partir de una lista

In [None]:
nombres = ["Elena", "Marcos", " Judith", "Sofía", "Estefanía"]

In [None]:
nombres

['Elena', 'Marcos', ' Judith', 'Sofía', 'Estefanía']

In [None]:
 #  crear una serie de nombre mi_serie que contenga esta lista de nombres

In [None]:
mi_serie = pd.Series(nombres)

In [None]:
mi_serie

0        Elena
1       Marcos
2       Judith
3        Sofía
4    Estefanía
dtype: object

Al no especificar una etiqueta (*index*) a la Serie, por default, se ha asignado una etiqueta con el índice de la posición que ocupa cada elemento en la Serie. 

Pero **siempre estamos a tiempo de asignar una lista de etiquetas a los valores de nuestra Serie**

In [None]:
lista_estudiantes = ["Estudiante 1", "Estudiante 2","Estudiante 3","Estudiante 4","Estudiante 5"]

In [None]:
len(nombres) == len(lista_estudiantes)

True

In [None]:
mi_serie2 = pd.Series(data=nombres, index = lista_estudiantes)

In [None]:
nombres

['Elena', 'Marcos', ' Judith', 'Sofía', 'Estefanía']

In [None]:
mi_serie

0        Elena
1       Marcos
2       Judith
3        Sofía
4    Estefanía
dtype: object

In [None]:
mi_serie2

Estudiante 1        Elena
Estudiante 2       Marcos
Estudiante 3       Judith
Estudiante 4        Sofía
Estudiante 5    Estefanía
dtype: object

In [None]:
nombres_clase = pd.Series(data=nombres, index=lista_estudiantes)
nombres_clase

Estudiante 1        Elena
Estudiante 2       Marcos
Estudiante 3       Judith
Estudiante 4        Sofía
Estudiante 5    Estefanía
dtype: object

In [None]:
nombres_clase['Estudiante 3']

' Judith'

### Generar una Serie a partir de un *ndarray()*

Si los datos que pasamos a pd.Series() son un **ndarray()**, el índice tiene que tener la misma longitud que el array pasado. 

Si no se especificara una lista de índices, se generarán índices automáticamente según: [0, ..., len(data)-1]

#### Sin etiquetas asignadas

Si no especificamos índices, se asignará automáticamente una etiqueta como índice para cada elemento; de 0 a N, donde N es la longitud de la serie - 1

In [None]:
import numpy as np
print("Queremos crear una Serie a partir de un array de 5 elementos => \n")
array_5_items = np.random.rand(5)
array_5_items

Queremos crear una Serie a partir de un array de 5 elementos => 



array([0.8348558 , 0.99908029, 0.80019131, 0.32045781, 0.40017421])

In [None]:
s_sinind = pd.Series(data = array_5_items)

In [None]:
s_sinind

0    0.834856
1    0.999080
2    0.800191
3    0.320458
4    0.400174
dtype: float64

#### Especificando etiquetas

In [None]:
print("Queremos crear una Serie a partir de un array de 5 elementos => \n")

array_5_items = np.random.randn(5)

array_5_items

Queremos crear una Serie a partir de un array de 5 elementos => 



array([-0.29766987, -0.47348047, -0.18143983,  0.46993758,  0.05366297])

In [None]:
print("y queremos asignar una etiqueta a cada elemento en la serie resultante => \n")

lista_5_indices = ['e','e','e','e','e']

print(lista_5_indices)

y queremos asignar una etiqueta a cada elemento en la serie resultante => 

['e', 'e', 'e', 'e', 'e']


In [None]:
print("Comprobamos tenemos una etiqueta para cada elemento!\n")

len(array_5_items) == len(lista_5_indices)

Comprobamos tenemos una etiqueta para cada elemento!



True

In [None]:
print("La serie resultanto coge los datos del array y las etiquetas de la lista => \n")
s = pd.Series(data = array_5_items, index=lista_5_indices)
s

La serie resultanto coge los datos del array y las etiquetas de la lista => 



e    0.358435
e   -0.072421
e    0.593737
e    0.935842
e   -1.121581
dtype: float64

Hemos creado una Serie de Pandas mediante un array (que contiene 5 números float aleatorios) etiquetados según una list. 

En la columna de la izquierda tenemos los índices y en la de la derecha tenemos los datos

##### Importante! 
pandas **permite valores de índice duplicados**. 
Si se quisiera aplicar una operación o método que no permite índices duplicados, saltaría un error. 

El motivo por el que permite índices duplicados es porque pd.Series() está orientado a un alto rendimiento mediante métodos que no usan el índice

### Generar una serie a partir de un diccionario 

Las series se pueden iniciar a partir de diccionarios, usando las claves del diccionario como índice


**Importante!** Cuando los datos de la serie (*data*), los índices de la serie se ordenan según el orden de inserción del diccionario. 

##### EJEMPLO

In [None]:
mi_diccionario = {'a':1, 'b':2, 'c':3,'d':4 }

In [None]:
type(mi_diccionario)

dict

In [None]:
mi_diccionario

{'a': 1, 'b': 2, 'c': 3, 'd': 4}

In [None]:
mi_serie = pd.Series(mi_diccionario)
mi_serie

a    1
b    2
c    3
d    4
dtype: int64

In [None]:
mi_serie_de_diccionario = pd.Series(mi_diccionario)

In [None]:
type(mi_serie_de_diccionario)

pandas.core.series.Series

In [None]:
mi_serie_de_diccionario

a    1
b    2
c    3
d    4
dtype: int64

##### EJEMPLO

In [None]:
d = {'Barcelona': 1000, 'Nueva York': 1300, 'Madrid': 900, 'San Francisco': 1100,
     'Valencia': 450, 'Boston': None}
ciudades = pd.Series(d)
ciudades

Barcelona        1000.0
Nueva York       1300.0
Madrid            900.0
San Francisco    1100.0
Valencia          450.0
Boston              NaN
dtype: float64

## Básicos de Series

### Índices y Valores

Como comentado, una Serie consta de dos elementos:
- Etiquetas o Índices
- Valores de la Serie

####  Índices de una Serie

Los índices son **el nombre o etiqueta que acompaña cada valor de una Serie**.

Para obtener los índices de una Serie, usaremos el método index(), que nos devuelve en formato Index las etiquetas de los valores de una serie.

Hablaremos de:
- etiquetas cuando especificamos el nombre de cada elemento
- índices cuando no especificamos etiquetas para cada elemento y se asigna un índice numérico que indica la posición que ocupa el elemento en la serie

Para **obtener los índices o etiquetas de una Serie usaremos el comando .index**:

In [None]:
# Generar un diccionario con 4 ciudades del mundo como keys y un número como valor
# Generar una serie a partir del diccionario
# Modificar el nombre de las keys por letras de a- d
# Sacar los index de la serie
# Sacar los valores de la serie

In [None]:
d = {'Barcelona': 1000, 'Nueva York': 1300, 'Madrid': 900, 'San Francisco': 1100,
     'Valencia': 450, 'Boston': None}

In [None]:
serie = pd.Series(d)
ciudades = pd.Series(d)

In [None]:
serie

Barcelona        1000.0
Nueva York       1300.0
Madrid            900.0
San Francisco    1100.0
Valencia          450.0
Boston              NaN
dtype: float64

In [None]:
serie.index = ['a', 'b', 'c', 'd','e','f']

In [None]:
serie.values   # foto

array([1000., 1300.,  900., 1100.,  450.,   nan])

#### Valores de una Serie

Los valores de una Serie son los elementos que la conforman. Para obtener los valores de una Serie usaremos el método values(), que nos devuelve en un array los valores de la serie.

In [None]:
ciudades

Barcelona        1000.0
Nueva York       1300.0
Madrid            900.0
San Francisco    1100.0
Valencia          450.0
Boston              NaN
dtype: float64

In [None]:
ciudades.values

array([1000., 1300.,  900., 1100.,  450.,   nan])

In [None]:
ciudades.values.reshape((2,3))

array([[1000., 1300.,  900.],
       [1100.,  450.,   nan]])

### Acceder a Elementos

Para acceder a un elemento de una Serie mediante el índice (no la etiqueta) es **análogo a acceder a un elemento de una lista** (*list( )* ) ya que obviamos la existencia de una columna de étiquetas, **y una serie sin etiquetas es esencialmente una lista**! 

In [None]:
d = {'Nueva York': 1000, 'Nueva York': 1300, 'Madrid': 900, 'San Francisco': 1100,
     'Valencia': 450, 'Boston': None}

In [None]:
#generar una Serie del diccionario de ciudades

In [None]:
mi_serie = pd.Series(data = d)

In [None]:
mi_serie

Nueva York       1300.0
Madrid            900.0
San Francisco    1100.0
Valencia          450.0
Boston              NaN
dtype: float64

In [None]:
mi_serie.value_counts()

1300.0    1
900.0     1
1100.0    1
450.0     1
dtype: int64

In [None]:
#quiero sacar el segundo elemento de mi Serie

In [None]:
mi_serie[1]

900.0

In [None]:
mi_serie["Nueva York"]

1300.0

Además, podemos acceder a varios elementos de la serie especificando las etiquetas correspondientes dentro de una lista

In [None]:
ciudades[[0,1,2]]   # obtener de una lista tres elementos

Barcelona     1000.0
Nueva York    1300.0
Madrid         900.0
dtype: float64

### Cambiar Índices

Imaginemos que queremos cambiar los índices de una serie.
Cómo lo haríamos?

#### Cambiar todos los índices

Existen varias alternativas para cambiar los índices de una list

##### EJEMPLO - Reasignando Serie con nuevos índices

In [None]:
ciudades   # Serie con nuevos índices

Poblacion 1    1000.0
Poblacion 1    1300.0
Poblacion 3     900.0
Poblacion 4    1100.0
Poblacion 5     450.0
Poblacion 6       NaN
dtype: float64

In [None]:
nuevos_indices = ['Poblacion 1', 'Poblacion 1', 'Poblacion 3', 'Poblacion 4', 'Poblacion 5', 'Poblacion 6']

In [None]:
ciudades.values

array([1000., 1300.,  900., 1100.,  450.,   nan])

In [None]:
ciudades_2 = pd.Series(ciudades.values, index=nuevos_indices)    # Creo una serie con ciudades y nuevos_indices
ciudades_2

Poblacion 1    1000.0
Poblacion 1    1300.0
Poblacion 3     900.0
Poblacion 4    1100.0
Poblacion 5     450.0
Poblacion 6       NaN
dtype: float64

In [None]:
ciudades_2['Poblacion 1']   # Como es una serie podemos utilizar dos elementos con mismo índice ('Poblacion')

Poblacion 1    1000.0
Poblacion 1    1300.0
dtype: float64

#### Modificando índices directamente - .index

In [None]:
ciudades.index

Index(['Barcelona', 'Nueva York', 'Madrid', 'San Francisco', 'Valencia',
       'Boston'],
      dtype='object')

In [None]:
ciudades.index = nuevos_indices

In [None]:
ciudades

Poblacion 1    1000.0
Poblacion 1    1300.0
Poblacion 3     900.0
Poblacion 4    1100.0
Poblacion 5     450.0
Poblacion 6       NaN
dtype: float64

### Cambiar Valores

Accediendo al valor de un elemento de la serie mediante su etiqueta o índice, podemos reasignarle un nuevo valor modificando así la Serie original

In [None]:
print("La Población 1 tiene originalmente: ",ciudades['Poblacion 1'],"habitantes" )  # Imprimirá las dos ciudades

ciudades['Poblacion 1'] = 2000.0

print('Pero ahora tiene :', ciudades['Poblacion 1'], "habitantes")  # Ahora sin embargo solo pues ambos Poblacion 1 y 2 tienen el mismo valor

La Población 1 tiene originalmente:  Poblacion 1    2000.0
Poblacion 1    2000.0
dtype: float64 habitantes
Pero ahora tiene : Poblacion 1    2000.0
Poblacion 1    2000.0
dtype: float64 habitantes


In [None]:
ciudades['Poblacion 3'] = 500

In [None]:
ciudades

Poblacion 1    2000.0
Poblacion 1    2000.0
Poblacion 3     500.0
Poblacion 4    1100.0
Poblacion 5     450.0
Poblacion 6       NaN
dtype: float64

### Comprobar si existe un Elemento

Las etiquetas son los nombres de los valores, así que si queremos saber si existe un elemento en una Serie lo comprobaremos mirando si su etiqueta aparece en la Serie

In [None]:
ciudades

Poblacion 1    2000.0
Poblacion 1    2000.0
Poblacion 3     500.0
Poblacion 4    1100.0
Poblacion 5     450.0
Poblacion 6       NaN
dtype: float64

In [None]:
print('Poblacion 2' in ciudades)

False


In [None]:
print('Poblacion 7' in ciudades)

False


#### Funciones vectorizadas

**Importante!** Una diferencia sustancial entre las Series y un array de NumPy es que las operaciones entre Series se alinean automáticamente en base a las etiquetas. Es decir, puedes realizar **cálculos sin tener que considerar si las Series involucradas tienen las mismas etiquetas**, eso se gestiona automáticamente.

**Importante!** El resultado de una operación entre Series *desalineadas*, en el sentido que tienen distinas etiquetas, resultará en la **unión de los índices involucrados**. 

**Si una etiqueta no se encuentra en el conjunto de etiquetas de la otra Serie** la Serie resultante **contendrá esta etiqueta pero con un elemento vacío NaN**. 

Eso proporciona una ventaja y flexibilidad enorme a la hora de desarrollar análisis de datos y representa. un aspecto diferencial de Pandas respecto a otras herramientas para trabajar con datos etiquetados.

###### EJEMPLO - Suma de Series con mismos índices

In [None]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a   -0.330024
b    0.912806
c    0.394593
d   -1.141332
e   -0.002254
dtype: float64

In [None]:
s+s

a   -0.660048
b    1.825611
c    0.789187
d   -2.282665
e   -0.004509
dtype: float64

##### EJEMPLO - Resta de Series con *mismatched* índices

In [None]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a    0.489826
b   -0.779231
c    1.644894
d    1.195073
e    0.163074
dtype: float64

In [None]:
a = pd.Series(np.random.randn(5), index=['h', 'b', 'c', 'd', 'e'])
a

h   -0.438314
b    0.310502
c    0.616886
d    0.288862
e    0.224095
dtype: float64

In [None]:
s + a  # Con índices diferentes, aquellos que no están en ambos tienen valor NaN

a         NaN
b   -0.468729
c    2.261781
d    1.483935
e    0.387169
h         NaN
dtype: float64

In [None]:
a

h   -0.438314
b    0.310502
c    0.616886
d    0.288862
e    0.224095
dtype: float64

In [None]:
s - a

a         NaN
b   -1.089733
c    1.028008
d    0.906211
e   -0.061021
h         NaN
dtype: float64

## Slice de una Serie

Seleccionar elementos de una Serie se basa en varias condiciones que revisaremos a continuación

### Por Etiquetas

In [None]:
array = [1.0,2.0,3.0, 4.0]
mi_serie = pd.Series(data = array)
mi_serie

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64

In [None]:
mi_serie[0]

1.0

#### filter()

Que de hecho, es análogo a si especificamos lista de índices con los que nos queremos quedar!

In [None]:
mi_serie.filter(like='2')

2    3.0
dtype: float64

In [None]:
ciudades.filter(like = '1')

Poblacion 1    2000.0
Poblacion 1    2000.0
dtype: float64

##### EJEMPLO

In [None]:
ciudades = ['Barcelona','Madrid','Tokio']
index_ciudades = ['Ciudad 1', 'Ciudad 2', 'Ciudad 3']  


In [None]:
mi_serie = pd.Series(data = ciudades, index = index_ciudades)
mi_serie

Ciudad 1    Barcelona
Ciudad 2       Madrid
Ciudad 3        Tokio
dtype: object

In [None]:
#filtrar elemento ciudad 1 y ciudad 2 mediante el método filter()

In [None]:
mi_serie.filter(items=['Ciudad 1','Ciudad 2'])

Ciudad 1    Barcelona
Ciudad 2       Madrid
dtype: object

In [None]:
#filtrar elemento ciudad 1 y ciudad 3 mediante slicing []

In [None]:
mi_serie[['Ciudad 1','Ciudad 3']]

Ciudad 1    Barcelona
Ciudad 3        Tokio
dtype: object

In [None]:
mi_serie

Ciudad 1    Barcelona
Ciudad 2       Madrid
Ciudad 3        Tokio
dtype: object

### Por Índices

También es posible filtrar mediante la posición que ocupan los elementos en la serie, es decir, no mediante las etiquetas sino por índices

In [None]:
s = pd.Series(np.random.randn(10), ['a','b','c','d','e','f','g','h','i','j'])
s

a    0.966891
b    0.564327
c    0.623901
d    2.130736
e   -1.444300
f   -1.483634
g   -0.547529
h    1.636147
i   -0.569654
j   -0.063507
dtype: float64

In [None]:
print ('Filtramos y nos quedamos con el 1r y 3r elementos =>\n')
print (s[[0,2]])

Filtramos y nos quedamos con el 1r y 3r elementos =>

a    0.966891
c    0.623901
dtype: float64


In [None]:
print ('Filtramos y nos quedamos con un subset hasta el 4o elementos =>\n')
print (s[:4])

Filtramos y nos quedamos con un subset hasta el 4o elementos =>

a    0.966891
b    0.564327
c    0.623901
d    2.130736
dtype: float64


#### Por condiciones Booleanas sobre los Valores

In [None]:
s

a    0.966891
b    0.564327
c    0.623901
d    2.130736
e   -1.444300
f   -1.483634
g   -0.547529
h    1.636147
i   -0.569654
j   -0.063507
dtype: float64

In [None]:
s > 0

a     True
b     True
c     True
d     True
e    False
f    False
g    False
h     True
i    False
j    False
dtype: bool

In [None]:
s[s < 0]

e   -1.444300
f   -1.483634
g   -0.547529
i   -0.569654
j   -0.063507
dtype: float64

In [None]:
s[(s > 0) & (s < 2)]     # AND

a    0.966891
b    0.564327
c    0.623901
h    1.636147
dtype: float64

In [None]:
s[(s > 0) | (s < 2)]    #  OR

a    0.966891
b    0.564327
c    0.623901
d    2.130736
e   -1.444300
f   -1.483634
g   -0.547529
h    1.636147
i   -0.569654
j   -0.063507
dtype: float64

In [None]:
s[s > s.median()]     # mediana

a    0.966891
b    0.564327
c    0.623901
d    2.130736
h    1.636147
dtype: float64

#### Por Rango de Valores - between( )

El método between() nos permite devolver una Serie de valores booleanos indicando si cada elemento de la serie está dentro del rango especificado

In [None]:
import pandas as pd

In [None]:
s = pd.Series(np.random.randn(10), ['a','b','c','d','e','f','g','h','i','j'])
s

a    0.807859
b   -0.352344
c    0.020042
d    0.996862
e    0.372099
f   -0.304927
g   -1.403600
h   -0.432736
i   -0.977665
j   -0.738871
dtype: float64

In [None]:
s.between(0,1)   # informe de pandas entre un rango

a     True
b    False
c     True
d     True
e     True
f    False
g    False
h    False
i    False
j    False
dtype: bool

Mediante esta Serie booleana que nos devuelve el *between()* **podemos generar una nueva serie con los valores True que cumplen la condición del between()**

In [None]:
s[s.between(0,1)]

a    0.807859
c    0.020042
d    0.996862
e    0.372099
dtype: float64

# RESUMEN de métodos sobre Series

## Métodos matemáticos

|Método|Description|
|:---|:---| 
|add()|Method is used to add series or list like objects with same length to the caller series|
|sub()|Method is used to subtract series or list like objects with same length from the caller series|
|mul()|Method is used to multiply series or list like objects with same length with the caller series|
|div()|Method is used to divide series or list like objects with same length by the caller series|
|sum()|Returns the sum of the values for the requested axis|
|prod()|Returns the product of the values for the requested axis|
|mean()|Returns the mean of the values for the requested axis|
|pow()|Method is used to put each element of passed series as exponential power of caller series and returned the results
|abs()|Method is used to get the absolute numeric value of each element in Series/DataFrame||
|cov()|Method is used to find covariance of two series|

##### EJEMPLO: metodos element-wise

In [None]:
x = pd.Series([1,2,4,5], ['a','b','c','d'])
x

a    1
b    2
c    4
d    5
dtype: int64

In [None]:
x.add(1)

a    2
b    3
c    5
d    6
dtype: int64

In [None]:
x.sub(1)

a    0
b    1
c    3
d    4
dtype: int64

In [None]:
x

a    1
b    2
c    4
d    5
dtype: int64

In [None]:
x.mul(2)

a     2
b     4
c     8
d    10
dtype: int64

In [None]:
x.div(-1)

a   -1.0
b   -2.0
c   -4.0
d   -5.0
dtype: float64

In [None]:
x.pow(2)

a     1
b     4
c    16
d    25
dtype: int64

In [None]:
x.abs()

a    1
b    2
c    4
d    5
dtype: int64

#### EJEMPLO: métodos agg

In [None]:
x

a    1
b    2
c    4
d    5
dtype: int64

In [None]:
x.sum()

12

In [None]:
x.prod()

40

In [None]:
x.mean()

3.0

## Métodos exploratorios

<style> table {display: block} </style>
|Función|Descripción|
|---|------|
|combine_first()|Method is used to combine two series into one|
|count()|Returns number of non-NA/null observations in the Series|
|size()|Returns the number of elements in the underlying data|
|name()|Method allows to give a name to a Series object, i.e. to the column|
|is_unique()|Method returns boolean if values in the object are unique|
|idxmax()|Method to extract the index positions of the highest values in a Series|
|idxmin()|Method to extract the index positions of the lowest values in a Series|
|sort_values()|Method is called on a Series to sort the values in ascending or descending order|
|sort_index()|Method is called on a pandas Series to sort it by the index instead of its values|
|head()|Method is used to return a specified number of rows from the beginning of a Series. The method returns a brand new Series|
|tail()|Method is used to return a specified number of rows from the end of a Series. The method returns a brand new Series|
|le()|Used to compare every element of Caller series with passed series.It returns True for every element which is Less than or Equal to the element in passed series|
|ne()|Used to compare every element of Caller series with passed series. It returns True for every element which is Not Equal to the element in passed series|
|ge()|Used to compare every element of Caller series with passed series. It returns True for every element which is Greater than or Equal to the element in passed series|
|eq()|Used to compare every element of Caller series with passed series. It returns True for every element which is Equal to the element in passed series|
|gt()|Used to compare two series and return Boolean value for every respective element|
|lt()|Used to compare two series and return Boolean value for every respective element|
|clip()|Used to clip value below and above to passed Least and Max value|
|clip_lower()|Used to clip values below a passed least value|
|clip_upper()|Used to clip values above a passed maximum value|
|astype()|Method is used to change data type of a series|
|tolist()|Method is used to convert a series to list|
|get()|Method is called on a Series to extract values from a Series. This is alternative syntax to the traditional bracket syntax|
|unique()|Pandas unique() is used to see the unique values in a particular column|
|nunique()|Pandas nunique() is used to get a count of unique values|
|value_counts()|Method to count the number of the times each unique value occurs in a Series|
|factorize()|Method helps to get the numeric representation of an array by identifying distinct values|
|map()|Method to tie together the values from one object to another|
|between()|Pandas between() method is used on series to check which values lie between first and second argument|
|apply()|Method is called and feeded a Python function as an argument to use the function on every Series value. This method is helpful for executing custom operations that are not included in pandas or numpy|

Practiquemos algunos métodos exploratorios muy utilizados en la manipulación de datos.

In [None]:
import pandas as pd
import numpy as np

In [None]:
Serie = pd.Series(np.random.randint(0,10,20))

In [None]:
Serie

0     2
1     9
2     3
3     8
4     2
5     9
6     0
7     5
8     4
9     5
10    9
11    2
12    8
13    7
14    0
15    3
16    2
17    8
18    2
19    9
dtype: int64

In [None]:
Serie.value_counts(normalize = True, sort = True)   # pone los valores y a continuación el porcentaje de ese valor respecto a la totalidad

2    0.25
9    0.20
8    0.15
3    0.10
0    0.10
5    0.10
4    0.05
7    0.05
dtype: float64

In [None]:
Serie.nunique()   # Da el número de valores con representación en la serie

8

In [None]:
Serie.astype('float')

0     2.0
1     9.0
2     3.0
3     8.0
4     2.0
5     9.0
6     0.0
7     5.0
8     4.0
9     5.0
10    9.0
11    2.0
12    8.0
13    7.0
14    0.0
15    3.0
16    2.0
17    8.0
18    2.0
19    9.0
dtype: float64

# Referencias 

[Ref1](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html)

[Ref2](https://www.geeksforgeeks.org/numpy-in-python-set-1-introduction/)

[Ref3](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.Series.html)