<a href="https://colab.research.google.com/github/carlosramos1/numpy-pandas-matplotlib/blob/main/08_introduccion_a_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a *Pandas*.

El proyecto [*Pandas*](https://pandas.pydata.org/) es una herramienta especializada en la gestión de "series" y "dataframes".

Las "series" son arreglos de datos de una dimensión y los "dataframes" son arreglos de datos de dos dimensiones.

Las principales características de *Pandas* son:

* Alineación de datos y manejo de datos faltantes.
* Modificación de conjuntos de datos.
* Análisis de datos
* Hace uso intensivo de series y dataframes.
* Realiza operaciones de lectura y escritura de datos desde y hacia diversos archivos y bases de datos.
* Manejo de series de tiempo.


In [26]:
# por convención se importa con el nombre 'pd'
import pandas as pd

import numpy as np

## Los *dataframes*.

Los dataframes de *Pandas* **se basan en arreglos de datos de 2 dimensiones** compuesto por columnas y filas.


### Creación de *Dataframes*.

La clase ```pandas.DataFrame``` se utiliza para crear los dataframes de *Pandas*.

```
pd.DataFrame(<datos>)
```

Donde:

* ```<datos>``` es un objeto de tipo:
  * `list` de *Python* que contienen otras `list`
  * ```tuple``` que contiene  a otros objetos tipo ```tuple```.
  * ```numpy.ndarray``` de 2 dimensiones.
  * ```dict```.
  * Otra instancia de  ```pd.DataFrame```.



https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

**Ejemplo:**

In [27]:
# Crear un dataframe a partir de una 'tupla'
pd.DataFrame( ((5, 1, 2), (2, 3, 4)) )

Unnamed: 0,0,1,2
0,5,1,2
1,2,3,4


In [28]:
# Crear un dataframe a partir de un 'array de numpy'
matriz = np.arange(9).reshape(3, 3)
pd.DataFrame(matriz)

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


In [29]:
# Crear un dataframe a partir de un 'diccionario'
data = {'Nombre': ['Juan', 'Ana', 'Jose', 'Tito'],
        'Edad':   [25, 18, 23, 27],
        'Pais':   ['BO', 'CO', 'AR', 'BO']}

pd.DataFrame(data)
# Las claves del diccionario, serán los identificadores de columna

Unnamed: 0,Nombre,Edad,Pais
0,Juan,25,BO
1,Ana,18,CO
2,Jose,23,AR
3,Tito,27,BO


#### Índices en un dataframe.

De manera similar a un arreglo, los dataframes tienen indices para identificar filas y columnas.

Los índices pueden ser:
 - Números enteros `int`, entre `0` y `length-1` del eje (columna o fila).
 - Cadenas de texto `str`.

Los indices se pueden definir al momento de la creación de un dataframe, a través de los parametros `index=` y `columns=`. **Si no se estable** estos parámetros, los indices ***por defecto son números***


```
pd.DataFrame(<datos>, index=<id-fila>, columns=<id-columna>)
```
* ```<id-fila>``` es un objeto iterable de strings (p.e. una lista), el cual contiene los **identificadore de cada fila**.
* ```<id-columna>``` es un objeto iterable de strings (p.e. una lista), el cual contiene los **identificadore de cada columna**.  


**Ejemplos:**

In [30]:
# Crear un dataframe estableciendo indices de renglon e indices de columna
pd.DataFrame( [[1,2,3],[4,5,6],[7,8,9]],
              index=['uno','dos','tres'],
              columns=['a', 'b', 'c'])

Unnamed: 0,a,b,c
uno,1,2,3
dos,4,5,6
tres,7,8,9


In [31]:
# Crear un dataframe estableciendo solo indices de columna
pd.DataFrame( [[1,2,3],[4,5,6],[7,8,9]], columns=['a', 'b', 'c'])

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


### Selección de columnas.

Para **seleccionar una columna** se realiza a traves de los `[ ]`,

```
<df>[<col>]
```

Donde:

* ```<df>``` es un dataframe de *Pandas*.
* ```<col>``` es un objeto de tipo ```str``` o `int` correspondiente al identificador de una columna.



> **Importante**: Esta sintaxis es solo para seleccionar una columna, para seleccionar varias columnas se muestra más adelante.

**Ejemplo:**

- Identificadores numéricos *int*

In [32]:
data = pd.DataFrame( ((5, 1, 2), (1, 2, 8)) )
data

Unnamed: 0,0,1,2
0,5,1,2
1,1,2,8


In [33]:
# Seleccionar la segunda columna
data[1]

Unnamed: 0,1
0,1
1,2


- Identificadores tipo *string*

In [34]:
data = {'Nombre': ['Juan', 'Ana', 'Jose', 'Tito'],
        'Edad':   [25, 18, 23, 27],
        'Pais':   ['BO', 'CO', 'AR', 'BO']}
estudiantes = pd.DataFrame(data)
estudiantes

Unnamed: 0,Nombre,Edad,Pais
0,Juan,25,BO
1,Ana,18,CO
2,Jose,23,AR
3,Tito,27,BO


In [35]:
# Acceder a la columna 'Nombre'
estudiantes['Nombre']

Unnamed: 0,Nombre
0,Juan
1,Ana
2,Jose
3,Tito


**Nota**: Al seleccionar una columna de un dataframe, lo que se obtiene es una "serie".

In [36]:
# Verificar el tipo dato nos devuelve, 'pd.Series'
print(type(estudiantes['Nombre']))

<class 'pandas.core.series.Series'>


### Selección de filas

Dependiendo del tipo de identificador
(`str` o `int`), variará la forma de acceder.

#### indices numéricos.

Para **seleccionar varias filas** de un dataframe se usa una sintaxis de rangos por medio de dos puntos ```:```.

```
<df>[<inicio>:<fin>:<pasos>]
```

Donde:

* ```<inicio>``` es un indice (tipo `int`) correspondiente a la primera fila del rango que se quiere seleccionar.
* ```<fin>``` es un indice (tipo `int`)  correspondiente a la último (menos uno), fila del rango que se quiere seleccionar, **Es no inclusivo**
* ```<pasos>``` un entero que corresponde al tamaño de incrementos/decrementos que se aplicará al rango.


**Ejemplos:**

In [37]:
data = {'Nombre': ['Juan', 'Ana', 'Jose', 'Tito'],
        'Edad':   [25, 18, 23, 27],
        'Pais':   ['BO', 'CO', 'AR', 'BO']}
estudiantes = pd.DataFrame(data)
estudiantes

Unnamed: 0,Nombre,Edad,Pais
0,Juan,25,BO
1,Ana,18,CO
2,Jose,23,AR
3,Tito,27,BO


In [38]:
# Seleccionar los últimos dos estudiantes
estudiantes[-2:]

Unnamed: 0,Nombre,Edad,Pais
2,Jose,23,AR
3,Tito,27,BO


In [39]:
# Seleccionar los estudiantes con indice 0, 2, 4, ...
estudiantes[::2]

Unnamed: 0,Nombre,Edad,Pais
0,Juan,25,BO
2,Jose,23,AR


**Nota**: Al seleccionar filas, lo que se obtiene es otro *DataFrame*

In [40]:
# El tipo de objeto resultante es otro DataFrame
print(type(estudiantes[:1]))

<class 'pandas.core.frame.DataFrame'>


#### Indices tipo string

Se usa una sintaxis de rangos por medio de dos puntos ```:```.

```
<df>[<id_inicio>:<id_fin>]
```

Donde:
* ```<id_inicio>``` es un ```str``` correspondiente al identificador de renglón a partir del cual se iniciará el rango.
* ```<id_fin>``` es un objeto ```str``` correspondiente al identificador de renglón a partir del cual finalizará el rango. **Es inclusivo**



**Ejemplos:**

In [41]:
data = {'Nombre': ['Juan', 'Ana', 'Jose', 'Tito'],
        'Edad':   [25, 18, 23, 27],
        'Pais':   ['BO', 'CO', 'AR', 'BO']}
estudiantes = pd.DataFrame(data, index=['J25BO', 'A18CO', 'JAR23', 'T27BO'])
estudiantes

Unnamed: 0,Nombre,Edad,Pais
J25BO,Juan,25,BO
A18CO,Ana,18,CO
JAR23,Jose,23,AR
T27BO,Tito,27,BO


In [42]:
# Recuperar un rango
estudiantes['A18CO':'T27BO']

Unnamed: 0,Nombre,Edad,Pais
A18CO,Ana,18,CO
JAR23,Jose,23,AR
T27BO,Tito,27,BO


### Selección de elementos mediante identificadores


Se utiliza la siguiente sintaxis:

```
<df>[<col>][<fila(s)>]
```

- `<col>` es el identificador de columna (solo permite un ident.)
- `<fila(s)>` es el identificador de filas, se puede selecionar una o un rango de filas (mediante los `:`).

**Ejemplo:**

In [43]:
estudiantes = pd.DataFrame({'Nombre': ['Juan', 'Ana', 'Jose', 'Tito'],
                            'Edad':   [25, 18, 23, 27],
                            'Pais':   ['BO', 'CO', 'AR', 'BO']},
                           index=['J25BO', 'A18CO', 'JAR23', 'T27BO'])
estudiantes

Unnamed: 0,Nombre,Edad,Pais
J25BO,Juan,25,BO
A18CO,Ana,18,CO
JAR23,Jose,23,AR
T27BO,Tito,27,BO


In [44]:
# Seleccionar un solo elemento
estudiantes['Edad']['JAR23']

np.int64(23)

In [45]:
# Seleccionar un rango de elemento
estudiantes['Edad']['JAR23':'T27BO']

Unnamed: 0,Edad
JAR23,23
T27BO,27


In [46]:
# Las columnas no aceptan rangos, lanzará un ValueError.
#estudiantes['Edad':'Pais']['T27BO']

## Las *series*

Las series de *Pandas* son arreglos de datos de una dimensión

### Creacion de *Series*

La clase `pandas.Series` se utiliza para crear series.

```
pd.Series(<datos>)
```

Donde:

* ```<datos>``` puede ser un objeto de tipo: ```tuple```, ```list```, ```dict``` o ```numpy.ndarray``` de una dimensión.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

**Ejemplo:**

In [47]:
# Crear una serie a partir de una lista
pd.Series([12, 4, 32, 41, 33, 28])

Unnamed: 0,0
0,12
1,4
2,32
3,41
4,33
5,28


#### Índices en las series.

Al igual que los *Dataframes*, las series soportan el atributo ```index``` para identificar filas. Y cuenta con el atributo `name` para identificar la columna.


```
pd.Series(<datos>, name="<id-col>", index=<id-fila>)
```

* ```<id-col>``` es un objeto de tipo ```str``` para identificar a la columna.
* `<id-fila>` es un objeto iterable (p.e. lista) de `str` para identificar cada elemento de la *Serie*.

**Ejemplo:**

In [48]:
# Crear una serie estableciendo indices
indices = ['Tito', 'Pepe', 'Mary', 'Luis']

pd.Series([12, 4, 32, 41], index=indices, name='Edad')

Unnamed: 0,Edad
Tito,12
Pepe,4
Mary,32
Luis,41


### Selección de elementos

De manera similar a los `dict` se puede acceder a un elemento, indicando entre `[ ]` el identificador del elemento.



```
<serie>[<identificador>]
```
Donde:

- `<identificador>` será un `int` o `str` dependiendo del tipo establecido.


**Ejemplos**

In [49]:
# Ejemplo 1: Serie con indices por defecto
s = pd.Series([12, 24, 32, 41])

# Seleccionar un elemento
s[1]

np.int64(24)

In [50]:
# Ejemplo 2: Serie con indices tipo string
s = pd.Series([12, 24, 32, 41], name='Edad'
                             , index=['Tito', 'Pepe', 'Mary', 'Luis'])

# Seleccionar la edad de 'Pepe'
s['Pepe']

np.int64(24)

## Conversión de series a dataframes.

El método ```pd.Series.to_frame()``` permite transformar una serie en un dataframe de una columna.

```
<serie>.to_frame()
```

**Ejemplo:**

In [51]:
pd.Series([12, 24, 32, 41],
            name='Edad',
            index=['Tito', 'Pepe', 'Mary', 'Luis']).to_frame()

Unnamed: 0,Edad
Tito,12
Pepe,24
Mary,32
Luis,41
