## Introducción  a Pandas

Alan Badillo Salas (badillo.soft@hotmail.com)

Pandas en una librería de python que nos permite manipular datos mediante dos estructuras de datos muy potentes (Series y DataFrames). Pandas es ampliamente utilizada en las áreas de Análisis de Datos, Ciencia de Datos, Estadística y otras ramas. Tiene buena integración con las librerías de `matplotlib` y `numpy`. Soporta diversos formatos de entrada como `CSV`, `Excel` y `SQL`.

La documentación oficial la podemos consultar en https://pandas.pydata.org/.

Dentro de la documentación podemos encontrar un tour de "10 minutos" disponible en http://pandas.pydata.org/pandas-docs/stable/10min.html.

## Introducción

Las dos estructuras principales de `pandas` son las `Series` que equivalen a vectores o areglos uni-dimensionales de `numpy` y también tenemos los `DataFrames` que equivales a tablas (SQL/CSV) o arreglos bi-dimensionales de `numpy`.

## Series

Las series son arreglos de `numpy`, por lo que podemos utilizarlas como utilizamos los vectores en `numpy`.

In [3]:
import pandas as pd

# Crear una Serie a partir de una lista de python
s1 = pd.Series([1, 2, 3, 4])

print(s1)

0    1
1    2
2    3
3    4
dtype: int64


In [5]:
import numpy as np

# Crear una Serie a partir de un arreglo de `numpy`

s2 = pd.Series(np.random.randint(1, 4, 10))

print(s2)

0    1
1    2
2    3
3    1
4    2
5    3
6    2
7    1
8    1
9    1
dtype: int64


In [6]:
# Crear una Serie con índices manuales

s4 = pd.Series(["Ana", 23, "Mujer"], index=["nombre", "edad", "genero"])

print(s4)

nombre      Ana
edad         23
genero    Mujer
dtype: object


## Operaciones entre series

Podemos manipular las series como arreglos de `numpy` (aplicar las operaciones entre vectores). El resultado será una nueva serie. Cuándo los índices no coinciden se almacenerá un `NaN`.

In [7]:
s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([2, 4, 6, 8, 10])

s3 = s1 + 2 * s2

print(s3)

0     5
1    10
2    15
3    20
4    25
dtype: int64


In [8]:
s4 = s1 > 3

print(s4)

0    False
1    False
2    False
3     True
4     True
dtype: bool


In [11]:
s1 = pd.Series([1, 3, 5, 6], index=["a", "b", "c", "d"])
s2 = pd.Series([1, 2], index=["a", "c"])

s3 = s1 + s2

print(s3)

a    2.0
b    NaN
c    7.0
d    NaN
dtype: float64


## Recodificación de datos

A veces manejar series de textos no es conviente, dado que nos interesa más su valor categórico que alfabético.

In [12]:
s1 = pd.Series(["M", "H", "H", "M", "M"])

s2 = s1.map(lambda g: 1 if g == "M" else 2)

print(s2)

0    1
1    2
2    2
3    1
4    1
dtype: int64


In [13]:
s1 = pd.Series(["M", "H", "H", "M", "M"])

s2 = s1.map({
    "M": 1,
    "H": 2
})

print(s2)

0    1
1    2
2    2
3    1
4    1
dtype: int64


## DataFrames

Los `DataFrames` o tablas nos permiten retener la información en forma de columnas, cada columna equivale a una `Serie`. Son útiles para manejar gran cantidad de datos, reducir datos, extender datos y adquirir/almacenar conjuntos grandes de datos bajo formatos como `csv` y `sql`.

In [14]:
# Crear un `dataframe` a partir de un diccionario de un diccionario de listas
d = {
    "A": [1, 2, 3],
    "B": [5, 4, 2],
    "C": ["X", "X", "Y"]
}

df = pd.DataFrame(d)

print(df)

   A  B  C
0  1  5  X
1  2  4  X
2  3  2  Y


In [16]:
# Crear un `dataframe` a partir de `series`

s1 = pd.Series(["Ana", "Beto", "Luis"])
s2 = pd.Series([23, 27, 34])
s3 = pd.Series(["M", "H", "H"])

df = pd.DataFrame(dict(nombres=s1, edades=s2, generos=s3))

print(df)

  nombres  edades generos
0     Ana      23       M
1    Beto      27       H
2    Luis      34       H


In [17]:
# Crear un `dataframe` a partir de una lista de diccionarios
personas = [
    {
        "nombre": "Ana",
        "edad": 23,
        "genero": "M"
    },
    {
        "nombre": "Beto",
        "edad": 27,
        "genero": "H"
    },
    {
        "nombre": "Luis",
        "edad": 34,
        "genero": "H"
    }
]

df = pd.DataFrame(personas)

print(df)

   edad genero nombre
0    23      M    Ana
1    27      H   Beto
2    34      H   Luis


## Cargar datos desde un CSV

El formato `csv` es ampliamente utilizado como formato de tablas, dónde cada fila representa una línea en el archivo con los valores separados por comas, por ejemplo:

~~~csv
nombre,edad,genero
ana,23,m
beto,27,h
luis,34,h
~~~

Para cargar el archivo `csv` en `pandas` usaremos la función `read_csv` que leerá el archivo desde nuestra computadora o desde internet. Por ejemplo, vamos un leer el archivo que se encuentra en el servidor.

In [18]:
df = pd.read_csv("http://badillosoft.com/iris.csv")

print(df.head())

   sepal length  sepal width  petal length  petal width        class
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa


Observa que el método `df.head()` muestra sólo los primeros `5` registros del `dataframe`. Prueba utilizar `df.head(10)`, `df.tail()`, `df.tail(3)`.

Podemos generar un resumen del `dataframe` utilizando el método `info`.

In [19]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal length    150 non-null float64
sepal width     150 non-null float64
petal length    150 non-null float64
petal width     150 non-null float64
class           150 non-null object
dtypes: float64(4), object(1)
memory usage: 5.9+ KB
None
