# Pandas

---
## Introducción

Pandas es un popular paquete de datos de Python porque ofrece unas estructuras de datos potentes y flexibles que facilitan la manipulación y análisis de datos de alto rendimiento. Entre las estructuras más utilizadas se encuentra el DataFrame. Es de código abierto y su nombre viene de **PAN**el **DA**ta.

Usando esta librería podemos lograr los 5 pasos típicos en el procesamiento y análisis de datos:

*   Cargar datos
*   Modelar
*   Analizar
*   Manipular
*   Preparar

En resumen, las principales características de pandas son las siguientes:

*   Objeto DataFrame rápido y eficiente con indexación
*   Herramientas para cargar datos en objetos en memoria desde archivos de distintos tipos
*   Alineación de datos y manejo de datos faltantes
*   Remodelación de fechas
*   Etiquetado, corte, indexación y subconjuntos de datos
*   Columnas eliminables o insertables
*   Agrupación de datos para agregaciones y transformaciones
*   Alto rendimiento en fusión y union de datos

Además, como en NumPy, si queremos utilizar Pandas en nuestro proyecto tendremos que importarlo después de haberlo instalado. Por último, como Pandas extiende la funcionalidad de NumPy, también tendremos que imporar este último:

In [2]:
import numpy as np
# pd es el acrónimo que se utiliza para pandas normalmente
import pandas as pd

---
## Pandas vs NumPy

Tal y como vimos con NumPy, los datos se almacenan en estructuras muy parecidas a las matrices, solo que optimizadas por NumPy.

Pandas por su parte **extiende la funcionalidad de NumPy** añadiendo ciertas funcionalidades. Entre ellas están estos dos ejemplos:

*   **Series:** son matrices de una dimensión basadas en NumPy que, además de contener los datos de la estructura, tiene un índice para las columnas directamente asignado por Pandas. Estos índices son modificables. Por último, las Series de Pandas tienen el mismo tipo de datos en todas sus posiciones.

*   **DataFrames:** son matrices de dos dimensiones que cuentan con índices tanto en las columnas como en las filas, ambas modificables por el programador. Además, en este caso, no todos los datos del dataframe tienen porqué ser del mismo tipo sino que pueden variar en función de cada columna.

---
## Series

Tal y como hemos mencionado, las Series son la versión de Pandas de los arrays unidimensionales de NumPy. Estas tendrán un único índice y son muy utilizadas en caso de convertir un Diccionario de Python a una estructura de datos de Pandas:

In [3]:
series = pd.Series({
    "Nombre": "Mikel",
    "DNI": "12345678-A",
    "Empleo": "Profesor"
})
print("Series: ")
print(series)
print()

# En este caso, el índice puede ser numérico (0,1,2...) o utilizar las claves del diccionario
print("Utilizando la clave del diccionario como índice: ", series["Nombre"])
print("Utilizando un número como índice: ", series[2])

Series: 
Nombre         Mikel
DNI       12345678-A
Empleo      Profesor
dtype: object

Utilizando la clave del diccionario como índice:  Mikel
Utilizando un número como índice:  Profesor


---
## DataFrame

Los DataFrames son las estructuras de datos más utilizadas en machine learning con Python. Esto es porque:

*   Son estructuras de datos etiquetados bidimensionales
*   Constan de tres componentes: los datos, el índice (por filas) y las columnas (sus nombres)
*   Puedes especificar los nombres del índice y las columnas

Aquí os dejo un ejemplo sencillo de DataFrame partiendo de un array de NumPy:


In [4]:
# En este caso creamos un DataFrame en base a un array de NumPy
data = np.array([['', 'Nombre', 'Edad'], ['F1', 'Mikel', 45], ['F2', 'Aitor', '15']])
print("Numpy data: ")
print(data)
print()
print("Pandas DataFrame: ")
print(pd.DataFrame(data=data[1:, 1:], index = data[1:, 0], columns = data[0, 1:]))

Numpy data: 
[['' 'Nombre' 'Edad']
 ['F1' 'Mikel' '45']
 ['F2' 'Aitor' '15']]

Pandas DataFrame: 
   Nombre Edad
F1  Mikel   45
F2  Aitor   15


Por otro lado, también podemos crear DataFrames directamente desde una matriz de NumPy sin indicar ni índice ni columnas en Pandas. Fijaos en que por defecto establece un índice y columnas numéricos empezando en 0:

In [5]:
df = pd.DataFrame(np.array([[1,2,3], [4,5,6], [7,8,9]]))
print("DataFrame sin índice ni columnas definidas por el programador: ")
print(df)

DataFrame sin índice ni columnas definidas por el programador: 
   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9


---
## Explorando un DataFrame

Aquí os dejo unas funciones básicas para obtener información básica de un DataFrame:

In [6]:
# Empezamos creando un DataFrame al igual que antes
data = np.array([['', 'Nombre', 'Edad', 'Empleo'], ['Fila-1', 'Mikel', 45, 'Profesor'], ['Fila-2', 'Aitor', '15', 'Estudiante'], ['Fila-3', 'Erik', '27', 'Diseñador']])
df = pd.DataFrame(data=data[1:, 1:], index = data[1:, 0], columns = data[0, 1:])
print(df)
print()

# Para conocer la forma del DataFrame
print("Forma del DataFrame: ", df.shape)

# Para ver el índice
print("Índice del DataFrame: ", df.index)

# Para saber cuántas filas tiene
print("Filas del DataFrame: ", len(df.index))

       Nombre Edad      Empleo
Fila-1  Mikel   45    Profesor
Fila-2  Aitor   15  Estudiante
Fila-3   Erik   27   Diseñador

Forma del DataFrame:  (3, 3)
Índice del DataFrame:  Index(['Fila-1', 'Fila-2', 'Fila-3'], dtype='object')
Filas del DataFrame:  3


Por otro lado, también contaremos con instrucciones que describen las estadísticas básicas de un DataFrame:

In [None]:
# Estadísticas básicas
print("Primer ejemplo sobre el DataFrame creado anteriormente:")
print(df.describe())
print()

df_aleatorio = pd.DataFrame(np.random.randint(10, size = (10,5)))
print("DataFrame con datos aleatorios: ")
print(df_aleatorio)
print()
print("Aquí un segundo ejemplo de las estadísticas con un caso numérico:")
print(df_aleatorio.describe())
print()

# La media por columnas
print("Media por columnas:")
print(df_aleatorio.mean())

Primer ejemplo sobre el DataFrame creado anteriormente:
       Nombre Edad     Empleo
count       3    3          3
unique      3    3          3
top      Erik   27  Diseñador
freq        1    1          1

DataFrame con datos aleatorios: 
   0  1  2  3  4
0  5  9  8  8  3
1  7  9  5  8  8
2  1  3  8  6  2
3  6  7  1  1  1
4  5  5  8  4  9
5  2  5  0  5  6
6  3  9  8  5  0
7  0  1  0  6  4
8  7  1  7  3  6
9  8  7  7  0  6

Aquí un segundo ejemplo de las estadísticas con un caso numérico:
              0          1          2          3          4
count  10.00000  10.000000  10.000000  10.000000  10.000000
mean    4.40000   5.600000   5.200000   4.600000   4.500000
std     2.75681   3.134042   3.489667   2.674987   2.990726
min     0.00000   1.000000   0.000000   0.000000   0.000000
25%     2.25000   3.500000   2.000000   3.250000   2.250000
50%     5.00000   6.000000   7.000000   5.000000   5.000000
75%     6.75000   8.500000   8.000000   6.000000   6.000000
max     8.00000   9.000000

---
## DataFrame - Selección

En un DataFrame siempre podemos seleccionar trabajar con el DataFrame entero o seleccionar unas partes del mismo para trabajar, lo que nos generará un nuevo DataFrame solo con esas filas o columnas:

In [7]:
print("DataFrame entero: ")
print(df)
print()

# Podemos seleccionar únicamente una columna
print("La primera columna del DataFrame:")
print(df["Nombre"])
# También podríamos mostrar la primera columna del df_aleatorio con la siguiente instrucción
#     print(df_aleatorio[0])
print()

# También podemos seleccionar subconjuntos de columnas
print("Columnas Nombre y Empleo:")
print(df[["Nombre", "Empleo"]])
#     print(df_aleatorio[[0,1]])

# Para seleccionar el valor de una posición concreta utilizaremos lo siguiente
print("Valor de una posición concreta:")
print(df.iloc[0][2]) # CUIDADO, este acceso es únicamente por números de índices
print()

# Si queremos obtener el valor de una fila completa
print("Valores de una fila completa:")
print(df.loc["Fila-1"]) # Igual que df.iloc[0,:]
print()

DataFrame entero: 
       Nombre Edad      Empleo
Fila-1  Mikel   45    Profesor
Fila-2  Aitor   15  Estudiante
Fila-3   Erik   27   Diseñador

La primera columna del DataFrame:
Fila-1    Mikel
Fila-2    Aitor
Fila-3     Erik
Name: Nombre, dtype: object

Columnas Nombre y Empleo:
       Nombre      Empleo
Fila-1  Mikel    Profesor
Fila-2  Aitor  Estudiante
Fila-3   Erik   Diseñador
Valor de una posición concreta:
Profesor

Valores de una fila completa:
Nombre       Mikel
Edad            45
Empleo    Profesor
Name: Fila-1, dtype: object



---
## Importar datos

Normalmente, cuando trabajamos con datos orientados al Machine Learning, hay varias formas de cargarlos:

*   Desde un archivo local
*   Desde un archivo accesible por una URL
*   Desde una base de datos

El ejemplo más típico es el de trabajar con ficheros CSV ya que son los datos en bruto únicamente separados por comas. Aún así, también se permite la importación de ficheros de Excel, ".dat", JSON...

Aquí mostraremos cómo importar datos desde un fichero CSV pero Pandas cuenta con funciones similares para otros tipos de ficheros o bases de datos:

In [19]:
# Cuidado con las rutas, esta es la mia (relativa desde donde está el Notebook)
df = pd.read_csv("ratings.csv")
print(df)
userId=df["userId"]
print(userId)

        userId  movieId  rating   timestamp
0            1        1     4.0   964982703
1            1        3     4.0   964981247
2            1        6     4.0   964982224
3            1       47     5.0   964983815
4            1       50     5.0   964982931
...        ...      ...     ...         ...
100831     610   166534     4.0  1493848402
100832     610   168248     5.0  1493850091
100833     610   168250     5.0  1494273047
100834     610   168252     5.0  1493846352
100835     610   170875     3.0  1493846415

[100836 rows x 4 columns]
0           1
1           1
2           1
3           1
4           1
         ... 
100831    610
100832    610
100833    610
100834    610
100835    610
Name: userId, Length: 100836, dtype: int64


---
## Exportar datos

Al igual que Pandas nos permite importar datos desde ficheros o bases de datos, también podremos exportar datos a ficheros o bases de datos.
Aquí presento un ejemplo de exportación de datos a un nuevo fichero:

In [10]:
# Igual que antes, tendremos que tener cuidado con la ruta (relativa desde el Notebook)
df.to_csv("exporta")

---
## Limpieza de datos

Además de todo lo anterior, Pandas nos incluye una serie de funcionalidades a la hora de limpiar dos datos con los que vamos a trabajar:

In [None]:
# Verificación de datos nulos uno a uno (False si no es nulo y True si lo es)
print("Datos nulos en el DataFrame:")
print(df.isnull())
print("Para saber cuántos valores nulos tenemos por columnas:")
print(df.isnull().sum())

# Eliminar filas con valores nulos
print("Para eliminar las filas con valores nulos:")
print(df.dropna())

# Eliminar columnas con datos nulos
print("Para eliminar las columnas con valores nulos:")
print(df.dropna(axis = 1))

# En caso de no querer eliminar podremos sustituir los valores nulos
print("Sustituir valores nulos por un valor concreto:")
print(df.fillna(df.mean()))


Datos nulos en el DataFrame:
           6      0    0.1    0.2    0.3  ...  0.586  0.587  0.588  0.589  0.590
0      False  False  False  False  False  ...  False  False  False  False  False
1      False  False  False  False  False  ...  False  False  False  False  False
2      False  False  False  False  False  ...  False  False  False  False  False
3      False  False  False  False  False  ...  False  False  False  False  False
4      False  False  False  False  False  ...  False  False  False  False  False
...      ...    ...    ...    ...    ...  ...    ...    ...    ...    ...    ...
19994  False  False  False  False  False  ...  False  False  False  False  False
19995  False  False  False  False  False  ...  False  False  False  False  False
19996  False  False  False  False  False  ...  False  False  False  False  False
19997  False  False  False  False  False  ...  False  False  False  False  False
19998  False  False  False  False  False  ...  False  False  False  False  False