# Intro Pandas (Panel Data)

**[Documentación](https://pandas.pydata.org/docs/reference/index.html#api)**

**[Código fuente](https://github.com/pandas-dev/pandas)**


![pandas](../../images/pandas.png)


Pandas es una librería de python especializada en el manejo y análisis de estructuras de datos.


Las principales características de esta librería son:

+ Define nuevas estructuras de datos basadas en los arrays de la librería NumPy pero con nuevas funcionalidades.
+ Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.
+ Permite acceder a los datos mediante índices o nombres para filas y columnas.
+ Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.
+ Permite trabajar con series temporales.
+ Realiza todas estas operaciones de manera muy eficiente.


**Tipos de datos de Pandas**
Pandas dispone de dos estructuras de datos diferentes:

+ Series: Estructura de una dimensión.
+ DataFrame: Estructura de dos dimensiones (tablas).

Estas estructuras se construyen a partir de arrays de la librería NumPy, añadiendo nuevas funcionalidades.

In [None]:
!pip install pandas

In [None]:
import pandas as pd
import numpy as np

In [None]:
import warnings
warnings.filterwarnings('ignore') # esto es para evitar que se imprimar los mensajes de aviso

### Serie

Son estructuras similares a los arrays de una dimensión. Son homogéneas, es decir, sus elementos tienen que ser del mismo tipo, y su tamaño es inmutable, es decir, no se puede cambiar, aunque si su contenido.

Dispone de un índice que asocia un nombre a cada elemento del la serie, a través de la cuál se accede al elemento.

In [None]:
lst = [(3.4 + i) ** 2 for i in range(10)]

lst

In [None]:
type(lst)

In [None]:
serie = pd.Series(lst)

serie

In [None]:
type(serie)

In [None]:
serie.head(2) # nos muestra los 5 primeros elementos de la serie

In [None]:
serie.tail(2) # nos muestra los últimos cinco elementos de la serie

In [None]:
serie.index

**Renombar indices de una serie**

In [None]:
serie.index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

serie

In [None]:
serie.index

In [None]:
#help(serie)

### DataFrame

Un objeto del tipo DataFrame define un conjunto de datos estructurado en forma de tabla donde cada columna es un objeto de tipo Series, es decir, todos los datos de una misma columna son del mismo tipo, y las filas son registros que pueden contender datos de distintos tipos.

Un DataFrame contiene dos índices, uno para las filas y otro para las columnas, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.

In [None]:
columnas = ['col1', 'col2', 'col3', 'col4', 'col5']

data = np.random.random((10,5))

data

In [None]:
df = pd.DataFrame(data, columns=columnas)

df.head()

**Para acceder a una columna en particular**

In [None]:
df['col2']

In [None]:
df.col2

In [None]:
type(df.col2)

In [None]:
type(df)

**Mostrar elementos de una columna de un dataframe**

In [None]:
df['col2']

In [None]:
df.col3

**Renombrar columnas de un dataframe**

Para renombrar columnas de un dataframe usaremos el método rename de pandas que recibe como argumento un diccionario en el que la clave será el nombre de la columna antigua y el valor el nombre de la nueva columna

In [None]:
df = df.rename(columns={'col2': 'columna_2'})

In [None]:
df.head()

Usando el parámetro inplace dentro del método rename estamos sobreescribiendo nuestro dataframe sin tener que igualarlo a una variable

In [None]:
df.rename(columns={'col3': 'columna_3'}, inplace=True)

In [None]:
df.head()

**Selección de varias columnas**

Para seleccionar varias columnas de un dataframe llamaremos a nuestro dataframe y usando [] le pasaremos una lista de las columnas que queremos seleccionar, se no generará un dataframe con esas columnas mostrándolas en el orden de la lista

In [None]:
df_filtrado = df[['columna_3', 'col1', 'col5']]

In [None]:
df_filtrado

**Añadir una columna nueva**

In [None]:
df['nueva_columna'] = 0 # añadimos una columna llena de ceros

In [None]:
df.head()

In [None]:
[i if i%2 else None for i in range(len(df))]

In [None]:
lst= []
for i in range(len(df)):
    if i%2:
        lst.append(i)
    else:
        lst.append(None)
lst

In [None]:
df['col_con_nulos'] = [i if i%2 else None for i in range(len(df))] # añadimos una columna con valores nulos

In [None]:
df

In [None]:
df.col_con_nulos[0]

In [None]:
type(df.col_con_nulos[0])

**Mostrar la info de nuestro dataframe**

In [None]:
df.info()

**Generar un dataframe vacio**

In [None]:
empty_df = pd.DataFrame()

In [None]:
empty_df

**Generar un dataframe a partir de una lista de listas**

In [None]:
lst_lst = [[655643, 'buenas', 35432],
          [354, 'como andas', 899],
          [3543, 'ooi']]

columnas = ['num', 'str', 'otro_num']

df_lst = pd.DataFrame(lst_lst, columns=columnas)

df_lst

**Generar un dataframe a partir de un diccionario**

In [None]:
dictio = {'casa':lst_lst[0],
         'oficina': lst_lst[1],
         'numero': lst_lst[2]+[0]}

df_dictio = pd.DataFrame(dictio)

df_dictio

### Operaciones con Dataframes

**Transponer**

In [None]:
df.transpose()

In [None]:
df.T

**Sumar**

In [None]:
df.sum()

**Máximo, mínimo, desviación standard, media, mediana, moda**

In [None]:
df.max()

In [None]:
df.min()

In [None]:
df.std()

In [None]:
df.mean()

In [None]:
df.median()

In [None]:
df['col1'].median()

In [None]:
np.ones((5,2,4))