# PANDAS 

Pandas es un programa para análisis y manejo de datos.

In [1]:
#Importar librerías

import numpy as np
import pandas as pd

In [2]:
#Creación de objetos
s = pd.Series([1, 3, 5, np.nan, 6, 8])
#np.nan --- son valores nulos

#Presentar lo que contiene el objeto
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [3]:
#Creación de una estructura de fechas simple

fechas = pd.date_range("20220101", periods=6)

#Presenta la estructura de fechas
fechas



DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06'],
              dtype='datetime64[ns]', freq='D')

In [4]:
#Creación de un cuadro con fechas y valores aleatorios en las columnas A, B, C, y D
fechas2 = pd.DataFrame(np.random.randn(6, 4), index=fechas, columns=list("ABCD"))

#Presenta el cuadro resultante
fechas2


#Como ejercicio vuelva a ejecutar la celda y observe los resultados

Unnamed: 0,A,B,C,D
2022-01-01,-1.422679,-1.315275,0.29578,0.042066
2022-01-02,1.100917,-0.861588,0.605273,0.487554
2022-01-03,0.935788,-0.568866,-1.352506,-0.685861
2022-01-04,1.459295,1.516964,1.137631,-0.292293
2022-01-05,-1.42496,0.398243,1.217683,0.121757
2022-01-06,-1.358037,-1.812294,0.467139,-0.537333


In [5]:
#Creación de una estructura de datos pasando un objeto Dict (Diccionario) que puede convertirse en
#algo parecido a una serie.
fechas3 = pd.DataFrame(
        {
            "A": 1.0,
            "B": pd.Timestamp("20220102"),
            "C": pd.Series(1, index=list(range(4)), dtype="float32"),#float32 equivale a real de 32 bits
            "D": np.array([3] * 4, dtype="int32"),
            "E": pd.Categorical(["test", "train", "test", "train"]),
            "F": "foo",
        }
    )
 
        
fechas3

Unnamed: 0,A,B,C,D,E,F
0,1.0,2022-01-02,1.0,3,test,foo
1,1.0,2022-01-02,1.0,3,train,foo
2,1.0,2022-01-02,1.0,3,test,foo
3,1.0,2022-01-02,1.0,3,train,foo


In [6]:
# Las columnas de la estructura tienen diferentes tipos de datos

fechas3.dtypes

#a real 64 bits
#fecha de 64 bits
#c real de 32 vits
#entero de 32 bits
#categoria
#objeto

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

#REVISANDO DATOS

Aquí se muestra como ver las hileras superiores e inferiores de una estructura:

In [7]:
fechas2.head()

Unnamed: 0,A,B,C,D
2022-01-01,-1.422679,-1.315275,0.29578,0.042066
2022-01-02,1.100917,-0.861588,0.605273,0.487554
2022-01-03,0.935788,-0.568866,-1.352506,-0.685861
2022-01-04,1.459295,1.516964,1.137631,-0.292293
2022-01-05,-1.42496,0.398243,1.217683,0.121757


In [8]:
fechas2.tail(3)

Unnamed: 0,A,B,C,D
2022-01-04,1.459295,1.516964,1.137631,-0.292293
2022-01-05,-1.42496,0.398243,1.217683,0.121757
2022-01-06,-1.358037,-1.812294,0.467139,-0.537333


In [9]:
#Despliegue del índice, columnas:

fechas2.index

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06'],
              dtype='datetime64[ns]', freq='D')

In [10]:
fechas2.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [11]:
fechas2.dtypes

A    float64
B    float64
C    float64
D    float64
dtype: object

In [12]:
#DataFrame.to_numpy() provee de una representación NumPy de los datos. Observe que esto puede ser costoso cuando su
#Dataframe tiene columnas de diferentes tipos. Esto es fundamentalmente diferente entre pandas y NumPy:
#Las matrices en NumPy tienen un dtype para toda la matriz, mientras DataFrame de pandas tiene un dtype por columna.
#Cuando se llama DataFrame.to_numpy(), pandas encuentra el dtype que pueda contener todos los dtypes del DataFrame.
#Esto podría generar mas bien un objeto, el cual requiere presententar cada valor de un objeto de Python.En el ejemplo,
#los valores son del tipo floating-point, entonces la función para realizar la conversión se ejecuta rápidamente
# y no requiere copiar datos.

fechas2.to_numpy()


array([[-1.4226786 , -1.31527497,  0.29577952,  0.04206554],
       [ 1.10091721, -0.86158759,  0.60527253,  0.48755377],
       [ 0.93578786, -0.56886636, -1.35250626, -0.68586094],
       [ 1.45929525,  1.51696378,  1.13763109, -0.29229316],
       [-1.42495974,  0.39824327,  1.21768303,  0.12175655],
       [-1.35803739, -1.81229417,  0.46713911, -0.53733263]])

In [13]:
#La conversión de fechas3 que tiene múltiples dtypes con el comando DataFrame.to_numpy() es relativamente costoso.
fechas3.to_numpy()

#Nota: Observe que DataFrame.to_numpy() no incluye los índices o etiquetas de las columnas en la salida.

array([[1.0, Timestamp('2022-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2022-01-02 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2022-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2022-01-02 00:00:00'), 1.0, 3, 'train', 'foo']],
      dtype=object)

In [14]:
#Describe() muestra un resumen de las estadísticas de los datos
fechas2.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.118279,-0.440469,0.395167,-0.144018
std,1.416482,1.214578,0.93181,0.441457
min,-1.42496,-1.812294,-1.352506,-0.685861
25%,-1.406518,-1.201853,0.338619,-0.476073
50%,-0.211125,-0.715227,0.536206,-0.125114
75%,1.059635,0.156466,1.004541,0.101834
max,1.459295,1.516964,1.217683,0.487554


In [15]:
#Para transponer datos:
fechas2.T

Unnamed: 0,2022-01-01,2022-01-02,2022-01-03,2022-01-04,2022-01-05,2022-01-06
A,-1.422679,1.100917,0.935788,1.459295,-1.42496,-1.358037
B,-1.315275,-0.861588,-0.568866,1.516964,0.398243,-1.812294
C,0.29578,0.605273,-1.352506,1.137631,1.217683,0.467139
D,0.042066,0.487554,-0.685861,-0.292293,0.121757,-0.537333


In [16]:
#Ordenar en un eje
#axis=0, el primer valor de esa matriz bidimencional, tiene dos ejes, las hilesras es 0 si es columnas es 1
fechas2.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2022-01-01,0.042066,0.29578,-1.315275,-1.422679
2022-01-02,0.487554,0.605273,-0.861588,1.100917
2022-01-03,-0.685861,-1.352506,-0.568866,0.935788
2022-01-04,-0.292293,1.137631,1.516964,1.459295
2022-01-05,0.121757,1.217683,0.398243,-1.42496
2022-01-06,-0.537333,0.467139,-1.812294,-1.358037


In [17]:
#Ordenar por valores
fechas2.sort_values(by="B")

Unnamed: 0,A,B,C,D
2022-01-06,-1.358037,-1.812294,0.467139,-0.537333
2022-01-01,-1.422679,-1.315275,0.29578,0.042066
2022-01-02,1.100917,-0.861588,0.605273,0.487554
2022-01-03,0.935788,-0.568866,-1.352506,-0.685861
2022-01-05,-1.42496,0.398243,1.217683,0.121757
2022-01-04,1.459295,1.516964,1.137631,-0.292293


# OBTENER DATOS

In [18]:
# Para seleccionar solo una columna, que obtiene una serie, equivalente a fechas2.A:
fechas2["A"]

2022-01-01   -1.422679
2022-01-02    1.100917
2022-01-03    0.935788
2022-01-04    1.459295
2022-01-05   -1.424960
2022-01-06   -1.358037
Freq: D, Name: A, dtype: float64

In [22]:
# Seleccionar vía [], la cual selecciona por hilera.
fechas2[0:3]

Unnamed: 0,A,B,C,D
2022-01-01,-1.422679,-1.315275,0.29578,0.042066
2022-01-02,1.100917,-0.861588,0.605273,0.487554
2022-01-03,0.935788,-0.568866,-1.352506,-0.685861


In [20]:
fechas2["20220102":"20220104"]

Unnamed: 0,A,B,C,D
2022-01-02,1.100917,-0.861588,0.605273,0.487554
2022-01-03,0.935788,-0.568866,-1.352506,-0.685861
2022-01-04,1.459295,1.516964,1.137631,-0.292293


# SELECCION POR ETIQUETA


In [23]:
#Para obtener una selección de datos usando etiquetas:
fechas2.loc[fechas[0]]

A   -1.422679
B   -1.315275
C    0.295780
D    0.042066
Name: 2022-01-01 00:00:00, dtype: float64

In [24]:
#Selección multieje por etiqueta:
#cuando solo aparecen los puntos es para todos, sin usar rango
fechas2.loc[:,["A","B"]]

Unnamed: 0,A,B
2022-01-01,-1.422679,-1.315275
2022-01-02,1.100917,-0.861588
2022-01-03,0.935788,-0.568866
2022-01-04,1.459295,1.516964
2022-01-05,-1.42496,0.398243
2022-01-06,-1.358037,-1.812294


In [25]:
#Selecciona por etiqueta, en donde se incluyen ambos puntos terminales:
 
fechas2.loc["20220102":"20220104", ["A","B"]]


Unnamed: 0,A,B
2022-01-02,1.100917,-0.861588
2022-01-03,0.935788,-0.568866
2022-01-04,1.459295,1.516964


In [26]:
#Reducción en las dimensiones del objeto presentado:
fechas2.loc["20220102",["A","B"]]

A    1.100917
B   -0.861588
Name: 2022-01-02 00:00:00, dtype: float64

In [27]:
#Para obtener un valor escalar:
fechas2.loc[fechas[0],"A"]

-1.4226786039561061

In [28]:
#Para acceder a a un valor escalar (equivalente al método anterior):
fechas2.at[fechas[0],"A"]

-1.4226786039561061

# SELECCIÓN POR POSICIÓN


In [29]:
#Seleccionar vía la posición de los enteros anteriores:
fechas2.iloc[3]

A    1.459295
B    1.516964
C    1.137631
D   -0.292293
Name: 2022-01-04 00:00:00, dtype: float64

In [30]:
#Selección de enteros, de forma similar como en NumPY/Python:
fechas2.iloc[3:5,0:2]

Unnamed: 0,A,B
2022-01-04,1.459295,1.516964
2022-01-05,-1.42496,0.398243


# OTROS TEMAS:

- Manejo de datos perdidos
- Operaciones estadísticas
- Histogramas
- Unión de tablas de datos
- Agrupamientos
- Redimensionamiento de datos
- Series de tiempo
- Categorías
- Graficado
- Importación y exportación de datos
