# Módulo pandas

Este módulo fue hecho para manipular grandes cantidades de datos con ayuda de métodos estadisticos.

https://pandas.pydata.org/docs/user_guide/10min.html

In [None]:
import numpy as np
import pandas as pd

## Series y Dataframes

In [None]:
# Se parece a una lista
# Se parece a un array -> pd.Series([1, 2, 4, np.nan, 6, 8]) => np.array([1, 2, 4, np.nan, 6, 8])
s = pd.Series([1, 2, 4, np.nan, 6, 8])
print(s)
# s['llave'] / s[0]
# print()
# print(np.array([1, 2, 4, np.nan, 6, 8]))

In [None]:
# YYYYmmdd ; yyyy-mm-dd ; YYYY-MM-DD
dates = pd.date_range("20130101", periods=6)
print(dates)

In [None]:
# list("ABCD") = ["A", "B", "C", "D"]
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD")) 
print(df)

In [None]:
df2 = pd.DataFrame({
    "A": 1.0,
    "B": pd.Timestamp("20130102"),
    "C": pd.Series(1, index=list(range(4)), dtype="float32"),
    "D": np.array([3] * 4, dtype="int32"),
    "E": pd.Categorical(["test", "train", "test", "train"]),
    "F": "foo"
})
print(df2)

In [None]:
print(df2.dtypes)

## Visualización de los datos (pandas)

### Ver los primeros datos

In [None]:
#print(df.head())    # Devuelve los primeros 5 datos
print(df.head(20))

### Ver los últimos datos

In [None]:
print(df.tail(20))

### Información extra del dataframe

In [None]:
# Los indices
print(df.index)

# Las columnas
print(df.columns)

### Descripción de un dataframe

Es un pequeño resumen de los datos que se tienen en el dataframe

In [None]:
print(df.describe())

### Ordenar datos

In [None]:
df.sort_index(axis=1, ascending=False)

In [None]:
df.sort_values(by="B")

## Selección de los datos

In [None]:
# Seleccionar una columna
df["A"]

In [None]:
# Seleccionar una o varias filas
df[0:3]     # Selección por posición (indice) de la fila

In [None]:
df["20130102":"20130104"]   # Seleccion por valor de la fila

La sentencia "loc" se usa para acceder a varias filas pero basado en el nombre del indice

In [None]:
df.loc[dates[0]]

In [None]:
# Seleccioinamos todas las filas pero ciertas columnas
df.loc[:, ["A", "C"]]

In [None]:
df.loc["20130102":"20130104", ["A", "C"]]

In [None]:
print(df.loc[dates[0], "A"])
print(df.at[dates[0], "A"])

Puedo usar "iloc" para acceder a varios pero en lugar de usar los nombres de las filas y columnas usamos los indices

In [None]:
df.iloc[3]

In [None]:
df.iloc[3:5, 0:2]

In [None]:
df.iloc[[1,3,4], [0, 3]]

In [None]:
print(df.iloc[1,1])
print(df.iat[1,1])

#### Acceder a valores con condiciones

In [None]:
df

In [None]:
df[df["A"] > 0]

In [None]:
# NaN = Not a Number
df[df > 0]

In [None]:
# Filtro

df2 = df.copy()
df2["E"] = ["uno", "uno", "dos", "tres", "cuatro", "tres"]
print(df2)

df2[df2["E"].isin(["uno", "tres"])]