# PANDAS

Para trabajar con bases de datos tabulares, por ejemplo en hojas de cálculo y bases de datos, pandas es la herramienta ideal, ayuda en la exploración, limpiado y procesamiento de los datos.

### Instalación
Para instalar pandas hacemos uso de pip, podemos revisar si ya esta instalado por medio de:
    
    pip show pandas
    
Lo que debería mostrar:
    
    Name: pandas
    Version: 1.1.2
    Summary: Powerful data structures for data analysis, time series, and statistics
    Home-page: https://pandas.pydata.org
    Author: None
    ...

En caso de no tenerlo instalado se usará:

    pip install pandas

In [None]:
import pandas as pd

### Estructuras de Datos
*Series*: Las series son un arreglo unidimensional capaz de almacenar cualquier tipo de datos, las etiquetas son mejor referidas como índice (index).

In [None]:
data = [1, 2, 3, 4, 5]
index = ["Uno", "Dos", "Tres", "Cuatro", "Cinco"]
s = pd.Series(data, index=None)
s

In [None]:
data = {"Uno": 1, "Dos": 2, "Tres": 3, "Cuatro": 4, "Cinco": 5}
s = pd.Series(data)
s

In [None]:
s * 2

*DataFrames*: Un Dataframe es una estructura bidimensional de datos etiquetados, con columnas de potencialmente diferentes tipos de datos. Una analogía funcional es pensar en un DataFrame como una hoja de cálculo.

In [None]:
d1 = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

d2 = {'one': [1., 2., 3., 4.],
     'two': ["J", "B", "A", "C"]}

l1 = [("a", 1, True), ("b", 2, False), ("c", 3, True)]
columns = ["String", "Number", "Boolean"]

df = pd.DataFrame(l1, columns=columns)
df

Un dataframe tambien permite realizar operaciones:

In [None]:
df * 2

In [None]:
df["Number"] = df["Number"] * 50
df

### Lectura de Datos

Se pueden obtener los datos de archivos separados por comas (csv) de dos maneras:

In [None]:
# Accediendo al archivo directamente
pd.read_csv("cities.csv")

In [None]:
# Accediendo a un URL del csv directamente
pd.read_csv("https://raw.githubusercontent.com/YoungOak/ALBION/master/covid19_v2.csv")

### Visualizando información de un DataFrame

In [None]:
df = pd.read_csv("cities.csv")
df.head()

In [None]:
df.tail(3)

In [None]:
df.columns

In [None]:
df.index

In [None]:
df.describe()

### Indexando y ordenando datos

Indexar nos permite acceder sólo a los datos del dataframe que nos importan.

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/YoungOak/ALBION/master/covid19_v2.csv")
df.head()

In [None]:
df.loc[0, ["fecha", "estado"]]

In [None]:
# Obtención de una sola columna

df1 = df["fecha"]
# Al pedir sólo una columna retorna un objeto tipo Serie
# type(df1) >> pandas.core.series.Series


# Obtención de múltiples columnas ordenadas
df2 = df[["fecha", "casos"]]
# Al usar una lista de strings para exrtaer columnas, el objeto
# que retorna es tipo DataFrame.
# type(df2) >> pandas.core.frame.DataFrame


# Por índices numéricos:
df3 = df[0:10]
# Retorna la seccion seleccionada en filas completas del DataFrame

Métodos de extracción

In [None]:
# loc ~ Locate : Puede usar las etiquetas para encontrar un dato.
dfA = df.loc[0, "casos"]
dfA

In [None]:
# iloc ~ integer Locate : Usa índices numéricos para encontrar datos.
dfB = df.iloc[0, 2]
dfB

Ordenando tus datos

In [None]:
df.head()

In [None]:
df.sort_values(by="casos", ascending=True)

#### Indexado condicional

In [None]:
df[ df["estado"] != "Nacional" ].tail(3)

In [None]:
df["estado"] != "Nacional"

In [None]:
DF_estados = df[ df["estado"] != "Nacional" ]
DF_estados.sort_values(by="casos", ascending=False)

In [None]:
# El dataframe ahora está ordenado con lo que se hizo en la última cleda?
DF_estados

NO!

In [None]:
# Esto sucede porque la operación regresa un nuevo DataFrame
# Para guardar el dataframe ordenado podemos reescribir el dataframe

In [None]:
DF_estados = DF_estados.sort_values(by="casos", ascending=False)
DF_estados.head()

#### Otras formas de indexar con múltiples condiciones:

In [None]:
DF_estados[ (DF_estados["estado"] == "ZACATECAS") &
            (DF_estados["casos"] > 1) ].head(5)

In [None]:
DF_estados.head()

In [None]:
DF_estados = DF_estados.reset_index().head()
DF_estados

### Manejo de Fechas

Veamos cómo manipular la columna de fechas que tenemos

In [None]:
DF_estados[0:2]

In [None]:
print(
    DF_estados.loc[0, "fecha"],
    type(DF_estados.loc[0, "fecha"]),
    sep="\n")

Como se puede ver, el tipo de dato de las fechas es un arreglo de caracteres, o bien un string. Tener de esta forma los datos no le permite a pandas compararlos entre sí para determinar cual va primero y cual va después.

In [None]:
DF_estados["fecha"]

con el método: to_datetime vamos a transformar estos datos a algo que el sistema pueda reconocer:

In [None]:
pd.to_datetime(DF_estados["fecha"], format="%Y-%m-%d")

In [None]:
pd.to_datetime(DF_estados["fecha"])[668].day

In [None]:
DF_estados["fecha"] = pd.to_datetime(DF_estados["fecha"], format="%Y-%m-%d")
print(
    DF_estados.loc[0, "fecha"],
    type(DF_estados.loc[0, "fecha"]),
    sep="\n")