# Pandas

* [Repositorio de Pandas](https://github.com/pandas-dev/pandas)
* [Documentación Oficial](https://pandas.pydata.org/)

***
## DataFrame (pd.DataFrame)

[Documentación de pd.DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas.DataFrame)

**Pandas DataFrame** es una **estructura de datos bidimensional y etiquetada**, diseñada para manejar y analizar datos tabulares en el entorno de programación Python. Su desarrollo se basa en la biblioteca NumPy y proporciona funcionalidades adicionales para facilitar la manipulación y análisis de datos.

#### Características Principales:

* **Bidimensionalidad**: Un DataFrame consiste en filas y columnas, organizando los datos en una tabla rectangular. Cada columna puede contener diferentes tipos de datos, permitiendo la representación de información heterogénea.

* **Etiquetado**: Tanto las filas como las columnas están etiquetadas, lo que facilita el acceso y la manipulación de datos. Los índices y nombres de columnas pueden ser personalizados para reflejar la naturaleza específica de los datos.

* **Integración con NumPy**: Se basa en la eficiente biblioteca NumPy, permitiendo operaciones vectorizadas y aprovechando las ventajas de la computación numérica en Python.

#### Ventajas de Pandas DataFrame:

* **Facilidad de Uso**: Proporciona una interfaz intuitiva y fácil de usar para realizar operaciones complejas en datos tabulares.

* **Manejo de Datos Faltantes**: Ofrece herramientas para manejar valores nulos o faltantes de manera eficiente, evitando la pérdida de información durante el análisis.

* **Operaciones de Series Temporales**: Incorpora funcionalidades avanzadas para el trabajo con datos de series temporales, facilitando el análisis de tendencias a lo largo del tiempo.

* **Entrada y Salida de Datos**: Permite la lectura y escritura de datos en varios formatos, como CSV, Excel, SQL, y más, favoreciendo la interoperabilidad con otras herramientas y sistemas.

* **Operaciones de Agrupación y Agregación**: Facilita la agrupación de datos basada en criterios específicos y la aplicación de funciones de agregación para resumir la información.

#### Funcionalidades Clave:

* **Indexación y Selección Eficiente**: Permite el acceso y manipulación de datos utilizando etiquetas de filas y columnas, así como índices booleanos.

* **Operaciones Estadísticas y Matemáticas**: Proporciona métodos integrados para realizar cálculos estadísticos, operaciones matemáticas y transformaciones en los datos.

* **Visualización Integrada**: Se integra con bibliotecas de visualización como Matplotlib y Seaborn, facilitando la creación de gráficos y visualizaciones de datos.

* **Manipulación de Datos Complejos**: Ofrece funcionalidades para la limpieza, filtración, combinación y transformación de datos complejos, lo que facilita la preparación de datos para el análisis.

**Agenda**

* Creación de pd.DataFrame
* Analogía/relación entre pd.DataFrame y pd.Series
* Características
* Operaciones vectoriales
* Operaciones matemáticas
* Operaciones estadísticas
* Operaciones lógicas
* Filtrado y slicing
* Interacción con NumPy
* Concatenar y Merges
* Relleno de valores faltantes
* Agrupación y operaciones agrupadas
* Leer y guardar pd.DataFrame desde csv, parquet y url.

***
### Crear un pd.DataFrame

Existen diversas formas de generar un pd.DataFrame a partir de las siguientes estructuras:
1. *dict*
1. *pd.Series* (o *list*)
1. *np.ndarray*

En todas las alternativas se debe usar el constructor de *Pandas*: ```pd.DataFrame(...)```

*Existen otras maneras adicionales de hacerlo, pero para el alcance de este curso las que se presentan anteriormente son suficientes.*

In [None]:
# importar la librería
import pandas as pd

In [None]:
# 1. dict

# definir un dict
d = {'columna_1': [0,1,2,3,4,5,6,7,8,9], 'columna_2': [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]}

# por convensión se lo llama "df"
df = pd.DataFrame(data = d)

# "display" permite ver el datafgrame (es otra alternativa)
display(df)

In [None]:
print('df es un pd.DataFrame:', type(df))

In [None]:
# 2. pd.Series o lists

serie_1 = pd.Series([i**2 for i in range(10)], name='valores_cuadrados')
serie_2 = pd.Series([i + 5 for i in range(10)], name= 'valores_mas_5')

# usar la función pd.concat (vista en el notebook anterior)
df = pd.concat([serie_1, serie_2],axis=1)

display(df.head())

In [None]:
lista_1 = [i**2 for i in range(10)]
lista_2 = [i + 5 for i in range(10)]

col_names = ['valores_cuadrados', 'valores_mas_5']

# usar la función pd.concat (vista en el notebook anterior)
df = pd.concat([serie_1, serie_2],axis=1)

# cambiar los nombres ya que las listas NO tienen nombres
df.columns = col_names

display(df.head())


In [None]:
# 3. np.ndarray

import numpy as np

# crea el array y camniar el shape a una sola columna
array_1d = np.array([range(0, 20, 2)]).reshape((-1,))

df = pd.DataFrame(array_1d, columns=['columna 1'])

display(df.head())


In [None]:
array_nd = np.random.random(size=(20, 3))

df = pd.DataFrame(array_nd, columns=[f'columna {i}' for i in range(array_nd.shape[1])])

display(df.head())

### Analogía/relación entre pd.DataFrame y pd.Series

Es importante resaltar que existe una clara relación entre ```pd.DataFrame``` y ```pd.Series```: un ```pd.DataFrame``` es **un conjunto de** ```pd.Series``` **concatenadas de forma horizontal**.

Mediante el uso de *slcing* (visto en el notebook previo y que posteriormente será ampliado en este notebook) se puede demostrar esta afirmación:


In [None]:
d = {'columna_1': [0,1,2,3,4,5,6,7,8,9], 'columna_2': [10,11,12,13,14,15,16,17,18,19]}

df = pd.DataFrame(data = d)

col_1 = df['columna_1']
col_2 = df['columna_2']

In [None]:
print(f'- df es un {type(df)}', f'col_1 es una {type(col_1)}', f'col_2 es una {type(col_2)}', sep='\n- ')

**Importante: Esto implica que la gran mayoría de las operaciones que funcionan en las pd.Series con aplicables a los pd.DataFrame!!!**

### Características de un pd.DataFrame

In [None]:
array_int = np.random.choice(a=[10, 20, 30, 40, 50], size=(40, 6))
df_int = pd.DataFrame(array_int, columns=[f'columna {i}' for i in range(array_int.shape[1])], dtype=int)

array_float = np.random.random(size=(50, 5))
df_float = pd.DataFrame(array_float, columns=[f'columna {i}' for i in range(array_float.shape[1])],dtype=float)

array_str = np.random.choice(a= ['a', 'b', 'c'], size=(35, 6))
df_str = pd.DataFrame(array_str, columns=[f'columna {i}' for i in range(array_str.shape[1])], dtype=str)

In [None]:
for n, df in enumerate([df_int, df_float, df_str]):
    print('El df #{} posee {} registros y {} columnas.\nSus datos son del tipo\n{}\n'.format(n+1, df.shape[0], df.shape[1], df.dtypes))

In [None]:
# es posible analizar si el df posee valores nulos y ver en qué columnas se encuentran

df_nans = pd.DataFrame(np.random.choice(a=[np.nan, 1, 2, 3 ,4, 5], size=(100, 5)), columns=[f'columna_{i}' for i in range(5)])


In [None]:
# con el método "isna()" se puede visualizar, mediante un dataframe de valores booleanos, si el valor de cierta posición es nulo
df_nans.isna().head()

In [None]:
# se pueden sumar dichas columnas de booleanos y obtener la cantidad de nulos en cada columna
df_nans.isna().sum()

In [None]:
# y volverlas a sumar para saber la cantidad total de nulos en el dataframe
df_nans.isna().sum().sum()

In [None]:
# se puede ver el nombre de las columnas
df_nans.columns.tolist()

In [None]:
# cantidad de elementos únicos en cada columna y cantidad de cada tipo de elemento
for col in df_str.columns:
    print('\n--', col)
    print(df_str[col].value_counts())

In [None]:
# para visualizar el df en forma parcial, se usa el método 'head' o 'tail'

display(df.head(5))
display(df.tail(2))

### Operaciones vectorizadas

La vectorización es un concepto clave en el ámbito de la ciencia de datos y la programación computacional que sirve como un elemento fundamental para el manejo eficiente de datos en bibliotecas como Pandas. La idea se refiere fundamentalmente a la capacidad de realizar operaciones en conjuntos completos de datos, en lugar de iterar a través de cada elemento de manera individual.

Este enfoque optimizado proporciona un rendimiento más eficiente al procesar grandes conjuntos de datos, ya que aprovecha las operaciones vectoriales implementadas en bibliotecas como NumPy y Pandas. En lugar de ejecutar operaciones en cada elemento de forma secuencial, la vectorización permite realizar cálculos en bloques de datos de manera simultánea, mejorando significativamente la velocidad de ejecución.

En el contexto de Pandas, la vectorización permite realizar operaciones aritméticas, de comparación y aplicar funciones universales (ufuncs) a nivel de DataFrame o Serie de manera eficiente. Esta capacidad es crucial para el análisis y la manipulación eficientes de grandes conjuntos de datos, ya que evita la necesidad de bucles explícitos y facilita la escritura de código más conciso y legible. En resumen, la vectorización es una herramienta esencial que contribuye a la eficiencia y capacidad de procesamiento en la manipulación de datos en entornos de ciencia de datos y programación computacional.

Ver:
* [What Is A Vectorized Operation In Pandas](https://vegibit.com/what-is-a-vectorized-operation-in-pandas/#the-concept-of-vectorization-a-general-overview)

In [None]:
import pandas as pd
import numpy as np
import time


In [None]:
data = np.random.randint(1, 100, size=100_000)
df = pd.DataFrame(data)

In [None]:
start_time = time.time()
df_loop = df.copy()

for row in range(df.shape[0]):
    df_loop.iloc[row] = df_loop.iloc[row]**2

print("Proceso por medio de un loop: ", time.time() - start_time, "segundos") # con 100_000 datos tarda aprox entre 23 y 30 segundos...

In [None]:
start_time = time.time()

df_vect = df.copy()
df_vect = df_vect**2

print("Proceso por medio de un loop: ", time.time() - start_time, "segundos") # con 100_000 datos tarda aprox 0.0009 segundos...

### el loop tardó unas 27.000 veces más que la opoeración vectorial!!!!!

In [None]:
pd.concat([df, df_loop, df_vect], axis = 1).sample(10) # se obtienen los mismos resultados en una mínima fracción de tiempo!